Dia

Ultra

Dialogorienterede TTS med stemmekloning og nonverbale lyde

Medium Hastighed
Excellent Kvalitet
Ja Kloning
1 Sprog

Om Dia

Dia by Nari Labs er en 1.6B parameter dialog-fokuseret tekst-til-tale model. Det udmærker sig ved at generere naturlig samtaletale med støtte til nonverbale lyde som latter, sukker og hoste. Dia understøtter multi-højtaler dialog generation og stemme kloning fra 5-10 sekunders reference audio, hvilket gør den ideel til at skabe realistiske samtaler og karakter stemmer.

Nøglefunktioner

Dialogskabelse

Generer naturlige multi-højttaler samtaler med forskellige stemmer og turn-taking.

Ikke-verbale lyde

Tilføj [griner], [suk], [hoste], (gisp) for naturlige parallingvistisk udtryk.

Stemmekløvning

Klon enhver stemme fra 5-10 sekunders reference audio til personlig tale.

Naturlig samtale

1.6B parametre producere meget naturlig samtaleform og intonation.

Brugstilfælde

Generation af dialog og samtale Produktion af lydbøger med flere tegn Spiltegnstemmer Oprettelse af podcast og indhold

Hvordan man bruger Dia

  1. 1

    Tilmeld dig gratis eller åbn demoen

    Opret en gratis TextToSpeechAI konto til at gøre krav på dine startkreditter, eller åbne no-signup demo for at prøve Dia dialog med det samme.

  2. 2

    Vælg Dia- motoren

    I TTS dashboard vælge Dia fra motorlisten. Dia er den dialogorienterede, ultra-tier model med multi-højttaler og voice-cloning support.

  3. 3

    Skriv et dialogscript med tags

    Komponere din samtale ved hjælp af [S1] og [S2] at markere hver taler dreje, og falde i nonverbale tags såsom [griner], [suk], [hoste], eller (gisp), hvor du ønsker naturlige reaktioner.

  4. 4

    Generér lyden

    Klik på generere for at sende dit Dia script til vores hosted GPU'er. Dia gør to-højttaler dialog med turn-taking og dine nonverbal tags til en enkelt lydfil.

  5. 5

    Download eller ring til API'en

    Download den færdige dialog i dit valgte format, eller automatiser den ved at sende det samme [S1] / [S2] script til TextToSpeechAI API med din konto token.

Dia API

Generer tale programmatisk ved hjælp af TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hvordan har du det i dag?",
    "voice": "en_US-lessac-medium"
  }'

Ofte stillede spørgsmål

Dia er en 1.6B parameter dialog-orienteret tekst-til-tale model fra Nari Labs. Det har specialiseret sig i at generere naturlig samtaletale med støtte til flere højttalere, nonverbale lyde og stemmekloning.

Ja, Dia er fuldt Apache 2.0 licenseret - både kode og model vægte. Det kan bruges frit i kommercielle applikationer.

I øjeblikket Dia understøtter kun engelsk. Modellen er optimeret til naturlig engelsk samtaletale.

Dia kræver ca. 10 GB VRAM for sin 1.6B parameter model. En GPU med mindst 12 GB anbefales til komfortabel drift. På TextToSpeechAI alt dette kører på vores hosted GPU'er, så du behøver ikke nogen hardware af din egen.

Ja - dialog er præcis, hvad Dia er bygget til. Ved at skifte [S1] og [S2] vender i dit manuskript, Dia TTS producerer en flydende to-højttaler samtale med forskellige stemmer og realistisk tur-taking, som er sværere at opnå med single-højttaler TTS modeller.

Præfiks hver linje af dit script med [S1] eller [S2] at markere, hvem der taler. Dia tildeler en konsekvent stemme til hvert tag og skifter mellem dem som samtalen bevæger sig, så [S1] og [S2] fungere som de to tegn i din dialog.

Ja. Dia understøtter stemmekloning fra omkring 5-10 sekunders ren reference audio, så du kan genbruge en bestemt stemme til en højttaler. Du kan kombinere kloning med [S1] / [S2] tags, så hver karakter i en dialog lyder som den stemme, du klonede.

Dia gør [griner], [suk], [hoste], og (gisp) som naturlige paralsprog lyde vævet ind i talen snarere end talte ord. Placer et mærke, hvor du ønsker reaktionen - for eksempel "[S1] Det er sjovt [griner]" - at gøre dialogen føles mere menneskelig.

Både Dia og Bark understøtter udtryksfulde nonverbale lyde, men Dia er målrettet bygget til multi-højttaler dialog med [S1] / [S2] tur-taking og stemme kloning. Vælg Dia for realistiske to-personers samtaler og karakter arbejde; Bark er en bedre pasform, når du har brug for bredere sprogdækning i enkelt-stemme fortælling.

Dia er en ultra-tier motor, så det koster 50 kreditter pr 1.000 tegn i genereret tale. Ultra tier afspejler den større 1.6B model og ~ 10GB GPU hukommelse, den bruger til høj kvalitet dialog.

Ja. Nye TextToSpeechAI konti omfatter gratis startkreditter, og der er en demo, du kan køre uden at tilmelde dig. Det er nok til at generere en kort Dia dialog med [S1] / [S2] tags, før du beslutter dig for en betalt plan.

Ja. Når du har en API token fra din konto side kan du indsende Dia dialog scripts - herunder [S1] / [S2] vender og tags som [griner] - til TextToSpeechAI REST API og downloade den resulterende lyd programmatisk.

Technical Specs

  • Generation Speed Medium
  • Output Quality Excellent
  • Voice Cloning Supported
  • Languages 1
  • GPU VRAM 10GB
  • Credits/1000 chars 50

Try Dia Now

Generate your first audio free. No credit card required.

Start Free