Dia

Ultra

Dialogorientert TTS med stemmekloning og ikke-verbale lyder

Medium Hastighet
Excellent Kvalitet
Ja Kloning
1 Språk

Om Dia

Dia av Nari Labs er en dialog med 1, 6B parametre, tekst til tale- modell med fokus på tekst. Den utmerker seg til å lage naturlig samtaletale med støtte for ikke- verbale lyder som latter, sukk og hoster. Dia støtter dialoggenerering med flere høyttalere og stemmekloning fra 5-10 sekunders referanselyd, noe som gjør det ideelt å lage realistiske samtaler og tegnstemmer.

Nøkkelfunksjoner

Lag dialog

Generer naturlige flertalersamtaler med tydelige stemmer og snu-taking.

Ikke- verbale lyder

Legg til [latter], [sukker], [hotes], (gisp) for naturlig paralinguistisk uttrykk.

Stemmekloning

Klone stemme fra 5-10 sekunder referanselyd for personlig tale.

Naturlig samtale

1.6B-parametrer gir svært naturlige konversasjonsprosodi og intonasjon.

Brukstilfeller

Dialog og samtalegenerering Lydbokproduksjon med flere tegn Spilltegn stemmer Podkast og innholdsopprettelse

Bruksmåte Dia

  1. 1

    Registrer deg gratis eller åpne demoen

    Lag en ledig TextToSpeechAI konto for å kreve startkreditter, eller åpne demonen uten å signere for å forsøke Dia med en gang.

  2. 2

    Velg Dia- motor

    I TTS- instrumentbordet velg Dia fra motorlista. Dia er dialogmodellen med ultranivåstøtte med flere høyttalere og stemmekloning.

  3. 3

    Skriv et dialogskript med etiketter

    Skriv din samtale med [S1] og [S2] for å markere hver høyttaler snu, og fall i ikke-verbale tagger som [latter], [sukker], [hoste], eller (gisp) der du ønsker naturlige reaksjoner.

  4. 4

    Lag lyd

    Trykk på « Generer » for å sende ditt Dia- skript til våre GPU- er med vert. Dia tegner opp to- høyttaler- dialogen med tur- taing og dine ikke- verbale tagger til en enkelt lydfil.

  5. 5

    Last ned eller ring API

    Last ned det ferdige dialogvinduet i det formatet du har valgt, eller automatiser det ved å sende det samme [S1]/[S2] - skriptet til TextToSpeechAI API med kontosymbolet ditt.

Dia API

Generer taleprogrammatisk ved å bruke TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hei der!",
    "voice": "en_US-lessac-medium"
  }'

Ofte stilte spørsmål

Dia er en dialog- basert tekst- til- tale- modell for parametere, 1. 6B fra Nari Labs. Det spesialiserer seg på å lage naturlig samtaletale med støtte for flere høyttalere, ikke- verbale lyder og stemmekloning.

Ja, Dia har fått lisens fra fullt ut Apache 2. 0 – både kode - og modellvekter. Den kan brukes fritt i kommersielle anvendelser.

Dia støtter for tiden bare engelsk. Modellen er optimalisert for naturlig engelsk samtaletale.

Dia trenger omtrent 10 GB VRAM for sin 1. 6B parametermodell. En GPU med minst 12 GB anbefales for komfortabel drift. På TextToSpeechAI kjører alt dette på våre GPU- er, så du trenger ikke noe eget maskinvare.

Ja – dialog er akkurat det Dia er bygget for. Ved å veksle [S1] og [S2] snur du skriptet ditt, vil Dia TTS føre en flytende to- høyttalersamtale med tydelige stemmer og realistisk snu- ta, noe som er vanskelig å oppnå med en- høyttaler TTS- modeller.

Prefiks hver linje i skriptet med [S1] eller [S2] for å markere hvem som snakker. Dia tildeler hver tagg en konsekvent stemme og bytter mellom dem når samtalen beveger seg, så [S1] og [S2] fungerer som de to tegnene i dialogen.

Ja. Dia støtter stemmekloning fra omtrent 5-10 sekunder ren referanselyd, så du kan bruke en bestemt stemme på nytt for en høyttaler. Du kan kombinere kloning med [S1]/[ S2] - taggene slik at hvert tegn i et dialogvindu høres ut som stemmen du klonede.

Dia gjengir [skrater], [hoser], og (gisper) som naturlige paralinguistiske lyder vevd inn i tale i stedet for talte ord. Plasser et merke der du vil ha reaksjonen - for eksempel "[S1] Det er morsomt [skratt]" - for å få dialogen til å føle seg mer menneskelig.

Både Dia og Bark støtter uttrykksfulle ikke- verbale lyder, men Dia er laget for dialog med flere høyttalere med [S1]/[S2] snu- ta og stemmekloning. Velg Dia for realistisk to- person- samtaler og tegnarbeid. Bark passer bedre når du trenger et bredere språk i tale- fortelling.

Dia er en ultranivåmotor, så det koster 50 kreditter per 1000 tegn i generert tale. ultranivå gjenspeiler den største 1, 6B- modellen og ~10GB av GPU- minnet som brukes til dialog med høy kvalitet.

Ja. Nye TextToSpeechAI kontoer inneholder gratis startpoeng, og det er en demo du kan kjøre uten å melde deg inn. Det er nok til å lage en kort Dia- dialog med [S1]/[S2] - tagger før du bestemmer deg for en lønnet plan.

Ja. Når du har et API- symbol fra kontosiden din kan du sende inn Dia- dialogskripter – deriblant [S1]/[S2] snurrer og merker som [skrater] – til TextToSpeechAI REST- API og laste ned det lydprogrammet som blir resultatet.

Technical Specs

  • Generation Speed Medium
  • Output Quality Excellent
  • Voice Cloning Supported
  • Languages 1
  • GPU VRAM 10GB
  • Credits/1000 chars 50

Try Dia Now

Generate your first audio free. No credit card required.

Start Free