Dia

Ultra

TTS orientat la dialog cu clonarea vocală și sunete nonverbale

Medium Viteza
Excellent Calitate
Da. Clonarea
1 Limbi

Despre Dia

Dia by Nari Labs este un model de dialog de 1,6B cu text-la-speech. Excele la generarea de discurs de conversație naturală cu sprijin pentru sunetele nonverbale, precum râsete, sufocuri și tuse. Dia sprijină generarea de dialog multi-speaker și clonarea vocală de la 5-10 secunde de audio de referință, făcând-o ideal pentru crearea de conversații realiste și voci de caracter.

Caracteristici cheie

Generație dialog

Generati conversatii multi-parlanti naturale cu voci distincte si turn-apping.

Sunete neverbale

Adaugă [rade], [oftează], [tuse], (guse) pentru expresia paralinguist natural.

Clonarea vocii

Clonează orice voce de la 5-10 secunde de audio de referință pentru discurs personalizat.

Conversație naturală

Parametrii 1.6B produc prostodie conversativă și intonare extrem de naturală.

Cazuri de utilizare

Generarea dialogului și conversație Producția audiobook cu mai multe caractere Voci de personaje de joc Crearea de podcast și conținut

Cum să utilizaţi Dia

  1. 1

    Inregistrează-te gratuit sau deschide demo

    Creați un cont gratuit de TextToSpeechAI pentru a solicita creditele de pornire, sau deschideți demo fără semnup pentru a încerca Dia dialog imediat.

  2. 2

    Selectează motorul Dia

    În bordul TTS alege Dia din lista motorului. Dia este modelul orientat la dialog, ultra-tier cu suport multi-speaker și de blocare vocală.

  3. 3

    Scrie un script de dialog cu etichete

    Compune conversaţia folosind [S1] şi [S2] pentru a marca fiecare vorbitor se întoarce, şi scădea în etichete nonverbale cum ar fi [rade], [oftează], [tuse], sau (gazboi) unde doriţi reacţii naturale.

  4. 4

    Generați audio

    Faceţi clic pe generarea pentru a trimite scriptul Dia la GPUs nostru găzduit. Dia face dialogul cu două vorbitoare cu schimb de opţiuni şi tagurile dvs. nonverbale într-un singur fișier audio.

  5. 5

    Descărcați sau sunați API

    Descărcați dialogul terminat în formatul ales, sau automatizați-l prin postarea aceluiasi script [S1]/[S2] pe API TextToSpeechAI cu token cont.

Dia API

Generați discursul programmatic folosind API TextToSpeechAI REST.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Bună ziua, ce mai faci azi?",
    "voice": "en_US-lessac-medium"
  }'

Întrebări frecvente

Dia este un model de text-to-speech orientat la parametri 1.6B din Nari Labs. Este specializat în generarea de discursuri de conversație naturală cu suport pentru mai multe vorbitori, sunete non-verbale și clonare vocală.

Da, Dia este complet licențiat Apache 2.0 - atât cod și greutate model. Acesta poate fi utilizat liber în aplicații comerciale.

În prezent Dia suportă doar engleza. Modelul este optimizat pentru discursul englez natural conversațional.

Dia necesită aproximativ 10 GB de VRAM pentru modelul său de parametri 1.6B. O GPU cu cel puțin 12 GB este recomandat pentru funcționarea confortabilă. Pe TextToSpeechAI toate acestea se execută pe GPU gazdă noastră, astfel încât nu aveți nevoie de nici un hardware al dvs.

Da - dialogul este exact pentru ce Dia este construit. Prin alternarea [S1] și [S2] întoarce în scenariul dvs., Dia TTS produce o conversație cu două speaker care flucționează cu voci distincte și cu un turn-apping realist, ceea ce este mai greu de realizat cu modele TTS de un singur speaker.

Prefixează fiecare linie a scriptului cu [S1] sau [S2] pentru a marca cine vorbește. Dia atribuie o voce consecventă fiecărui etichetă și schimbă între ele în timp ce conversația se mișcă, astfel [S1] și [S2] acționează ca cele două caractere din dialogul tău.

Da. Dia suportă clonarea vocală de la aproximativ 5-10 secunde de audio de referință curată, permițându-vă reutilizarea unei voci specifice pentru un speaker. Puteți combina clonarea cu tag-urile [S1]/[S2] astfel încât fiecare caracter într-un dialog sună ca vocea clonată.

Dia face [rade], [oftează], [tuse], și (guse) ca sunete paralinguiste naturale țesut în discursul în loc de cuvinte. Pune o etichetă în cazul în care doriți reacția - de exemplu "[S1] Asta este hilar [rade]" - pentru a face dialogul se simte mai uman.

Dia şi Bark suportă sunete nonverbale expresive, dar Dia este construită cu scop pentru dialogul multi-speaker cu [S1]/[S2] turn-taping și clonarea vocală. Alege Dia pentru conversații realiste cu două persoane și de lucru de caracter; Bark este un set mai bun atunci când aveți nevoie de acoperire limbii mai largi în narrare unic-voce.

Dia este un motor ultra-tier, deci costă 50 de credite pe 1000 de caractere ale discursului generat. Nivelul ultra reflectă modelul 1.6B mai mare și memoria GPU ~10GB pe care o folosește pentru dialogul de înaltă calitate.

Da. Conturile noi TextToSpeechAI includ credite de pornire gratuite, și există o demo pe care le puteți rula fără a vă înscrie. Aceasta este suficient pentru a genera un scurt dialog Dia cu [S1]/[S2] etichete înainte de a decide pe un plan plătit.

Da. Odată ce aveţi un token API din pagina contului, puteţi trimite scripturi de dialog Dia - inclusiv [S1] / [S2] turnuri şi tag-uri cum ar fi [rade] - la API TextToSpeechAI REST şi descărcaţi programul audio rezultat.

Technical Specs

  • Generation Speed Medium
  • Output Quality Excellent
  • Voice Cloning Supported
  • Languages 1
  • GPU VRAM 10GB
  • Credits/1000 chars 50

Try Dia Now

Generate your first audio free. No credit card required.

Start Free