Dia
UltraDialogualno usmerjena TTS z kloniranjem glasu in neverbalnimi zvoki
O projektu Dia
Dia by Nari Labs je 1,6B parameter dialoga osredotočen na besedilno-na-špikalni model. Izjemno je izjemno pri ustvarjanju naravnega pogovornega govora s podporo neverbalnih zvokov kot smeh, vzdih in kašelj. Dia podpira večzvočni dialog in kloniranje glasu od 5 do 10 sekund referenčnega zvoka, kar je idealno za ustvarjanje realnih pogovorov in znakov glasov.
Ključne lastnosti
Ustvarjanje dialoga
Ustvarite naravne večzvočnike z različnimi glasovi in preobratovanjem.
Neverbalni zvoki
Dodaj [smeh], [vzdihi], [kašlja], (bori) za naravni paralingvistični izraz.
Kloniranje glasu
Kloniraj glas iz 5-10 sekund referenčnega zvoka za osebni govor.
Naravni pogovor
1.6B parametri ustvarjajo zelo naravno pogovorno prozo in intonacijo.
Uporabne primere
Kako uporabljati Dia
-
1
Prijavite se brezplačno ali odprite demo
Ustvarite brezplačno TextToSpeechAI račun, da zahtevate svoje starter kredite, ali odprete brez podpisa demo, da poskusite Dia dialog takoj.
-
2
Izberite Dia motor
V TTS plošči izberite Dia iz seznama motorjev. Dia je dialog usmerjen, ultrazvočni model z večzvočnikom in glasovno kloniranje podporo.
-
3
Zapiši pogovorni skript z oznakami
Sestavite pogovor z uporabo [S1] in [S2] za označevanje vsak zvočnik obrača, in padec v neverbalnih oznakah, kot so [smeh], [vzdihi], [kašelj] ali (gasps) kjer želite naravne reakcije.
-
4
Ustvari zvok
Kliknite, da pošljete svoj dia skript na naše gostiteljsko GPUs. Dia prevaja dvozvočni dialog z obračanjem in vaše neverbalne oznake v eno zvočno datoteko.
-
5
Prenesi ali pokliči API
Prenesi končno okno v izbrani obliki ali ga avtomatiziraj tako, da napišeš isti [S1]/[S2] skript TextToSpeechAI API z žetonom vašega računa.
Dia API
Ustvarite govor programsko z uporabo TextToSpeechAI REST API.
curl -X POST "https://api.texttospeechai.com/v1/generate/" \
-H "Authorization: Bearer YOUR_API_TOKEN" \
-H "Content-Type: application/json" \
-d '{
"text": "Kako si danes?",
"voice": "en_US-lessac-medium"
}'
Pogosta vprašanja
Technical Specs
- Generation Speed Medium
- Output Quality Excellent
- Voice Cloning Supported
- Languages 1
- GPU VRAM 10GB
- Credits/1000 chars 50