Dia

Ultra

Dialogualno usmerjena TTS z kloniranjem glasu in neverbalnimi zvoki

Medium Hitrost
Excellent Kakovost
-Da. Kloniranje
1 Jeziki

O projektu Dia

Dia by Nari Labs je 1,6B parameter dialoga osredotočen na besedilno-na-špikalni model. Izjemno je izjemno pri ustvarjanju naravnega pogovornega govora s podporo neverbalnih zvokov kot smeh, vzdih in kašelj. Dia podpira večzvočni dialog in kloniranje glasu od 5 do 10 sekund referenčnega zvoka, kar je idealno za ustvarjanje realnih pogovorov in znakov glasov.

Ključne lastnosti

Ustvarjanje dialoga

Ustvarite naravne večzvočnike z različnimi glasovi in preobratovanjem.

Neverbalni zvoki

Dodaj [smeh], [vzdihi], [kašlja], (bori) za naravni paralingvistični izraz.

Kloniranje glasu

Kloniraj glas iz 5-10 sekund referenčnega zvoka za osebni govor.

Naravni pogovor

1.6B parametri ustvarjajo zelo naravno pogovorno prozo in intonacijo.

Uporabne primere

Pogovorna in pogovorna generacija Proizvodnja zvočnih knjig z več znakov Znakovni glasovi igre Ustvarjanje podcasta in vsebine

Kako uporabljati Dia

  1. 1

    Prijavite se brezplačno ali odprite demo

    Ustvarite brezplačno TextToSpeechAI račun, da zahtevate svoje starter kredite, ali odprete brez podpisa demo, da poskusite Dia dialog takoj.

  2. 2

    Izberite Dia motor

    V TTS plošči izberite Dia iz seznama motorjev. Dia je dialog usmerjen, ultrazvočni model z večzvočnikom in glasovno kloniranje podporo.

  3. 3

    Zapiši pogovorni skript z oznakami

    Sestavite pogovor z uporabo [S1] in [S2] za označevanje vsak zvočnik obrača, in padec v neverbalnih oznakah, kot so [smeh], [vzdihi], [kašelj] ali (gasps) kjer želite naravne reakcije.

  4. 4

    Ustvari zvok

    Kliknite, da pošljete svoj dia skript na naše gostiteljsko GPUs. Dia prevaja dvozvočni dialog z obračanjem in vaše neverbalne oznake v eno zvočno datoteko.

  5. 5

    Prenesi ali pokliči API

    Prenesi končno okno v izbrani obliki ali ga avtomatiziraj tako, da napišeš isti [S1]/[S2] skript TextToSpeechAI API z žetonom vašega računa.

Dia API

Ustvarite govor programsko z uporabo TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Kako si danes?",
    "voice": "en_US-lessac-medium"
  }'

Pogosta vprašanja

Dia je 1.6B parameter, osredotočen na dialog z besedilnim vtiskom iz Nari Labs. Specializira se za ustvarjanje naravnega pogovornega govora s podporo več govornikov, neverbalnih zvokov in kloniranja glasu.

Da, Dia je popolnoma Apače 2.0 licencirana - tako koda kot model teže. Lahko se uporablja prosto v komercialnih aplikacijah.

Trenutno Dia podpira samo angleško. Model je optimiziran za naravni angleški pogovor govor.

Dia zahteva približno 10GB VRAM za svoj model parametrov 1.6B. GPU z vsaj 12GB je priporočljiv za udobno delovanje. Na TextToSpeechAI vse to teče na naših gostiteljskih GPU, zato ne potrebujete nobene lastne strojne opreme.

Da - dialog je točno tisto, za kar je zgrajena Dia. S preklopi [S1] in [S2] v svojem scenariju, Dia TTS ustvarja tekoč dvogovornik pogovor z različnimi glasovi in realistično obračanje, ki je težje doseči z enogovornikom TTS modelov.

Vsaka vrstica vašega skripta je predstavljena z [S1] ali [S2], da označi, kdo govori. Dia dodeli dosleden glas vsaki oznaki in stikala med njimi, ko se pogovor premika, tako da [S1] in [S2] delujeta kot dva znaka v vašem pogovornem oknu.

Dia podpira kloniranje glasu iz približno 5-10 sekund čistega referenčnega zvoka, ki vam omogoča ponovno uporabo določenega glasu za govornika. Lahko kombinirate kloniranje z [S1] / [S2] oznakami, tako da vsak znak v pogovoru zveni kot glas, ki ste ga klonirali.

Dia [smeh], [vzdihi], [kašlja] in (vzdiha) kot naravni paralinguistični zvoki vtaknjeni v govor, namesto govorne besede. Postavite oznako, kjer želite reakcijo - na primer "[S1] To je smešno [smeh]" - da bi dialog počutil bolj človeško.

Dia in Bark podpirata izrazite neverbalne zvoke, vendar je Dia zgrajena za več zvočnikov dialog z [S1] / [S2] prevzemanje in kloniranje glasu. Izberite Dia za realne dvoosebne pogovore in lične delo; Bark je bolj primeren, ko potrebujete širše jezikovno pokritost v enoglasnem pripovedovanju.

Dia je ultravijasti motor, tako da stane 50 kreditov na 1.000 znakov ustvarjenega govora. Ultra stopnja odraža večji 1,6B model in ~10GB GPU pomnilnik, ki ga uporablja za kakovostni dialog.

Da. Novi TextToSpeechAI računov vključuje brezplačne zagonske kredite, in obstaja demo lahko teče brez prijave. To je dovolj za ustvarjanje kratke Dia dialog z [S1] / [S2], preden se odločite o plačanem načrtu.

Da. Ko enkrat imate API žeton s strani računa lahko predložite Dia dialog skripte - vključno z [S1] / [S2] obrača in oznake kot [smeh] - na TextToSpeechAI REST API in prenesete rezultat zvočno programsko.

Technical Specs

  • Generation Speed Medium
  • Output Quality Excellent
  • Voice Cloning Supported
  • Languages 1
  • GPU VRAM 10GB
  • Credits/1000 chars 50

Try Dia Now

Generate your first audio free. No credit card required.

Start Free