Dia

Ultra

Dialogualno usmerjena TTS z kloniranjem glasu in neverbalnimi zvoki

Poskusite svobodno Dia Brskanje glasov (0)

Medium Hitrost

Excellent Kakovost

-Da. Kloniranje

1 Jeziki

O projektu Dia

Dia by Nari Labs je 1,6B parameter dialoga osredotočen na besedilno-na-špikalni model. Izjemno je izjemno pri ustvarjanju naravnega pogovornega govora s podporo neverbalnih zvokov kot smeh, vzdih in kašelj. Dia podpira večzvočni dialog in kloniranje glasu od 5 do 10 sekund referenčnega zvoka, kar je idealno za ustvarjanje realnih pogovorov in znakov glasov.

Ključne lastnosti

Ustvarjanje dialoga

Ustvarite naravne večzvočnike z različnimi glasovi in preobratovanjem.

Neverbalni zvoki

Dodaj [smeh], [vzdihi], [kašlja], (bori) za naravni paralingvistični izraz.

Kloniranje glasu

Kloniraj glas iz 5-10 sekund referenčnega zvoka za osebni govor.

Naravni pogovor

1.6B parametri ustvarjajo zelo naravno pogovorno prozo in intonacijo.

Uporabne primere

Pogovorna in pogovorna generacija Proizvodnja zvočnih knjig z več znakov Znakovni glasovi igre Ustvarjanje podcasta in vsebine

Kako uporabljati Dia

1

Prijavite se brezplačno ali odprite demo

Ustvarite brezplačno TextToSpeechAI račun, da zahtevate svoje starter kredite, ali odprete brez podpisa demo, da poskusite Dia dialog takoj.
2

Izberite Dia motor

V TTS plošči izberite Dia iz seznama motorjev. Dia je dialog usmerjen, ultrazvočni model z večzvočnikom in glasovno kloniranje podporo.
3

Zapiši pogovorni skript z oznakami

Sestavite pogovor z uporabo [S1] in [S2] za označevanje vsak zvočnik obrača, in padec v neverbalnih oznakah, kot so [smeh], [vzdihi], [kašelj] ali (gasps) kjer želite naravne reakcije.
4

Ustvari zvok

Kliknite, da pošljete svoj dia skript na naše gostiteljsko GPUs. Dia prevaja dvozvočni dialog z obračanjem in vaše neverbalne oznake v eno zvočno datoteko.
5

Prenesi ali pokliči API

Prenesi končno okno v izbrani obliki ali ga avtomatiziraj tako, da napišeš isti [S1]/[S2] skript TextToSpeechAI API z žetonom vašega računa.

Dia API

Ustvarite govor programsko z uporabo TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Kako si danes?",
    "voice": "en_US-lessac-medium"
  }'

Preberite API Docs Pridobi svoj ključ API

Pogosta vprašanja

Dia je 1.6B parameter, osredotočen na dialog z besedilnim vtiskom iz Nari Labs. Specializira se za ustvarjanje naravnega pogovornega govora s podporo več govornikov, neverbalnih zvokov in kloniranja glasu.

Da, Dia je popolnoma Apače 2.0 licencirana - tako koda kot model teže. Lahko se uporablja prosto v komercialnih aplikacijah.

Trenutno Dia podpira samo angleško. Model je optimiziran za naravni angleški pogovor govor.

Dia zahteva približno 10GB VRAM za svoj model parametrov 1.6B. GPU z vsaj 12GB je priporočljiv za udobno delovanje. Na TextToSpeechAI vse to teče na naših gostiteljskih GPU, zato ne potrebujete nobene lastne strojne opreme.

Da - dialog je točno tisto, za kar je zgrajena Dia. S preklopi [S1] in [S2] v svojem scenariju, Dia TTS ustvarja tekoč dvogovornik pogovor z različnimi glasovi in realistično obračanje, ki je težje doseči z enogovornikom TTS modelov.

Vsaka vrstica vašega skripta je predstavljena z [S1] ali [S2], da označi, kdo govori. Dia dodeli dosleden glas vsaki oznaki in stikala med njimi, ko se pogovor premika, tako da [S1] in [S2] delujeta kot dva znaka v vašem pogovornem oknu.

Dia podpira kloniranje glasu iz približno 5-10 sekund čistega referenčnega zvoka, ki vam omogoča ponovno uporabo določenega glasu za govornika. Lahko kombinirate kloniranje z [S1] / [S2] oznakami, tako da vsak znak v pogovoru zveni kot glas, ki ste ga klonirali.

Dia [smeh], [vzdihi], [kašlja] in (vzdiha) kot naravni paralinguistični zvoki vtaknjeni v govor, namesto govorne besede. Postavite oznako, kjer želite reakcijo - na primer "[S1] To je smešno [smeh]" - da bi dialog počutil bolj človeško.

Dia in Bark podpirata izrazite neverbalne zvoke, vendar je Dia zgrajena za več zvočnikov dialog z [S1] / [S2] prevzemanje in kloniranje glasu. Izberite Dia za realne dvoosebne pogovore in lične delo; Bark je bolj primeren, ko potrebujete širše jezikovno pokritost v enoglasnem pripovedovanju.

Dia je ultravijasti motor, tako da stane 50 kreditov na 1.000 znakov ustvarjenega govora. Ultra stopnja odraža večji 1,6B model in ~10GB GPU pomnilnik, ki ga uporablja za kakovostni dialog.

Da. Novi TextToSpeechAI računov vključuje brezplačne zagonske kredite, in obstaja demo lahko teče brez prijave. To je dovolj za ustvarjanje kratke Dia dialog z [S1] / [S2], preden se odločite o plačanem načrtu.

Da. Ko enkrat imate API žeton s strani računa lahko predložite Dia dialog skripte - vključno z [S1] / [S2] obrača in oznake kot [smeh] - na TextToSpeechAI REST API in prenesete rezultat zvočno programsko.

Technical Specs

Generation Speed Medium
Output Quality Excellent
Voice Cloning Supported
Languages 1
GPU VRAM 10GB
Credits/1000 chars 50

Try Dia Now

Generate your first audio free. No credit card required.

Start Free

Other TTS Engines

Dia

O projektu Dia

Ključne lastnosti

Ustvarjanje dialoga

Neverbalni zvoki

Kloniranje glasu

Naravni pogovor

Uporabne primere

Kako uporabljati Dia

Prijavite se brezplačno ali odprite demo

Izberite Dia motor

Zapiši pogovorni skript z oznakami

Ustvari zvok

Prenesi ali pokliči API

Dia API

Pogosta vprašanja

Kaj je zdravilo Dia TTS?

Ali je Dia lahko komercialno?

Katere jezike podpira Dia?

Koliko spomina potrebuje Dia?

Ali Dia lahko ustvari dialog med več znakov?

Kako delujeta Dia zvočnika [S1] in [S2]?

Ali Dia klonira glasove?

Kako se slišijo neverbalne oznake kot [smeh] in [vzdihi] v Dia?

Dia proti Barku: Katero naj uporabim?

Koliko kreditov Dia stane TextToSpeechAI?

Lahko poskusim Dia TTS zastonj?

Lahko uporabim Dia skozi TextToSpeechAI API?

Technical Specs

Try Dia Now

Other TTS Engines

Kore

Klepetalnica

Udobni glasnik2