Dia

Ultra

TTS orientované na dialog s hlasovým klonováním a neverbálními zvuky

Medium Rychlost
Excellent Kvalita
Ano. Klonování
1 Jazyky

O aplikaci Dia

Dia od Nari Labs je parametr 1.6B zaměřený na dialog text-to-speech model. Vyniká při vytváření přirozené konverzační řeč s podporou nonverbální zvuky jako smích, povzdechy a kašel. Dia podporuje multi-reaker dialog generování a hlasové klonování od 5-10 sekund referenčního zvuku, což je ideální pro vytváření realistických rozhovorů a hlasové postavy.

Klíčové funkce

Generování dialogu

Generovat přirozené multi-reproduktor konverzace s výraznými hlasy a obrat-braní.

Neverbální zvuky

Přidat [smích], [povzdechne], [kašle], (vzdechy) pro přirozený paralinguistický výraz.

Klonování hlasu

Klonujte jakýkoliv hlas z 5-10 sekund referenčního zvuku pro osobní projev.

Přírodní konverzace

1.6B parametry produkují vysoce přírodní konverzační prosody a intonaci.

Pouzdra na použití

Generace dialogu a konverzace Výroba audioknih s více znaky Hlasy postavy hry Podcast a tvorba obsahu

Jak se používá Dia

  1. 1

    Zaregistrujte se zdarma nebo otevřete demo

    Vytvořte zdarma TextToSpeechAI účet pro nárok na startovací kredity, nebo otevřít demo no-signup vyzkoušet Dia dialog hned.

  2. 2

    Vyberte motor Dia

    V palubní desce TTS vyberte Dia ze seznamu motorů. Dia je model zaměřený na dialog, ultra-tier s podporou více reproduktorů a hlasového clonění.

  3. 3

    Napsat dialogový skript s značkami

    Složte svůj rozhovor pomocí [S1] a [S2] označit každý reproduktor otočit, a kapka v nonverbální značky, jako [smích], [povzdechne], [kašle], nebo (vzdechy) kde chcete přírodní reakce.

  4. 4

    Generovat zvuk

    Kliknutím na tlačítko generovat odeslat svůj Dia script do našich hostovaných GPU. Dia vykresluje dialog dvou reproduktorů s tahem a vaše neverbální značky do jediného zvukového souboru.

  5. 5

    Stáhnout nebo zavolat API

    Stáhněte si hotový dialog ve zvoleném formátu, nebo jej automatizujte zasláním stejného [S1]/[S2] skriptu do API TextToSpeechAI s vaším účtem.

Dia API

Generovat řeč programově pomocí TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "[S1] Dobrý den! Jak se dnes máte? [smích] [S2] Vedu si skvěle, díky za optání!",
    "voice": "en_US-lessac-medium"
  }'

Často kladené otázky

Dia je parametrem 1,6B orientovaným na dialog text-to-speech modelem z Nari Labs. Specializuje se na generování přirozené konverzační řeči s podporou více reproduktorů, nonverbálních zvuků a hlasového klonování.

Ano, Dia má plnou licenci Apache 2.0 - jak kód, tak hmotnost modelu. Lze ji volně používat v komerčních aplikacích.

V současné době Dia podporuje pouze angličtinu. Model je optimalizován pro přírodní anglicky konverzační řeč.

Dia vyžaduje přibližně 10GB VRAM pro model parametru 1.6B. GPU s minimálně 12GB se doporučuje pro pohodlný provoz. Na TextToSpeechAI to vše běží na našich hostovaných GPU, takže nepotřebujete žádný vlastní hardware.

Ano - dialog je přesně to, pro co je Dia postavena. Střídáním [S1] a [S2] ve vašem skriptu, Dia TTS produkuje plynulý rozhovor dvou reproduktorů s výraznými hlasy a realistickým zatáčením, kterého je těžší dosáhnout pomocí jedno reproduktorů TTS modelů.

Předepište každý řádek vašeho skriptu s [S1] nebo [S2] označit, kdo mluví. Dia přiřadí konzistentní hlas ke každému tagu a přepíná mezi nimi, jak se konverzace pohybuje, tak [S1] a [S2] jednat jako dva znaky ve vašem dialogu.

Ano. Dia podporuje klonování hlasu zhruba z 5-10 sekund čistého referenčního zvuku a umožňuje vám znovu použít specifický hlas pro reproduktor. Můžete kombinovat klonování s značkami [S1]/[S2], takže každý znak v dialogu zní jako hlas, který jste naklonovali.

Dia vykresluje [smích], [povzdechne si], [kašle], a (vzdechy) jako přirozené paralinguistické zvuky, které se protkají do řeči spíše než mluvená slova. Umístěte značku, kde chcete reakci - například "[S1] To je k popukání [smích]" - aby se dialog cítil lidštější.

Jak Dia, tak i Bark podporují expresivní neverbální zvuky, ale Dia je účelně postavena pro multi-reproduktorový dialog s [S1]/[S2] otočné a hlasové klonování. Vyberte Dia pro realistické dva-person konverzace a charakter práce; Bark je lepší vhodné, když potřebujete širší jazykové pokrytí v jedno-hlasové vyprávění.

Dia je ultra-tier motor, takže to stojí 50 kreditů na 1000 znaků generované řeči. ultra tier odráží větší 1.6B model a ~10GB paměti GPU používá pro vysoce kvalitní dialog.

Ano. Nové TextToSpeechAI účty zahrnují zdarma starter kredity, a tam je demo můžete spustit bez přihlášení. To je dost na vytvoření krátké Dia dialog s [S1]/[S2] značky před rozhodnutím o placeném plánu.

Ano. Jakmile máte API žeton ze stránky vašeho účtu, můžete odeslat Dia dialog skripty - včetně [S1]/[S2] otáčí a značky jako [směje se] - na TextToSpeechAI REST API a stáhnout výsledný audio programově.

Technical Specs

  • Generation Speed Medium
  • Output Quality Excellent
  • Voice Cloning Supported
  • Languages 1
  • GPU VRAM 10GB
  • Credits/1000 chars 50

Try Dia Now

Generate your first audio free. No credit card required.

Start Free