Dia

Ultra

Párbeszédorientált TTS hang klónozással és nem verbális hangokkal

Medium Sebesség
Excellent Minőség
Igen. Klónozás
1 Nyelvek

About Dia

Dia by Nari Labs egy 1.6B paraméterű párbeszéd-központú szöveg-speech modell. Kiemelkedően alkalmas a természetes társalgási beszédek létrehozására, olyan nem verbális hangok támogatásával, mint a nevetés, sóhajok és köhögés. Dia támogatja a több hangszórós párbeszéd generáció és a hang klónozás 5-10 másodperc referencia audió, így ideálissá teszi a reális beszélgetések és karakterhangok.

Kulcsfontosságú jellemzők

Párbeszéd-teremtés

Természetes több hangszórós beszélgetések generálása különböző hangokkal és fordulatokkal.

Nem verbális hangok

Hozzáadjuk a természetes paralinguista kifejezéshez.

Hang klónozása

Klón bármilyen hang 5-10 másodperc referencia hang személyre szabott beszéd.

Természetes beszélgetés

1.6B paraméterek nagyon természetes társalgási proszódiát és intonációt eredményeznek.

Esetek használata

Párbeszéd és beszélgetések generációja Hangkönyvgyártás több karakterrel Játék karakter hangok Podcast és tartalom létrehozása

Hogyan kell alkalmazni? Dia

  1. 1

    Regisztráljon ingyen vagy nyissa meg a demót

    Hozzon létre egy ingyenes TextToSpeechAI fiókot, hogy az indító krediteket követelje, vagy nyissa meg a no-signup demót, hogy kipróbálja a Dia párbeszédet azonnal.

  2. 2

    Válassza ki a Dia motort

    A TTS műszerfalon válassza Dia-t a motorlistából. Dia a párbeszédorientált, ultra-tier modell több hangszóróval és hangklónusos támogatással.

  3. 3

    Írj egy párbeszéd szkriptet címkékkel

    A beszélgetést az [S1] és [S2] szónoki fordulatok megjelölésére használja, és olyan nem verbális címkéket dob be, mint [nevet], [sóhajt], [köhög] vagy (zúg) ahol természetes reakciókat szeretne.

  4. 4

    Hang generálása

    Kattintson a generálásra, hogy küldje el a Dia scriptet a házigazdánk GPU-k. Dia teszi a két hangszórós párbeszéd a fordulat-vétel és a nonverbal címkék egyetlen audio fájlba.

  5. 5

    Letöltés vagy hívja az API

    Töltse le a befejezett párbeszédet a választott formátumban, vagy automatizálja ugyanazt a [S1]/[S2] szkriptet a TextToSpeechAI API-ra a fiókja zsetonjával.

Dia API

A beszéd programszerű generálása a TextToSpeechAI REST API használatával.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Helló, hogy vagy ma?",
    "voice": "en_US-lessac-medium"
  }'

Gyakran ismételt kérdések

Dia egy 1.6B paraméter párbeszéd-orientált szöveg-nyelv modell a Nari Labs. Szakterülete a természetes társalgási beszéd támogatása több hangszóró, nonverbális hangok, és hang klónozás.

Igen, Dia teljesen Apache 2.0 engedéllyel - kód és modell súlyok. Ez szabadon használható kereskedelmi alkalmazásokban.

Jelenleg Dia csak angolt támogat. A modell a természetes angol beszédhez optimalizált.

Dia igényel körülbelül 10 GB VRAM annak 1.6B paraméter modell. A GPU legalább 12 GB ajánlott a kényelmes működés. A TextToSpeechAI mindez fut a mi házilag GPU-k, így nincs szükség semmilyen hardver saját.

Igen - a dia dia pontosan erre épül. A [S1] és [S2] változó változatokkal a forgatókönyvedben a Dia TTS két hangszórós beszélgetést készít különböző hangokkal és realisztikus fordulatokkal, amelyeket nehezebb elérni egy hangszórós TTS modellekkel.

Előfix minden sor a forgatókönyv [S1] vagy [S2], hogy jelölje meg, ki beszél. Dia ad egy következetes hangot minden tag és vált, mint a beszélgetés mozog, így [S1] és [S2] működik a két karakter a párbeszéd.

Igen. Dia támogatja a hang klónozását nagyjából 5-10 másodperc tiszta referencia audióból, lehetővé téve, hogy újraélessz egy hang egy hangszóróhoz. A klónozást kombinálhatja a [S1]/[S2] tagekkel, így minden karakter a párbeszédben úgy hangzik, mint a klónozott hang.

Dia úgy adja vissza [nevet], [sóhajt], [köhög], és (zúg) természetes paralinguisztikus hangok szőtt a beszéd helyett beszélt szavakat. Helyezzen egy címkét, ahol szeretné a reakció - például "[S1] Ez nevetséges [nevet]" -, hogy a párbeszéd érzése emberibb.

Dia és Bark egyaránt támogatja a kifejező nem verbális hangokat, de Dia célja a több hangszórós párbeszéd [S1]/[S2] turn-taking és hang klónozás. Válassza Dia reális kétszemélyes beszélgetések és karakter munka; Bark egy jobb illeszkedik, ha szükség van szélesebb nyelvi lefedettség egyhangú narráció.

Dia egy ultra-tier motor, így ára 50 kredit 1000 karakter generált beszéd. Az ultra-tier tükrözi a nagyobb 1.6B modell és a ~10GB GPU memória használja a kiváló minőségű párbeszéd.

Igen. Az új TextToSpeechAI fiókok ingyenes kezdő krediteket tartalmaznak, és van egy demó, amit bejelentkezés nélkül is futtathatsz. Ez elég ahhoz, hogy rövid dia párbeszédet hozz létre [S1]/[S2] tagekkel, mielőtt döntenél a fizetett tervről.

Igen. Ha már van egy API token a fiókoldalról, akkor küldje Dia párbeszéd szkriptek - beleértve [S1] / [S2] fordul és címkék, mint [nevet] - a TextToSpeechAI REST API és töltse le az így kapott audio programmatically.

Technical Specs

  • Generation Speed Medium
  • Output Quality Excellent
  • Voice Cloning Supported
  • Languages 1
  • GPU VRAM 10GB
  • Credits/1000 chars 50

Try Dia Now

Generate your first audio free. No credit card required.

Start Free