Dia

Ultra

Vuoropuheluun perustuva TTS, jossa on äänen kloonaus ja ei-sanallisia ääniä

Medium Nopeus
Excellent Laatu
Kyllä Kloonaus
1 Kielet

Tietoja Dia

Dia by Nari Labs on 1,6B-parametrin dialogin keskittämä teksti-puhe-malli. Dia on erinomainen saamaan aikaan luonnollista keskustelupuhetta, jolla tuetaan nonverbal-ääniä, kuten naurua, huokauksia ja yskimistä. Dia tukee monikielisten dialogien sukupolvea ja äänen kloonausta 5-10 sekunnin mittaisesta referenssiäänestä, mikä tekee siitä ihanteellisen realistisen keskustelun ja luonneäänten syntymiseen.

Tärkeimmät ominaisuudet

Vuoropuhelusukupolvi

Luo luo luonnollisia monikielisiä keskusteluja eri äänillä ja kääntämällä.

Sanattomat äänet

Lisää [naurua], [huiskua], (hymyä) luonnolliseen paralinguistiseen ilmaisuun.

Äänien kloonaus

Kloonaaa minkä tahansa äänen 5-10 sekunnin referenssiäänestä henkilökohtaiseen puheeseen.

Luonnollinen keskustelu

1.6B-parametrit tuottavat erittäin luontevaa keskusteluprosodiaa ja intonaatiota.

Käytä tapauksia

Vuoropuhelu- ja keskustelusukupolvi Äänikirjatuotanto useilla merkeillä Pelihahmon äänet Podcast- ja sisällönluonti

Miten sitä käytetään Dia

  1. 1

    Rekisteröidy ilmaiseksi tai avaa demo

    Luo ilmainen TextToSpeechAI-tili, jolla voit hakea starttitilisi, tai avaa signup-demo ja kokeile Dia-dialogia heti.

  2. 2

    Valitse Dia-moottori

    TTS-kojelaudassa Dia valitaan moottorilistalta. Dia on dialogipainotteinen, ultratason malli, jossa on monikaiutin ja äänensulkeva tuki.

  3. 3

    Kirjoita dialogiskripti tageilla

    Muodosta keskustelusi [S1:n] ja [S2:n] avulla jokaisen puhujan kääntymisen merkiksi ja pudota sanattomiin tunnisteisiin, kuten [naura], [hisku], [hymyily] tai (haastattele) sinne, missä haluat luonnollisia reaktioita.

  4. 4

    Luo ääni

    Klikkaa luodaksesi lähettää Dia-skriptisi isännöidyille GPU:ille. Dia tekee kaksikielisen dialogin vuorosanoilla ja sanattomilla tageillasi yhdeksi äänitiedostoksi.

  5. 5

    Lataa tai soita sovellusliittymään

    Lataa valmis dialogi valitsemallasi kokoonpanolla tai automatisoi se lähettämällä sama [S1]/[S2]-skripti TextToSpeechAI API:lle tilitunnuksellasi.

Dia API

Luo puheohjelmallisesti TextToSpeechAI REST API:n avulla.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hei, miten voit tänään?",
    "voice": "en_US-lessac-medium"
  }'

Usein kysyttyjä kysymyksiä

Dia on Nari Labsin 1,6B-parametrinen dialogin orientoima tekstipuhemalli. Dia on erikoistunut luonnollisen keskustelupuheen tuottamiseen, jossa tuetaan useita puhujia, sanattomia ääniä ja äänen kloonausta.

Kyllä, Dia on täysin Apache 2.0 lisensioitu - sekä koodi- että mallipainot. Sitä voi käyttää vapaasti kaupallisissa sovelluksissa.

Tällä hetkellä Dia tukee vain englantia. Malli on optimoitu luonnolliseen englanninkieliseen keskustelupuheeseen.

Dia vaatii 1,6B-parametrimalliinsa noin 10 Gt VRAM-muistia. Vähintään 12 Gt:n GPU:ta suositellaan mukavaan käyttöön. TextToSpeechAI:n kohdalla kaikki tämä on käytössämme, joten et tarvitse omia laitteitasi.

Kyllä - Dia on juuri sitä varten, mitä varten Dia on rakennettu. Dia TTS:n vuorottelemalla [S1] ja [S2] kääntämällä käsikirjoitustasi Dia TTS tuottaa virtaavan kaksikielisen keskustelun, jossa on erilliset äänet ja realistinen kääntäminen, mikä on vaikeampaa yhdenpuhujan TTS-malleilla.

Liitä jokainen rivi kirjoituksestasi [S1]- tai [S2]-sanalla puhujan merkitsemiseen. Dia määrittää jokaisen tunnuksen ja vaihtaa niiden väliin keskustelun edetessä, joten [S1] ja [S2] toimivat keskustelusi kahtena hahmona.

Kyllä. Dia tukee äänen kloonausta noin 5-10 sekunnin puhtaasta referenssiäänestä, jolloin voit käyttää tietyn äänen uudelleen kaiuttimeen. Kloonauksen voi yhdistää [S1]/[S2] -tagiin, jotta jokainen hahmo dialogissa kuulostaa samalta kuin se ääni, jonka kloonasit.

Dia tekee [naura], [hulisee], [hulisee] ja (hulisee) luonteviksi paralingvistisiksi ääniksi, jotka on kudottu puheeseen eikä puhuttuihin sanoihin. Aseta lappu, johon haluat reaktion - esimerkiksi "[S1] Se on hauskaa [naurua]" - jotta vuoropuhelu tuntuu inhimillisemmältä.

Sekä Dia että Bark tukevat ilmaisukykyisiä ei-sanallisia ääniä, mutta Dia on tarkoitus rakentaa monikielisiin dialogiin [S1]/[S2]-käännös- ja äänikloonauksen kanssa. Valitse Dia realistisiin kahden henkilön keskusteluihin ja hahmotyöhön; Bark sopii paremmin, kun tarvitset laajempaa kielitietoa yksiäänisessä kertomisessa.

Dia on ultratason moottori, joten se maksaa 50 krediittiä tuhatta tuotettua puhemerkkiä kohti. Ultrataso heijastaa suurempaa 1,6B-mallia ja GPU-muistin ~10GB:tä, jota se käyttää laadukkaaseen dialogiin.

Kyllä. Uudet TextToSpeechAI tiliä sisältävät ilmaisia aloitusluottoja, ja voit tehdä demon ilman rekisteröitymistä. Se riittää luomaan lyhyen Dia-dialogin [S1]/[S2]-tunnisteiden kanssa ennen kuin päätät maksullisesta suunnitelmasta.

Kyllä. Kun sinulla on API-tunnus tilisivultasi, voit lähettää Dia-dialogiskriptejä - mukaan lukien [S1]/[S2]-käännöksiä ja tageja kuten [naura] - TextToSpeechAI REST API:lle ja ladata tuloksena olevan audio-ohjelmallisesti.

Technical Specs

  • Generation Speed Medium
  • Output Quality Excellent
  • Voice Cloning Supported
  • Languages 1
  • GPU VRAM 10GB
  • Credits/1000 chars 50

Try Dia Now

Generate your first audio free. No credit card required.

Start Free