Dia

Ultra

Į dialogą orientuoti TTS su balso klonavimu ir neverbaliniais garsais

Medium Greitis
Excellent Kokybė
Taip Klonavimas
1 Kalbos

Apie Dia

Dia – tai 1,6B parametro dialogo, kuriame yra į tekstą orientuotas tekstas į garsą, modelis. Tai puikiai tinka generuoti natūralų pokalbio kalbą su neverbalinių garsų palaikymu, pavyzdžiui, juoko, sijonų ir kosulio. Dia palaiko daugiakalbio dialogo generavimą ir balso klonavimą iš 5-10 sekundžių atskaitos garso, todėl idealiai tinka realių pokalbių ir charakterių balsų kūrimui.

Pagrindinės savybės

Dialogo generavimas

Generuoti natūralius daugiakalbio pokalbio su atskirais balsais ir posūkio.

Neverbaliniai garsai

Įterpti [juokių], [sustiprintų], [sustiprintų], (sugeriančių) natūraliai paralingvistinei išraiškai.

Balso klonavimas

Apdoroti bet kokį balsą nuo 5-10 sekundžių atskaitos garso asmeniniu kalba.

Gamtinis pokalbis

1.6B parametrai sukuria labai natūralų pokalbį prozodija ir intonacija.

Naudoti atvejus

Dialogas ir pokalbių karta Garso knygos gamyba su keliais ženklais Žaidimo personažų balsai Tinklalaidė ir turinio kūrimas

Kaip vartoti Dia

  1. 1

    Užsiregistruokite nemokamai arba atidarykite demo

    Sukurti nemokamą TextToSpeechAI paskyrą reikalauti savo pradedantiesiems kreditus, arba atidaryti be pasirašymo demo išbandyti Dia dialogas iš karto.

  2. 2

    Pasirinkite Dia variklį

    TTS prietaisų skydelyje Dia pasirenkamas iš variklių sąrašo. Dia yra į dialogą orientuotas, itin aukšto lygio modelis su daugiakalbiu ir balso klanavimu.

  3. 3

    Įrašyti dialogo scenarijų su žymomis

    Sukurkite savo pokalbį naudodami [S1] ir [S2] žymėdami kiekvieną garsiakalbį posūkyje ir įrašykite neverbalines žymas, pvz., [smegs], [suartėjimus], [sukas] arba (su) kur norite natūralių reakcijų.

  4. 4

    Generuoti garsą

    Spustelėkite generuoti siųsti savo Dia scenarijų į mūsų priestate GPUs. Dia perteikia dviejų garsiakalbių dialogą su įėjimo ir jūsų neverbaliniai žymes į vieną garso failą.

  5. 5

    Atsisiųskite arba paskambinkite API

    Parsisiųskite baigtą dialogą pasirinktu formatu, arba automatizuokite jį, siunčiant tą patį [S1]/[S2] scenarijų į TextToSpeechAI API su savo paskyros raktą.

Dia API

Generuoti kalbos programuoja naudojant TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "[S1] Sveiki! Kaip šiandien esate? [Smegsas] [S2] Aš darau puikiai, ačiū, kad klausi!",
    "voice": "en_US-lessac-medium"
  }'

Dažnai užduodami klausimai

Dia yra 1.6B parametrų į dialogą orientuotas tekstas į-giech modelis iš Nari Labs. Ji specializuojasi generuojant natūralią pokalbio kalbą su parama keliems garsiakalbiams, nonverbal garsai, ir balso klonavimas.

Taip, Dia yra visiškai Apache 2.0 licencijuota - tiek kodo, tiek modelio svoris. Jį galima laisvai naudoti komerciniuose mokymuose.

Šiuo metu Dia palaiko tik anglų kalbą. Modelis yra optimizuotas natūraliai anglų kalbai.

Dia reikalauja apie 10GB VRAM savo 1.6B parametrų modeliui. GPU su bent 12GB rekomenduojama patogiam veikimui. TextToSpeechAI visa tai veikia mūsų kompiuterizuotomis GPU, todėl jums nereikia jokios įrangos iš savo.

Taip - dialogas yra būtent tam, už ką sukurtas Dia. Modifikuojant [S1] ir [S2] įjungiamas Jūsų scenarijus, Dia TTS sukuria tekantį dviejų garsiakalbių pokalbį su aiškiais balsais ir realistiškais posūkiais, o tai sunkiau pasiekti su vienkalbio garsiakalbio TTS modeliais.

Kiekviena scenarijaus eilutė turi būti iš anksto pažymėta [S1] arba [S2], kad pažymėtų, kas kalba. Dia kiekvienai žymai priskiria pastovų balsą ir perjungia tarp jų, kai pokalbis juda, taigi [S1] ir [S2] veikia kaip du simboliai jūsų dialoge.

Taip. Dia palaiko balso klonavimą iš maždaug 5-10 sekundžių švaraus kombinacinio garso, leidžiantį pakartotinai naudoti konkretų garsiakalbio balsą. Galite derinti klonavimą su [S1]/[S2] žymėmis, kad kiekvienas simbolis dialoge skamba kaip klonuotas balsas.

Dia [smegi], [sutrinka], [sutrinka] ir (sugeria) kaip natūralus paralingvistinis garsas verčiau įtraukiamas į kalbą, o ne į žodžius. Įdėkite žymą, kur norite reakcijos - pavyzdžiui "[s1] Tai yra linksma [smegs]" - kad dialogas pasijustų labiau žmogiškas.

Tiek Dia, tiek Bark palaiko ekspresyvius neverbalinius garsus, tačiau Dia yra skirta daugiakalbio dialogo su [S1]/[S2] posūkio ir balso klonavimo tikslais. Pasirinkite Dia realiems dviejų asmenų pokalbiams ir veikėjų darbui; Barkas yra geresnės kokybės, kai reikia platesnės kalbos aprėpties vienbalsio balso pasakojimo atveju.

Dia yra itin aukšto lygio variklis, todėl kainuoja 50 kreditų 1000 simbolių generuojamos kalbos. ultra pakopa atspindi didesnį 1.6B modelį ir ~10GB GPU atmintį, ji naudoja aukštos kokybės dialogui.

Taip. Naujos TextToSpeechAI paskyros apima nemokamus starterio kreditus, o yra demo galite paleisti be registracijos. Tai pakanka sukurti trumpą Dia dialogą su [S1]/[S2] žymėmis prieš priimant sprendimą dėl mokamo plano.

Taip. Kai turite API ženklą iš savo paskyros puslapio, galite pateikti Dia dialogo scenarijus - įskaitant [S1]/[S2] pasisuka ir žymes kaip [smegs] - į TextToSpeechAI REST API ir atsisiųsti iš to gaunamą garso programuoja.

Technical Specs

  • Generation Speed Medium
  • Output Quality Excellent
  • Voice Cloning Supported
  • Languages 1
  • GPU VRAM 10GB
  • Credits/1000 chars 50

Try Dia Now

Generate your first audio free. No credit card required.

Start Free