Dia

Ultra

Dialógovo orientovaný TTS s klonovaním hlasu a neverbálnymi zvukmi

Medium Rýchlosť
Excellent Kvalita
Áno Klonovanie
1 Jazyky

O nás Dia

ing the most accurate text-to-speech results for the most complex texts. Dia is a 1.6B parameter text-to-speech model that is designed to generate natural conversational speech with support for nonverbal sounds like laughter, sighs, and coughs. It excels at generating the most accurate text-to-speech results for the most complex texts. Dia is a 1.6B parameter text-to-speech model that

Kľúčové vlastnosti produktu

Generovanie dialógu

Generujte prirodzené konverzácie s viacerými reproduktormi s odlišnými hlasmi a striedaním.

Nonverbálne zvuky

Pridajte [smiech], [vzdych], [kašeľ], (dych) pre prirodzený paralingvistický výraz.

Klonovanie hlasu

Klonovať akýkoľvek hlas z 5-10 sekúnd referenčného zvuku pre personalizované reči.

Prirodzená konverzácia

Parametre 1.6B produkujú vysoko prirodzené konverzačné prosódie a intonácie.

Prípady použitia

Generovanie dialógov a konverzácií Výroba audiokníh s viacerými znakmi Hlasy herných postáv Podcast a tvorba obsahu

Ako používať Dia

  1. 1

    Zaregistrujte sa zdarma alebo otvorte demo

    Vytvorte si bezplatný TextToSpeechAI účet a získajte svoje kredity, alebo si otvorte demo verziu bez registrácie a vyskúšajte Dia dialóg hneď.

  2. 2

    Vyberte motor Dia

    Dia je dialógovo orientovaný, ultra-tier model s podporou viacerých reproduktorov a klonovania hlasu, ktorý je schopný prenášať až 100000 znakov za sekundu.

  3. 3

    Napíšte dialógový skript so značkami

    Vytvorte si konverzáciu pomocou tlačidiel [S1] a [S2] na označenie každého ťahu rečníka a vložte neverbálne značky ako [smiech], [vzdych], [kašeľ] alebo (dych), kde chcete prirodzené reakcie.

  4. 4

    Generovanie zvuku

    Kliknutím na generovať odošlete svoj Dia skript na naše hostované GPU.Dia vykreslí dialóg dvoch reproduktorov s ťahom a vaše neverbálne značky do jedného zvukového súboru.

  5. 5

    Stiahnite si alebo zavolajte API

    Stiahnite si hotový dialóg vo zvolenom formáte, alebo ho automatizujte odoslaním rovnakého skriptu [S1]/[S2] do rozhrania API TextToSpeechAI s tokenom vášho účtu.

Dia API

Generujte reč programovo pomocou rozhrania REST API TextToSpeechAI.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "[S1] Ahoj, ako sa dnes máš? [smeje sa] [S2] Mám sa skvele, ďakujem za otázku!",
    "voice": "en_US-lessac-medium"
  }'

Často kladené otázky

Dia je model text-to-speech od Nari Labs, ktorý sa špecializuje na generovanie prirodzenej konverzačnej reči s podporou viacerých hovoriacich, neverbálnych zvukov a klonovania hlasu.

Áno, Dia je plne licencovaný Apache 2.0 - kód aj modelové váhy a môže byť voľne použitý v komerčných aplikáciách.

Dia momentálne podporuje len angličtinu, model je optimalizovaný pre prirodzenú anglickú konverzačnú reč.

Dia vyžaduje približne 10GB VRAM pre svoj model s parametrami 1.6B, pre pohodlnú prevádzku je odporúčaná grafická karta s minimálne 12GB. Na TextToSpeechAI všetko toto beží na našich hostovaných grafických kartách, takže nepotrebujete žiadny vlastný hardvér.

Áno, Dia TTS je navrhnutý presne na dialógy. Striedavkou [S1] a [S2] otáčok vo vašom skripte, Dia TTS vytvára plynulú konverzáciu dvoch reproduktorov s odlišnými hlasmi a realistickými ťahmi, čo je ťažšie dosiahnuť s modelmi TTS s jedným reproduktorom.

Každý riadok vášho skriptu začnite [S1] alebo [S2] pre označenie, kto hovorí. Dia priradí konzistentný hlas každému tagu a prepínať medzi nimi ako sa konverzácia pohybuje, takže [S1] a [S2] sa správajú ako dve postavy vo vašom dialógu.

Áno, Dia podporuje klonovanie hlasu z približne 5-10 sekúnd čistého referenčného zvuku, čo vám umožní znovu použiť konkrétny hlas pre reproduktor. Môžete kombinovať klonovanie so značkami [S1] / [S2], takže každá postava v dialógu znie ako hlas, ktorý ste klonovali.

Dia vykresľuje [smiech], [vzdych], [kašeľ] a (dych) ako prirodzené paralingvistické zvuky vtiahnuté do reči namiesto hovorených slov. Umiestnite značku tam, kde chcete reakciu - napríklad "[S1] To je veselé [smiech]" - aby sa dialóg cítil viac ľudsky.

Dia aj Bark podporujú expresívne neverbálne zvuky, ale Dia je navrhnutý pre dialógy s viacerými rečníkmi s [S1]/[S2] striedaním a klonovaním hlasu. Vyberte si Dia pre realistické konverzácie dvoch osôb a prácu s postavami. Bark je vhodnejší, ak potrebujete širšie pokrytie jazyka v jednom hlasovom rozprávaní.

Dia je ultra-tier engine, takže stojí 50 kreditov za 1000 znakov generovaného reči.Ultra tier odráža väčší 1.6B model a ~ 10GB pamäte GPU, ktoré používa na vysoko kvalitné dialógy.

Áno, nové TextToSpeechAI účty zahŕňajú bezplatné kredity a demo verziu, ktorú môžete spustiť bez registrácie. To stačí na vytvorenie krátkeho dialógu Dia so značkami [S1]/[S2] predtým, ako sa rozhodnete pre platený plán.

Áno, keď máte API token z vašej stránky účtu, môžete odoslať Dia dialógové skripty - vrátane [S1] / [S2] otočenia a tagov ako [smiech] - do TextToSpeechAI REST API a stiahnuť výsledný zvuk programovo.

Technical Specs

  • Generation Speed Medium
  • Output Quality Excellent
  • Voice Cloning Supported
  • Languages 1
  • GPU VRAM 10GB
  • Credits/1000 chars 50

Try Dia Now

Generate your first audio free. No credit card required.

Start Free