VITS

Standard

Hitro TTS od konca do konca z naravnim govorom

Very Fast Hitrost
Good Kakovost
Ne Kloniranje
10 Jeziki

O projektu VITS

VITS (Variacionalna zaključek z nasprotnim učenjem za končno besedilo besedila do govora) je hiter, končni, končni model neurološke TTS, ki ustvarja naravno govorjenje. Združuje variacijske avtokoderje z adversamentalno usposabljanje za učinkovito sintezo. VITS je odličen za obdelavo serij in aplikacije, ki zahtevajo kakovost in hitrost.

Ključne lastnosti

Hitre sinteze

Končna arhitektura za hitro izdelavo govora.

Serija obdelave

Učinkovito obdelati več besedil hkrati.

Naravni govor

VAE+GAN usposabljanje ustvarja naravno prozodijo in ritem.

Večzvočnik

Enostavni model podpira več glasov zvočnika.

Učinkovit

Nizek spominski odtis z dobro uspešnostjo.

Odpri vir

MIT licencirano za vsako uporabo.

Uporabne primere

Serija ustvarjanja zvoka Platforme za e-učenje Bralci novic Avtomatizirana objava Sistemi IVR Vsebnost visoko volumna

VITS Voices

View All 109
LJSpeech (English Female)
EN
VCTK Speaker 225 (English Female)
EN
VCTK Speaker 226 (English Male)
EN
VCTK Speaker 227 (English Male)
EN
VCTK Speaker 228 (English Female)
EN
VCTK Speaker 229
EN
VCTK Speaker 230
EN
VCTK Speaker 231
EN
VCTK Speaker 232
EN
VCTK Speaker 233
EN
VCTK Speaker 234
EN
VCTK Speaker 236
EN

Kako uporabljati VITS

  1. 1

    Vpišite se brezplačno ali poskusite demo

    Ustvarite brezplačno TextToSpeechAI račun za pridobitev zagonskih kreditov ali uporabite on-page demo za poslušanje VITS pred prijavo.

  2. 2

    Izberite glas ali zvočnik VITS

    Brskajte po glasovni knjižnici in izberite glas, označen z značko VITS. Večzvočnik VITS knjižnica, vključno z nastavljenim zvočnikom VCTK, vam omogoča izbrati iz številnih različnih glasov.

  3. 3

    Vnesite svoje besedilo

    Vnesite ali vstavite besedilo, ki ga želite govoriti v urednik. VITS dobro upravlja dolge prehode in je idealen za serij in veliko količino vsebine.

  4. 4

    Ustvari zvok

    Kliknite generirati za sintetizacijo govora z VITS. Ker je VITS zelo hitro in standard-tier (10 kreditov na 1000 znakov), rezultati hitro vrnejo po nizkih stroških.

  5. 5

    Prenesi ali uporabi API

    Prenesi končan zvok kot MP3, WAV ali OGG ali pokliči isti glas VITS skozi TextToSpeechAI REST API, da avtomatiziraš generacijo v svoji aplikaciji.

VITS API

Ustvarite govor programsko z uporabo TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "VITS zagotavlja hitro, naravno govorjenje za visoko količino aplikacij.",
    "voice": "vits-ljspeech"
  }'

Pogosta vprašanja

VITS (Variacionalna zaključek z nasprotnim učenjem za končni-to-končni Tekst-na-govor) je končni-končni neuralni TTS model, ki združuje variacijski avtokoder z adversarial GAN trening. To ustvarja naravno-zvučni govor v enem prehodu, ki ga naredi hitro in učinkovito. Lahko poskusite VTS brezplačno na TextToSpeechAI.

Ja, VITS je odprt vir v okviru licence MIT, tako da podpira polno komercialno uporabo brez omejitev. Široko se uporablja v komercialnih izdelkih in storitvah. Na TextToSpeechAI, VITS stane 10 kreditov na 1000 znakov na standardni ravni.

TextToSpeechAI ponuja veliko večzvočnikov VTS knjižnico, vključno z VCTK glasovno zbirko z na desetimi različnimi angleškimi govorniki. Eden model VTS lahko gosti veliko govornikov, tako da lahko izberete iz številnih različnih glasov brez prekinitve motorjev.

Podpora VITS je odvisna od izurjenega modela. Skupni modeli VITS zajemajo angleško, kitajsko, japonsko, korejsko, nemško, francosko in druge večje jezike, z večzvočnikom angleško pokritost iz podatkovnega niza VCTK.

VITS je zelo hiter, ustvarja govor v realnem času ali hitrejši na GPU. Njegova končna arhitektura se izogiba več faz obdelave drugih modelov, zato je VITS dobro primeren za serijsko sintezo in sintezo visoko volumne.

Ne, VITS ne podpira kloniranja glasu. Uporablja predpreizurjene večzvočnike namesto kopiranja ciljnega glasu iz vzorca. Za kloniranje glasu na TextToSpeechAI, uporabite F5-TTS ali GPT-SoviTS namesto.

VITS ustvarja kakovostni zvok z naravnim prozodijo in ritmom. Čeprav ni na ravni StyleTTS 2 ali Tortoise, ponuja odlično kakovost za svojo hitrost, zlasti za predelavo serij.

VITS je pomnilniški učinkovit, običajno potrebuje le nekaj GB VRAM (okoli 4GB). Teče udobno na GPU potrošnika, na TextToSpeechAI pa se vse prikazovanje dogaja na naših strežnikih, zato ne potrebujete svoje strojne opreme.

VITS in Piper sta hitri, standardno-licenzirani motorji MIT na TextToSpeechAI. Piper je najbolj lahka in najhitrejša možnost, VITS pa ponuja veliko multizvočnično knjižnico (vključno z VCTK) z nekoliko bolj naravnimi prozodi. Ne podpira kloniranja glasu.

VITS je standardni motor, ki stane 10 kreditov na 1000 znakov. To je najnižji cenovni nivo zahvaljujoč učinkoviti, hiteremu naravi modela VITS.

VITS ustvarja zvok pri 22050Hz na samem. K TextToSpeechAI lahko zahtevate MP3, WAV ali OGG formate, z avtomatskim pretvorbo, ki se upravlja za vas.

Prijavite se na TextToSpeechAI, da prejmete brezplačne zagonske kredite, nato izberite glas VITS, vnesite svoje besedilo in ustvarite zvok. Lahko tudi uporabite demo za slišati VITS pred ustvarjanjem računa, in dostop VITS skozi naš REST API, ko se prijavite.

Technical Specs

  • Generation Speed Very Fast
  • Output Quality Good
  • Voice Cloning Not Supported
  • Languages 10
  • GPU VRAM 1-2GB
  • Credits/1000 chars 10

Try VITS Now

Generate your first audio free. No credit card required.

Start Free