VITS

Standard

Rýchly end-to-end TTS s prirodzenou rečou

Very Fast Rýchlosť
Good Kvalita
Nie Klonovanie
10 Jazyky

O nás VITS

-efficient, and low-cost TTS model that generates natural-sounding speech. It combines variational autoencoders with adversarial learning for

Kľúčové vlastnosti produktu

Rýchla syntéza

Komplexná architektúra pre rýchle generovanie reči.

Dávkové spracovanie

Efektívne spracovanie viacerých textov súčasne.

Prirodzená reč

VAE + GAN tréning produkuje prirodzenú prosódiu a rytmus.

Multi- reproduktorový systém

Jeden model podporuje viacero hlasov reproduktorov.

Efektívny

Nízka spotreba pamäte s dobrým výkonom.

Open source softvér

MIT licencovaný pre akýkoľvek prípad použitia.

Prípady použitia

Batch Audio generácie Platformy pre e-learning Čítačky správ Automatizované oznámenia Systémy IVR Obsah s vysokým objemom

VITS Voices

View All 109
LJSpeech (English Female)
EN
VCTK Speaker 225 (English Female)
EN
VCTK Speaker 226 (English Male)
EN
VCTK Speaker 227 (English Male)
EN
VCTK Speaker 228 (English Female)
EN
VCTK Speaker 229
EN
VCTK Speaker 230
EN
VCTK Speaker 231
EN
VCTK Speaker 232
EN
VCTK Speaker 233
EN
VCTK Speaker 234
EN
VCTK Speaker 236
EN

Ako používať VITS

  1. 1

    Zaregistrujte sa zdarma alebo vyskúšajte demo

    Vytvorte si bezplatný TextToSpeechAI účet, aby ste získali štartovací kredit, alebo použite demo na stránke, aby ste počuli VITS pred registráciou.

  2. 2

    Vyberte si hlas alebo reproduktor VITS

    Prehľadávajte knižnicu hlasov a vyberte si hlas označený odznakom VITS.Knižnica VITS pre viacero reproduktorov vrátane súpravy reproduktorov VCTK vám umožňuje vybrať si z mnohých rôznych hlasov.

  3. 3

    Zadajte svoj text

    VITS zvláda dlhé pasáže a je ideálny pre dávkový a veľkoobjemový obsah, ktorý je potrebné preložiť do jazyka, ktorý je pre vás najvhodnejší.

  4. 4

    Generovanie zvuku

    Keďže VITS je veľmi rýchly a štandardný (10 kreditov za 1000 znakov), výsledky sa vrátia rýchlo a za nízku cenu.

  5. 5

    Stiahnite si alebo použite API

    Stiahnite si hotový zvuk ako MP3, WAV alebo OGG, alebo volať rovnaký VITS hlas cez TextToSpeechAI REST API automatizovať generovanie vo vašej vlastnej aplikácii.

VITS API

Generujte reč programovo pomocou rozhrania REST API TextToSpeechAI.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Technológia VITS poskytuje rýchlu a prirodzenú reč pre aplikácie s vysokým objemom.",
    "voice": "vits-ljspeech"
  }'

Často kladené otázky

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) je neurálny model TTS, ktorý kombinuje variačný autoenkóder s konkurenčným tréningom GAN. Generuje prirodzene znejúcu reč v jednom prechode, čo je rýchle a efektívne. Môžete si vyskúšať VITS zadarmo na TextToSpeechAI.

Áno, VITS je open source pod MIT licenciou, takže podporuje plné komerčné využitie bez obmedzení, je široko používaný v komerčných produktoch a službách. Na TextToSpeechAI, VITS stojí 10 kreditov za 1000 znakov na štandardnej úrovni.

TextToSpeechAI ponúka veľkú knižnicu VITS pre viacero reproduktorov, vrátane hlasovej sady VCTK s desiatkami rôznych anglických reproduktorov.Jeden model VITS môže hostiť mnoho reproduktorov, takže si môžete vybrať z mnohých rôznych hlasov bez prepínania motorov.

Podpora VITS závisí od trénovaného modelu, ale bežné modely VITS pokrývajú angličtinu, čínštinu, japončinu, kórejčinu, nemčinu, francúzštinu a ďalšie hlavné jazyky, s pokrytím angličtiny pre viacerých hovoriacich z dátového súboru VCTK.

VITS je veľmi rýchly, generuje reč v reálnom čase alebo rýchlejšie na GPU, jeho end-to-end architektúra sa vyhýba viacnásobným fázam spracovania iných modelov, preto je VITS vhodný pre dávkovú a veľkoobjemovú syntézu.

Nie, VITS nepodporuje klonovanie hlasu, používa predtrénované modely viacerých reproduktorov namiesto kopírovania cieľového hlasu zo vzorky. Pre klonovanie hlasu na TextToSpeechAI použite namiesto toho F5-TTS alebo GPT-SoVITS.

VITS produkuje kvalitný zvuk s prirodzenou prozódiou a rytmom, aj keď nie je na úrovni StyleTTS 2 alebo Tortoise, ponúka vynikajúcu kvalitu pre svoju rýchlosť, najmä pre dávkové spracovanie.

VITS je pamäťovo úsporný, typicky potrebuje len niekoľko GB VRAM (okolo 4GB), pohodlne beží na spotrebiteľských GPU a na TextToSpeechAI sa všetko vykresľovanie deje na našich serveroch, takže nepotrebujete žiadny vlastný hardvér.

VITS a Piper sú rýchle, MIT licencované štandardné jadrá na TextToSpeechAI. Piper je najľahšia a najrýchlejšia možnosť, zatiaľ čo VITS ponúka veľkú knižnicu pre viacero reproduktorov (vrátane VCTK) s trochu prirodzenejšou prozódiou. Ani jeden z nich nepodporuje klonovanie hlasu.

VITS je štandardný engine, ktorý stojí 10 kreditov za 1000 znakov, čo je naša najnižšia cenová úroveň vďaka efektívnej a rýchlej povahe modelu VITS.

VITS generuje audio pri 22050Hz natívne, cez TextToSpeechAI môžete požiadať MP3, WAV alebo OGG formáty, s automatickou konverziou spracované pre vás.

Zaregistrujte sa na TextToSpeechAI, aby ste získali bezplatné kredity, potom si vyberte VITS hlas, zadajte text a generujte zvuk. Môžete tiež použiť demo, aby ste si vypočuli VITS pred vytvorením účtu a po prihlásení sa k VITS prostredníctvom REST API.

Technical Specs

  • Generation Speed Very Fast
  • Output Quality Good
  • Voice Cloning Not Supported
  • Languages 10
  • GPU VRAM 1-2GB
  • Credits/1000 chars 10

Try VITS Now

Generate your first audio free. No credit card required.

Start Free