VITS

Standard

Fast End-to-End TTS s přírodní řečí

Very Fast Rychlost
Good Kvalita
Ne. Klonování
10 Jazyky

O aplikaci VITS

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) je rychlý, konečný neurální TTS model, který generuje přirozeně znějící řeč. Kombinuje variační autokodéry s adversarial školením pro efektivní syntézu. VITS je vynikající pro dávkové zpracování a aplikace vyžadující jak kvalitu, tak rychlost.

Klíčové funkce

Rychlá syntéza

Architektura ke konci pro rychlou tvorbu řečí.

Zpracování šarže

Efektivně zpracováváme více textů současně.

Přírodní mluva

Výcvik VAE+GAN vytváří přírodní prosody a rytmus.

Víceproudový reproduktor

Jednotlivý model podporuje vícehlasy reproduktorů.

Efektivní

Nízká paměťová stopa s dobrým výkonem.

Otevřít zdroj

MIT licencované pro jakýkoli případ použití.

Pouzdra na použití

Audio generování šarže E-Learning Platforms Čtečky novinek Automatická oznámení IVR systémy High-Volume Content

VITS Voices

View All 109
LJSpeech (English Female)
EN
VCTK Speaker 225 (English Female)
EN
VCTK Speaker 226 (English Male)
EN
VCTK Speaker 227 (English Male)
EN
VCTK Speaker 228 (English Female)
EN
VCTK Speaker 229
EN
VCTK Speaker 230
EN
VCTK Speaker 231
EN
VCTK Speaker 232
EN
VCTK Speaker 233
EN
VCTK Speaker 234
EN
VCTK Speaker 236
EN

Jak se používá VITS

  1. 1

    Zaregistrujte se zdarma nebo vyzkoušejte demo

    Vytvořit zdarma TextToSpeechAI účet pro získání startér kreditů, nebo pomocí on-page demo slyšet VITS před přihlášením.

  2. 2

    Vyberte VITS hlas nebo reproduktor

    Prohlédněte si hlasovou knihovnu a vyberte si hlas označený odznakem VITS. Multi-speaker VITS knihovna, včetně VCTK reproduktor set, vám umožní vybrat z mnoha různých hlasů.

  3. 3

    Zadejte svůj text

    Zadejte nebo vložte text, který chcete přeložit do editoru. VITS zvládá dlouhé pasáže dobře a je ideální pro dávkové a velkoobjemové obsahy.

  4. 4

    Generovat zvuk

    Klikněte na tlačítko generovat syntetizovat řeč s VITS. Vzhledem k tomu, VITS je velmi rychlý a Standard-tier (10 kreditů na 1000 znaků), výsledky se rychle vrátí za nízké náklady.

  5. 5

    Stáhnout nebo použít API

    Stáhněte si hotový zvuk jako MP3, WAV, nebo OGG, nebo volejte stejný VITS hlas přes TextToSpeechAI REST API automatizovat generaci ve své vlastní aplikaci.

VITS API

Generovat řeč programově pomocí TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "VITS přináší rychlou, přirozenou řeč pro velkoobjemové aplikace.",
    "voice": "vits-ljspeech"
  }'

Často kladené otázky

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) je konečný neurální TTS model, který kombinuje variační autoenkodér s adversarial GAN školení. Vytváří přirozený-zpívající projev v jednom průchodu, který dělá to rychlé a efektivní. Můžete vyzkoušet VITS zdarma na TextToSpeechAI.

Ano, VITS je open-source pod licencí MIT, takže podporuje plné komerční využití bez omezení. Je široce používán v komerčních produktech a službách. Na TextToSpeechAI, VITS stojí 10 kreditů na 1000 znaků na standardní úrovni.

TextToSpeechAI nabízí velkou multi-speaker VITS knihovnu, včetně VCTK hlasové sady s desítkami různých anglických reproduktorů. Jeden model VITS může hostit mnoho reproduktorů, takže si můžete vybrat z mnoha různých hlasů bez přepínání motorů.

Podpora VITS závisí na školeném modelu. Společné modely VITS pokrývají angličtinu, čínštinu, japonštinu, korejštinu, němčinu, francouzštinu a další hlavní jazyky, s více reproduktorovým anglickým pokrytím z VCTK datového souboru.

VITS je velmi rychlý, generuje řeč v reálném čase nebo rychleji na GPU. Jeho konečná architektura se vyhýbá několika fázím zpracování jiných modelů, což je důvod, proč je VITS vhodný pro dávkové a velkoobjemové syntézy.

Ne, VITS nepodporuje klonování hlasu. Používá předtrénované multi-speaker modely spíše než kopírování cílového hlasu ze vzorku. Pro klonování hlasu na TextToSpeechAI, použijte F5-TTS nebo GPT-SoviTS místo.

VITS produkuje kvalitní zvuk s přírodním prosodiem a rytmem. I když není na úrovni Styletts 2 nebo Tortoise, nabízí vynikající kvalitu pro svou rychlost, zejména pro dávkové zpracování.

VITS je paměťově efektivní, obvykle potřebuje jen několik GB VRAM (kolem 4 GB). Běží pohodlně na spotřebitelských GPU a na TextToSpeechAI všech vykreslování se děje na našich serverech, takže nepotřebujete žádný vlastní hardware.

VITS a Piper jsou jak rychlé, MIT-licence Standard-tier motory na TextToSpeechAI. Piper je nejlehčí a nejrychlejší možnost, zatímco VITS nabízí velkou multi-reproduktor knihovny (včetně VCTK) s mírně přirozenější prosodie. Ani podporuje klonování hlasu.

VITS je standardní motor, který stojí 10 kreditů na 1000 znaků. To je naše nejnižší úroveň cen díky efektivní, rychlé povaze modelu VITS.

VITS generuje zvuk na 22050Hz nativně. Přes TextToSpeechAI si můžete vyžádat MP3, WAV, nebo OGG formáty, s automatickou konverze zvládnuté pro vás.

Zaregistrujte se na TextToSpeechAI získat zdarma starter kreditů, pak vyberte VITS hlas, zadejte svůj text, a generovat zvuk. Můžete také použít demo slyšet VITS před vytvořením účtu, a přístup VITS prostřednictvím našeho REST API, jakmile se zaregistrujete.

Technical Specs

  • Generation Speed Very Fast
  • Output Quality Good
  • Voice Cloning Not Supported
  • Languages 10
  • GPU VRAM 1-2GB
  • Credits/1000 chars 10

Try VITS Now

Generate your first audio free. No credit card required.

Start Free