VITS

Standard

Kiire lõpp-lõpp TTS loodusliku kõnega

Very Fast Kiirus
Good Kvaliteet
Ei. Kloonimine
10 Keeled

Info VITS

VITS (Variational Inference with advariarial learning for end-to-end text-to-Speech) on kiire, otsast lõpuni neuraalne TTS mudel, mis tekitab loomuliku kõlava kõne. See ühendab variational autoencoders võistleva koolituse tõhus süntees. VITS on suurepärane partii töötlemise ja rakendused nõuavad nii kvaliteeti ja kiirust.

Peamised omadused

Kiire kokkuvõte

Lõpp-to-end arhitektuur kõne kiire põlvkonna.

Partii töötlemine

Töötleb mitut teksti üheaegselt tõhusalt.

Loomulik kõne

VAE+GAN koolitus toodab loomulikku prosoodiat ja rütmi.

Multikõlar

Üks mudel toetab mitut kõlari häält.

Tõhus

Madal mälu jalajälg hea jõudlusega.

Avatud lähtekoodiga

MIT litsentseeritud kasutamiseks mis tahes juhul.

Kasutusklassid

Partii heli genereerimine E-õppe platvormid Uudiste lugejad Automaatsed teadaanded IVR süsteemid Suure helitugevusega

VITS Voices

View All 109
LJSpeech (English Female)
EN
VCTK Speaker 225 (English Female)
EN
VCTK Speaker 226 (English Male)
EN
VCTK Speaker 227 (English Male)
EN
VCTK Speaker 228 (English Female)
EN
VCTK Speaker 229
EN
VCTK Speaker 230
EN
VCTK Speaker 231
EN
VCTK Speaker 232
EN
VCTK Speaker 233
EN
VCTK Speaker 234
EN
VCTK Speaker 236
EN

Kuidas kasutada VITS

  1. 1

    Registreeru tasuta või proovi demo

    Loo tasuta TextToSpeechAI konto saada starter krediiti, või kasutada on-page demo kuulda VITS enne registreerumist.

  2. 2

    Vali VITS hääl või kõlar

    Vajuta hääleraamatukogu ja vali VITS-märgiga hääl. Mitmehäälne VITS-i teek, kaasa arvatud VCTK-i kõlar, võimaldab valida paljudest erinevatest häältest.

  3. 3

    Sisesta oma tekst

    Kirjuta või kleebi tekst, mida soovid redaktorisse kirjutada. VITS käsitseb pikki lõike hästi ning sobib ideaalselt partii ja suuremahulise sisu jaoks.

  4. 4

    Audio genereerimine

    Kliki genereerida sünteesida kõne VITS. Kuna VITS on väga kiire ja Standard-tier (10 krediiti 1000 tähemärki), tulemused naasevad kiiresti madala hinnaga.

  5. 5

    API allalaadimine või kasutamine

    Laadige valmis heli MP3, WAV, või OGG, või helistage sama VITS hääl TextToSpeechAI REST API automatiseerida põlvkonna oma taotluse.

VITS API

Loo kõne programmiliselt kasutades TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "VITS pakub kiiret loomulikku kõnet suuremahulistele rakendustele.",
    "voice": "vits-ljspeech"
  }'

Korduma kippuvad küsimused

VITS (Variational Inference with advariarial learning for end-to-end Tekst-to-Speech) on lõputu neuraalne TTS mudel, mis ühendab variational autoencoder võistlev GAN koolitus. See tekitab loomulik kõlav kõne ühes pass, mis teeb selle kiire ja tõhus. Võite proovida VITS tasuta TextToSpeechAI.

Jah, VITS on avatud lähtekoodiga MIT litsentsi, nii et see toetab täielikku kaubanduslikku kasutamist piiranguteta. Seda kasutatakse laialdaselt kommertstoodetes ja -teenustes. TextToSpeechAI, VITS maksab 10 krediiti 1000 tähemärgi kohta standardtasemel.

TextToSpeechAI pakub suurt mitme kõlariga VITS raamatukogu, sealhulgas VCTK hääl seatud kümneid erinevaid inglise kõlarid. Üks VITS mudel võib võõrustada palju kõlarid, nii et saate valida palju erinevaid hääli ilma mootorid.

VITS-i toetus sõltub koolitatud mudelist. Ühised VITS-i mudelid hõlmavad inglise, hiina, jaapani, korea, saksa, prantsuse ja muid peamisi keeli, millel on mitmekeelse inglise keele oskus VCTK andmekogumist.

VITS on väga kiire, tekitades kõne reaalajas või kiiremini GPU. Selle lõpp-to-end arhitektuur väldib mitu töötlemise etapid teiste mudelite, mistõttu VITS sobib hästi partii ja suuremahulise sünteesi.

Ei, VITS ei toeta hääle kloonimist. Selle asemel, et kopeerida proovist sihthäält, kasutatakse eeltreenitud mitmehäälseid mudeleid. TextToSpeechAI hääle kloonimiseks kasutage selle asemel F5-TTS-i või GPT-Sovett'i.

VITS toodab kvaliteetset heli loomuliku prosoodia ja rütmiga. Kuigi see ei ole tasemel StyleTTS 2 või Tortoise, see pakub suurepärast kvaliteeti oma kiirust, eriti partii töötlemise.

VITS on mälutõhus, tavaliselt vaja ainult mõned GB VRAM (umbes 4GB). See töötab mugavalt tarbija GPU, ja TextToSpeechAI kõik renderdamine toimub meie serverid, nii et sa ei vaja riistvara oma.

VITS ja Piper on nii kiire, MIT-litsentsiga Standard-Tier mootorid TextToSpeechAI. Piper on kergeim ja kiireim võimalus, samas kui VITS pakub suurt multi-kõlar raamatukogu (sh VCTK) veidi loomulikum prosoodia. Samuti ei toeta hääl kloonimine.

VITS on standardtaseme mootor, mis maksab 10 krediiti 1000 tähemärgi kohta. See on meie madalaim hinnatase tänu VITS-mudeli tõhusale ja kiirele iseloomule.

VITS genereerib audio kell 22050Hz natively. Läbi TextToSpeechAI saate taotleda MP3, WAV, või OGG formaate, automaatse konverteerimise töödeldud teile.

Registreeru TextToSpeechAI saada tasuta starter krediiti, seejärel vali VITS hääl, sisesta teksti ja luua heli. Võite kasutada ka demo kuulda VITS enne konto loomist, ja juurdepääsu VITS kaudu meie REST API kui olete registreerunud.

Technical Specs

  • Generation Speed Very Fast
  • Output Quality Good
  • Voice Cloning Not Supported
  • Languages 10
  • GPU VRAM 1-2GB
  • Credits/1000 chars 10

Try VITS Now

Generate your first audio free. No credit card required.

Start Free