VITS

Standard

Fast End-til-End TTS með Natural ræðu

Very Fast Hraði
Good Gæði
Nei Klóna
10 Tungumál

Um VITS

-efficient, and highly-efficient neural TTS model that generates natural-sounding speech. It combines variational autoencoders with adversarial learning for

Lykilatriði

Hröð samsetning

End-til-enda arkitektúr fyrir hratt tal kynslóð.

Hópvinnsla

Skilvirkt vinna marga texta samtímis.

Náttúruleg tala

VAE + GAN þjálfun framleiðir náttúrulega prosody og takt.

Fjölhátalarar

Einn líkan styður margar hátalara raddir.

Skilvirkt

Lágt minni fótspor með góðum árangri.

Opinn kóði

MIT leyfi fyrir hvaða notkun sem er.

Nota tilfelli

Hljóðvinnsla E-learning vettvangur FréttalesarName Sjálfvirkar tilkynningar IVR kerfi Háhljóðefni

VITS Voices

View All 109
LJSpeech (English Female)
EN
VCTK Speaker 225 (English Female)
EN
VCTK Speaker 226 (English Male)
EN
VCTK Speaker 227 (English Male)
EN
VCTK Speaker 228 (English Female)
EN
VCTK Speaker 229
EN
VCTK Speaker 230
EN
VCTK Speaker 231
EN
VCTK Speaker 232
EN
VCTK Speaker 233
EN
VCTK Speaker 234
EN
VCTK Speaker 236
EN

Hvernig á að nota VITS

  1. 1

    Skráðu þig ókeypis eða prófaðu kynninguna

    Búðu til ókeypis TextToSpeechAI reikning til að fá byrjunarpunkta, eða notaðu á síðunni kynningu til að heyra VITS áður en þú skráir þig.

  2. 2

    Veldu VITS rödd eða hátalara

    Flettu í raddsafnið og veldu rödd sem er merkt með VITS merkinu.VITS multi-hátalara safnið, þar á meðal VCTK hátalarasett, gerir þér kleift að velja úr mörgum mismunandi röddum.

  3. 3

    Sláðu inn textann þinn

    Sláðu inn eða límdu textann sem þú vilt tala í ritilinn. VITS meðhöndlar langar kafla vel og er tilvalið fyrir lotu og mikið magn efni.

  4. 4

    Búa til hljóð

    Vegna þess að VITS er mjög hratt og Standard-stig (10 einingar á 1000 stafi), niðurstöður koma aftur fljótt á litlum tilkostnaði.

  5. 5

    Hlaða niður eða nota API

    Hlaða niður fullunnum hljóð sem MP3, WAV eða OGG, eða hringdu í sömu VITS rödd í gegnum TextToSpeechAI REST API til að sjálfvirka kynslóð í eigin umsókn.

VITS API

Búa til ræðu forritunarlega með TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "VITS skilar hratt, eðlilegt tal fyrir mikið magn forrit.",
    "voice": "vits-ljspeech"
  }'

Algengar spurningar

VITS (Variation Inference with adversarial learning for end-to-end Text-to-Speech) er enda-til-enda tauga TTS líkan sem sameinar breytilega sjálfvirka kóða með andstæða GAN þjálfun. Það býr til náttúrulega hljóðandi tal í einni umferð, sem gerir það hratt og skilvirkt. Þú getur prófað VITS ókeypis á TextToSpeechAI.

Já, VITS er opinn uppspretta undir MIT leyfi, svo það styður fulla viðskipta notkun án takmarkana. Það er mikið notað í viðskiptavörum og þjónustu. Á TextToSpeechAI, VITS kostar 10 credits fyrir 1000 stafi á Standard tier.

TextToSpeechAI býður upp á stórt multi-hátalara VITS bókasafn, þar á meðal VCTK rödd sett með tugum mismunandi ensku hátalara.Einn VITS líkan getur hýst marga hátalara, svo þú getur valið úr mörgum mismunandi röddum án þess að skipta um vélar.

Algengar VITS-líkön ná yfir ensku, kínversku, japönsku, kóresku, þýsku, frönsku og önnur helstu tungumál, með ensku fyrir marga málhafa frá VCTK-gagnasettinu.

VITS er mjög hratt og býr til tal í rauntíma eða hraðar á GPU. End-to-end arkitektúr þess forðast fjölbreytt vinnslustig annarra líkana, sem er ástæðan fyrir því að VITS er vel til þess fallið að batch og stórt magn myndun.

Nei, VITS styður ekki raddklónun. Það notar fyrirþjálfuð fjölhátalaralíkön frekar en að afrita markrödd úr sýni. Til raddklónunar á TextToSpeechAI skaltu nota F5- TTS eða GPT- SoVITS í staðinn.

VITS framleiðir góða hljóð með náttúrulegum prosody og takt.Þó að það sé ekki á stigi StyleTTS 2 eða Tortoise, það býður upp á framúrskarandi gæði fyrir hraða þess, sérstaklega fyrir lotuvinnslu.

VITS er minnissparandi, þarf venjulega aðeins nokkra GB af VRAM (um 4GB). Það keyrir þægilega á GPU neytenda, og á TextToSpeechAI fer öll gerð á netþjónum okkar svo þú þarft ekki neinn vélbúnað sjálfur.

VITS og Piper eru báðar hraðar, MIT- leyfis Standard- tier vélar á TextToSpeechAI. Piper er léttasti og hraðasti kosturinn, á meðan VITS býður upp á stórt fjölhátalara safn (þ.m.t. VCTK) með örlítið náttúrulegri hljóðfræði. Hvorugt styður raddklónun.

VITS er Standard-tier vél, kostar 10 einingar á 1000 stafi.Þetta er lægsta verðlagning stigi okkar þökk sé skilvirka, hratt eðli VITS líkansins.

VITS býr til hljóð á 22050Hz innfæddur.Með TextToSpeechAI er hægt að biðja um MP3, WAV eða OGG snið, með sjálfvirkum viðskiptum meðhöndluð fyrir þig.

Skráðu þig á TextToSpeechAI til að fá ókeypis upphafspunkta, veldu síðan VITS rödd, sláðu inn textann þinn og búðu til hljóð. Þú getur einnig notað kynninguna til að heyra VITS áður en þú býrð til reikning og opna VITS í gegnum REST API okkar þegar þú skráir þig.

Technical Specs

  • Generation Speed Very Fast
  • Output Quality Good
  • Voice Cloning Not Supported
  • Languages 10
  • GPU VRAM 1-2GB
  • Credits/1000 chars 10

Try VITS Now

Generate your first audio free. No credit card required.

Start Free