VITS

Standard

Ātrās beigu līdz galam TTS ar dabas valodu

Very Fast Ātrums
Good Kvalitāte
Klonēšana
10 Valodas

Par VITS

VITS (Variārais mācību veids ar sacīkstēm par tekstu līdz galam) ir ātrs, līdz galam veidots neironu TTS modelis, kas rada dabisku runu. Tas apvieno variācijas autonoderus ar sacīkstes apmācību efektīvai sintēzei. VITS ir lielisks partijas apstrādei un lietojumprogrammām, kas prasa gan kvalitāti, gan ātrumu.

Galvenās iezīmes

Ātra sintēze

Galīgā arhitektūra ātrai runas paaudzei.

Partijas apstrāde

Efektīvi apstrādāt vairākas teksta tekstus vienlaicīgi.

Dabiskā runa

VAE+GAN apmācība rada dabisko prozodi un ritmu.

daudzslāņu

Viens modelis atbalsta vairākas runātāju balsis.

Efektīva

Zema atmiņas pēdas vērtība ar labu veiktspēju.

Atvērt avotu

MIT licencēts jebkuram izmantošanas gadījumam.

Lietot gadījumus

Sērijas audio ģenerēšana E-mācību platformas Jaunumi Lasītāji Automātiski paziņojumi IVR sistēmas Augsta tilpuma saturs

VITS Voices

View All 109
LJSpeech (English Female)
EN
VCTK Speaker 225 (English Female)
EN
VCTK Speaker 226 (English Male)
EN
VCTK Speaker 227 (English Male)
EN
VCTK Speaker 228 (English Female)
EN
VCTK Speaker 229
EN
VCTK Speaker 230
EN
VCTK Speaker 231
EN
VCTK Speaker 232
EN
VCTK Speaker 233
EN
VCTK Speaker 234
EN
VCTK Speaker 236
EN

Kā lietot VITS

  1. 1

    Pierakstīties bezmaksas vai mēģināt demo

    Izveidot bezmaksas TextToSpeechAI kontu, lai saņemtu starter kredītu, vai izmantot on-lapas demo dzirdēt VITS pirms reģistrēšanās.

  2. 2

    Izvēlieties VITS balsi vai skaļruni

    Pārlūkojiet balss bibliotēku un izvēlieties balsi, kas apzīmēta ar VITS zīmīti. Vairāku skaļruņu VITS bibliotēka, tostarp VCTK skaļruņa komplekts, ļauj izvēlēties no daudzām atšķirīgām balsīm.

  3. 3

    Ievadiet tekstu

    Ierakstiet vai ielīmējiet tekstu, kuru vēlaties runāt redaktorā. VITS labi apstrādā garas ejas un ir ideāli piemērots partijas un liela apjoma saturam.

  4. 4

    Ģenerēt audio

    Noklikšķiniet, lai sintezētu runu ar VITS. Jo VITS ir ļoti ātri un standarta līmeņa (10 kredīti uz 1000 rakstzīmēm), rezultāti ātri atgriezīsies par zemu cenu.

  5. 5

    Lejupielādēt vai izmantot API

    Lejupielādēt pabeigto audio kā MP3, WAV, vai OGG, vai zvaniet to pašu VITS balss caur TextToSpeechAI REST API, lai automatizētu ģenerēšanu savā pieteikumā.

VITS API

Ģenerēt runas programmēti, izmantojot TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "VITS nodrošina ātru, dabīgu runu liela apjoma lietojumiem.",
    "voice": "vits-ljspeech"
  }'

Bieži uzdoti jautājumi

VITS (Varian Incompliance with sacīkstes mācīšanās gala līdz galam Teksts-to-Speech) ir gala nervu TTS modelis, kas apvieno variācijas auto-enkodētāju ar sacīkstes GAN apmācību. Tas rada dabisku un skaņas runu vienā caurlaidē, kas padara to ātru un efektīvu. VITS var izmēģināt bezmaksas TextToSpeechAI.

Jā, VITS ir atvērts avots saskaņā ar MIT licenci, tāpēc tas atbalsta pilnīgu komerciālu izmantošanu bez ierobežojumiem. To plaši izmanto komercproduktiem un pakalpojumiem. TextToSpeechAI, VITS maksā 10 kredītus uz 1000 rakstzīmēm standarta līmenī.

TextToSpeechAI piedāvā lielu multispeaktoru VITS bibliotēku, tostarp VCTK balss komplektu ar desmitiem dažādu angļu valodas skaļruņu. Vienā VITS modelī var uzņemt daudz skaļruņu, lai jūs varētu izvēlēties no daudzām dažādām balsīm bez pārslēgšanas dzinējiem.

VITS atbalsts ir atkarīgs no apmācītā modeļa. Kopīgie VITS modeļi aptver angļu, ķīniešu, japāņu, korejiešu, vācu, franču un citas galvenās valodas, izmantojot daudzskanālu angļu valodas, izmantojot VCTK datu kopumu.

VITS ir ļoti ātrs, ģenerējot runu reālajā laikā vai ātrāk par GPU. Tās visnotaļ arhitektūra izvairās no citu modeļu daudzkārtējas apstrādes, tāpēc VITS ir labi piemērots partijas un liela tilpuma sintēzei.

Nē, VITS neatbalsta balss klonēšanu. Tā vietā izmanto iepriekš sagatavotus daudzspektu modeļus, nevis atkopē mērķa balsi no parauga. Balss klonēšanai TextToSpeechAI, izmantojiet F5-TTS vai GPT-SoVITS.

VITS ražo kvalitatīvu audio ar dabisku prozodi un ritmu. Lai gan tas nav StyleTTS 2 vai Tortoise līmenī, tas piedāvā lielisku kvalitāti savai ātrumam, īpaši partijas apstrādes.

VITS ir atmiņas efektīva, parasti nepieciešams tikai dažas GB VRAM (apmēram 4GB). Tas darbojas ērti uz patērētāju GPU, un uz TextToSpeechAI visi renderēšanas notiek uz mūsu serveriem, tāpēc jums nav nepieciešama nekāda aparatūra no jūsu pašu.

VITS un Piper ir gan ātri, gan ar MIT licencētiem standarta līmeņa dzinējiem TextToSpeechAI. Piper ir visvieglākā un ātrākā opcija, savukārt VITS piedāvā lielu daudzslāņu bibliotēku (ieskaitot VCTK) ar nedaudz dabiskāku prozodi.

VITS ir standarta līmeņa motors, kas maksā 10 kredītus uz 1000 zīmēm. Tas ir mūsu zemākais cenu līmenis, pateicoties efektīvam, ātram VITS modeļam.

VITS ģenerē audio 22050Hz dzimti. Caur TextToSpeechAI jūs varat pieprasīt MP3, WAV, vai OGG formāti, ar automātisku konvertēšanu apstrādā jums.

Pierakstīties uz TextToSpeechAI, lai saņemtu bezmaksas startera kredītus, tad izvēlēties VITS balss, ievadiet tekstu un ģenerējiet audio. Varat arī izmantot demo dzirdēt VITS pirms izveidot kontu, un piekļūt VITS, izmantojot mūsu REST API pēc pieteikšanās.

Technical Specs

  • Generation Speed Very Fast
  • Output Quality Good
  • Voice Cloning Not Supported
  • Languages 10
  • GPU VRAM 1-2GB
  • Credits/1000 chars 10

Try VITS Now

Generate your first audio free. No credit card required.

Start Free