VITS

Standard

Greiti ištisiniai TTS su natūralia kalba

Very Fast Greitis
Good Kokybė
Ne Klonavimas
10 Kalbos

Apie VITS

VITS (Varijų išvada su priešpriešiniu mokymusi iš galo į eilę teksto į eilę) yra greitas, visiškai nervinis TTS modelis, kuris sukuria natūralų garsą. Jis sujungia skirtingus auto-enkoderius su antiversariniu mokymu efektyviai sintezei. VITS puikiai tinka partijų apdorojimui ir programoms, reikalaujančioms tiek kokybės, tiek greičio.

Pagrindinės savybės

Greita sintezė

Visai architektūra greito kalbėjimo kartai.

Partijos perdirbimas

Veiksmingai vienu metu apdorojame kelis tekstus.

Natūralus kalbėjimas

VAE+GAN mokymas gamina natūralią prozodiją ir ritmą.

Daugiakalbis

Vienas modelis palaiko daug garsiakalbių.

Veiksminga

Žemas atminties pėdsakas su geromis charakteristikomis.

Atverti šaltinį

MIT licencijuotas bet kokiam naudojimo atvejui.

Naudoti atvejus

Išsamus garso generavimas E. mokymosi platformos Naujienų skaitytuvai Automatiniai skelbimai IVR sistemos Didelio tūrio turinys

VITS Voices

View All 109
LJSpeech (English Female)
EN
VCTK Speaker 225 (English Female)
EN
VCTK Speaker 226 (English Male)
EN
VCTK Speaker 227 (English Male)
EN
VCTK Speaker 228 (English Female)
EN
VCTK Speaker 229
EN
VCTK Speaker 230
EN
VCTK Speaker 231
EN
VCTK Speaker 232
EN
VCTK Speaker 233
EN
VCTK Speaker 234
EN
VCTK Speaker 236
EN

Kaip vartoti VITS

  1. 1

    Užsiregistruoti nemokamai arba išbandyti demo

    Sukurti nemokamą TextToSpeechAI paskyrą, kad gautumėte starterio kreditus, arba naudoti on-lapyje demo išgirsti VITS prieš užsiregistravimą.

  2. 2

    Pasirinkite VITS balso arba garsiakalbio

    Naršykite balso biblioteką ir pasirinkite balsą, pažymėtą VITS ženklu. Daugiakalbio VITS biblioteka, įskaitant VCTK garsiakalbio rinkinį, leidžia pasirinkti iš daugelio skirtingų balsų.

  3. 3

    Įveskite savo tekstą

    Įveskite arba įklijuokite tekstą, kurį norite kalbėti redaktoriuje. VITS tvarko ilgas praėjimas gerai ir yra idealus partijos ir didelio tūrio turinio.

  4. 4

    Generuoti garsą

    Spustelėkite generuoti sintezuoti kalbą su VITS. Kadangi VITS yra labai greitai ir standartas lygis (10 kreditai 1000 simbolių), rezultatai greitai grįžti pigiai.

  5. 5

    Atsisiųsti arba naudoti API

    Atsisiųskite baigtą garsą kaip MP3, WAV, arba OGG, arba skambinkite tą patį VITS balso per TextToSpeechAI REST API Automate generuoti savo prašymą.

VITS API

Generuoti kalbos programuoja naudojant TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "VITS teikia greitą, natūralų kalbą dideliam kiekiui.",
    "voice": "vits-ljspeech"
  }'

Dažnai užduodami klausimai

VITS (Varijų išvada su priešpriešiniu mokymusi "end-to-end Text-to-Speech") yra visiškai nervinis TTS modelis, kuris sujungia variantinį auto-inkoderį su variantine GAN mokymu. Jis sukuria natūralų garsą, todėl jis greitai ir efektyviai. VITS galima išbandyti nemokamai TextToSpeechAI.

Taip, VITS yra atviras šaltinis pagal MIT licenciją, todėl ji palaiko visišką komercinį naudojimą be apribojimų. Jis plačiai naudojamas komerciniams produktams ir paslaugoms. TextToSpeechAI, VITS kainuoja 10 kreditai 1000 simbolių standartinėje pakopoje.

TextToSpeechAI siūlo didelį daugiakalbio VITS biblioteką, įskaitant VCTK balso rinkinį su dešimtis skirtingų anglų kalbėtojų. Vieno VITS modelio garsiakalbiai gali būti priimti, todėl galite rinktis iš daugelio skirtingų balsų be variklio keitimo.

VITS palaikymas priklauso nuo apmokyto modelio. Bendri VITS modeliai apima anglų, kinų, japonų, korėjiečių, vokiečių, prancūzų ir kitų pagrindinių kalbų, su daugiakalbio anglų kalbos aprėptis iš VCTK duomenų rinkinys.

VITS yra labai greitas, generuojantis kalbą realiu laiku ar greičiau GPU. Jo galo-to-end architektūra išvengia daugelio kitų modelių apdorojimo etapų, todėl VITS yra gerai tinkami partijos ir didelio tūrio sintezei.

Ne, VITS nepalaiko balso klonavimo. Ji naudoja iš anksto parengtus daugiakalbius modelius, o ne kopijuoja tikslinį balsą iš pavyzdžio. Balso klonavimui TextToSpeechAI, vietoj to naudokite F5-TTS arba GPT-SoVITS.

VITS gamina kokybišką garsą su natūraliu prozodiumi ir ritmu. Nors tai nėra StyleTTS 2 ar Tortoise lygiu, ji siūlo puikią kokybę savo greičiui, ypač partijos perdirbimui.

VITS yra atminties efektyvumo, paprastai reikia tik kelių GB VRAM (apie 4GB). Jis veikia patogiai vartotojo GPU, ir TextToSpeechAI visi atvaizdavimo atsitinka mūsų serveriuose, todėl jums nereikia jokių aparatūros savo.

VITS ir Piper yra greiti, MIT licencijuoti standartinio lygio varikliai TextToSpeechAI m. Piper yra lengviausias ir greičiausias variantas, o VITS siūlo didelę daugiakalbę biblioteką (įskaitant VCTK) su šiek tiek natūralia prozodija. Taip pat palaiko balso klonavimą.

VITS yra standartinis variklis, kainuojantis 10 kreditų 1000 ženklų. Tai mūsų mažiausia kainodara dėl efektyvios, greitos VITS modelio prigimties.

Per TextToSpeechAI galite paprašyti MP3, WAV, arba OGG formatais, su automatiniu konversijos tvarko jums.

Užsiregistruokite TextToSpeechAI, kad gautumėte nemokamą starterio kreditą, tada pasirinkite VITS balso, įveskite savo tekstą ir generuokite garsą. Taip pat galite naudoti demo išgirsti VITS prieš sukuriant paskyrą, ir gauti VITS per mūsų REST API, kai jūs užsiregistruojate.

Technical Specs

  • Generation Speed Very Fast
  • Output Quality Good
  • Voice Cloning Not Supported
  • Languages 10
  • GPU VRAM 1-2GB
  • Credits/1000 chars 10

Try VITS Now

Generate your first audio free. No credit card required.

Start Free