VITS

Standard

TTS de sfârșit la sfârșit rapid cu discurs natural

Very Fast Viteza
Good Calitate
Nu Clonarea
10 Limbi

Despre VITS

VITS (Inference variational with adversarial learning for end-to-end Text-to-Speeling) este un model TTS neuronal rapid, de tip final, care generează un discurs natural-sunt. Combina autoencoders variational cu antrenament adversarial pentru sinteza eficienta. VITS este excelent pentru procesarea batului si aplicatii care necesită atât calitate, cât si viteza.

Caracteristici cheie

Sinteză rapidă

Arhitectura finală pentru generarea rapidă a vorbirii.

Prelucrarea setului

Eficient procesează multiple texte simultan.

Discursul natural

Formarea VAE+GAN produce prostodie naturală și ritm.

Multi-Vorbitor

Un singur model suportă multiple voci de vorbitor.

Eficient

Amprenta de memorie scăzută cu performanţă bună.

Sursă deschisă

MIT licențiat pentru orice caz de utilizare.

Cazuri de utilizare

Generație de seturi audio Platforme de învăţare electronică Cititori Anunţări automate Sisteme IVR Conținut de volum ridicat

VITS Voices

View All 109
LJSpeech (English Female)
EN
VCTK Speaker 225 (English Female)
EN
VCTK Speaker 226 (English Male)
EN
VCTK Speaker 227 (English Male)
EN
VCTK Speaker 228 (English Female)
EN
VCTK Speaker 229
EN
VCTK Speaker 230
EN
VCTK Speaker 231
EN
VCTK Speaker 232
EN
VCTK Speaker 233
EN
VCTK Speaker 234
EN
VCTK Speaker 236
EN

Cum să utilizaţi VITS

  1. 1

    Inregistrează-te gratuit sau încercați demo

    Creați un cont TextToSpeechAI gratuit pentru a obține credite de pornire, sau folosiți demo de pe pagina pentru a auzi VITS înainte de a se înscrie.

  2. 2

    Alege o voce sau un speaker VITS

    Explorează biblioteca de voce și alege o voce marcată cu insigna VITS. Biblioteca multi-speaker VITS, inclusiv setul de vorbitor VCTK, vă permite să selectați din multe voci distincte.

  3. 3

    Introduceți textul

    Tastați sau încolțiți textul pe care doriți să îl vorbiți în editor. VITS se ocupă bine de pasajele lungi și este ideal pentru conținutul de lot și de mare volum.

  4. 4

    Generați audio

    Faceţi clic pentru a sintetiza discursul cu VITS. Deoarece VITS este foarte rapid şi Standard-tier (10 credite pe 1000 de caractere), rezultatele se returnează rapid la costul scăzut.

  5. 5

    Descărcați sau folosiți API

    Descarcă audioul terminat ca MP3, WAV, sau OGG, sau sună aceeași voce VITS prin intermediul API REST TextToSpeechAI pentru a automatiza generarea în propria aplicație.

VITS API

Generați discursul programmatic folosind API TextToSpeechAI REST.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "VITS oferă un discurs natural rapid pentru aplicații cu mare volum.",
    "voice": "vits-ljspeech"
  }'

Întrebări frecvente

VITS (Inference variational with adversarial learning for end-to-end Text-to-Speed) este un model neural TTS de tip final care combină un autoencoder variational cu formare GAN adversarial. Acesta generează un discurs natural-sunet într-un singur pas, care o face rapid și eficient. Puteți încerca VITS gratuit pe TextToSpeechAI.

Da, VITS este open-source sub licența MIT, astfel încât sprijină utilizarea comercială completă fără restricții. Este folosit în mare măsură în produse și servicii comerciale. Pe TextToSpeechAI, VITS costă 10 credite pe 1000 de caractere pe nivel standard.

TextToSpeechAI oferă o mare bibliotecă multi-speaker VITS, inclusiv setul de voce VCTK cu zeci de speakeri englezi distincti. Un singur model VITS poate găzdui mulți speaker, astfel încât să puteți alege de la multe voci diferite fără a schimba motoarele.

Suportul VITS depinde de modelul antrenat. Modelele comune VITS acoperă engleza, chineză, japoneză, coreeană, germană, franceză și alte limbi majore, cu acoperire multi-palavran din setul de date VCTK.

VITS este foarte rapid, generarea de vorbire în timp real sau mai rapid pe o GPU. Arhitectura sa de sfârșit la sfârșit evită etapele multiple de prelucrare a altor modele, motiv pentru care VITS este bine potrivit pentru sinteza lotului și de mare volum.

Nu, VITS nu suportă clonarea vocală. Folosește modele multi-speaker pre-formate, în loc de a copia o voce țintă dintr-un eșantion. Pentru clonarea vocală pe TextToSpeechAI, utilizați F5-TTS sau GPT-SoVITS în schimb.

VITS produce audio de bună calitate cu prosodie naturală și ritm. Deși nu este la nivelul StyleTTS 2 sau Tortoise, oferă o calitate excelentă pentru viteza sa, în special pentru procesarea batch-uri.

VITS este eficient de memorie, de obicei are nevoie de doar câteva GB de VRAM (prezentând 4GB). Funcționează confortabil pe GPU-urile consumatorilor, și pe TextToSpeechAI toate rendering se întâmplă pe serverele noastre astfel încât să nu aveți nevoie de nici un hardware al dvs.

ViTS şi Piper sunt motoare cu nivel standard licenţiat MIT pe TextToSpeechAI. Piper este cea mai uşoară şi cea mai rapidă opţiune, în timp ce VITS oferă o mare bibliotecă multi-parlanţi (inclusiv VCTK) cu o prostodie mai naturală. Nici nu suportă clonarea vocală.

VITS este un motor de nivel standard, care costă 10 credite pe 1000 de caractere. Acesta este cel mai mic nivel de preț, datorită caracterului eficient, rapid al modelului VITS.

VITS generează audio la 22050Hz nativ. Prin intermediul TextToSpeechAI puteți solicita MP3, WAV sau format OGG, cu conversie automată manipulată pentru tine.

Inregistreaza-te pe TextToSpeechAI pentru a primi credite de pornire gratuite, apoi alege o voce VITS, introduce textul si genera audio. Puteti folosi, de asemenea, demo pentru a auzi VITS înainte de a crea un cont, si accesa VITS prin API REST noastre odata ce vă inregistrati.

Technical Specs

  • Generation Speed Very Fast
  • Output Quality Good
  • Voice Cloning Not Supported
  • Languages 10
  • GPU VRAM 1-2GB
  • Credits/1000 chars 10

Try VITS Now

Generate your first audio free. No credit card required.

Start Free