Informazioni VITS
VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) è un modello TTS neurale veloce ed end-to-end che genera un linguaggio naturale. Combina autoencoder varianti con un addestramento adversarial per una sintesi efficiente. VITS è eccellente per l'elaborazione in batch e applicazioni che richiedono sia qualità che velocità.
Caratteristiche chiave
Sintesi rapida
Architettura end-to-end per la generazione rapida del discorso.
Elaborazione lotti
Elaborare efficacemente più testi contemporaneamente.
Discorso naturale
L'allenamento VAE+GAN produce prosodia e ritmo naturali.
Multi-speaker
Il modello singolo supporta più voci di altoparlanti.
Efficiente
Basso ingombro di memoria con buone prestazioni.
Open Source
MIT autorizzato per qualsiasi caso d'uso.
Casi di utilizzo
VITS Voices
View All 109LJSpeech (English Female)
ENVCTK Speaker 225 (English Female)
ENVCTK Speaker 226 (English Male)
ENVCTK Speaker 227 (English Male)
ENVCTK Speaker 228 (English Female)
ENVCTK Speaker 229
ENVCTK Speaker 230
ENVCTK Speaker 231
ENVCTK Speaker 232
ENVCTK Speaker 233
ENVCTK Speaker 234
ENVCTK Speaker 236
ENCome usare VITS
-
1
Iscriviti gratis o prova la demo
Crea un account gratuito TextToSpeechAI per ottenere crediti di avviamento, o usa la demo in-page per ascoltare VITS prima di iscriversi.
-
2
Scegli una voce o un altoparlante VITS
Sfoglia la libreria vocale e scegli una voce contrassegnata con il badge VITS. La libreria VITS multi-altoparlante, incluso il set di altoparlanti VCTK, consente di selezionare tra molte voci distinte.
-
3
Inserisci il tuo testo
Digitare o incollare il testo che si desidera parlato nell'editor. VITS gestisce passaggi lunghi bene ed è ideale per i contenuti batch e ad alto volume.
-
4
Genera l'audio
Cliccare su generare per sintetizzare il discorso con VITS. Poiché VITS è molto veloce e Standard-tier (10 crediti per 1000 caratteri), i risultati ritornano rapidamente a basso costo.
-
5
Scarica o utilizza l'API
Scarica l'audio finito come MP3, WAV, o OGG, o chiama la stessa voce VITS attraverso l'API TextToSpeechAI REST per automatizzare la generazione nella propria applicazione.
VITS API
Generare la parola programmaticamente usando l'API TextToSpeechAI REST.
curl -X POST "https://api.texttospeechai.com/v1/generate/" \
-H "Authorization: Bearer YOUR_API_TOKEN" \
-H "Content-Type: application/json" \
-d '{
"text": "VITS offre un discorso veloce e naturale per applicazioni ad alto volume.",
"voice": "vits-ljspeech"
}'
Domande frequenti
Technical Specs
- Generation Speed Very Fast
- Output Quality Good
- Voice Cloning Not Supported
- Languages 10
- GPU VRAM 1-2GB
- Credits/1000 chars 10