VITES
StandardTTS de bout en bout avec un discours naturel
À propos VITES
VITS (Variational Inférence with adversarial learning for bout-to-end Text-to-Speech) est un modèle TTS neuronal rapide et de bout en bout qui génère des paroles sonores naturelles. Il combine des auto-encodeurs variationnels avec une formation adversaire pour une synthèse efficace. VITS est excellent pour le traitement par lots et les applications nécessitant à la fois qualité et vitesse.
Caractéristiques principales
Synthèse rapide
Architecture de bout en bout pour une génération rapide de la parole.
Traitement par lots
Traiter efficacement plusieurs textes simultanément.
Discours naturel
La formation VAE+GAN produit la prosodie et le rythme naturels.
Haut-parleur multi-parleurs
Un modèle unique prend en charge plusieurs voix de haut-parleurs.
Efficacité
Faible empreinte mémoire avec de bonnes performances.
Source ouverte
MIT autorisé pour tout cas d'utilisation.
Cas d'utilisation
VITES Voices
View All 109LJSpeech (English Female)
ENVCTK Speaker 225 (English Female)
ENVCTK Speaker 226 (English Male)
ENVCTK Speaker 227 (English Male)
ENVCTK Speaker 228 (English Female)
ENVCTK Speaker 229
ENVCTK Speaker 230
ENVCTK Speaker 231
ENVCTK Speaker 232
ENVCTK Speaker 233
ENVCTK Speaker 234
ENVCTK Speaker 236
ENComment utiliser VITES
-
1
Inscrivez-vous gratuitement ou essayez la démo
Créez un compte gratuit TextToSpeechAI pour obtenir des crédits de démarrage, ou utilisez la démo sur la page pour entendre VITS avant de vous inscrire.
-
2
Choisissez une voix ou un haut-parleur VITS
Parcourez la bibliothèque vocale et choisissez une voix marquée avec le badge VITS. La bibliothèque VITS multi-parleurs, y compris le jeu de haut-parleurs VCTK, vous permet de sélectionner parmi de nombreuses voix distinctes.
-
3
Saisissez votre texte
Tapez ou collez le texte que vous voulez parler dans l'éditeur. VITS gère bien les longs passages et est idéal pour le contenu en lots et en volume élevé.
-
4
Générer l'audio
Cliquez sur générer pour synthétiser la parole avec VITS. Parce que VITS est très rapide et standard (10 crédits par 1000 caractères), les résultats reviennent rapidement à faible coût.
-
5
Télécharger ou utiliser l'API
Téléchargez l'audio fini en MP3, WAV ou OGG, ou appelez la même voix VITS via l'API REST TextToSpeechAI pour automatiser la génération dans votre propre application.
VITES API
Générer des discours programmatiques en utilisant l'API TextToSpeechAI REST.
curl -X POST "https://api.texttospeechai.com/v1/generate/" \
-H "Authorization: Bearer YOUR_API_TOKEN" \
-H "Content-Type: application/json" \
-d '{
"text": "VITS offre une parole rapide et naturelle pour des applications à grand volume.",
"voice": "vits-ljspeech"
}'
Foire aux questions
Technical Specs
- Generation Speed Very Fast
- Output Quality Good
- Voice Cloning Not Supported
- Languages 10
- GPU VRAM 1-2GB
- Credits/1000 chars 10