VITS
StandardTTS rápido de extremo a extremo con habla natural
Acerca de VITS
VITS (Inferencia Variacional con aprendizaje contradictorio para texto a voz de extremo a extremo) es un modelo de TTS neural rápido, de extremo a extremo que genera un sonido natural. Combina autoencoders variacionales con entrenamiento contradictorio para una síntesis eficiente. VITS es excelente para el procesamiento por lotes y aplicaciones que requieren calidad y velocidad.
Características principales
Síntesis rápida
Arquitectura de extremo a extremo para la generación rápida del habla.
Procesamiento por lotes
Procesar eficientemente varios textos simultáneamente.
Discurso natural
El entrenamiento VAE+GAN produce prosodia natural y ritmo.
Multi-hablante
Un solo modelo soporta múltiples voces de altavoces.
Eficiente
Baja huella de memoria con buen rendimiento.
Código abierto
MIT licenciado para cualquier caso de uso.
Casos de uso
VITS Voices
View All 109LJSpeech (English Female)
ENVCTK Speaker 225 (English Female)
ENVCTK Speaker 226 (English Male)
ENVCTK Speaker 227 (English Male)
ENVCTK Speaker 228 (English Female)
ENVCTK Speaker 229
ENVCTK Speaker 230
ENVCTK Speaker 231
ENVCTK Speaker 232
ENVCTK Speaker 233
ENVCTK Speaker 234
ENVCTK Speaker 236
ENCómo usar VITS
-
1
Regístrate gratis o prueba la demo
Crear una cuenta gratuita TextToSpeechAI para obtener créditos de inicio, o utilizar la demo en la página para escuchar VITS antes de registrarse.
-
2
Elija una voz o un altavoz VITS
Explore la biblioteca de voz y elija una voz marcada con la insignia VITS. La biblioteca VITS multi-parlante, incluyendo el conjunto de altavoces VCTK, le permite seleccionar entre muchas voces distintas.
-
3
Introduzca su texto
Escriba o pegue el texto que desea que se hable en el editor. VITS maneja bien pasajes largos y es ideal para contenido por lotes y de alto volumen.
-
4
Generar el audio
Haga clic en generar para sintetizar el habla con VITS. Debido a que VITS es muy rápido y estándar (10 créditos por 1000 caracteres), los resultados vuelven rápidamente a bajo costo.
-
5
Descargue o utilice la API
Descargue el audio terminado como MP3, WAV o OGG, o llame a la misma voz VITS a través de la API de TextToSpeechAI REST para automatizar la generación en su propia aplicación.
VITS API
Generar voz programáticamente usando la API de TextToSpeechAI REST.
curl -X POST "https://api.texttospeechai.com/v1/generate/" \
-H "Authorization: Bearer YOUR_API_TOKEN" \
-H "Content-Type: application/json" \
-d '{
"text": "VITS ofrece voz rápida y natural para aplicaciones de alto volumen.",
"voice": "vits-ljspeech"
}'
Preguntas frecuentes
Technical Specs
- Generation Speed Very Fast
- Output Quality Good
- Voice Cloning Not Supported
- Languages 10
- GPU VRAM 1-2GB
- Credits/1000 chars 10