VITS

Standard

TTS rápido de extremo a extremo con habla natural

Probar gratis VITS Navegando por Voces (109)

Very Fast Velocidad

Good Calidad

No Clonación

10 Idiomas

Acerca de VITS

VITS (Inferencia Variacional con aprendizaje contradictorio para texto a voz de extremo a extremo) es un modelo de TTS neural rápido, de extremo a extremo que genera un sonido natural. Combina autoencoders variacionales con entrenamiento contradictorio para una síntesis eficiente. VITS es excelente para el procesamiento por lotes y aplicaciones que requieren calidad y velocidad.

Características principales

Síntesis rápida

Arquitectura de extremo a extremo para la generación rápida del habla.

Procesamiento por lotes

Procesar eficientemente varios textos simultáneamente.

Discurso natural

El entrenamiento VAE+GAN produce prosodia natural y ritmo.

Multi-hablante

Un solo modelo soporta múltiples voces de altavoces.

Eficiente

Baja huella de memoria con buen rendimiento.

Código abierto

MIT licenciado para cualquier caso de uso.

Casos de uso

Generación de audio por lotes Plataformas de aprendizaje electrónico Lectores de noticias Anuncios automatizados Sistemas IVR Contenido de alto volumen

VITS Voices

View All 109

LJSpeech (English Female)

VCTK Speaker 225 (English Female)

VCTK Speaker 226 (English Male)

VCTK Speaker 227 (English Male)

VCTK Speaker 228 (English Female)

VCTK Speaker 229

VCTK Speaker 230

VCTK Speaker 231

VCTK Speaker 232

VCTK Speaker 233

VCTK Speaker 234

VCTK Speaker 236

Cómo usar VITS

1

Regístrate gratis o prueba la demo

Crear una cuenta gratuita TextToSpeechAI para obtener créditos de inicio, o utilizar la demo en la página para escuchar VITS antes de registrarse.
2

Elija una voz o un altavoz VITS

Explore la biblioteca de voz y elija una voz marcada con la insignia VITS. La biblioteca VITS multi-parlante, incluyendo el conjunto de altavoces VCTK, le permite seleccionar entre muchas voces distintas.
3

Introduzca su texto

Escriba o pegue el texto que desea que se hable en el editor. VITS maneja bien pasajes largos y es ideal para contenido por lotes y de alto volumen.
4

Generar el audio

Haga clic en generar para sintetizar el habla con VITS. Debido a que VITS es muy rápido y estándar (10 créditos por 1000 caracteres), los resultados vuelven rápidamente a bajo costo.
5

Descargue o utilice la API

Descargue el audio terminado como MP3, WAV o OGG, o llame a la misma voz VITS a través de la API de TextToSpeechAI REST para automatizar la generación en su propia aplicación.

VITS API

Generar voz programáticamente usando la API de TextToSpeechAI REST.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "VITS ofrece voz rápida y natural para aplicaciones de alto volumen.",
    "voice": "vits-ljspeech"
  }'

Leer los documentos de API Obtener su clave de API

Preguntas frecuentes

VITS (Inferencia Variacional con aprendizaje contradictorio para texto a voz de extremo a extremo) es un modelo de TTS neuronal de extremo a extremo que combina un autoencoder variacional con entrenamiento GAN contradictorio. Genera un sonido natural en un solo pase, lo que lo hace rápido y eficiente. Puede probar VITS libre en TextToSpeechAI.

Sí, VITS es de código abierto bajo la licencia MIT, por lo que es compatible con el uso comercial completo sin restricciones. Se utiliza ampliamente en productos y servicios comerciales. En TextToSpeechAI, VITS cuesta 10 créditos por 1000 caracteres en el nivel estándar.

TextToSpeechAI ofrece una gran biblioteca VITS multi-parlante, incluyendo el conjunto de voz VCTK con docenas de hablantes de inglés distintos. Un único modelo VITS puede albergar muchos altavoces, por lo que puede elegir entre muchas voces diferentes sin cambiar los motores.

El soporte VITS depende del modelo entrenado. Los modelos VITS comunes cubren inglés, chino, japonés, coreano, alemán, francés y otros idiomas principales, con cobertura de múltiples hablantes del conjunto de datos VCTK.

VITS es muy rápido, generando voz en tiempo real o más rápido en una GPU. Su arquitectura de extremo a extremo evita las múltiples etapas de procesamiento de otros modelos, por lo que VITS es muy adecuado para la síntesis por lotes y de alto volumen.

No, VITS no es compatible con la clonación de voz. Utiliza modelos multiparlantes pre-entrenados en lugar de copiar una voz de destino de una muestra. Para la clonación de voz en TextToSpeechAI, utilice F5-TTS o GPT-SoVITS en su lugar.

VITS produce audio de buena calidad con prosodia natural y ritmo. Aunque no está al nivel de StyleTTS 2 o Tortuga, ofrece una excelente calidad por su velocidad, especialmente para el procesamiento por lotes.

VITS es eficiente en memoria, por lo general necesita sólo unos pocos GB de VRAM (alrededor de 4 GB). Funciona cómodamente en GPUs de consumo, y en TextToSpeechAI todo el renderizado ocurre en nuestros servidores para que no necesite ningún hardware propio.

VITS y Piper son motores rápidos de nivel estándar con licencia MIT en TextToSpeechAI. Piper es la opción más ligera y rápida, mientras que VITS ofrece una gran biblioteca multi-parlante (incluyendo VCTK) con una prosodia ligeramente más natural.

VITS es un motor estándar, con un coste de 10 créditos por cada 1000 caracteres. Este es nuestro nivel de precios más bajo gracias a la naturaleza eficiente y rápida del modelo VITS.

VITS genera audio a 22050Hz de forma nativa. A través de TextToSpeechAI puede solicitar formatos MP3, WAV o OGG, con conversión automática manejada para usted.

Regístrese en TextToSpeechAI para recibir créditos de inicio gratuitos, luego elija una voz VITS, introduzca su texto y genere audio. También puede utilizar la demo para escuchar VITS antes de crear una cuenta, y acceder a VITS a través de nuestra API REST una vez que se registre.

Technical Specs

Generation Speed Very Fast
Output Quality Good
Voice Cloning Not Supported
Languages 10
GPU VRAM 1-2GB
Credits/1000 chars 10

Try VITS Now

Generate your first audio free. No credit card required.

Start Free

Other TTS Engines

VITS

Acerca de VITS

Características principales

Síntesis rápida

Procesamiento por lotes

Discurso natural

Multi-hablante

Eficiente

Código abierto

Casos de uso

VITS Voices

LJSpeech (English Female)

VCTK Speaker 225 (English Female)

VCTK Speaker 226 (English Male)

VCTK Speaker 227 (English Male)

VCTK Speaker 228 (English Female)

VCTK Speaker 229

VCTK Speaker 230

VCTK Speaker 231

VCTK Speaker 232

VCTK Speaker 233

VCTK Speaker 234

VCTK Speaker 236

Cómo usar VITS

Regístrate gratis o prueba la demo

Elija una voz o un altavoz VITS

Introduzca su texto

Generar el audio

Descargue o utilice la API

VITS API

Preguntas frecuentes

¿Qué es VITS TTS?

¿Es VITS gratuito para uso comercial?

¿Cuántas voces VITS hay?

¿Qué idiomas soporta VITS?

¿Qué tan rápido es VITS?

¿Es compatible VITS con la clonación de voz?

¿Cuál es la calidad de audio de VITS?

¿Cuánta memoria de GPU necesita VITS?

VITS vs Piper: ¿cuál debo usar?

¿Cuántos créditos cuesta VITS en TextToSpeechAI?

¿Qué formatos de audio produce VITS?

¿Cómo puedo probar VITS gratis?

Technical Specs

Try VITS Now

Other TTS Engines

Corteza

Chatterbox

CosyVoice2