VITS

Standard

TTS rápido de extremo a extremo con habla natural

Very Fast Velocidad
Good Calidad
No Clonación
10 Idiomas

Acerca de VITS

VITS (Inferencia Variacional con aprendizaje contradictorio para texto a voz de extremo a extremo) es un modelo de TTS neural rápido, de extremo a extremo que genera un sonido natural. Combina autoencoders variacionales con entrenamiento contradictorio para una síntesis eficiente. VITS es excelente para el procesamiento por lotes y aplicaciones que requieren calidad y velocidad.

Características principales

Síntesis rápida

Arquitectura de extremo a extremo para la generación rápida del habla.

Procesamiento por lotes

Procesar eficientemente varios textos simultáneamente.

Discurso natural

El entrenamiento VAE+GAN produce prosodia natural y ritmo.

Multi-hablante

Un solo modelo soporta múltiples voces de altavoces.

Eficiente

Baja huella de memoria con buen rendimiento.

Código abierto

MIT licenciado para cualquier caso de uso.

Casos de uso

Generación de audio por lotes Plataformas de aprendizaje electrónico Lectores de noticias Anuncios automatizados Sistemas IVR Contenido de alto volumen

VITS Voices

View All 109
LJSpeech (English Female)
EN
VCTK Speaker 225 (English Female)
EN
VCTK Speaker 226 (English Male)
EN
VCTK Speaker 227 (English Male)
EN
VCTK Speaker 228 (English Female)
EN
VCTK Speaker 229
EN
VCTK Speaker 230
EN
VCTK Speaker 231
EN
VCTK Speaker 232
EN
VCTK Speaker 233
EN
VCTK Speaker 234
EN
VCTK Speaker 236
EN

Cómo usar VITS

  1. 1

    Regístrate gratis o prueba la demo

    Crear una cuenta gratuita TextToSpeechAI para obtener créditos de inicio, o utilizar la demo en la página para escuchar VITS antes de registrarse.

  2. 2

    Elija una voz o un altavoz VITS

    Explore la biblioteca de voz y elija una voz marcada con la insignia VITS. La biblioteca VITS multi-parlante, incluyendo el conjunto de altavoces VCTK, le permite seleccionar entre muchas voces distintas.

  3. 3

    Introduzca su texto

    Escriba o pegue el texto que desea que se hable en el editor. VITS maneja bien pasajes largos y es ideal para contenido por lotes y de alto volumen.

  4. 4

    Generar el audio

    Haga clic en generar para sintetizar el habla con VITS. Debido a que VITS es muy rápido y estándar (10 créditos por 1000 caracteres), los resultados vuelven rápidamente a bajo costo.

  5. 5

    Descargue o utilice la API

    Descargue el audio terminado como MP3, WAV o OGG, o llame a la misma voz VITS a través de la API de TextToSpeechAI REST para automatizar la generación en su propia aplicación.

VITS API

Generar voz programáticamente usando la API de TextToSpeechAI REST.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "VITS ofrece voz rápida y natural para aplicaciones de alto volumen.",
    "voice": "vits-ljspeech"
  }'

Preguntas frecuentes

VITS (Inferencia Variacional con aprendizaje contradictorio para texto a voz de extremo a extremo) es un modelo de TTS neuronal de extremo a extremo que combina un autoencoder variacional con entrenamiento GAN contradictorio. Genera un sonido natural en un solo pase, lo que lo hace rápido y eficiente. Puede probar VITS libre en TextToSpeechAI.

Sí, VITS es de código abierto bajo la licencia MIT, por lo que es compatible con el uso comercial completo sin restricciones. Se utiliza ampliamente en productos y servicios comerciales. En TextToSpeechAI, VITS cuesta 10 créditos por 1000 caracteres en el nivel estándar.

TextToSpeechAI ofrece una gran biblioteca VITS multi-parlante, incluyendo el conjunto de voz VCTK con docenas de hablantes de inglés distintos. Un único modelo VITS puede albergar muchos altavoces, por lo que puede elegir entre muchas voces diferentes sin cambiar los motores.

El soporte VITS depende del modelo entrenado. Los modelos VITS comunes cubren inglés, chino, japonés, coreano, alemán, francés y otros idiomas principales, con cobertura de múltiples hablantes del conjunto de datos VCTK.

VITS es muy rápido, generando voz en tiempo real o más rápido en una GPU. Su arquitectura de extremo a extremo evita las múltiples etapas de procesamiento de otros modelos, por lo que VITS es muy adecuado para la síntesis por lotes y de alto volumen.

No, VITS no es compatible con la clonación de voz. Utiliza modelos multiparlantes pre-entrenados en lugar de copiar una voz de destino de una muestra. Para la clonación de voz en TextToSpeechAI, utilice F5-TTS o GPT-SoVITS en su lugar.

VITS produce audio de buena calidad con prosodia natural y ritmo. Aunque no está al nivel de StyleTTS 2 o Tortuga, ofrece una excelente calidad por su velocidad, especialmente para el procesamiento por lotes.

VITS es eficiente en memoria, por lo general necesita sólo unos pocos GB de VRAM (alrededor de 4 GB). Funciona cómodamente en GPUs de consumo, y en TextToSpeechAI todo el renderizado ocurre en nuestros servidores para que no necesite ningún hardware propio.

VITS y Piper son motores rápidos de nivel estándar con licencia MIT en TextToSpeechAI. Piper es la opción más ligera y rápida, mientras que VITS ofrece una gran biblioteca multi-parlante (incluyendo VCTK) con una prosodia ligeramente más natural.

VITS es un motor estándar, con un coste de 10 créditos por cada 1000 caracteres. Este es nuestro nivel de precios más bajo gracias a la naturaleza eficiente y rápida del modelo VITS.

VITS genera audio a 22050Hz de forma nativa. A través de TextToSpeechAI puede solicitar formatos MP3, WAV o OGG, con conversión automática manejada para usted.

Regístrese en TextToSpeechAI para recibir créditos de inicio gratuitos, luego elija una voz VITS, introduzca su texto y genere audio. También puede utilizar la demo para escuchar VITS antes de crear una cuenta, y acceder a VITS a través de nuestra API REST una vez que se registre.

Technical Specs

  • Generation Speed Very Fast
  • Output Quality Good
  • Voice Cloning Not Supported
  • Languages 10
  • GPU VRAM 1-2GB
  • Credits/1000 chars 10

Try VITS Now

Generate your first audio free. No credit card required.

Start Free