Sobre VITS
O VITS (Inferência Variacional com o aprendizado adversario para o texto em final a fala) é um modelo rápido, de TTS neural em final em final que gera fala natural-sonante. Combina autoencodadores variacionais com treinamento adversario para síntese eficiente. O VITS é excelente para processamento em lote e aplicações que exigem qualidade e velocidade.
Características-chave
Sintese rápida
Arquitetura final para final para geração rápida de fala.
Processamento de lotes
Procede eficazmente múltiplos textos simultaneamente.
Discurso natural
O treinamento VAE+GAN produz prósodia natural e ritmo.
Multi-falante
O modelo único suporta múltiplas vozes de alto-falante.
Eficiência
Pegada de memória baixa com bom desempenho.
Fonte Aberta
MIT licenciado para qualquer caso de uso.
Casos de utilização
VITS Voices
View All 109LJSpeech (English Female)
ENVCTK Speaker 225 (English Female)
ENVCTK Speaker 226 (English Male)
ENVCTK Speaker 227 (English Male)
ENVCTK Speaker 228 (English Female)
ENVCTK Speaker 229
ENVCTK Speaker 230
ENVCTK Speaker 231
ENVCTK Speaker 232
ENVCTK Speaker 233
ENVCTK Speaker 234
ENVCTK Speaker 236
ENComo Utilizar VITS
-
1
Inscreva-se gratuitamente ou tente a demo
Crie uma conta TextToSpeechAI gratuita para obter créditos de startler, ou use a demo de página para ouvir o VITS antes de se inscrever.
-
2
Escolha uma voz ou falante de VITS
Navegue na biblioteca de voz e escolha uma voz marcada com o distintivo VITS. A biblioteca VTS multi-falante, incluindo o conjunto de alto-falantes VCTK, permite selecionar entre muitas vozes distintas.
-
3
Insira o seu texto
Digite ou cole o texto que você quer falado no editor. VITS maneja passagens longas bem e é ideal para o conteúdo em lote e alto volume.
-
4
Gerar o áudio
Clique em gerar para sintetizar a fala com VITS. Porque o VITS é muito rápido e Standard-tier (10 créditos por 1000 caracteres), os resultados retornam rapidamente a baixo custo.
-
5
Baixe ou use a API
Baixe o áudio acabado como MP3, WAV, ou OGG, ou chame a mesma voz VITS através da API de TextToSpeechAI REST para automatizar a geração em sua própria aplicação.
VITS API
Gerar a fala programática usando a API TextToSpeechAI REST.
curl -X POST "https://api.texttospeechai.com/v1/generate/" \
-H "Authorization: Bearer YOUR_API_TOKEN" \
-H "Content-Type: application/json" \
-d '{
"text": "O VITS oferece fala rápida e natural para aplicações de alto volume.",
"voice": "vits-ljspeech"
}'
Perguntas Frequentes
Technical Specs
- Generation Speed Very Fast
- Output Quality Good
- Voice Cloning Not Supported
- Languages 10
- GPU VRAM 1-2GB
- Credits/1000 chars 10