VITS

Standard

TTS de fim a fim rápido com fala natural

Tente Livre VITS Navegar por Vozes (109)

Very Fast Velocidade

Good Qualidade

Não Enchimento

10 Línguas

Sobre VITS

O VITS (Inferência Variacional com o aprendizado adversario para o texto em final a fala) é um modelo rápido, de TTS neural em final em final que gera fala natural-sonante. Combina autoencodadores variacionais com treinamento adversario para síntese eficiente. O VITS é excelente para processamento em lote e aplicações que exigem qualidade e velocidade.

Características-chave

Sintese rápida

Arquitetura final para final para geração rápida de fala.

Processamento de lotes

Procede eficazmente múltiplos textos simultaneamente.

Discurso natural

O treinamento VAE+GAN produz prósodia natural e ritmo.

Multi-falante

O modelo único suporta múltiplas vozes de alto-falante.

Eficiência

Pegada de memória baixa com bom desempenho.

Fonte Aberta

MIT licenciado para qualquer caso de uso.

Casos de utilização

Geração de áudio em Lote Plataformas de aprendizagem electrónica Leitores de Notícias Anunciamentos automatizados Sistemas de VR Conteúdo de alto volume

VITS Voices

View All 109

LJSpeech (English Female)

VCTK Speaker 225 (English Female)

VCTK Speaker 226 (English Male)

VCTK Speaker 227 (English Male)

VCTK Speaker 228 (English Female)

VCTK Speaker 229

VCTK Speaker 230

VCTK Speaker 231

VCTK Speaker 232

VCTK Speaker 233

VCTK Speaker 234

VCTK Speaker 236

Como Utilizar VITS

1

Inscreva-se gratuitamente ou tente a demo

Crie uma conta TextToSpeechAI gratuita para obter créditos de startler, ou use a demo de página para ouvir o VITS antes de se inscrever.
2

Escolha uma voz ou falante de VITS

Navegue na biblioteca de voz e escolha uma voz marcada com o distintivo VITS. A biblioteca VTS multi-falante, incluindo o conjunto de alto-falantes VCTK, permite selecionar entre muitas vozes distintas.
3

Insira o seu texto

Digite ou cole o texto que você quer falado no editor. VITS maneja passagens longas bem e é ideal para o conteúdo em lote e alto volume.
4

Gerar o áudio

Clique em gerar para sintetizar a fala com VITS. Porque o VITS é muito rápido e Standard-tier (10 créditos por 1000 caracteres), os resultados retornam rapidamente a baixo custo.
5

Baixe ou use a API

Baixe o áudio acabado como MP3, WAV, ou OGG, ou chame a mesma voz VITS através da API de TextToSpeechAI REST para automatizar a geração em sua própria aplicação.

VITS API

Gerar a fala programática usando a API TextToSpeechAI REST.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "O VITS oferece fala rápida e natural para aplicações de alto volume.",
    "voice": "vits-ljspeech"
  }'

Ler Docs da API Obter sua chave API

Perguntas Frequentes

VITS (Inferência Variacional com aprendizagem adversarial para o texto final a fala) é um modelo de TTS neural final a final que combina um autocodificador variacional com o treinamento GAN adversario. gera fala natural-sonante em um único passo, o que o torna rápido e eficiente. Você pode experimentar VITs livre em TextToSpeechAI.

Sim, o VITS é de código aberto sob a licença MIT, por isso suporta o uso comercial completo sem restrições. É amplamente utilizado em produtos e serviços comerciais. Em TextToSpeechAI, o VITS custa 10 créditos por 1000 caracteres na nível padrão.

TextToSpeechAI oferece uma grande biblioteca de VTS multi-falantes, incluindo o conjunto de voz VCTK com dezenas de falantes distintos em inglês. Um modelo único VITS pode hospedar muitos falantes, para que você possa escolher entre muitas vozes diferentes sem commutar motores.

O suporte VITS depende do modelo treinado. Os modelos comuns VITS abrangem o inglês, chinês, japonês, coreano, alemão, francês e outros idiomas principais, com cobertura multi-falante inglês do conjunto de dados VCTK.

O VITS é muito rápido, gerando fala em tempo real ou mais rápido em uma GPU. Sua arquitetura final a final evita as múltiplas etapas de processamento de outros modelos, por isso o VITS é bem adequado para a síntese de lote e de alto volume.

Não, VITS não suporta clonagem de voz. Usa modelos multi-falantes pré-formados em vez de copiar uma voz alvo a partir de uma amostra. Para clonagem de voz em TextToSpeechAI, use F5-TTS ou GPT-SoVITS em vez.

O VITS produz áudio de boa qualidade com prósodia natural e ritmo. Embora não esteja ao nível de StyleTTS 2 ou Tortoise, oferece excelente qualidade para sua velocidade, especialmente para processamento de lotes.

O VITS é eficiente em memória, necessitando normalmente de apenas alguns GB de VRAM (cerca de 4GB). Ele funciona confortavelmente em GPUs de consumo, e em TextToSpeechAI toda a renderização acontece em nossos servidores, de modo que você não precisa de nenhum hardware próprio.

VITS e Piper são motores de nível padrão licenciados por MIT em TextToSpeechAI. O Piper é a opção mais leve e mais rápida, enquanto o VITS oferece uma grande biblioteca multi-parlante (incluindo VCTK) com uma prósodia ligeiramente mais natural. Nem suporta clonagem de voz.

O VITS é um motor de nível padrão, que custa 10 créditos por 1000 caracteres. Esta é a nossa menor escala de preços graças à natureza eficiente e rápida do modelo VITS.

VITS gera áudio em 22050Hz nativamente. Através de TextToSpeechAI você pode solicitar MP3, WAV, ou formatos OGG, com conversão automática manuseada para você.

Inscreva-se em TextToSpeechAI para receber créditos de início gratuito, então escolha uma voz do VITS, entre no texto e gere áudio. Você também pode usar a demo para ouvir o VITS antes de criar uma conta e acessar o VITS através da nossa API REST uma vez que você se inscrever.

Technical Specs

Generation Speed Very Fast
Output Quality Good
Voice Cloning Not Supported
Languages 10
GPU VRAM 1-2GB
Credits/1000 chars 10

Try VITS Now

Generate your first audio free. No credit card required.

Start Free

Other TTS Engines

VITS

Sobre VITS

Características-chave

Sintese rápida

Processamento de lotes

Discurso natural

Multi-falante

Eficiência

Fonte Aberta

Casos de utilização

VITS Voices

LJSpeech (English Female)

VCTK Speaker 225 (English Female)

VCTK Speaker 226 (English Male)

VCTK Speaker 227 (English Male)

VCTK Speaker 228 (English Female)

VCTK Speaker 229

VCTK Speaker 230

VCTK Speaker 231

VCTK Speaker 232

VCTK Speaker 233

VCTK Speaker 234

VCTK Speaker 236

Como Utilizar VITS

Inscreva-se gratuitamente ou tente a demo

Escolha uma voz ou falante de VITS

Insira o seu texto

Gerar o áudio

Baixe ou use a API

VITS API

Perguntas Frequentes

O que é o VITS TTS?

O VITS é livre para uso comercial?

Quantas vozes VTS há?

Que idiomas apoia o VITS?

Quão rápido é o VITS?

A VITS apoia a clonagem de voz?

Qual é a qualidade de áudio do VITS?

Quanto tempo precisa de memória GPU VITS?

VITS vs Piper: qual devo usar?

Quantos créditos custa o VITS em TextToSpeechAI?

Que formatos de áudio é a saída do VITS?

Como posso tentar VITS gratuitamente?

Technical Specs

Try VITS Now

Other TTS Engines

Barco

Caixa de conversas

CosyVoice2