VITS

Standard

TTS de fim a fim rápido com fala natural

Very Fast Velocidade
Good Qualidade
Não Enchimento
10 Línguas

Sobre VITS

O VITS (Inferência Variacional com o aprendizado adversario para o texto em final a fala) é um modelo rápido, de TTS neural em final em final que gera fala natural-sonante. Combina autoencodadores variacionais com treinamento adversario para síntese eficiente. O VITS é excelente para processamento em lote e aplicações que exigem qualidade e velocidade.

Características-chave

Sintese rápida

Arquitetura final para final para geração rápida de fala.

Processamento de lotes

Procede eficazmente múltiplos textos simultaneamente.

Discurso natural

O treinamento VAE+GAN produz prósodia natural e ritmo.

Multi-falante

O modelo único suporta múltiplas vozes de alto-falante.

Eficiência

Pegada de memória baixa com bom desempenho.

Fonte Aberta

MIT licenciado para qualquer caso de uso.

Casos de utilização

Geração de áudio em Lote Plataformas de aprendizagem electrónica Leitores de Notícias Anunciamentos automatizados Sistemas de VR Conteúdo de alto volume

VITS Voices

View All 109
LJSpeech (English Female)
EN
VCTK Speaker 225 (English Female)
EN
VCTK Speaker 226 (English Male)
EN
VCTK Speaker 227 (English Male)
EN
VCTK Speaker 228 (English Female)
EN
VCTK Speaker 229
EN
VCTK Speaker 230
EN
VCTK Speaker 231
EN
VCTK Speaker 232
EN
VCTK Speaker 233
EN
VCTK Speaker 234
EN
VCTK Speaker 236
EN

Como Utilizar VITS

  1. 1

    Inscreva-se gratuitamente ou tente a demo

    Crie uma conta TextToSpeechAI gratuita para obter créditos de startler, ou use a demo de página para ouvir o VITS antes de se inscrever.

  2. 2

    Escolha uma voz ou falante de VITS

    Navegue na biblioteca de voz e escolha uma voz marcada com o distintivo VITS. A biblioteca VTS multi-falante, incluindo o conjunto de alto-falantes VCTK, permite selecionar entre muitas vozes distintas.

  3. 3

    Insira o seu texto

    Digite ou cole o texto que você quer falado no editor. VITS maneja passagens longas bem e é ideal para o conteúdo em lote e alto volume.

  4. 4

    Gerar o áudio

    Clique em gerar para sintetizar a fala com VITS. Porque o VITS é muito rápido e Standard-tier (10 créditos por 1000 caracteres), os resultados retornam rapidamente a baixo custo.

  5. 5

    Baixe ou use a API

    Baixe o áudio acabado como MP3, WAV, ou OGG, ou chame a mesma voz VITS através da API de TextToSpeechAI REST para automatizar a geração em sua própria aplicação.

VITS API

Gerar a fala programática usando a API TextToSpeechAI REST.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "O VITS oferece fala rápida e natural para aplicações de alto volume.",
    "voice": "vits-ljspeech"
  }'

Perguntas Frequentes

VITS (Inferência Variacional com aprendizagem adversarial para o texto final a fala) é um modelo de TTS neural final a final que combina um autocodificador variacional com o treinamento GAN adversario. gera fala natural-sonante em um único passo, o que o torna rápido e eficiente. Você pode experimentar VITs livre em TextToSpeechAI.

Sim, o VITS é de código aberto sob a licença MIT, por isso suporta o uso comercial completo sem restrições. É amplamente utilizado em produtos e serviços comerciais. Em TextToSpeechAI, o VITS custa 10 créditos por 1000 caracteres na nível padrão.

TextToSpeechAI oferece uma grande biblioteca de VTS multi-falantes, incluindo o conjunto de voz VCTK com dezenas de falantes distintos em inglês. Um modelo único VITS pode hospedar muitos falantes, para que você possa escolher entre muitas vozes diferentes sem commutar motores.

O suporte VITS depende do modelo treinado. Os modelos comuns VITS abrangem o inglês, chinês, japonês, coreano, alemão, francês e outros idiomas principais, com cobertura multi-falante inglês do conjunto de dados VCTK.

O VITS é muito rápido, gerando fala em tempo real ou mais rápido em uma GPU. Sua arquitetura final a final evita as múltiplas etapas de processamento de outros modelos, por isso o VITS é bem adequado para a síntese de lote e de alto volume.

Não, VITS não suporta clonagem de voz. Usa modelos multi-falantes pré-formados em vez de copiar uma voz alvo a partir de uma amostra. Para clonagem de voz em TextToSpeechAI, use F5-TTS ou GPT-SoVITS em vez.

O VITS produz áudio de boa qualidade com prósodia natural e ritmo. Embora não esteja ao nível de StyleTTS 2 ou Tortoise, oferece excelente qualidade para sua velocidade, especialmente para processamento de lotes.

O VITS é eficiente em memória, necessitando normalmente de apenas alguns GB de VRAM (cerca de 4GB). Ele funciona confortavelmente em GPUs de consumo, e em TextToSpeechAI toda a renderização acontece em nossos servidores, de modo que você não precisa de nenhum hardware próprio.

VITS e Piper são motores de nível padrão licenciados por MIT em TextToSpeechAI. O Piper é a opção mais leve e mais rápida, enquanto o VITS oferece uma grande biblioteca multi-parlante (incluindo VCTK) com uma prósodia ligeiramente mais natural. Nem suporta clonagem de voz.

O VITS é um motor de nível padrão, que custa 10 créditos por 1000 caracteres. Esta é a nossa menor escala de preços graças à natureza eficiente e rápida do modelo VITS.

VITS gera áudio em 22050Hz nativamente. Através de TextToSpeechAI você pode solicitar MP3, WAV, ou formatos OGG, com conversão automática manuseada para você.

Inscreva-se em TextToSpeechAI para receber créditos de início gratuito, então escolha uma voz do VITS, entre no texto e gere áudio. Você também pode usar a demo para ouvir o VITS antes de criar uma conta e acessar o VITS através da nossa API REST uma vez que você se inscrever.

Technical Specs

  • Generation Speed Very Fast
  • Output Quality Good
  • Voice Cloning Not Supported
  • Languages 10
  • GPU VRAM 1-2GB
  • Credits/1000 chars 10

Try VITS Now

Generate your first audio free. No credit card required.

Start Free