Caixa de conversas

Premium

Clonagem de voz zero com discurso expressivo em 23 línguas

Fast Velocidade
Very Good Qualidade
Sim Enchimento
23 Línguas

Sobre Caixa de conversas

Chatterbox é um poderoso modelo de clonagem de voz TTS da IA Resemble. Realiza clonagem de voz zero-shot a partir de apenas alguns segundos de áudio de referência, suportando 23 idiomas com expressão natural. Chatterbox inclui tags paralinguísticos para adicionar sons naturais como risa e tosse para gerar fala.

Características-chave

Clonagem de voz zero-Shot

Clone qualquer voz de alguns segundos de áudio - não é necessário treinamento.

23 Línguas

Do árabe ao chinês, abrangendo a maioria das línguas mundiais.

Etiquetas expressivas

Adicionar [rir], [tudo], [rudo] para sons paralinguísticos naturais.

Inferência rápida

Latência sub-200ms com a variante Turbo para aplicações em tempo real.

Casos de utilização

clonagem de voz para criação de conteúdo Aplicações multilinguais de voz Desenho de voz de caracteres para jogos Assistentes de voz personalizados

Como Utilizar Caixa de conversas

  1. 1

    Inscreva-se ou abra a demo

    Crie uma conta TextToSpeechAI gratuita para reclamar 200 créditos de startler, ou use a demo na página para tentar Chatterbox sem se assinar.

  2. 2

    Selecione Chatterbox e adicione um clipe de referência

    Escolha o motor Chatterbox, então carregue um pequeno (uns segundos) clipe de áudio da voz que você deseja clonar. Chatterbox zero-hot clona-lo instantaneamente - não é necessário treinamento.

  3. 3

    Digite o seu texto com as etiquetas opcionais

    Digite ou cole o texto para falar em qualquer das 23 línguas suportadas, e deixe em [ri], [ra] [ra], ou [rui] etiquetas onde quiserem sons paralinguísticos naturais.

  4. 4

    Gere a fala

    Clique em gerar e TextToSpeechAI torna o seu texto na voz clonada Chatterbox na infraestrutura GPU hospedada, gastando 25 créditos por 1.000 caracteres.

  5. 5

    Baixe ou use a API

    Baixe o arquivo de áudio terminado, ou automatize a geração através da API TextToSpeechAI REST em api.texttospeechai.com usando o token da sua conta.

Caixa de conversas API

Gerar a fala programática usando a API TextToSpeechAI REST.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Chatterbox pode clonar a sua voz a partir de apenas alguns segundos de áudio e falar em 23 idiomas.",
    "voice": "en_US-lessac-medium"
  }'

Perguntas Frequentes

Chatterbox é um modelo de clonagem de voz de texto a voz de Reemble IA. Pode replicar qualquer voz de apenas alguns segundos de áudio de referência e gerar fala natural e expressiva em 23 idiomas, tudo sem qualquer treinamento por voz.

Sim, Chatterbox é totalmente licenciado MIT - tanto o código como os pesos do modelo - para que você possa usá-lo livremente em produtos comerciais. áudio gerado inclui uma marca neural opcional que pode ser desativado, e não há royalties de uso.

Você fornece um pequeno clipe de referência de qualquer voz (uns segundos é suficiente) e extrai o timbre e estilo da voz em um falante incorporado. Então gera uma nova fala nessa voz sem nenhum passo de ajuste fino ou treino, que é o que significa "zero-shot".

Chatterbox lê etiquetas inline especiais no seu texto para adicionar sons naturais não verbais: [rire] inserte riso, [rare] inserte uma tosse, e [rire] inserte um chuckle macio. Basta colocar uma tag onde você quer o som, por exemplo "Isso é hilaroso [rire] mas a sério...".

Digite a tag diretamente dentro do texto de entrada no local onde o som deve ocorrer, rodeado pelo resto da frase. Chatterbox torna o som paralinguístico na voz clonada, misturando-o no discurso circundante, então ele parece espontâneo em vez de espontâneo.

Chatterbox suporta 23 línguas, incluindo árabe, dinamarquês, grego, inglês, espanhol, finlandês, francês, hebraico, hindi, italiano, japonês, coreano, malaio, neerlandês, norueguês, polonês, português, russo, sueco, sueco, turco e chinês. Uma única voz clonada pode falar por essas línguas.

Chatterbox gera fala rapidamente em uma GPU, e a variante Turbo atinge a latência sub-200ms para uso em tempo real de conversação. Qualidade é muito boa, com prósodia natural e reprodução de voz fiel de clipes mesmo curtos de referência.

Chatterbox precisa de aproximadamente 4-8GB de VRAM dependendo da variante, com o modelo Turbo funcionando confortavelmente em cerca de 4GB. Em TextToSpeechAI você não precisa de nenhuma GPU local - geração funciona em nossa infraestrutura hospedada.

Chatterbox é um motor de nível premium que custa 25 créditos por 1.000 caracteres. Novas contas recebem 200 créditos gratuitos para tentar clonar voz, e você gasta apenas créditos no texto que você realmente gera.

Ambos suportam a clonagem de voz zero-hot, mas Chatterbox cobre muito mais idiomas (23 vs 2) e adiciona expressivos tags paralinguísticos. F5-TTS pode sair um pouco mais natural prosódia inglesa, então escolha Chatterbox para clonagem multilingue e sons expressivos, e F5-TTS para fidelidade apenas inglês.

Ambos oferecem clonagem de voz de alta qualidade. Chatterbox suporta 23 idiomas e tags expressivos inline, enquanto OpenVoice adiciona controles de estilo tonal (amigável, triste, zangado e muito mais) que Chatterbox carece. Escolha Chatterbox para cobertura de linguagem ampla e OpenVoice quando você precisa de estilo emocional explícito tonal.

Sim. Inscreva-se para uma conta TextToSpeechAI gratuita para receber 200 créditos de início, ou use a demo na página para ouvir Chatterbox sem se assinar. Envie um curto clipe de referência, digite o seu texto e genere uma voz clonada em segundos.

Technical Specs

  • Generation Speed Fast
  • Output Quality Very Good
  • Voice Cloning Supported
  • Languages 23
  • GPU VRAM 4-8GB
  • Credits/1000 chars 25

Try Caixa de conversas Now

Generate your first audio free. No credit card required.

Start Free