CosyVoice2

Premium

Clonagem de voz multilingue de zero-shot com suporte de streaming

Fast Velocidade
Very Good Qualidade
Sim Enchimento
5 Línguas

Sobre CosyVoice2

CosyVoice2 é um modelo de síntese de fala de próxima geração da FunAudioLLM (Alaba). O CosyVoice2 oferece clonagem de voz sem fogo natural em várias línguas com capacidade de streaming para aplicações de baixa latência. Construída em uma abordagem de quantização escalar finita, alcança uma excelente semelhança de voz com apenas alguns segundos de áudio de referência.

Características-chave

Clonagem de voz zero-Shot

Clone qualquer voz de 3-10 segundos de áudio de referência com alta fidelidade.

Multilingual

Apoia o chinês, inglês, japonês, coreano e cantonese com síntese translingüe.

Suporte de Streaming

Modo de streaming de baixa latência para aplicações em tempo real e sistemas interativos.

Prosodia natural

A modelagem de prosódia avançada produz fala natural com entonação apropriada.

Casos de utilização

Criação de conteúdo multilingue Assistentes de voz em tempo real Duplicação translingüe Aplicações de voz personalizadas

Como Utilizar CosyVoice2

  1. 1

    Inscrever-se e reclamar créditos gratuitos

    Crie uma conta TextToSpeechAI gratuita para reclamar seus créditos de início, ou tente a demo primeiro. Não é necessário instalar GPU ou CosyVoice2 local - tudo funciona em nossa infraestrutura.

  2. 2

    Selecione CosyVoice2 e adicione um clipe de referência

    Escolha CosyVoice2 como seu motor, então carregar uma gravação limpa 3-10 segundo referência da voz que você deseja clonar. CosyVoice2 irá extrair as características do alto-falante para clonagem multilingue zero-shot.

  3. 3

    Digite o seu texto em qualquer idioma suportado

    Digite ou cole o seu script em chinês, inglês, japonês, coreano ou cantonese. CosyVoice2 suporta a síntese translingüe, para que a voz clonada possa falar uma língua diferente do clipe de referência.

  4. 4

    Gere a fala

    Clique em gerar e CosyVoice2 sintetiza fala natural, multilingue na voz clonada, geralmente em segundos para texto curto. Uso de nível premium custa 25 créditos por 1.000 caracteres.

  5. 5

    Baixe ou use a API

    Baixe o áudio acabado como MP3 ou WAV da sua história, ou automatize a clonagem de voz CosyVoice2 em escala através da API de TextToSpeechAI REST.

CosyVoice2 API

Gerar a fala programática usando a API TextToSpeechAI REST.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "CosyVoice2 oferece fala multilingue natural com capacidade de clonagem de voz zero\u002Dhot.",
    "voice": "en_US-lessac-medium"
  }'

Perguntas Frequentes

CosyVoice2 é um modelo de clonagem de texto a voz de próxima geração da FunAudioLLLM (Alaba). Ele suporta clonagem de voz zero-hot a partir de apenas alguns segundos de áudio de referência e pode sintetizar fala natural em chinês, inglês, japonês, coreano e cantonese. Em TextToSpeechAI você pode executar CosyVoice2 no navegador sem qualquer configuração local.

Sim, o CosyVoice2 é totalmente licenciado para Apache 2.0 - tanto o código como os pesos do modelo. Isso torna seguro o uso em produtos comerciais, conteúdo pago e trabalho do cliente sem taxas de licenciamento ou restrições não comerciais.

CosyVoice2 suporta cinco idiomas: chinês (Mandarin), inglês, japonês, coreano e cantonese. Ele também maneja a síntese multilingual, para que você possa clonar uma voz a partir de uma gravação em uma língua e gerar fala em outra.

Forneça 3-10 segundos de áudio de referência limpo do alto-falante alvo. CosyVoice2 extrai as características do alto-falante usando uma abordagem de quantização escalar finita, então gera nova fala nessa voz clonada em qualquer de suas línguas suportadas. Não é necessário treinamento de modelo ou ajuste fino.

CosyVoice2 é um dos modelos de clonagem multilingue mais fortes, preservando a identidade de altofalante mesmo quando gerando fala em uma linguagem diferente do clipe de referência. Produz prosodia natural e entonação, o que o torna bem adequado para o duplo e conteúdo localizado translingüe.

Sim. CosyVoice2 é um modelo rápido e inclui um modo de streaming que produz áudio com baixa latência, tornando-o adequado para assistentes de voz e aplicações interativas. Em TextToSpeechAI gerações geralmente completa em segundos para texto curto.

CosyVoice2 requer cerca de 4-6GB de VRAM para o modelo de parâmetro 0.5B, por isso uma GPU com 6GB ou mais é recomendada quando se auto-hosteia. Em TextToSpeechAI o modelo funciona em nossa infraestrutura GPU, por isso você não precisa de hardware próprio.

CosyVoice2 é um modelo de nível premium e custa 25 créditos por 1.000 caracteres de texto. Cada nova conta recebe créditos de início gratuito, para que você possa experimentar clonagem de voz CosyVoice2 antes de decidir sobre um plano pago.

Ambos são motores de clonagem de voz premium. GPT-SoVITS muitas vezes atinge a semelhança bruta mais alta para uma única voz alvo, enquanto CosyVoice2 é mais forte para clonagem multilingue e translingüe e adiciona um modo de streaming de baixa latência. Escolha CosyVoice2 quando você precisa de uma voz clonada para falar vários idiomas.

Ambos oferecem clonagem de voz de alta qualidade zero-hot. CosyVoice2 suporta mais idiomas (5 versus 2) e adiciona streaming para uso em tempo real, enquanto F5-TTS pode ser ligeiramente mais rápido para cargas de trabalho apenas em inglês. Para projetos multilíngues CosyVoice2 é geralmente o melhor ajuste.

TextToSpeechAI permite-lhe exportar CosyVoice2 gerações em formatos comuns, como MP3 e WAV. Você pode baixar o arquivo diretamente da sua página de história ou recuperá-lo programáticamente através da API TextToSpeechAI.

Sim. Você pode testar CosyVoice2 com a demo gratuita e seus créditos de arranque gratuito em TextToSpeechAI sem instalar nada. Basta inscrever, upload um clip de referência curto, digite o seu texto em qualquer idioma suportado, e gerar.

Technical Specs

  • Generation Speed Fast
  • Output Quality Very Good
  • Voice Cloning Supported
  • Languages 5
  • GPU VRAM 4-6GB
  • Credits/1000 chars 25

Try CosyVoice2 Now

Generate your first audio free. No credit card required.

Start Free