CosyVoice2

Premium

Clonagem de voz multilingue de zero-shot com suporte de streaming

Tente Livre CosyVoice2 Navegar por Vozes (0)

Fast Velocidade

Very Good Qualidade

Sim Enchimento

5 Línguas

Sobre CosyVoice2

CosyVoice2 é um modelo de síntese de fala de próxima geração da FunAudioLLM (Alaba). O CosyVoice2 oferece clonagem de voz sem fogo natural em várias línguas com capacidade de streaming para aplicações de baixa latência. Construída em uma abordagem de quantização escalar finita, alcança uma excelente semelhança de voz com apenas alguns segundos de áudio de referência.

Características-chave

Clonagem de voz zero-Shot

Clone qualquer voz de 3-10 segundos de áudio de referência com alta fidelidade.

Multilingual

Apoia o chinês, inglês, japonês, coreano e cantonese com síntese translingüe.

Suporte de Streaming

Modo de streaming de baixa latência para aplicações em tempo real e sistemas interativos.

Prosodia natural

A modelagem de prosódia avançada produz fala natural com entonação apropriada.

Casos de utilização

Criação de conteúdo multilingue Assistentes de voz em tempo real Duplicação translingüe Aplicações de voz personalizadas

Como Utilizar CosyVoice2

1

Inscrever-se e reclamar créditos gratuitos

Crie uma conta TextToSpeechAI gratuita para reclamar seus créditos de início, ou tente a demo primeiro. Não é necessário instalar GPU ou CosyVoice2 local - tudo funciona em nossa infraestrutura.
2

Selecione CosyVoice2 e adicione um clipe de referência

Escolha CosyVoice2 como seu motor, então carregar uma gravação limpa 3-10 segundo referência da voz que você deseja clonar. CosyVoice2 irá extrair as características do alto-falante para clonagem multilingue zero-shot.
3

Digite o seu texto em qualquer idioma suportado

Digite ou cole o seu script em chinês, inglês, japonês, coreano ou cantonese. CosyVoice2 suporta a síntese translingüe, para que a voz clonada possa falar uma língua diferente do clipe de referência.
4

Gere a fala

Clique em gerar e CosyVoice2 sintetiza fala natural, multilingue na voz clonada, geralmente em segundos para texto curto. Uso de nível premium custa 25 créditos por 1.000 caracteres.
5

Baixe ou use a API

Baixe o áudio acabado como MP3 ou WAV da sua história, ou automatize a clonagem de voz CosyVoice2 em escala através da API de TextToSpeechAI REST.

CosyVoice2 API

Gerar a fala programática usando a API TextToSpeechAI REST.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "CosyVoice2 oferece fala multilingue natural com capacidade de clonagem de voz zero\u002Dhot.",
    "voice": "en_US-lessac-medium"
  }'

Ler Docs da API Obter sua chave API

Perguntas Frequentes

CosyVoice2 é um modelo de clonagem de texto a voz de próxima geração da FunAudioLLLM (Alaba). Ele suporta clonagem de voz zero-hot a partir de apenas alguns segundos de áudio de referência e pode sintetizar fala natural em chinês, inglês, japonês, coreano e cantonese. Em TextToSpeechAI você pode executar CosyVoice2 no navegador sem qualquer configuração local.

Sim, o CosyVoice2 é totalmente licenciado para Apache 2.0 - tanto o código como os pesos do modelo. Isso torna seguro o uso em produtos comerciais, conteúdo pago e trabalho do cliente sem taxas de licenciamento ou restrições não comerciais.

CosyVoice2 suporta cinco idiomas: chinês (Mandarin), inglês, japonês, coreano e cantonese. Ele também maneja a síntese multilingual, para que você possa clonar uma voz a partir de uma gravação em uma língua e gerar fala em outra.

Forneça 3-10 segundos de áudio de referência limpo do alto-falante alvo. CosyVoice2 extrai as características do alto-falante usando uma abordagem de quantização escalar finita, então gera nova fala nessa voz clonada em qualquer de suas línguas suportadas. Não é necessário treinamento de modelo ou ajuste fino.

CosyVoice2 é um dos modelos de clonagem multilingue mais fortes, preservando a identidade de altofalante mesmo quando gerando fala em uma linguagem diferente do clipe de referência. Produz prosodia natural e entonação, o que o torna bem adequado para o duplo e conteúdo localizado translingüe.

Sim. CosyVoice2 é um modelo rápido e inclui um modo de streaming que produz áudio com baixa latência, tornando-o adequado para assistentes de voz e aplicações interativas. Em TextToSpeechAI gerações geralmente completa em segundos para texto curto.

CosyVoice2 requer cerca de 4-6GB de VRAM para o modelo de parâmetro 0.5B, por isso uma GPU com 6GB ou mais é recomendada quando se auto-hosteia. Em TextToSpeechAI o modelo funciona em nossa infraestrutura GPU, por isso você não precisa de hardware próprio.

CosyVoice2 é um modelo de nível premium e custa 25 créditos por 1.000 caracteres de texto. Cada nova conta recebe créditos de início gratuito, para que você possa experimentar clonagem de voz CosyVoice2 antes de decidir sobre um plano pago.

Ambos são motores de clonagem de voz premium. GPT-SoVITS muitas vezes atinge a semelhança bruta mais alta para uma única voz alvo, enquanto CosyVoice2 é mais forte para clonagem multilingue e translingüe e adiciona um modo de streaming de baixa latência. Escolha CosyVoice2 quando você precisa de uma voz clonada para falar vários idiomas.

Ambos oferecem clonagem de voz de alta qualidade zero-hot. CosyVoice2 suporta mais idiomas (5 versus 2) e adiciona streaming para uso em tempo real, enquanto F5-TTS pode ser ligeiramente mais rápido para cargas de trabalho apenas em inglês. Para projetos multilíngues CosyVoice2 é geralmente o melhor ajuste.

TextToSpeechAI permite-lhe exportar CosyVoice2 gerações em formatos comuns, como MP3 e WAV. Você pode baixar o arquivo diretamente da sua página de história ou recuperá-lo programáticamente através da API TextToSpeechAI.

Sim. Você pode testar CosyVoice2 com a demo gratuita e seus créditos de arranque gratuito em TextToSpeechAI sem instalar nada. Basta inscrever, upload um clip de referência curto, digite o seu texto em qualquer idioma suportado, e gerar.

Technical Specs

Generation Speed Fast
Output Quality Very Good
Voice Cloning Supported
Languages 5
GPU VRAM 4-6GB
Credits/1000 chars 25

Try CosyVoice2 Now

Generate your first audio free. No credit card required.

Start Free

Other TTS Engines

CosyVoice2

Sobre CosyVoice2

Características-chave

Clonagem de voz zero-Shot

Multilingual

Suporte de Streaming

Prosodia natural

Casos de utilização

Como Utilizar CosyVoice2

Inscrever-se e reclamar créditos gratuitos

Selecione CosyVoice2 e adicione um clipe de referência

Digite o seu texto em qualquer idioma suportado

Gere a fala

Baixe ou use a API

CosyVoice2 API

Perguntas Frequentes

O que é CosyVoice2?

CosyVoice2 é livre para usar comercialmente?

Que idiomas suporta CosyVoice2?

Como funciona a clonagem de voz CosyVoice2?

Como é bom CosyVoice2 em clonagem de voz multilingue?

CosyVoice2 é o suficiente para uso em tempo real?

Quanto tempo de memória GPU precisa CosyVoice2?

Quantos créditos custa CosyVoice2 em TextToSpeechAI?

CosyVoice2 vs GPT-SoVITS - qual devo usar?

Como é que CosyVoice2 compara com F5-TTS?

Que formatos de áudio posso baixar de CosyVoice2?

Posso tentar CosyVoice2 de graça?

Technical Specs

Try CosyVoice2 Now

Other TTS Engines

Barco

Caixa de conversas

Dia