CosyVoice2
PremiumClonagem de voz multilingue de zero-shot com suporte de streaming
Sobre CosyVoice2
CosyVoice2 é um modelo de síntese de fala de próxima geração da FunAudioLLM (Alaba). O CosyVoice2 oferece clonagem de voz sem fogo natural em várias línguas com capacidade de streaming para aplicações de baixa latência. Construída em uma abordagem de quantização escalar finita, alcança uma excelente semelhança de voz com apenas alguns segundos de áudio de referência.
Características-chave
Clonagem de voz zero-Shot
Clone qualquer voz de 3-10 segundos de áudio de referência com alta fidelidade.
Multilingual
Apoia o chinês, inglês, japonês, coreano e cantonese com síntese translingüe.
Suporte de Streaming
Modo de streaming de baixa latência para aplicações em tempo real e sistemas interativos.
Prosodia natural
A modelagem de prosódia avançada produz fala natural com entonação apropriada.
Casos de utilização
Como Utilizar CosyVoice2
-
1
Inscrever-se e reclamar créditos gratuitos
Crie uma conta TextToSpeechAI gratuita para reclamar seus créditos de início, ou tente a demo primeiro. Não é necessário instalar GPU ou CosyVoice2 local - tudo funciona em nossa infraestrutura.
-
2
Selecione CosyVoice2 e adicione um clipe de referência
Escolha CosyVoice2 como seu motor, então carregar uma gravação limpa 3-10 segundo referência da voz que você deseja clonar. CosyVoice2 irá extrair as características do alto-falante para clonagem multilingue zero-shot.
-
3
Digite o seu texto em qualquer idioma suportado
Digite ou cole o seu script em chinês, inglês, japonês, coreano ou cantonese. CosyVoice2 suporta a síntese translingüe, para que a voz clonada possa falar uma língua diferente do clipe de referência.
-
4
Gere a fala
Clique em gerar e CosyVoice2 sintetiza fala natural, multilingue na voz clonada, geralmente em segundos para texto curto. Uso de nível premium custa 25 créditos por 1.000 caracteres.
-
5
Baixe ou use a API
Baixe o áudio acabado como MP3 ou WAV da sua história, ou automatize a clonagem de voz CosyVoice2 em escala através da API de TextToSpeechAI REST.
CosyVoice2 API
Gerar a fala programática usando a API TextToSpeechAI REST.
curl -X POST "https://api.texttospeechai.com/v1/generate/" \
-H "Authorization: Bearer YOUR_API_TOKEN" \
-H "Content-Type: application/json" \
-d '{
"text": "CosyVoice2 oferece fala multilingue natural com capacidade de clonagem de voz zero\u002Dhot.",
"voice": "en_US-lessac-medium"
}'
Perguntas Frequentes
Technical Specs
- Generation Speed Fast
- Output Quality Very Good
- Voice Cloning Supported
- Languages 5
- GPU VRAM 4-6GB
- Credits/1000 chars 25