CosyVoice2
PremiumClonage de voix multilingue à capture zéro avec support en streaming
À propos CosyVoice2
CosyVoice2 est un modèle de synthèse vocale de prochaine génération de FunAudioLLM (Alibaba). Il offre un clonage vocal à zéro-shot naturel dans plusieurs langues avec une capacité de streaming pour les applications à faible latence. Construit sur une approche de quantification scalaire finie, il obtient une excellente similitude vocale avec quelques secondes d'audio de référence.
Caractéristiques principales
Clonage de voix à chaud zéro
Clone toute voix de 3-10 secondes de son de référence avec une grande fidélité.
Multilingue
Soutient le chinois, l'anglais, le japonais, le coréen et le cantonais avec une synthèse cross-lingual.
Appui à la diffusion
Mode de streaming à faible latence pour les applications en temps réel et les systèmes interactifs.
Prosodie naturelle
La modélisation prosodique avancée produit des paroles sonores naturelles avec une intonation appropriée.
Cas d'utilisation
Comment utiliser CosyVoice2
-
1
Inscrivez-vous et demandez des crédits gratuits
Créez un compte gratuit TextToSpeechAI pour réclamer vos crédits de démarrage, ou essayez la démo en premier. Pas d'installation GPU ou local CosyVoice2 est nécessaire - tout fonctionne sur notre infrastructure.
-
2
Sélectionnez CosyVoice2 et ajoutez un clip de référence
Choisissez CosyVoice2 comme moteur, puis téléchargez un enregistrement de référence 3-10 seconde propre de la voix que vous voulez cloner. CosyVoice2 extrait les caractéristiques de l'enceinte pour le clonage multilingue zéro-shot.
-
3
Saisissez votre texte dans n'importe quelle langue prise en charge
Tapez ou collez votre script en chinois, anglais, japonais, coréen ou cantonais. CosyVoice2 supporte la synthèse cross-lingual, de sorte que la voix clonée peut parler une langue différente du clip de référence.
-
4
Générer le discours
Cliquez sur générer et CosyVoice2 synthétise la parole naturelle et multilingue dans la voix clonée, généralement en quelques secondes pour un texte court.
-
5
Télécharger ou utiliser l'API
Téléchargez l'audio fini en MP3 ou WAV de votre historique, ou automatisez le clonage vocal CosyVoice2 à l'échelle dans l'API TextToSpeechAI REST.
CosyVoice2 API
Générer des discours programmatiques en utilisant l'API TextToSpeechAI REST.
curl -X POST "https://api.texttospeechai.com/v1/generate/" \
-H "Authorization: Bearer YOUR_API_TOKEN" \
-H "Content-Type: application/json" \
-d '{
"text": "CosyVoice2 offre une parole multilingue naturelle avec une capacité de clonage vocal zéro\u002Dshot.",
"voice": "en_US-lessac-medium"
}'
Foire aux questions
Technical Specs
- Generation Speed Fast
- Output Quality Very Good
- Voice Cloning Supported
- Languages 5
- GPU VRAM 4-6GB
- Credits/1000 chars 25