CosyVoice2

Premium

Clonage de voix multilingue à capture zéro avec support en streaming

Essayez gratuitement CosyVoice2 Parcourir les voix (0)

Fast Vitesse

Very Good Qualité

Oui Clonage

5 Langues

À propos CosyVoice2

CosyVoice2 est un modèle de synthèse vocale de prochaine génération de FunAudioLLM (Alibaba). Il offre un clonage vocal à zéro-shot naturel dans plusieurs langues avec une capacité de streaming pour les applications à faible latence. Construit sur une approche de quantification scalaire finie, il obtient une excellente similitude vocale avec quelques secondes d'audio de référence.

Caractéristiques principales

Clonage de voix à chaud zéro

Clone toute voix de 3-10 secondes de son de référence avec une grande fidélité.

Multilingue

Soutient le chinois, l'anglais, le japonais, le coréen et le cantonais avec une synthèse cross-lingual.

Appui à la diffusion

Mode de streaming à faible latence pour les applications en temps réel et les systèmes interactifs.

Prosodie naturelle

La modélisation prosodique avancée produit des paroles sonores naturelles avec une intonation appropriée.

Cas d'utilisation

Création de contenu multilingue Assistants vocaux en temps réel Doublures translingues Applications vocales personnalisées

Comment utiliser CosyVoice2

1

Inscrivez-vous et demandez des crédits gratuits

Créez un compte gratuit TextToSpeechAI pour réclamer vos crédits de démarrage, ou essayez la démo en premier. Pas d'installation GPU ou local CosyVoice2 est nécessaire - tout fonctionne sur notre infrastructure.
2

Sélectionnez CosyVoice2 et ajoutez un clip de référence

Choisissez CosyVoice2 comme moteur, puis téléchargez un enregistrement de référence 3-10 seconde propre de la voix que vous voulez cloner. CosyVoice2 extrait les caractéristiques de l'enceinte pour le clonage multilingue zéro-shot.
3

Saisissez votre texte dans n'importe quelle langue prise en charge

Tapez ou collez votre script en chinois, anglais, japonais, coréen ou cantonais. CosyVoice2 supporte la synthèse cross-lingual, de sorte que la voix clonée peut parler une langue différente du clip de référence.
4

Générer le discours

Cliquez sur générer et CosyVoice2 synthétise la parole naturelle et multilingue dans la voix clonée, généralement en quelques secondes pour un texte court.
5

Télécharger ou utiliser l'API

Téléchargez l'audio fini en MP3 ou WAV de votre historique, ou automatisez le clonage vocal CosyVoice2 à l'échelle dans l'API TextToSpeechAI REST.

CosyVoice2 API

Générer des discours programmatiques en utilisant l'API TextToSpeechAI REST.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "CosyVoice2 offre une parole multilingue naturelle avec une capacité de clonage vocal zéro\u002Dshot.",
    "voice": "en_US-lessac-medium"
  }'

Lire les documents API Obtenez votre clé API

Foire aux questions

CosyVoice2 is a next-generation text-to-speech and voice cloning model from FunAudioLLM (Alibaba). It supports zero-shot voice cloning from just a few seconds of reference audio and can synthesize natural speech in Chinese, English, Japanese, Korean, and Cantonese. On TextToSpeechAI you can run CosyVoice2 in the browser without any local setup.

Oui, CosyVoice2 est entièrement sous licence Apache 2.0 - à la fois le code et le poids du modèle. Cela rend sûr d'utiliser dans les produits commerciaux, le contenu payé, et le travail du client sans frais de licence ou de restrictions non commerciales.

CosyVoice2 prend en charge cinq langues : le chinois (mandarin), l'anglais, le japonais, le coréen et le cantonais. Il gère également la synthèse cross-lingual, de sorte que vous pouvez cloner une voix d'un enregistrement dans une langue et générer la parole dans une autre.

Fournissez 3-10 secondes d'audio de référence propre de l'enceinte cible. CosyVoice2 extrait les caractéristiques de l'enceinte en utilisant une approche de quantification scalaire finie, puis génère de nouvelles paroles dans cette voix clonée dans l'une de ses langues supportées. Aucune formation ou réglage fin de modèle n'est nécessaire.

CosyVoice2 est l'un des modèles de clonage multilingues les plus forts, en préservant l'identité des locuteurs même lorsqu'ils produisent des paroles dans une langue différente de celle du clip de référence.

Yes. CosyVoice2 is a fast model and includes a streaming mode that produces audio with low latency, making it suitable for voice assistants and interactive applications. On TextToSpeechAI generations typically complete in seconds for short text.

CosyVoice2 nécessite environ 4-6 Go de VRAM pour le modèle de paramètre 0.5B, donc un GPU avec 6 Go ou plus est recommandé lors de l'auto-hébergement. Sur TextToSpeechAI le modèle fonctionne sur notre infrastructure GPU, de sorte que vous n'avez pas besoin de votre propre matériel.

CosyVoice2 est un modèle de premier niveau et coûte 25 crédits par 1000 caractères de texte. Chaque nouveau compte obtient des crédits de démarrage gratuits, de sorte que vous pouvez essayer le clonage vocal CosyVoice2 avant de décider d'un régime payé.

Les deux sont des moteurs de clonage de voix premium. GPT-SoVITS atteint souvent la plus haute similitude brute pour une seule voix cible, tandis que CosyVoice2 est plus forte pour le clonage multilingue et cross-lingual et ajoute un mode de streaming à faible latence.

CosyVoice2 prend en charge plus de langues (5 versus 2) et ajoute du streaming pour une utilisation en temps réel, tandis que F5-TTS peut être un peu plus rapide pour les charges de travail en anglais seulement.

TextToSpeechAI vous permet d'exporter des générations CosyVoice2 dans des formats communs tels que MP3 et WAV. Vous pouvez télécharger le fichier directement depuis votre page d'historique ou le récupérer programmatiquement via l'API TextToSpeechAI.

Oui. Vous pouvez tester CosyVoice2 avec la démo gratuite et vos crédits de démarrage gratuits sur TextToSpeechAI sans rien installer. Il suffit de vous inscrire, de télécharger un court clip de référence, de taper votre texte dans n'importe quelle langue prise en charge, et de générer.

Technical Specs

Generation Speed Fast
Output Quality Very Good
Voice Cloning Supported
Languages 5
GPU VRAM 4-6GB
Credits/1000 chars 25

Try CosyVoice2 Now

Generate your first audio free. No credit card required.

Start Free

Other TTS Engines

CosyVoice2

À propos CosyVoice2

Caractéristiques principales

Clonage de voix à chaud zéro

Multilingue

Appui à la diffusion

Prosodie naturelle

Cas d'utilisation

Comment utiliser CosyVoice2

Inscrivez-vous et demandez des crédits gratuits

Sélectionnez CosyVoice2 et ajoutez un clip de référence

Saisissez votre texte dans n'importe quelle langue prise en charge

Générer le discours

Télécharger ou utiliser l'API

CosyVoice2 API

Foire aux questions

Qu'est-ce que CosyVoice2?

CosyVoice2 est-il libre d'utiliser commercialement?

Quelles langues CosyVoice2 supporte-t-elle?

Comment fonctionne le clonage vocal CosyVoice2?

Quelle est la qualité de CosyVoice2 au clonage vocal multilingue?

CosyVoice2 est-il assez rapide pour une utilisation en temps réel?

Combien de mémoire GPU CosyVoice2 a besoin?

Combien de crédits CosyVoice2 coûte-t-il sur TextToSpeechAI?

CosyVoice2 vs GPT-SoviTS - que dois-je utiliser?

Comment CosyVoice2 se compare-t-il à F5-TTS?

Quels formats audio puis-je télécharger depuis CosyVoice2?

Puis-je essayer CosyVoice2 gratuitement?

Technical Specs

Try CosyVoice2 Now

Other TTS Engines

Barre

Boîte à dialogue

Dia