CosyVoice2

Premium

Clonage de voix multilingue à capture zéro avec support en streaming

Fast Vitesse
Very Good Qualité
Oui Clonage
5 Langues

À propos CosyVoice2

CosyVoice2 est un modèle de synthèse vocale de prochaine génération de FunAudioLLM (Alibaba). Il offre un clonage vocal à zéro-shot naturel dans plusieurs langues avec une capacité de streaming pour les applications à faible latence. Construit sur une approche de quantification scalaire finie, il obtient une excellente similitude vocale avec quelques secondes d'audio de référence.

Caractéristiques principales

Clonage de voix à chaud zéro

Clone toute voix de 3-10 secondes de son de référence avec une grande fidélité.

Multilingue

Soutient le chinois, l'anglais, le japonais, le coréen et le cantonais avec une synthèse cross-lingual.

Appui à la diffusion

Mode de streaming à faible latence pour les applications en temps réel et les systèmes interactifs.

Prosodie naturelle

La modélisation prosodique avancée produit des paroles sonores naturelles avec une intonation appropriée.

Cas d'utilisation

Création de contenu multilingue Assistants vocaux en temps réel Doublures translingues Applications vocales personnalisées

Comment utiliser CosyVoice2

  1. 1

    Inscrivez-vous et demandez des crédits gratuits

    Créez un compte gratuit TextToSpeechAI pour réclamer vos crédits de démarrage, ou essayez la démo en premier. Pas d'installation GPU ou local CosyVoice2 est nécessaire - tout fonctionne sur notre infrastructure.

  2. 2

    Sélectionnez CosyVoice2 et ajoutez un clip de référence

    Choisissez CosyVoice2 comme moteur, puis téléchargez un enregistrement de référence 3-10 seconde propre de la voix que vous voulez cloner. CosyVoice2 extrait les caractéristiques de l'enceinte pour le clonage multilingue zéro-shot.

  3. 3

    Saisissez votre texte dans n'importe quelle langue prise en charge

    Tapez ou collez votre script en chinois, anglais, japonais, coréen ou cantonais. CosyVoice2 supporte la synthèse cross-lingual, de sorte que la voix clonée peut parler une langue différente du clip de référence.

  4. 4

    Générer le discours

    Cliquez sur générer et CosyVoice2 synthétise la parole naturelle et multilingue dans la voix clonée, généralement en quelques secondes pour un texte court.

  5. 5

    Télécharger ou utiliser l'API

    Téléchargez l'audio fini en MP3 ou WAV de votre historique, ou automatisez le clonage vocal CosyVoice2 à l'échelle dans l'API TextToSpeechAI REST.

CosyVoice2 API

Générer des discours programmatiques en utilisant l'API TextToSpeechAI REST.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "CosyVoice2 offre une parole multilingue naturelle avec une capacité de clonage vocal zéro\u002Dshot.",
    "voice": "en_US-lessac-medium"
  }'

Foire aux questions

CosyVoice2 is a next-generation text-to-speech and voice cloning model from FunAudioLLM (Alibaba). It supports zero-shot voice cloning from just a few seconds of reference audio and can synthesize natural speech in Chinese, English, Japanese, Korean, and Cantonese. On TextToSpeechAI you can run CosyVoice2 in the browser without any local setup.

Oui, CosyVoice2 est entièrement sous licence Apache 2.0 - à la fois le code et le poids du modèle. Cela rend sûr d'utiliser dans les produits commerciaux, le contenu payé, et le travail du client sans frais de licence ou de restrictions non commerciales.

CosyVoice2 prend en charge cinq langues : le chinois (mandarin), l'anglais, le japonais, le coréen et le cantonais. Il gère également la synthèse cross-lingual, de sorte que vous pouvez cloner une voix d'un enregistrement dans une langue et générer la parole dans une autre.

Fournissez 3-10 secondes d'audio de référence propre de l'enceinte cible. CosyVoice2 extrait les caractéristiques de l'enceinte en utilisant une approche de quantification scalaire finie, puis génère de nouvelles paroles dans cette voix clonée dans l'une de ses langues supportées. Aucune formation ou réglage fin de modèle n'est nécessaire.

CosyVoice2 est l'un des modèles de clonage multilingues les plus forts, en préservant l'identité des locuteurs même lorsqu'ils produisent des paroles dans une langue différente de celle du clip de référence.

Yes. CosyVoice2 is a fast model and includes a streaming mode that produces audio with low latency, making it suitable for voice assistants and interactive applications. On TextToSpeechAI generations typically complete in seconds for short text.

CosyVoice2 nécessite environ 4-6 Go de VRAM pour le modèle de paramètre 0.5B, donc un GPU avec 6 Go ou plus est recommandé lors de l'auto-hébergement. Sur TextToSpeechAI le modèle fonctionne sur notre infrastructure GPU, de sorte que vous n'avez pas besoin de votre propre matériel.

CosyVoice2 est un modèle de premier niveau et coûte 25 crédits par 1000 caractères de texte. Chaque nouveau compte obtient des crédits de démarrage gratuits, de sorte que vous pouvez essayer le clonage vocal CosyVoice2 avant de décider d'un régime payé.

Les deux sont des moteurs de clonage de voix premium. GPT-SoVITS atteint souvent la plus haute similitude brute pour une seule voix cible, tandis que CosyVoice2 est plus forte pour le clonage multilingue et cross-lingual et ajoute un mode de streaming à faible latence.

CosyVoice2 prend en charge plus de langues (5 versus 2) et ajoute du streaming pour une utilisation en temps réel, tandis que F5-TTS peut être un peu plus rapide pour les charges de travail en anglais seulement.

TextToSpeechAI vous permet d'exporter des générations CosyVoice2 dans des formats communs tels que MP3 et WAV. Vous pouvez télécharger le fichier directement depuis votre page d'historique ou le récupérer programmatiquement via l'API TextToSpeechAI.

Oui. Vous pouvez tester CosyVoice2 avec la démo gratuite et vos crédits de démarrage gratuits sur TextToSpeechAI sans rien installer. Il suffit de vous inscrire, de télécharger un court clip de référence, de taper votre texte dans n'importe quelle langue prise en charge, et de générer.

Technical Specs

  • Generation Speed Fast
  • Output Quality Very Good
  • Voice Cloning Supported
  • Languages 5
  • GPU VRAM 4-6GB
  • Credits/1000 chars 25

Try CosyVoice2 Now

Generate your first audio free. No credit card required.

Start Free