CosyVoice2
PremiumZero-shot mehrsprachiges Sprachklonen mit Streaming-Unterstützung
Über CosyVoice2
CosyVoice2 ist ein Sprachsynthesemodell der nächsten Generation von FunAudioLLM (Alibaba). Es liefert ein natürlich klingendes Null-Shot-Voice-Klonen in mehreren Sprachen mit Streaming-Fähigkeit für Anwendungen mit geringer Latenz. Erbaut auf einem endlichen skalaren Quantisierungsansatz, erreicht es eine ausgezeichnete Stimmgleichheit mit nur wenigen Sekunden Referenz-Audio.
Hauptmerkmale
Nullschnelles Klonen der Stimme
Klonen Sie jede Stimme von 3-10 Sekunden Referenz-Audio mit hoher Treue.
Mehrsprachig
Unterstützt Chinesisch, Englisch, Japanisch, Koreanisch und Kantonesisch mit cross-lingualer Synthese.
Streaming-Unterstützung
Low-Latenz-Streaming-Modus für Echtzeit-Anwendungen und interaktive Systeme.
Natürliche Prosodie
Advanced Prosody Modellierung erzeugt natürlich klingende Sprache mit entsprechender Intonation.
Anwendungsfälle
Verwendung CosyVoice2
-
1
Melde dich an und beantrage kostenlose Credits
Erstellen Sie ein kostenloses TextToSpeechAI-Konto, um Ihre Starter-Gutschriften zu beanspruchen, oder versuchen Sie zuerst die Demo. Keine GPU oder lokale CosyVoice2 Installation wird benötigt - alles läuft auf unserer Infrastruktur.
-
2
Wählen Sie CosyVoice2 und fügen Sie einen Referenzclip hinzu
Wählen Sie CosyVoice2 als Ihren Motor, dann laden Sie eine saubere 3-10 zweite Referenzaufnahme der Stimme, die Sie klonen möchten. CosyVoice2 extrahieren die Lautsprechereigenschaften für Null-Schuss mehrsprachiges Klonen.
-
3
Geben Sie Ihren Text in jede unterstützte Sprache ein
Geben Sie Ihr Skript in Chinesisch, Englisch, Japanisch, Koreanisch oder Kantonesisch ein oder fügen Sie es ein. CosyVoice2 unterstützt die cross-linguale Synthese, so dass die geklonte Stimme eine Sprache sprechen kann, die sich von dem Referenzclip unterscheidet.
-
4
Erzeugen der Rede
Klicken Sie auf erzeugen und CosyVoice2 synthetisiert natürliche, mehrsprachige Sprache in der geklonten Stimme, in der Regel innerhalb von Sekunden für kurze Text. Premium-Tier-Nutzung kostet 25 Credits pro 1.000 Zeichen.
-
5
API herunterladen oder verwenden
Laden Sie das fertige Audio als MP3 oder WAV aus Ihrer Geschichte herunter oder automatisieren Sie CosyVoice2 Voice-Klonen im Maßstab über die TextToSpeechAI REST API.
CosyVoice2 API
Erzeugen Sie Sprache programmatisch mit der TextToSpeechAI REST API.
curl -X POST "https://api.texttospeechai.com/v1/generate/" \
-H "Authorization: Bearer YOUR_API_TOKEN" \
-H "Content-Type: application/json" \
-d '{
"text": "CosyVoice2 liefert natürliche mehrsprachige Sprache mit Zero\u002DShot\u002DStimme\u002DKlonfähigkeit.",
"voice": "en_US-lessac-medium"
}'
Häufig gestellte Fragen
Technical Specs
- Generation Speed Fast
- Output Quality Very Good
- Voice Cloning Supported
- Languages 5
- GPU VRAM 4-6GB
- Credits/1000 chars 25