CosyVoice2

Premium

Zero-shot mehrsprachiges Sprachklonen mit Streaming-Unterstützung

Fast Geschwindigkeit
Very Good Qualität
Nein Klonen
5 Sprachen

Über CosyVoice2

CosyVoice2 ist ein Sprachsynthesemodell der nächsten Generation von FunAudioLLM (Alibaba). Es liefert ein natürlich klingendes Null-Shot-Voice-Klonen in mehreren Sprachen mit Streaming-Fähigkeit für Anwendungen mit geringer Latenz. Erbaut auf einem endlichen skalaren Quantisierungsansatz, erreicht es eine ausgezeichnete Stimmgleichheit mit nur wenigen Sekunden Referenz-Audio.

Hauptmerkmale

Nullschnelles Klonen der Stimme

Klonen Sie jede Stimme von 3-10 Sekunden Referenz-Audio mit hoher Treue.

Mehrsprachig

Unterstützt Chinesisch, Englisch, Japanisch, Koreanisch und Kantonesisch mit cross-lingualer Synthese.

Streaming-Unterstützung

Low-Latenz-Streaming-Modus für Echtzeit-Anwendungen und interaktive Systeme.

Natürliche Prosodie

Advanced Prosody Modellierung erzeugt natürlich klingende Sprache mit entsprechender Intonation.

Anwendungsfälle

Schaffung mehrsprachiger Inhalte Sprachassistenten in Echtzeit Sprachenübergreifende Synchronisation Personalisierte Sprachanwendungen

Verwendung CosyVoice2

  1. 1

    Melde dich an und beantrage kostenlose Credits

    Erstellen Sie ein kostenloses TextToSpeechAI-Konto, um Ihre Starter-Gutschriften zu beanspruchen, oder versuchen Sie zuerst die Demo. Keine GPU oder lokale CosyVoice2 Installation wird benötigt - alles läuft auf unserer Infrastruktur.

  2. 2

    Wählen Sie CosyVoice2 und fügen Sie einen Referenzclip hinzu

    Wählen Sie CosyVoice2 als Ihren Motor, dann laden Sie eine saubere 3-10 zweite Referenzaufnahme der Stimme, die Sie klonen möchten. CosyVoice2 extrahieren die Lautsprechereigenschaften für Null-Schuss mehrsprachiges Klonen.

  3. 3

    Geben Sie Ihren Text in jede unterstützte Sprache ein

    Geben Sie Ihr Skript in Chinesisch, Englisch, Japanisch, Koreanisch oder Kantonesisch ein oder fügen Sie es ein. CosyVoice2 unterstützt die cross-linguale Synthese, so dass die geklonte Stimme eine Sprache sprechen kann, die sich von dem Referenzclip unterscheidet.

  4. 4

    Erzeugen der Rede

    Klicken Sie auf erzeugen und CosyVoice2 synthetisiert natürliche, mehrsprachige Sprache in der geklonten Stimme, in der Regel innerhalb von Sekunden für kurze Text. Premium-Tier-Nutzung kostet 25 Credits pro 1.000 Zeichen.

  5. 5

    API herunterladen oder verwenden

    Laden Sie das fertige Audio als MP3 oder WAV aus Ihrer Geschichte herunter oder automatisieren Sie CosyVoice2 Voice-Klonen im Maßstab über die TextToSpeechAI REST API.

CosyVoice2 API

Erzeugen Sie Sprache programmatisch mit der TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "CosyVoice2 liefert natürliche mehrsprachige Sprache mit Zero\u002DShot\u002DStimme\u002DKlonfähigkeit.",
    "voice": "en_US-lessac-medium"
  }'

Häufig gestellte Fragen

CosyVoice2 ist ein text-to-speech- und voice-Klonmodell der nächsten Generation von FunAudioLLM (Alibaba). Es unterstützt das Null-Shot-Voice-Klonen von nur wenigen Sekunden Referenz-Audio und kann natürliche Sprache in Chinesisch, Englisch, Japanisch, Koreanisch und Kantonesisch synthetisieren. Auf TextToSpeechAI können Sie CosyVoice2 im Browser ohne lokale Einrichtung ausführen.

Ja, CosyVoice2 ist voll Apache 2.0 lizenziert - sowohl der Code als auch die Modellgewichte. Dadurch ist es sicher, in kommerziellen Produkten, bezahlten Inhalten und Kunden arbeiten ohne Lizenzgebühren oder nicht-kommerzielle Einschränkungen zu verwenden.

CosyVoice2 unterstützt fünf Sprachen: Chinesisch (Mandarin), Englisch, Japanisch, Koreanisch und Kantonesisch. Es behandelt auch die cross-linguale Synthese, so dass Sie eine Stimme von einer Aufnahme in einer Sprache klonen und Sprache in einer anderen erzeugen können.

Geben Sie 3-10 Sekunden saubere Referenz-Audio des Ziel-Lautsprechers. CosyVoice2 extrahiert die Lautsprecher-Eigenschaften mit einem endlichen skalaren Quantisierungsansatz und erzeugt dann neue Sprache in dieser geklonten Stimme über eine seiner unterstützten Sprachen. Es ist kein Modelltraining oder Feinabstimmung erforderlich.

CosyVoice2 ist eines der stärkeren mehrsprachigen Klonmodelle, das die Identität des Lautsprechers auch bei der Erzeugung von Sprache in einer anderen Sprache als dem Referenzclip bewahrt. Es produziert natürliche Prosodie und Intonation, wodurch es sich gut für linguale Synchronisation und lokalisierte Inhalte eignet.

Yes. CosyVoice2 is a fast model and includes a streaming mode that produces audio with low latency, making it suitable for voice assistants and interactive applications. On TextToSpeechAI generations typically complete in seconds for short text.

CosyVoice2 benötigt für das 0.5B-Parametermodell ca. 4-6GB VRAM, so dass beim Selbsthosten eine GPU mit 6GB oder mehr empfohlen wird. Bei TextToSpeechAI läuft das Modell auf unserer GPU-Infrastruktur, sodass Sie keine eigene Hardware benötigen.

CosyVoice2 ist ein Premium-Tier-Modell und kostet 25 Credits pro 1.000 Zeichen Text. Jedes neue Konto erhält kostenlose Starter-Gutschriften, so können Sie versuchen CosyVoice2 Stimme Klonen, bevor Sie sich für einen bezahlten Plan.

Beide sind Premium-Sprachklon-Engines. GPT-SoVITS erreicht oft die höchste rohe Ähnlichkeit für eine einzelne Zielstimme, während CosyVoice2 ist stärker für mehrsprachiges und cross-linguale Klonen und fügt einen Low-Latenz-Streaming-Modus. Wählen Sie CosyVoice2, wenn Sie eine geklonte Stimme benötigen, um mehrere Sprachen zu sprechen.

CosyVoice2 unterstützt mehr Sprachen (5 versus 2) und fügt Streaming für Echtzeit-Nutzung hinzu, während F5-TTS für nur Englisch-Workloads etwas schneller sein kann. Für mehrsprachige Projekte ist CosyVoice2 in der Regel besser geeignet.

Mit TextToSpeechAI können Sie CosyVoice2-Generationen in gängigen Formaten wie MP3 und WAV exportieren. Sie können die Datei direkt von Ihrer Historienseite herunterladen oder programmatisch über die TextToSpeechAI API abrufen.

Ja. Sie können CosyVoice2 mit der kostenlosen Demo und Ihren kostenlosen Starter-Credits auf TextToSpeechAI testen, ohne etwas zu installieren. Melden Sie sich einfach an, laden Sie einen kurzen Referenzclip hoch, geben Sie Ihren Text in jede unterstützte Sprache ein und generieren Sie.

Technical Specs

  • Generation Speed Fast
  • Output Quality Very Good
  • Voice Cloning Supported
  • Languages 5
  • GPU VRAM 4-6GB
  • Credits/1000 chars 25

Try CosyVoice2 Now

Generate your first audio free. No credit card required.

Start Free