CosyVoice2

Premium

Zero-shot mehrsprachiges Sprachklonen mit Streaming-Unterstützung

Versuchen Sie kostenlos CosyVoice2 Stimmen durchsuchen (0)

Fast Geschwindigkeit

Very Good Qualität

Nein Klonen

5 Sprachen

Über CosyVoice2

CosyVoice2 ist ein Sprachsynthesemodell der nächsten Generation von FunAudioLLM (Alibaba). Es liefert ein natürlich klingendes Null-Shot-Voice-Klonen in mehreren Sprachen mit Streaming-Fähigkeit für Anwendungen mit geringer Latenz. Erbaut auf einem endlichen skalaren Quantisierungsansatz, erreicht es eine ausgezeichnete Stimmgleichheit mit nur wenigen Sekunden Referenz-Audio.

Hauptmerkmale

Nullschnelles Klonen der Stimme

Klonen Sie jede Stimme von 3-10 Sekunden Referenz-Audio mit hoher Treue.

Mehrsprachig

Unterstützt Chinesisch, Englisch, Japanisch, Koreanisch und Kantonesisch mit cross-lingualer Synthese.

Streaming-Unterstützung

Low-Latenz-Streaming-Modus für Echtzeit-Anwendungen und interaktive Systeme.

Natürliche Prosodie

Advanced Prosody Modellierung erzeugt natürlich klingende Sprache mit entsprechender Intonation.

Anwendungsfälle

Schaffung mehrsprachiger Inhalte Sprachassistenten in Echtzeit Sprachenübergreifende Synchronisation Personalisierte Sprachanwendungen

Verwendung CosyVoice2

1

Melde dich an und beantrage kostenlose Credits

Erstellen Sie ein kostenloses TextToSpeechAI-Konto, um Ihre Starter-Gutschriften zu beanspruchen, oder versuchen Sie zuerst die Demo. Keine GPU oder lokale CosyVoice2 Installation wird benötigt - alles läuft auf unserer Infrastruktur.
2

Wählen Sie CosyVoice2 und fügen Sie einen Referenzclip hinzu

Wählen Sie CosyVoice2 als Ihren Motor, dann laden Sie eine saubere 3-10 zweite Referenzaufnahme der Stimme, die Sie klonen möchten. CosyVoice2 extrahieren die Lautsprechereigenschaften für Null-Schuss mehrsprachiges Klonen.
3

Geben Sie Ihren Text in jede unterstützte Sprache ein

Geben Sie Ihr Skript in Chinesisch, Englisch, Japanisch, Koreanisch oder Kantonesisch ein oder fügen Sie es ein. CosyVoice2 unterstützt die cross-linguale Synthese, so dass die geklonte Stimme eine Sprache sprechen kann, die sich von dem Referenzclip unterscheidet.
4

Erzeugen der Rede

Klicken Sie auf erzeugen und CosyVoice2 synthetisiert natürliche, mehrsprachige Sprache in der geklonten Stimme, in der Regel innerhalb von Sekunden für kurze Text. Premium-Tier-Nutzung kostet 25 Credits pro 1.000 Zeichen.
5

API herunterladen oder verwenden

Laden Sie das fertige Audio als MP3 oder WAV aus Ihrer Geschichte herunter oder automatisieren Sie CosyVoice2 Voice-Klonen im Maßstab über die TextToSpeechAI REST API.

CosyVoice2 API

Erzeugen Sie Sprache programmatisch mit der TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "CosyVoice2 liefert natürliche mehrsprachige Sprache mit Zero\u002DShot\u002DStimme\u002DKlonfähigkeit.",
    "voice": "en_US-lessac-medium"
  }'

API Docs lesen Holen Sie sich Ihren API-Schlüssel

Häufig gestellte Fragen

CosyVoice2 ist ein text-to-speech- und voice-Klonmodell der nächsten Generation von FunAudioLLM (Alibaba). Es unterstützt das Null-Shot-Voice-Klonen von nur wenigen Sekunden Referenz-Audio und kann natürliche Sprache in Chinesisch, Englisch, Japanisch, Koreanisch und Kantonesisch synthetisieren. Auf TextToSpeechAI können Sie CosyVoice2 im Browser ohne lokale Einrichtung ausführen.

Ja, CosyVoice2 ist voll Apache 2.0 lizenziert - sowohl der Code als auch die Modellgewichte. Dadurch ist es sicher, in kommerziellen Produkten, bezahlten Inhalten und Kunden arbeiten ohne Lizenzgebühren oder nicht-kommerzielle Einschränkungen zu verwenden.

CosyVoice2 unterstützt fünf Sprachen: Chinesisch (Mandarin), Englisch, Japanisch, Koreanisch und Kantonesisch. Es behandelt auch die cross-linguale Synthese, so dass Sie eine Stimme von einer Aufnahme in einer Sprache klonen und Sprache in einer anderen erzeugen können.

Geben Sie 3-10 Sekunden saubere Referenz-Audio des Ziel-Lautsprechers. CosyVoice2 extrahiert die Lautsprecher-Eigenschaften mit einem endlichen skalaren Quantisierungsansatz und erzeugt dann neue Sprache in dieser geklonten Stimme über eine seiner unterstützten Sprachen. Es ist kein Modelltraining oder Feinabstimmung erforderlich.

CosyVoice2 ist eines der stärkeren mehrsprachigen Klonmodelle, das die Identität des Lautsprechers auch bei der Erzeugung von Sprache in einer anderen Sprache als dem Referenzclip bewahrt. Es produziert natürliche Prosodie und Intonation, wodurch es sich gut für linguale Synchronisation und lokalisierte Inhalte eignet.

Yes. CosyVoice2 is a fast model and includes a streaming mode that produces audio with low latency, making it suitable for voice assistants and interactive applications. On TextToSpeechAI generations typically complete in seconds for short text.

CosyVoice2 benötigt für das 0.5B-Parametermodell ca. 4-6GB VRAM, so dass beim Selbsthosten eine GPU mit 6GB oder mehr empfohlen wird. Bei TextToSpeechAI läuft das Modell auf unserer GPU-Infrastruktur, sodass Sie keine eigene Hardware benötigen.

CosyVoice2 ist ein Premium-Tier-Modell und kostet 25 Credits pro 1.000 Zeichen Text. Jedes neue Konto erhält kostenlose Starter-Gutschriften, so können Sie versuchen CosyVoice2 Stimme Klonen, bevor Sie sich für einen bezahlten Plan.

Beide sind Premium-Sprachklon-Engines. GPT-SoVITS erreicht oft die höchste rohe Ähnlichkeit für eine einzelne Zielstimme, während CosyVoice2 ist stärker für mehrsprachiges und cross-linguale Klonen und fügt einen Low-Latenz-Streaming-Modus. Wählen Sie CosyVoice2, wenn Sie eine geklonte Stimme benötigen, um mehrere Sprachen zu sprechen.

CosyVoice2 unterstützt mehr Sprachen (5 versus 2) und fügt Streaming für Echtzeit-Nutzung hinzu, während F5-TTS für nur Englisch-Workloads etwas schneller sein kann. Für mehrsprachige Projekte ist CosyVoice2 in der Regel besser geeignet.

Mit TextToSpeechAI können Sie CosyVoice2-Generationen in gängigen Formaten wie MP3 und WAV exportieren. Sie können die Datei direkt von Ihrer Historienseite herunterladen oder programmatisch über die TextToSpeechAI API abrufen.

Ja. Sie können CosyVoice2 mit der kostenlosen Demo und Ihren kostenlosen Starter-Credits auf TextToSpeechAI testen, ohne etwas zu installieren. Melden Sie sich einfach an, laden Sie einen kurzen Referenzclip hoch, geben Sie Ihren Text in jede unterstützte Sprache ein und generieren Sie.

Technical Specs

Generation Speed Fast
Output Quality Very Good
Voice Cloning Supported
Languages 5
GPU VRAM 4-6GB
Credits/1000 chars 25

Try CosyVoice2 Now

Generate your first audio free. No credit card required.

Start Free

Other TTS Engines

CosyVoice2

Über CosyVoice2

Hauptmerkmale

Nullschnelles Klonen der Stimme

Mehrsprachig

Streaming-Unterstützung

Natürliche Prosodie

Anwendungsfälle

Verwendung CosyVoice2

Melde dich an und beantrage kostenlose Credits

Wählen Sie CosyVoice2 und fügen Sie einen Referenzclip hinzu

Geben Sie Ihren Text in jede unterstützte Sprache ein

Erzeugen der Rede

API herunterladen oder verwenden

CosyVoice2 API

Häufig gestellte Fragen

Was ist CosyVoice2?

Ist CosyVoice2 frei, kommerziell zu verwenden?

Welche Sprachen unterstützt CosyVoice2?

Wie funktioniert CosyVoice2 Voice Klonen?

Wie gut ist CosyVoice2 beim mehrsprachigen Sprachklonen?

Ist CosyVoice2 schnell genug für die Echtzeit-Nutzung?

Wie viel GPU-Speicher benötigt CosyVoice2?

Wie viele Credits kostet CosyVoice2 auf TextToSpeechAI?

CosyVoice2 gegen GPT-SoVITS - welche soll ich verwenden?

Wie vergleicht CosyVoice2 mit F5-TTS?

Welche Audioformate kann ich von CosyVoice2 herunterladen?

Kann ich CosyVoice2 kostenlos ausprobieren?

Technical Specs

Try CosyVoice2 Now

Other TTS Engines

Bark

Chatterbox

Dia