Chatterbox

Premium

Zero-shot Stimme klonen mit ausdrucksstarker Sprache in 23 Sprachen

Fast Geschwindigkeit
Very Good Qualität
Nein Klonen
23 Sprachen

Über Chatterbox

Chatterbox ist ein leistungsstarkes TTS-Modell von Resemble KI. Es führt Null-Shot-Stimme Klonen von nur wenigen Sekunden Referenz-Audio, Unterstützung 23 Sprachen mit natürlichen Ausdruck. Chatterbox enthält paralinguistische Tags für die Zugabe von natürlichen Klängen wie Lachen und Husten generierte Sprache.

Hauptmerkmale

Nullschnelles Klonen der Stimme

Klonen Sie jede Stimme aus ein paar Sekunden Audio - kein Training erforderlich.

23 Sprachen

Vom Arabischen bis zum Chinesischen und deckt die meisten großen Weltsprachen ab.

Ausdrückliche Tags

Fügen Sie [Lachen], [Kämpfe], [Kämpfe] für natürliche paralinguistische Geräusche hinzu.

Schnelle Schlussfolgerung

Sub-200ms Latenz mit der Turbo-Variante für Echtzeit-Anwendungen.

Anwendungsfälle

Sprachklonen für die Content-Erstellung Mehrsprachige Sprachanwendungen Charakter Stimme Design für Spiele Personalisierte Sprachassistenten

Verwendung Chatterbox

  1. 1

    Melden Sie sich an oder öffnen Sie die Demo

    Erstellen Sie ein kostenloses TextToSpeechAI-Konto, um 200 Starter-Credits zu beanspruchen, oder verwenden Sie die on-page-Demo, um Chatterbox ohne Anmeldung zu versuchen.

  2. 2

    Chatterbox auswählen und einen Referenzclip hinzufügen

    Wählen Sie die Chatterbox-Engine, dann laden Sie einen kurzen (ein paar Sekunden) Audioclip der Stimme, die Sie klonen möchten. Chatterbox Null-Schuss klont es sofort - kein Training erforderlich.

  3. 3

    Geben Sie Ihren Text mit optionalen Tags ein

    Geben Sie den Text ein oder fügen Sie ihn ein, um in einer der 23 unterstützten Sprachen zu sprechen, und legen Sie [lachen], [müde] oder [schnüffeln] Tags ein, wo immer Sie natürliche paralinguistische Klänge wollen.

  4. 4

    Erzeugen der Rede

    Klicken Sie auf Generieren und TextToSpeechAI rendert Ihren Text in der geklonten Chatterbox-Stimme auf gehostete GPU-Infrastruktur und gibt 25 Credits pro 1.000 Zeichen aus.

  5. 5

    API herunterladen oder verwenden

    Laden Sie die fertige Audiodatei herunter oder automatisieren Sie die Generierung über die TextToSpeechAI REST API bei api.texttospeechai.com mit Ihrem Konto-Token.

Chatterbox API

Erzeugen Sie Sprache programmatisch mit der TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Chatterbox kann Ihre Stimme aus nur wenigen Sekunden Audio klonen und in 23 Sprachen sprechen.",
    "voice": "en_US-lessac-medium"
  }'

Häufig gestellte Fragen

Chatterbox ist ein Null-Schuß-Stimme Klonen Text-zu-Sprechen-Modell von Resemble KI. Es kann jede Stimme aus nur wenigen Sekunden Referenz-Audio replizieren und erzeugen natürliche, ausdrucksstarke Sprache in 23 Sprachen, alle ohne jedes Per-Stimme-Training.

Ja, Chatterbox ist voll MIT lizenziert - sowohl den Code als auch die Modellgewichte - so können Sie es frei in kommerziellen Produkten verwenden. Generated Audio enthält ein optionales neuronales Wasserzeichen, das deaktiviert werden kann, und es gibt keine Nutzung Lizenzgebühren.

Sie bieten einen kurzen Referenzclip von jeder Stimme (ein paar Sekunden reicht) und Chatterbox extrahiert, dass Stimme Timbre und Stil in einem Lautsprecher Einbettung. Es erzeugt dann brandneue Sprache in dieser Stimme ohne Feineinstellung oder Trainingsschritt, das ist, was "Null-Schuss" bedeutet.

Chatterbox liest spezielle Inline-Tags in Ihrem Text, um natürliche non-verbale Sounds hinzuzufügen: [lachen] fügt Lachen ein, fügt einen Husten ein und fügt ein weiches Lachen ein. Legen Sie einfach ein Tag, wo Sie den Sound wollen, zum Beispiel "Das ist urkomisch [lachen] aber ernsthaft...".

Geben Sie das Tag direkt in Ihrem Eingabetext an der Stelle ein, an der der Klang auftreten soll, umgeben von dem Rest Ihres Satzes. Chatterbox rendert den paralinguistischen Klang in der geklonten Stimme und fügt ihn in die umgebende Sprache ein, so dass es eher spontan klingt, als sich eingemischt hat.

Chatterbox unterstützt 23 Sprachen, darunter Arabisch, Dänisch, Deutsch, Griechisch, Englisch, Spanisch, Finnisch, Französisch, Hebräisch, Hindi, Italienisch, Japanisch, Koreanisch, Malaiisch, Holländisch, Norwegisch, Polnisch, Portugiesisch, Russisch, Schwedisch, Swahili, Türkisch und Chinesisch.

Chatterbox erzeugt schnell Sprache auf einer GPU, und die Turbo-Variante erreicht Sub-200ms Latenz für Echtzeit-Konversation. Qualität ist sehr gut, mit natürlichen Prosodie und treue Stimmwiedergabe von selbst kurzen Referenzclips.

Chatterbox benötigt je nach Variante ca. 4-8GB VRAM, das Turbo-Modell läuft bequem in ca. 4GB. Auf TextToSpeechAI benötigen Sie keine lokalen GPU - Generierungsläufe auf unserer gehosteten Infrastruktur.

Chatterbox ist eine Premium-Tier-Engine, die 25 Credits pro 1.000 Zeichen kostet. Neue Konten erhalten 200 kostenlose Credits, um Sprachklonen zu versuchen, und Sie geben nur Credits auf den Text aus, den Sie tatsächlich generieren.

Beide unterstützen Null-Shot-Stimme Klonen, aber Chatterbox deckt weit mehr Sprachen (23 vs 2) und fügt ausdrucksstarke paralinguistische Tags. F5-TTS kann aus etwas natürlicheren englischen Prosody heraus, so wählen Chatterbox für mehrsprachige Klonen und ausdrucksstarke Sounds, und F5-TTS für Englisch-nur Treue.

Beide bieten hochwertiges Stimmenklonen. Chatterbox unterstützt 23 Sprachen und inline-expressive Tags, während OpenVoice fügt Ton-Stil-Steuerelemente (freundlich, traurig, wütend, und mehr), dass Chatterbox fehlt. Wählen Sie Chatterbox für breite Sprachabdeckung und OpenVoice, wenn Sie explizite emotionale Ton-Styling benötigen.

Ja. Melden Sie sich für ein kostenloses TextToSpeechAI-Konto an, um 200 Starter-Credits zu erhalten, oder nutzen Sie die on-page-Demo, um Chatterbox ohne Anmeldung zu hören. Laden Sie einen kurzen Referenzclip hoch, geben Sie Ihren Text ein und erzeugen Sie eine geklonte Stimme in Sekunden.

Technical Specs

  • Generation Speed Fast
  • Output Quality Very Good
  • Voice Cloning Supported
  • Languages 23
  • GPU VRAM 4-8GB
  • Credits/1000 chars 25

Try Chatterbox Now

Generate your first audio free. No credit card required.

Start Free