Kokoro

Standard

Blitzschnelles, leichtes TTS mit natürlicher Qualität

Very Fast Geschwindigkeit
Good Qualität
Nein Klonen
9 Sprachen

Über Kokoro

Kokoro ist ein ultraleichtes 82M-Parameter-TTS-Modell, das bei unglaublicher Geschwindigkeit natürlich klingende Sprache liefert. Es läuft in Echtzeit sogar auf CPU und ist damit ideal für Anwendungen, bei denen geringe Latenz kritisch ist. Kokoro unterstützt mehrere Sprachen und bietet Sprachmischfunktionen.

Hauptmerkmale

Ultraleichtgewicht

82M Parameter, ~300MB Modellgröße. Läuft auf CPU mit minimalen Ressourcen.

In der Nähe von Echtzeit

Erzeugt Sprache schneller als Wiedergabegeschwindigkeit, auch ohne GPU-Beschleunigung.

Mehrsprachig

Unterstützt Englisch, Französisch, Spanisch, Hindi, Japanisch, Chinesisch, Italienisch, Portugiesisch und Koreanisch.

Sprach-Mischung

Mischen Sie zwei Stimmen zusammen, um einzigartige Stimmkombinationen zu schaffen.

Anwendungsfälle

Chatbots und virtuelle Assistenten in Echtzeit Live-Streaming-Text-to-Speech Edge-Deployment und mobile Anwendungen Großvolumige Chargenverarbeitung

Verwendung Kokoro

  1. 1

    Registrieren Sie sich kostenlos oder versuchen Sie die Demo

    Erstellen Sie ein kostenloses TextToSpeechAI-Konto, um 200 Starter-Credits zu erhalten, oder nutzen Sie die No-Signup-Demo, um Kokoro sofort zu hören.

  2. 2

    Wählen Sie eine Kokoro-Stimme

    Öffnen Sie den Sprachbrowser und wählen Sie eine Kokoro-Stimme in Ihrer Zielsprache (9 unterstützt, vom Englischen bis zum Japanischen und Koreanischen).

  3. 3

    Geben Sie Ihren Text ein

    Geben Sie den gewünschten Text in den Editor ein oder fügen Sie ihn ein. Kokoro verarbeitet dank seines leichten 82M-Parameters in der Nähe von Echtzeit-Engine effizient lange Passagen.

  4. 4

    Geschwindigkeit einstellen und erzeugen

    Setzen Sie die Wiedergabegeschwindigkeit auf Ihren Anwendungsfall und klicken Sie dann auf Generate. Kokoro rendert Audio schneller als Echtzeit, so dass Ihre Rede fast sofort fertig ist.

  5. 5

    API herunterladen oder verwenden

    Laden Sie das fertige Audio als MP3 oder WAV herunter oder automatisieren Sie die Generierung über die TextToSpeechAI REST API bei api.texttospeechai.com für Batch- und Echtzeit-Workloads.

Kokoro API

Erzeugen Sie Sprache programmatisch mit der TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Kokoro liefert natürliche Sprache mit unglaublicher Geschwindigkeit und Effizienz.",
    "voice": "en_US-lessac-medium"
  }'

Häufig gestellte Fragen

Kokoro ist ein ultraleichtes Text-zu-Sprechen-Modell mit nur 82 Millionen Parametern. Trotz seiner geringen Größe produziert es natürlich klingende Sprache über mehrere Sprachen mit nahezu Echtzeit-Geschwindigkeit, auch auf CPU.

Ja, Kokoro ist vollständig Apache 2.0 lizenziert - sowohl Code- als auch Modellgewichte. Es kann frei in kommerziellen Anwendungen ohne Einschränkungen verwendet werden.

Kokoro unterstützt Englisch (USA und Großbritannien), Französisch, Spanisch, Hindi, Japanisch, Chinesisch, Italienisch, Portugiesisch und Koreanisch.

Kokoro ist eines der schnellsten verfügbaren TTS-Modelle. Es erzeugt Rede schneller als Echtzeit-Wiedergabegeschwindigkeit auch auf CPU, so dass es ideal für interaktive Anwendungen.

Nein, Kokoro unterstützt das Klonen der Stimme nicht. Es verwendet eine kuratierte Sprachbibliothek mit Sprachmischfunktionen. Für das Klonen der Stimme verwenden Sie F5-TTS, Chatterbox, StyleTTS2, OpenVoice oder Tortoise.

Kokoro kann zwei Stimmen zusammen mischen, um einzigartige Kombinationen zu erstellen. Dies ermöglicht es Ihnen, benutzerdefinierte Spracheigenschaften ohne traditionelles Stimmenklonen zu erstellen.

Beide sind schnelle, leichte Modelle. Kokoro verfügt über eine modernere Architektur und unterstützt die Sprachvermischung, während Piper eine größere Sprachbibliothek besitzt. Beide sind hervorragend für Echtzeitanwendungen geeignet.

Kokoro ist auf CPU ausgelegt und benötigt minimale Ressourcen - ca. 300MB. Es wird keine GPU benötigt, obwohl die GPU-Beschleunigung für eine noch schnellere Verarbeitung unterstützt wird.

Ja. Kokoro erzeugt Sprache schneller als die Wiedergabe auch auf CPU, mit sehr geringer Latenz, so ist es eine ausgezeichnete Passform für Chatbots, Sprachassistenten und Live-Streaming. Seine 82M-Parameter-Größe hält Speicher verwenden winzig, so dass es praktisch für High-Volume-und Edge-Bereitstellungen.

Mit Voice Blending können Sie zwei Kokoro-Stimmen mischen, um eine einzigartige Kombination mit benutzerdefinierten Eigenschaften zu erstellen. Es ist kein traditionelles Sprachklonen - man kann eine bestimmte Person nicht aus einem Sample reproduzieren - aber es gibt Ihnen mehr Abwechslung als eine feste Sprachbibliothek. Sie können mit Blends direkt im TextToSpeechAI Editor experimentieren.

Beide sind schnell, CPU-freundliche Standard-Tier-Engines ohne Sprachklonen. Kokoro ist die leichteste (ca. 300MB) und unterstützt Sprachmischungen in 9 Sprachen, während MeloTTS konzentriert sich auf mehrere englische Akzente und Echtzeit-linguale Ausgabe. Wählen Sie Kokoro für die kleinste Platzfläche und Mischung; wählen Sie MeloTTS, wenn Sie bestimmte Akzente benötigen.

Kokoro ist ein Standard-Tier-Engine, kostet 10 Credits pro 1000 Zeichen - die niedrigste Stufe auf TextToSpeechAI. Neue Konten erhalten 200 kostenlose Credits, so können Sie versuchen, Kokoro ohne zu bezahlen. Dies macht es zu einer der kostengünstigsten Möglichkeiten, um qualitativ hochwertige Sprache im Maßstab zu generieren.

Technical Specs

  • Generation Speed Very Fast
  • Output Quality Good
  • Voice Cloning Not Supported
  • Languages 9
  • GPU VRAM CPU OK
  • Credits/1000 chars 10

Try Kokoro Now

Generate your first audio free. No credit card required.

Start Free