Taschen-TTS

Standard

Ultraleichtes Stimmenklonen, das in Echtzeit auf CPU läuft

Very Fast Geschwindigkeit
Good Qualität
Nein Klonen
2 Sprachen

Über Taschen-TTS

Pocket TTS von Kyutai ist ein ultraleichtes 100M-Parameter-Text-to-Speech-Modell, das in Echtzeit auf CPU läuft. Trotz seiner winzigen Größe unterstützt es Sprachklonen aus nur 5 Sekunden Referenz-Audio. Perfekt für Edge-Deployment, mobile Anwendungen und Szenarien, in denen GPU-Ressourcen begrenzt sind. Derzeit unterstützt Englisch und Französisch.

Hauptmerkmale

Ultraleichtgewicht

100M Parameter - läuft in Echtzeit auf CPU mit minimalen Ressourcen.

Stimme Klonen

Klonen Sie jede Stimme von nur 5 Sekunden Referenz-Audio, auch auf CPU.

Echtzeit auf CPU

Keine GPU erforderlich. Erzeugt Sprache mit Echtzeit-Geschwindigkeit auf Standard-Hardware.

Randbereit

Klein genug für mobile Geräte, Raspberry Pi und eingebettete Systeme.

Anwendungsfälle

Edge und mobile Bereitstellung Echtzeit-Sprachassistenten auf CPU IoT- und Embedded-Geräte Low-Resource-Stimme Klonen

Verwendung Taschen-TTS

  1. 1

    Registrieren Sie sich kostenlos oder versuchen Sie die Demo

    Erstellen Sie ein kostenloses TextToSpeechAI-Konto, um Starter-Gutschriften zu erhalten, oder nutzen Sie die Vor-Ort-Demo, um Pocket TTS vor der Anmeldung zu hören.

  2. 2

    Wählen Sie Pocket TTS und fügen Sie eine Stimme zu klonen

    Wählen Sie Pocket TTS als Ihre Engine, dann laden Sie einen kurzen Referenzclip von etwa 5 bis 10 Sekunden, um diese Stimme zu klonen. Pocket TTS läuft vollständig auf CPU, so Klonen ist schnell und leicht.

  3. 3

    Geben Sie Ihren Text ein

    Geben Sie den gewünschten englischen oder französischen Text ein oder fügen Sie ihn ein. Behalten Sie die Anzahl der Zeichen im Auge, da Pocket TTS Rechnungen bei der Standardrate von 10 Credits pro 1.000 Zeichen.

  4. 4

    Erzeugen des Audios

    Klicken Sie auf erzeugen und Pocket TTS synthetisiert Ihren Text in der geklonten Stimme mit Echtzeit-Geschwindigkeit. Die meisten Clips sind in Sekunden bereit, weil das Modell so klein und CPU-effizient ist.

  5. 5

    API herunterladen oder verwenden

    Laden Sie das fertige Audio herunter oder automatisieren Sie die Generation über die TextToSpeechAI REST API bei api.texttospeechai.com mit Ihrem Konto-Token. Die API stellt das gleiche Pocket TTS Klonen und Synthese für Ihre eigenen Apps frei.

Taschen-TTS API

Erzeugen Sie Sprache programmatisch mit der TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Pocket TTS liefert Sprachklonen, die in Echtzeit läuft, auch auf CPU.",
    "voice": "en_US-lessac-medium"
  }'

Häufig gestellte Fragen

Pocket TTS ist ein ultraleichtes Text-zu-Speech-Modell von Kyutai mit nur 100 Millionen Parametern. Es läuft in Echtzeit auf CPU und unterstützt das Sprachklonen ab 5 Sekunden Audio.

Pocket TTS ist unter CC-BY-4.0 lizenziert, was eine kommerzielle Nutzung mit Zuschreibung ermöglicht. Sie müssen Kyutai bei der Verwendung in kommerziellen Anwendungen gutschreiben.

Derzeit unterstützt Pocket TTS Englisch und Französisch. Weitere Sprachen können in zukünftigen Versionen hinzugefügt werden.

Ja! Mit nur 100M-Parametern läuft Pocket TTS mit Echtzeit-Geschwindigkeit auf Standard-CPU-Hardware. Es wird keine GPU benötigt, was es ideal für Edge-Deployment und mobile Anwendungen macht.

Beide sind leicht und laufen gut auf CPU. Pocket TTS einzigartig unterstützt Sprachklonen (Kokoro nicht). Kokoro unterstützt mehr Sprachen (9 vs 2). Wählen Sie Pocket TTS, wenn Sie leichte Sprachklonen benötigen, Kokoro, wenn Sie mehr Sprachabdeckung benötigen.

Geben Sie 5 Sekunden Referenz-Audio. Pocket TTS extrahiert Lautsprecher-Eigenschaften und kann neue Sprache in dieser Stimme zu generieren. Qualität verbessert sich mit längeren Referenzen (bis zu 10 Sekunden).

Ja. Im Gegensatz zu den meisten Klonmodellen, die eine GPU benötigen, führt Pocket TTS dank seines winzigen 100M-Parameter-Fußabdrucks ein Null-Shot-Voice-Klonen vollständig auf der CPU durch. Sie können eine Stimme aus einem kurzen Clip auch auf einem Laptop oder Single-Board-Computer klonen.

Pocket TTS wird unter CC-BY-4.0 veröffentlicht, so müssen Sie Kyutai als den ursprünglichen Schöpfer creditieren, wenn Sie es verwenden oder weiterverteilen. Eine einfache Attribution wie "Voice mit Pocket TTS von Kyutai generiert" erfüllt die Lizenz für kommerzielle und nicht-kommerzielle Nutzung gleichermaßen.

Pocket TTS erzeugt Sprache in Echtzeit oder schneller auf einer Standard-CPU, ohne GPU erforderlich. Dies macht es zu einem der reaktionsstärksten Motoren für Low-Latenz-Einsatzfälle wie Live-Sprachassistenten und On-Device-Generierung.

Pocket TTS ist in der Standard-Preisklasse, kostet 10 Credits pro 1.000 Zeichen. Das macht es zu einer der wirtschaftlichsten Sprach-Cloning-Optionen zur Verfügung auf TextToSpeechAI.

Beide sind leichte, CPU-freundliche, Standard-Tier-Engines. Pick Pocket TTS, wenn Sie Sprachklonen benötigen, da Kokoro es nicht unterstützt. Pick Kokoro, wenn Sie eine breitere Sprachabdeckung benötigen und keine bestimmte Stimme klonen müssen.

Ja. Neue TextToSpeechAI Konten erhalten kostenlose Starter-Gutschriften, und die Vor-Ort-Demo können Sie Pocket TTS hören, bevor Sie begehen. Registrieren Sie sich kostenlos, laden Sie einen kurzen Referenzclip, und erzeugen Sie geklonte Sprache in Sekunden.

Technical Specs

  • Generation Speed Very Fast
  • Output Quality Good
  • Voice Cloning Supported
  • Languages 2
  • GPU VRAM CPU OK
  • Credits/1000 chars 10

Try Taschen-TTS Now

Generate your first audio free. No credit card required.

Start Free