TTS de poche

Standard

Clonage vocal ultra léger qui fonctionne en temps réel sur CPU

Very Fast Vitesse
Good Qualité
Oui Clonage
2 Langues

À propos TTS de poche

Pocket TTS by Kyutai est un modèle de texte à parole ultra léger de 100M qui fonctionne en temps réel sur CPU. Malgré sa petite taille, il supporte le clonage vocal à partir de seulement 5 secondes d'audio de référence. Parfait pour le déploiement des bords, les applications mobiles et les scénarios où les ressources du GPU sont limitées.

Caractéristiques principales

Ultra-léger

Paramètres 100M - fonctionne en temps réel sur CPU avec des ressources minimales.

Clonage de la voix

Clone n'importe quelle voix à partir de seulement 5 secondes de son de référence, même sur CPU.

Temps réel sur CPU

Pas de GPU requis. Génére la parole à vitesse en temps réel sur le matériel standard.

Prêt à l'emploi

Assez petit pour les appareils mobiles, Raspberry Pi et les systèmes embarqués.

Cas d'utilisation

Déploiement des bords et des mobiles Assistants voix en temps réel sur CPU IoT et dispositifs embarqués Closonnage vocal à faible ressources

Comment utiliser TTS de poche

  1. 1

    Inscrivez-vous gratuitement ou essayez la démo

    Créez un compte gratuit TextToSpeechAI pour recevoir des crédits de démarrage, ou utilisez la démo sur place pour entendre Pocket TTS avant de vous inscrire. Pas besoin d'installation GPU ou locale.

  2. 2

    Sélectionnez Pocket TTS et ajoutez une voix au clone

    Choisissez Pocket TTS comme moteur, puis téléchargez un court clip de référence d'environ 5 à 10 secondes pour cloner cette voix. Pocket TTS fonctionne entièrement sur CPU, donc le clonage est rapide et léger.

  3. 3

    Saisissez votre texte

    Tapez ou collez le texte anglais ou français que vous voulez parler. Gardez un œil sur le nombre de caractères, puisque Pocket TTS facture au taux standard de 10 crédits par 1000 caractères.

  4. 4

    Générer l'audio

    Cliquez sur générer et Pocket TTS synthétise votre texte dans la voix clonée à une vitesse en temps réel. La plupart des clips sont prêts en quelques secondes parce que le modèle est si petit et efficace CPU.

  5. 5

    Télécharger ou utiliser l'API

    Téléchargez l'audio fini, ou automatisez la génération à travers l'API TextToSpeechAI REST sur api.texttospeechai.com en utilisant votre jeton de compte. L'API expose le même clonage et synthèse Pocket TTS pour vos propres applications.

TTS de poche API

Générer des discours programmatiques en utilisant l'API TextToSpeechAI REST.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Pocket TTS offre le clonage vocal qui fonctionne en temps réel, même sur CPU.",
    "voice": "en_US-lessac-medium"
  }'

Foire aux questions

Pocket TTS est un modèle de texte à parole ultra léger de Kyutai avec seulement 100 millions de paramètres. Il fonctionne en temps réel sur CPU et supporte le clonage vocal à partir de 5 secondes d'audio.

Pocket TTS est sous licence CC-BY-4.0, qui permet une utilisation commerciale avec attribution. Vous devez créditer Kyutai lors de son utilisation dans des applications commerciales.

Actuellement, Pocket TTS prend en charge le français et l'anglais. D'autres langues peuvent être ajoutées dans les versions futures.

Oui! Avec seulement 100M paramètres, Pocket TTS fonctionne à vitesse en temps réel sur le matériel CPU standard. Pas de GPU est nécessaire, ce qui le rend idéal pour le déploiement de bord et les applications mobiles.

Les deux sont légers et fonctionnent bien sur CPU. Pocket TTS prend en charge le clonage vocal (Kokoro ne prend pas en charge). Kokoro prend en charge plus de langues (9 vs 2).

Fournissez 5 secondes de son de référence. Pocket TTS extrait les caractéristiques de l'enceinte et peut générer de nouvelles paroles dans cette voix. La qualité s'améliore avec des références plus longues (jusqu'à 10 secondes).

Oui. Contrairement à la plupart des modèles de clonage qui nécessitent un GPU, Pocket TTS effectue le clonage vocal à zéro prise entièrement sur le CPU grâce à sa petite empreinte de 100M-paramètre. Vous pouvez cloner une voix à partir d'un court clip même sur un ordinateur portable ou un ordinateur de bord.

Pocket TTS est publié sous CC-BY-4.0, vous devez donc créditer Kyutai comme créateur original lorsque vous l'utilisez ou le redistribuez. Une simple attribution telle que "Voice generated with Pocket TTS by Kyutai" satisfait la licence pour une utilisation commerciale et non commerciale.

Pocket TTS génère la parole en temps réel ou plus rapidement sur un processeur standard, sans GPU nécessaire. Cela en fait l'un des moteurs les plus réactifs pour les cas d'utilisation à faible latence comme les assistants vocaux en direct et la génération sur les appareils.

Pocket TTS est dans le niveau de prix standard, coûtant 10 crédits par 1000 caractères. Cela en fait l'une des options de fermeture vocale les plus économiques disponibles sur TextToSpeechAI.

Les deux sont légers, CPU-friendly, standard-tier moteurs. Pick Pocket TTS lorsque vous avez besoin de clonage de la voix, puisque Kokoro ne le supporte pas. Pick Kokoro lorsque vous avez besoin d'une couverture plus large de la langue et n'ont pas besoin de cloner une voix spécifique.

Oui. Les nouveaux comptes TextToSpeechAI reçoivent des crédits de démarrage gratuits, et la démo sur place vous permet d'entendre Pocket TTS avant de vous engager. Inscrivez-vous gratuitement, téléchargez un court clip de référence et générer une parole clonée en quelques secondes.

Technical Specs

  • Generation Speed Very Fast
  • Output Quality Good
  • Voice Cloning Supported
  • Languages 2
  • GPU VRAM CPU OK
  • Credits/1000 chars 10

Try TTS de poche Now

Generate your first audio free. No credit card required.

Start Free