Kokoro

Standard

TTS léger et rapide à la foudre avec une qualité naturelle

Very Fast Vitesse
Good Qualité
Numéro Clonage
9 Langues

À propos Kokoro

Kokoro est un modèle TTS ultra léger de 82M qui offre un langage naturel à une vitesse incroyable. Il fonctionne presque en temps réel même sur CPU, ce qui le rend idéal pour les applications où la latence faible est critique. Kokoro prend en charge plusieurs langues et offre des capacités de mélange de voix.

Caractéristiques principales

Ultra-léger

Paramètres 82M, taille du modèle ~300MB. Exécute sur CPU avec des ressources minimales.

Presque en temps réel

Génére la parole plus rapidement que la vitesse de lecture, même sans accélération GPU.

Multi-langue

Soutient l'anglais, le français, l'espagnol, le hindi, le japonais, le chinois, l'italien, le portugais et le coréen.

Mélange de la voix

Mélanger deux voix pour créer des combinaisons vocales uniques.

Cas d'utilisation

Chatbots et assistants virtuels en temps réel Diffusion en direct de texte à la parole Déploiement de bord et applications mobiles Traitement par lots à volume élevé

Comment utiliser Kokoro

  1. 1

    Inscrivez-vous gratuitement ou essayez la démo

    Créez un compte gratuit TextToSpeechAI pour obtenir 200 crédits de démarrage, ou utilisez la démo sans signature pour entendre Kokoro instantanément. Le niveau standard signifie que Kokoro ne coûte que 10 crédits par 1000 caractères.

  2. 2

    Choisissez une voix Kokoro

    Ouvrez le navigateur vocal et sélectionnez une voix Kokoro dans votre langue cible (9 prises en charge, de l'anglais au japonais et coréen). Vous pouvez également utiliser le mélange vocal Kokoro pour mélanger deux voix dans une combinaison personnalisée.

  3. 3

    Saisissez votre texte

    Tapez ou collez le texte que vous souhaitez parler dans l'éditeur. Kokoro gère efficacement les longs passages grâce à son léger 82M-paramètre, près du moteur en temps réel.

  4. 4

    Régler la vitesse et générer

    Réglez la vitesse de lecture pour convenir à votre cas d'utilisation, puis cliquez sur Générer. Kokoro rend l'audio plus rapidement que le temps réel, de sorte que votre discours est prêt presque immédiatement.

  5. 5

    Télécharger ou utiliser l'API

    Téléchargez l'audio fini en MP3 ou WAV, ou automatisez la génération à travers l'API REST TextToSpeechAI sur api.texttospeechai.com pour les charges de travail en temps réel et en lots.

Kokoro API

Générer des discours programmatiques en utilisant l'API TextToSpeechAI REST.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Kokoro offre un langage naturel avec une vitesse et une efficacité incroyables.",
    "voice": "en_US-lessac-medium"
  }'

Foire aux questions

Kokoro est un modèle de texte à parole ultra léger avec seulement 82 millions de paramètres. Malgré sa petite taille, il produit des paroles sonores naturelles dans plusieurs langues à une vitesse presque en temps réel, même sur CPU.

Oui, Kokoro est entièrement sous licence Apache 2.0 - à la fois le code et le poids du modèle. Il peut être utilisé librement dans des applications commerciales sans restriction.

Kokoro soutient l'anglais (US et britannique), le français, l'espagnol, le hindi, le japonais, le chinois, l'italien, le portugais et le coréen.

Kokoro est l'un des modèles TTS les plus rapides disponibles. Il génère la parole plus rapidement que la vitesse de lecture en temps réel même sur CPU, ce qui le rend idéal pour les applications interactives.

Non, Kokoro ne supporte pas le clonage vocal. Il utilise une bibliothèque vocale curated avec des capacités de mélange vocal. Pour le clonage vocal, utilisez F5-TTS, Chatterbox, StyleTTS2, OpenVoice ou Tortoise.

Kokoro peut mélanger deux voix pour créer des combinaisons uniques, ce qui vous permet de créer des caractéristiques vocales personnalisées sans clonage de voix traditionnel.

Kokoro a une architecture plus moderne et prend en charge le mélange de la voix, tandis que Piper a une bibliothèque vocale plus grande. Les deux sont excellents pour les applications en temps réel.

Kokoro est conçu pour fonctionner sur CPU et nécessite des ressources minimales - environ 300 Mo. Pas de GPU est nécessaire, bien que l'accélération GPU est supportée pour un traitement encore plus rapide.

Oui. Kokoro génère la parole plus rapidement que la lecture même sur CPU, avec très faible latence, donc il est un excellent ajustement pour les chatbots, les assistants de voix, et la diffusion en direct. Sa taille 82M-paramètre garde la mémoire utilisation minuscule, ce qui le rend pratique pour les déploiements à volume élevé et les bords.

Le mixage vocal vous permet de mélanger deux voix Kokoro pour créer une combinaison unique avec des caractéristiques personnalisées. Ce n'est pas le clonage vocal traditionnel - vous ne pouvez pas reproduire une personne spécifique à partir d'un échantillon - mais il vous donne plus de variété qu'une bibliothèque vocale fixe. Vous pouvez expérimenter avec des mélanges directement dans l'éditeur TextToSpeechAI.

Kokoro est le plus léger (environ 300 Mo) et prend en charge le mélange de voix dans 9 langues, tandis que MeloTTS se concentre sur plusieurs accents anglais et la sortie multilingue en temps réel. Choisissez Kokoro pour la plus petite empreinte et le mélange; choisissez MeloTTS lorsque vous avez besoin d'accents spécifiques.

Kokoro est un moteur de type standard, coûtant 10 crédits par 1000 caractères - le niveau le plus bas sur TextToSpeechAI. Nouveaux comptes obtiennent 200 crédits gratuits, vous pouvez donc essayer Kokoro sans payer. Cela en fait l'une des façons les plus rentables de générer une parole de haute qualité à l'échelle.

Technical Specs

  • Generation Speed Very Fast
  • Output Quality Good
  • Voice Cloning Not Supported
  • Languages 9
  • GPU VRAM CPU OK
  • Credits/1000 chars 10

Try Kokoro Now

Generate your first audio free. No credit card required.

Start Free