Kokoro

Standard

Relámpago rápido, ligero TTS con calidad natural

Very Fast Velocidad
Good Calidad
No Clonación
9 Idiomas

Acerca de Kokoro

Kokoro es un modelo TTS para parámetros ultraligeros de 82M que ofrece un sonido natural a una velocidad increíble. Funciona casi en tiempo real incluso en la CPU, por lo que es ideal para aplicaciones donde la latencia baja es crítica. Kokoro es compatible con varios idiomas y ofrece capacidades de mezcla de voz.

Características principales

Peso ultraligero

Parámetros 82M, tamaño del modelo ~300MB. Se ejecuta en la CPU con recursos mínimos.

Cerca de tiempo real

Genera el habla más rápido que la velocidad de reproducción, incluso sin aceleración de GPU.

Multilingüe

Soporta inglés, francés, español, hindi, japonés, chino, italiano, portugués y coreano.

Mezcla de voz

Mezcla dos voces para crear combinaciones de voz únicas.

Casos de uso

Chatbots en tiempo real y asistentes virtuales Transmisión en directo de texto a voz Implementación de bordes y aplicaciones móviles Procesamiento por lotes de alto volumen

Cómo usar Kokoro

  1. 1

    Regístrate gratis o prueba la demo

    Crear una cuenta gratuita TextToSpeechAI para obtener 200 créditos de arranque, o utilizar la demo sin registro para escuchar Kokoro al instante. El nivel estándar significa que Kokoro sólo cuesta 10 créditos por cada 1000 caracteres.

  2. 2

    Escoge una voz Kokoro

    Abre el navegador de voz y selecciona una voz de Kokoro en tu idioma de destino (9 compatible, desde inglés hasta japonés y coreano). También puedes usar la mezcla de voz de Kokoro para mezclar dos voces en una combinación personalizada.

  3. 3

    Introduzca su texto

    Escribe o pega el texto que quieras que se hable en el editor. Kokoro maneja pasajes largos de manera eficiente gracias a su ligero parámetro 82M, casi en tiempo real.

  4. 4

    Ajustar la velocidad y generar

    Establezca la velocidad de reproducción para adaptarse a su caso de uso, a continuación, haga clic en Generar. Kokoro renderiza audio más rápido que en tiempo real, por lo que su discurso está listo casi inmediatamente.

  5. 5

    Descargue o utilice la API

    Descargue el audio terminado como MP3 o WAV, o automatice la generación a través de la API de TextToSpeechAI REST en api.texttospeechai.com para cargas de trabajo por lotes y en tiempo real.

Kokoro API

Generar voz programáticamente usando la API de TextToSpeechAI REST.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Kokoro ofrece habla natural con una velocidad y eficiencia increíbles.",
    "voice": "en_US-lessac-medium"
  }'

Preguntas frecuentes

Kokoro es un modelo de texto a voz ultraligero con sólo 82 millones de parámetros. A pesar de su pequeño tamaño, produce un sonido natural en múltiples idiomas a una velocidad cercana al tiempo real, incluso en la CPU.

Sí, Kokoro es completamente Apache 2.0 con licencia - tanto el código y los pesos del modelo. Se puede utilizar libremente en aplicaciones comerciales sin restricciones.

Kokoro apoya inglés (EE.UU. y británico), francés, español, hindi, japonés, chino, italiano, portugués y coreano.

Kokoro es uno de los modelos TTS más rápidos disponibles. Genera voz más rápido que la velocidad de reproducción en tiempo real incluso en la CPU, por lo que es ideal para aplicaciones interactivas.

No, Kokoro no es compatible con la clonación de voz. Utiliza una biblioteca de voz comisariada con capacidades de mezcla de voz. Para la clonación de voz, utilice F5-TTS, Chatterbox, StyleTTS2, OpenVoice o Tortuga.

Kokoro puede mezclar dos voces para crear combinaciones únicas. Esto le permite crear características de voz personalizadas sin clonación de voz tradicional.

Ambos son modelos rápidos y ligeros. Kokoro tiene una arquitectura más moderna y soporta la mezcla de voz, mientras que Piper tiene una biblioteca de voz más grande. Ambos son excelentes para aplicaciones en tiempo real.

Kokoro está diseñado para funcionar en la CPU y requiere recursos mínimos - aproximadamente 300 MB. No se necesita GPU, aunque la aceleración de GPU es compatible para un procesamiento aún más rápido.

Sí. Kokoro genera voz más rápido que la reproducción incluso en la CPU, con muy baja latencia, por lo que es un excelente ajuste para chatbots, asistentes de voz y streaming en vivo. Su tamaño de 82M-parametro mantiene el uso de memoria pequeña, por lo que es práctico para despliegues de alto volumen y borde.

La mezcla de voz le permite mezclar dos voces Kokoro para crear una combinación única con características personalizadas. No es clonación de voz tradicional - no se puede reproducir a una persona específica de una muestra - pero le da más variedad que una biblioteca de voz fija. Puede experimentar con mezclas directamente en el editor TextToSpeechAI.

Ambos son motores de nivel estándar rápidos y amigables con la CPU sin clonación de voz. Kokoro es el más ligero (unos 300MB) y soporta la mezcla de voz a través de 9 idiomas, mientras que MeloTTS se centra en múltiples acentos ingleses y salida multilingüe en tiempo real. Elija Kokoro para la menor huella y mezcla; elija MeloTTS cuando necesite acentos específicos.

Kokoro es un motor estándar, que cuesta 10 créditos por 1000 caracteres - el nivel más bajo en TextToSpeechAI. Nuevas cuentas obtienen 200 créditos gratis, por lo que puede probar Kokoro sin pagar. Esto lo convierte en una de las maneras más rentables de generar un discurso de alta calidad a escala.

Technical Specs

  • Generation Speed Very Fast
  • Output Quality Good
  • Voice Cloning Not Supported
  • Languages 9
  • GPU VRAM CPU OK
  • Credits/1000 chars 10

Try Kokoro Now

Generate your first audio free. No credit card required.

Start Free