TTS de bolsillo

Standard

Clonación de voz ultraligera que se ejecuta en tiempo real en la CPU

Very Fast Velocidad
Good Calidad
Clonación
2 Idiomas

Acerca de TTS de bolsillo

Pocket TTS by Kyutai es un modelo de texto a voz ultraligero para parámetros de 100M que funciona en tiempo real en la CPU. A pesar de su pequeño tamaño, es compatible con la clonación de voz a partir de sólo 5 segundos de audio de referencia. Perfecto para la implementación de edge, aplicaciones móviles y escenarios donde los recursos de GPU son limitados.

Características principales

Peso ultraligero

Parámetros 100M - se ejecuta en tiempo real en la CPU con recursos mínimos.

Clonación de voz

Clonar cualquier voz de sólo 5 segundos de audio de referencia, incluso en la CPU.

Tiempo real en la CPU

No se requiere GPU. Genera discurso a velocidad en tiempo real en hardware estándar.

Listos para el borde

Lo suficientemente pequeño para dispositivos móviles, Raspberry Pi y sistemas integrados.

Casos de uso

Edge y despliegue móvil Asistentes de voz en tiempo real en la CPU IoT y dispositivos integrados Clonación de voz de bajo recurso

Cómo usar TTS de bolsillo

  1. 1

    Regístrate gratis o prueba la demo

    Cree una cuenta gratuita TextToSpeechAI para recibir créditos de inicio, o utilice la demo en el sitio para escuchar Pocket TTS antes de registrarse. No se necesita GPU ni instalación local.

  2. 2

    Seleccione Pocket TTS y agregue una voz a clonar

    Elija Pocket TTS como su motor, luego cargue un clip de referencia corto de unos 5 a 10 segundos para clonar esa voz. Pocket TTS funciona completamente en la CPU, por lo que la clonación es rápida y ligera.

  3. 3

    Introduzca su texto

    Escriba o pegue el texto en inglés o francés que desee hablar. Mantenga un ojo en el recuento de caracteres, ya que Pocket TTS cuentas a la tasa estándar de 10 créditos por 1.000 caracteres.

  4. 4

    Generar el audio

    Haga clic en generar y Pocket TTS sintetiza su texto en la voz clonada a velocidad en tiempo real. La mayoría de los clips están listos en segundos porque el modelo es tan pequeño y eficiente con la CPU.

  5. 5

    Descargue o utilice la API

    Descargue el audio terminado o automatice la generación a través de la API de TextToSpeechAI REST en api.texttospeechai.com usando su token de cuenta. La API expone la misma clonación y síntesis de TTS de bolsillo para sus propias aplicaciones.

TTS de bolsillo API

Generar voz programáticamente usando la API de TextToSpeechAI REST.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Pocket TTS ofrece clonación de voz que se ejecuta en tiempo real, incluso en la CPU.",
    "voice": "en_US-lessac-medium"
  }'

Preguntas frecuentes

Pocket TTS es un modelo de texto a voz ultraligero de Kyutai con solo 100 millones de parámetros. Funciona en tiempo real en la CPU y soporta la clonación de voz a partir de 5 segundos de audio.

Pocket TTS está licenciado bajo CC-BY-4.0, que permite el uso comercial con atribución. Debe acreditar Kyutai cuando lo utiliza en aplicaciones comerciales.

Actualmente Pocket TTS es compatible con el inglés y el francés. Se pueden añadir más idiomas en versiones futuras.

¡Sí! Con sólo 100M parámetros, Pocket TTS funciona a velocidad en tiempo real en el hardware estándar de la CPU. No se necesita GPU, por lo que es ideal para la implementación de edge y aplicaciones móviles.

Ambos son ligeros y funcionan bien en la CPU. Pocket TTS admite la clonación de voz (Kokoro no). Kokoro admite más idiomas (9 vs 2). Elija Pocket TTS si necesita clonación de voz ligera, Kokoro si necesita más cobertura de idioma.

Proporciona 5 segundos de audio de referencia. Pocket TTS extrae las características del altavoz y puede generar un nuevo discurso en esa voz. La calidad mejora con referencias más largas (hasta 10 segundos).

Sí. A diferencia de la mayoría de los modelos de clonación que requieren una GPU, Pocket TTS realiza la clonación de voz de tiro cero completamente en la CPU gracias a su pequeña huella de 100M-parametro. Puede clonar una voz desde un clip corto incluso en un ordenador portátil o de una sola placa.

Pocket TTS se libera bajo CC-BY-4.0, por lo que debe acreditar a Kyutai como el creador original cuando lo utiliza o redistribuye. Una atribución simple como "Voz generada con Pocket TTS por Kyutai" satisface la licencia para uso comercial y no comercial por igual.

Pocket TTS genera voz en tiempo real o más rápido en una CPU estándar, sin necesidad de GPU. Esto lo convierte en uno de los motores más receptivos para casos de uso de baja latencia como asistentes de voz en vivo y generación en el dispositivo.

Pocket TTS está en el nivel de precios estándar, con un costo de 10 créditos por 1.000 caracteres. Eso lo convierte en una de las opciones de voz más económicas disponibles en TextToSpeechAI.

Ambos son motores ligeros, fáciles de usar en la CPU y estándar. Pick Pocket TTS cuando necesite clonación de voz, ya que Kokoro no lo soporta. Pick Kokoro cuando necesite una cobertura de lenguaje más amplia y no necesite clonar una voz específica.

Sí. Las nuevas cuentas TextToSpeechAI reciben créditos de inicio gratuitos, y la demo en el sitio le permite escuchar Pocket TTS antes de comprometerse. Regístrese gratis, cargue un clip de referencia corto y genere voz clonada en segundos.

Technical Specs

  • Generation Speed Very Fast
  • Output Quality Good
  • Voice Cloning Supported
  • Languages 2
  • GPU VRAM CPU OK
  • Credits/1000 chars 10

Try TTS de bolsillo Now

Generate your first audio free. No credit card required.

Start Free