Zonos

Ultra

Clonación de voz expresiva con control de emoción y estilo

Medium Velocidad
Excellent Calidad
Clonación
5 Idiomas

Acerca de Zonos

Zonos by Zyphra es un modelo de texto a voz para parámetro 1.6B con avanzado control de la emoción y el estilo. Soporta la clonación de voz a partir de 5-30 segundos de audio de referencia y puede modular el tono emocional del discurso generado. Elija entre emociones como felicidad, tristeza, ira, miedo, sorpresa y disgusto para crear audio altamente expresivo y con matices emocionales.

Características principales

Control de emociones

Controla las emociones del habla: felicidad, tristeza, ira, miedo, sorpresa, disgusto y neutralidad.

Clonación de voz

Clonar cualquier voz a partir de 5-30 segundos de audio de referencia con alta fidelidad.

Discurso expresivo

Los parámetros 1.6B producen un habla altamente expresiva con una entrega emocional matizada.

Multilingüe

Soporta inglés, japonés, chino, francés y alemán.

Casos de uso

Creación de contenido emocionalmente expresivo Voces del personaje del juego con emociones Audiolibros narración con estado de ánimo Experiencias de voz interactivas

Cómo usar Zonos

  1. 1

    Regístrese o abra la demo

    Cree una cuenta gratuita TextToSpeechAI para obtener créditos de inicio o utilice la demo sin registro para probar Zonos de inmediato.

  2. 2

    Elija el motor Zonos

    Seleccione Zonos desde el selector de voz y modelo. Para clonar una voz, cargue 5-30 segundos de audio de referencia limpio para que Zonos pueda coincidir con el altavoz.

  3. 3

    Introduzca su texto

    Escribe o pega el guión que quieras que se hable. Zonos trabaja en inglés, japonés, chino, francés y alemán.

  4. 4

    Escoge una emoción y genera

    Elija una de las siete emociones Zonos - neutral, felicidad, tristeza, ira, miedo, sorpresa o disgusto - a continuación, haga clic en generar para hacer un discurso expresivo en ese estado de ánimo.

  5. 5

    Descargue o utilice la API

    Reproduce y descarga el audio terminado, o llama al mismo motor Zonos programáticamente a través de la API de TextToSpeechAI REST para flujos de trabajo automatizados.

Zonos API

Generar voz programáticamente usando la API de TextToSpeechAI REST.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Zonos genera un discurso increíblemente expresivo con un control emocional de grano fino.",
    "voice": "en_US-lessac-medium"
  }'

Preguntas frecuentes

Zonos es un modelo de texto a voz para parámetro 1.6B de Zyphra. Se especializa en generación de voz expresiva con control de emociones de grano fino y clonación de voz de alta fidelidad. En TextToSpeechAI funciona como un motor ultra-nivel para el audio más matizado y emocionalmente rico.

Sí. Zonos se libera bajo la licencia Apache 2.0 por sus pesos de código y modelo, por lo que se puede utilizar libremente en productos comerciales sin atribución o restricciones no comerciales. Eso lo hace seguro para aplicaciones de pago, trabajo del cliente y contenido monetizado.

Zonos expone siete estados de emoción - neutrales, felicidad, tristeza, ira, miedo, sorpresa y disgusto - que usted selecciona antes de generar. El modelo condiciona su entrega en la emoción elegida, el tono cambiante, el ritmo, y la entonación para que la misma frase pueda sonar alegre o enojado. Esto hace Zonos ideal para voces de carácter y diálogo que necesita un estado de ánimo específico.

Zonos soporta siete opciones de emoción: neutral, felicidad, tristeza, ira, miedo, sorpresa y disgusto. Eliges una por generación para establecer el tono emocional de todo el clip.

Sí. Zonos clona una voz de solo 5-30 segundos de audio de referencia, extrae las características del altavoz y las reproduce en un nuevo discurso. Puede combinar la clonación con cualquiera de las siete emociones para hacer que una voz clonada suene feliz, enojada o temerosa.

Zonos maneja cinco idiomas: inglés, japonés, chino, francés y alemán. Control de emociones y clonación de voz trabajan en todos estos idiomas.

Zonos funciona a velocidad media debido a su tamaño de parámetro 1.6B, el comercio de rendimiento bruto para una salida excelente y altamente expresiva. La calidad es una de las mejores para el habla emocional y clonada, por lo que se adapta a la producción final de audio en lugar de la generación a granel en tiempo real.

Zonos requiere 8 GB o más de VRAM para su modelo de parámetro 1.6B. Se recomienda una GPU con al menos 10 GB para un funcionamiento cómodo al combinar la clonación de voz con el control de emociones. En TextToSpeechAI todo esto se ejecuta en nuestro motor GPU, por lo que no necesita hardware propio.

Zonos es un motor ultra-tier, facturado en 50 créditos por cada 1.000 caracteres. El ultra-tier refleja su gran modelo y avanzadas capacidades de emoción y clonación, el mismo nivel que StyleTTS2, Tortoise, y OpenVoice.

Ambos ofrecen control de estilo y emoción con clonación de voz. Zonos proporciona siete estados de emoción discreta y una arquitectura moderna 1.6B, mientras que OpenVoice ofrece estilos de tono como amigable, alegre y susurrando con clonación instantánea muy rápida. Elija Zonos cuando desee selección explícita de emoción y máxima expresividad; elija OpenVoice para un cambio de tono más ligero y rápido.

Bark añade marcadores expresivos como [risas] y [suspira] pero ofrece clonación limitada, y Dia se centra en el diálogo multi-parlante con sonidos no verbales. Zonos se centra en la selección explícita de emociones más una fuerte clonación de una sola voz, dándole un control preciso sobre el estado de ánimo de cada clip. Elija el motor que coincida con si necesita etiquetas de emoción, giros de diálogo o emociones seleccionables.

Sí. Las nuevas cuentas TextToSpeechAI obtienen créditos de arranque gratis, y la demo te permite generar audio de muestra sin registrarte. Eso es suficiente para probar el control de emociones Zonos y la clonación de voz antes de comprar créditos adicionales.

Technical Specs

  • Generation Speed Medium
  • Output Quality Excellent
  • Voice Cloning Supported
  • Languages 5
  • GPU VRAM 8GB+
  • Credits/1000 chars 50

Try Zonos Now

Generate your first audio free. No credit card required.

Start Free