Dia

Ultra

TTS orientada al diálogo con clonación de voz y sonidos no verbales

Medium Velocidad
Excellent Calidad
Clonación
1 Idiomas

Acerca de Dia

Dia by Nari Labs es un modelo de diálogo de texto a voz centrado en el parámetro 1.6B. Sobresale en generar un discurso conversacional natural con soporte para sonidos no verbales como risas, suspiros y tos. Dia es compatible con la generación de diálogos multiparlantes y la clonación de voz a partir de 5-10 segundos de audio de referencia, por lo que es ideal para crear conversaciones realistas y voces de carácter.

Características principales

Generación del diálogo

Generar conversaciones naturales multi-parlantes con voces distintas y turn-taking.

Sonidos no verbales

Añadir [risas], [suspira], [tos], (jadeos) para la expresión paralingüística natural.

Clonación de voz

Clonar cualquier voz de 5-10 segundos de audio de referencia para un discurso personalizado.

Conversación natural

Los parámetros 1.6B producen prosodia y entonación conversacional altamente natural.

Casos de uso

Diálogo y generación de conversaciones Producción de audiolibros con múltiples caracteres Voces del personaje del juego Podcast y creación de contenidos

Cómo usar Dia

  1. 1

    Regístrate gratis o abre la demo

    Cree una cuenta gratuita TextToSpeechAI para reclamar sus créditos de inicio, o abra la demo sin registro para probar el diálogo Dia de inmediato.

  2. 2

    Seleccione el motor Dia

    En el tablero TTS elija Dia de la lista de motores. Dia es el modelo orientado al diálogo, ultra-tier con soporte multi-parlante y de voz-clonación.

  3. 3

    Escribir un guión de diálogo con etiquetas

    Componga su conversación usando [S1] y [S2] para marcar cada giro del altavoz, y deje caer etiquetas no verbales como [risas], [suspiros], [tos] o (jadeos) donde desee reacciones naturales.

  4. 4

    Generar el audio

    Haga clic en generar para enviar su script Dia a nuestras GPUs alojadas. Dia renderiza el diálogo de dos altavoces con toma de turnos y sus etiquetas no verbales en un solo archivo de audio.

  5. 5

    Descargue o llame a la API

    Descargue el diálogo terminado en el formato elegido, o automatice el diálogo publicando el mismo script [S1]/[S2] en la API TextToSpeechAI con el token de su cuenta.

Dia API

Generar voz programáticamente usando la API de TextToSpeechAI REST.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "[S1] ¡Hola! ¿Cómo estás hoy? [risas] [S2] ¡Lo estoy haciendo genial, gracias por preguntar!",
    "voice": "en_US-lessac-medium"
  }'

Preguntas frecuentes

Dia es un modelo de diálogo de texto a voz orientado al parámetro 1.6B de Nari Labs. Se especializa en generar un discurso conversacional natural con soporte para múltiples altavoces, sonidos no verbales y clonación de voz.

Sí, Dia es completamente Apache 2.0 licenciado - tanto el código y los pesos del modelo. Se puede utilizar libremente en aplicaciones comerciales.

En la actualidad Dia solo admite inglés. El modelo está optimizado para el habla conversacional en inglés natural.

Dia requiere aproximadamente 10 GB de VRAM para su modelo de parámetro 1.6B. Se recomienda una GPU con al menos 12 GB para un funcionamiento cómodo. En TextToSpeechAI todo esto se ejecuta en nuestras GPUs alojadas, por lo que no necesita ningún hardware propio.

Sí - diálogo es exactamente para lo que se construye Dia. Al alternar [S1] y [S2] giros en su guión, Dia TTS produce una conversación fluida de dos altavoces con voces distintas y toma de turnos realistas, que es más difícil de lograr con modelos TTS de un altavoces.

Prefija cada línea de tu guión con [S1] o [S2] para marcar quién está hablando. Dia asigna una voz consistente a cada etiqueta y cambia entre ellas a medida que se mueve la conversación, así que [S1] y [S2] actúan como los dos caracteres en tu diálogo.

Sí. Dia admite la clonación de voz de aproximadamente 5-10 segundos de audio de referencia limpio, permitiéndole reutilizar una voz específica para un altavoz. Puede combinar la clonación con las etiquetas [S1]/[S2] para que cada personaje en un diálogo suene como la voz que clonó.

Dia renderiza [risas], [suspira], [tos], y (jadeos) como sonidos paralingüísticos naturales entretejidos en el habla en lugar de palabras habladas. Coloque una etiqueta donde desee la reacción - por ejemplo "[S1] Eso es hilarante [risas]" - para hacer que el diálogo se sienta más humano.

Tanto Dia como Bark soportan sonidos expresivos no verbales, pero Dia está diseñado específicamente para el diálogo multi-parlante con [S1]/[S2] toma de turnos y clonación de voz. Elija Dia para conversaciones realistas de dos personas y trabajo de carácter; Bark es un mejor ajuste cuando necesita una cobertura de lenguaje más amplia en la narración de una sola voz.

Dia es un motor ultra-tier, por lo que cuesta 50 créditos por cada 1.000 caracteres de habla generada. El nivel ultra refleja el modelo más grande 1.6B y el ~10GB de memoria GPU que utiliza para el diálogo de alta calidad.

Sí. Las nuevas cuentas TextToSpeechAI incluyen créditos de inicio gratuitos, y hay una demo que puedes ejecutar sin registrarte. Eso es suficiente para generar un diálogo Dia corto con las etiquetas [S1]/[S2] antes de decidir sobre un plan pagado.

Sí. Una vez que tenga un token de API desde la página de su cuenta puede enviar scripts de diálogo Dia - incluyendo [S1]/[S2] turnos y etiquetas como [risas] - a la API de TextToSpeechAI REST y descargar el audio resultante programáticamente.

Technical Specs

  • Generation Speed Medium
  • Output Quality Excellent
  • Voice Cloning Supported
  • Languages 1
  • GPU VRAM 10GB
  • Credits/1000 chars 50

Try Dia Now

Generate your first audio free. No credit card required.

Start Free