OpenVoice

Ultra

Clonación de voz instantánea con control de tono granular

Moderate Velocidad
Very Good Calidad
Clonación
10 Idiomas

Acerca de OpenVoice

OpenVoice es un versátil modelo de clonación instantánea de voz que permite un control fino sobre el estilo de hablar. A diferencia de otros modelos de clonación, OpenVoice separa la identidad de voz del estilo de hablar, lo que le permite tomar una voz clonada y aplicar diferentes tonos - alegre, triste, enojado, emocionado, o susurrar - sin nuevo audio de referencia.

Características principales

Clonación instantánea

Clonar cualquier voz de sólo unos segundos de audio.

Control tonal

Aplicar tonos alegres, tristes, enojados, emocionados o susurrantes.

Transferencia de estilo

Separar la identidad de voz del estilo de hablar para mayor flexibilidad.

Interlingüe

Utilice voces clonadas en diferentes idiomas.

Procesamiento rápido

Deducción eficiente para una rápida generación de voz.

Código abierto

MIT licenciado para aplicaciones comerciales.

Casos de uso

Contenido emocional Animación de caracteres Juegos interactivos Narración de audiolibros Vídeos de comercialización Asistentes virtuales

Cómo usar OpenVoice

  1. 1

    Regístrate gratis o prueba la demo

    Crear una cuenta gratuita TextToSpeechAI para obtener créditos de inicio, o utilizar la demo en la página para escuchar OpenVoice antes de comprometerse. No se necesita GPU local o instalar - todo se ejecuta en nuestros servidores.

  2. 2

    Elija OpenVoice y cargue un clip de referencia

    Seleccione el motor OpenVoice y luego cargue unos segundos de audio de referencia limpio para clonar instantáneamente la voz de destino. OpenVoice captura la identidad del altavoz para que pueda reutilizarlo a través de cualquier texto y tono.

  3. 3

    Introduzca su texto

    Escriba o pegue el script que desea que se hable en la voz clonada. OpenVoice soporta alrededor de 10 idiomas y entregas multilingües, para que pueda escribir en un idioma diferente al clip de referencia.

  4. 4

    Elija un estilo de tono y generar

    Elija uno de los nueve estilos de tono OpenVoice - predeterminado, amistoso, alegre, emocionado, triste, enojado, aterrorizado, gritando o susurrando - a continuación, generar. La misma voz clonada hablará con esa entrega emocional.

  5. 5

    Descargue o utilice la API

    Descargue su audio como MP3, WAV, o OGG, o automatice la generación a través de la API TextToSpeechAI pasando su voz clonada y estilo de tono en cada solicitud.

OpenVoice API

Generar voz programáticamente usando la API de TextToSpeechAI REST.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "OpenVoice puede hablar en cualquier tono \u002D alegre, triste, o incluso susurrar.",
    "voice": "en_US-lessac-medium"
  }'

Preguntas frecuentes

OpenVoice es un modelo avanzado de clonación de voz y texto a voz que separa la identidad de voz del estilo de hablar. Esto le permite clonar una voz y luego aplicar diferentes tonos emocionales sin necesidad de audio de referencia para cada emoción. Está construido para la generación de voz expresiva y controlable.

Sí, OpenVoice realiza la clonación instantánea de voz a partir de sólo unos segundos de audio de referencia - no se requiere entrenamiento. Una vez capturada una voz, OpenVoice puede reutilizar esa identidad a través de cualquier texto y estilo de tono que seleccione.

OpenVoice utiliza una arquitectura de dos etapas que divide la síntesis del discurso base de la conversión de tono. Después de clonar una voz, puede aplicar cualquiera de los estilos de 9 tonos - por defecto, amistoso, alegre, emocionado, triste, enojado, aterrorizado, gritando o susurrando - y la misma voz clonada habla de manera diferente en función de su tono elegido sin volver a grabar.

OpenVoice soporta nueve estilos de habla: predeterminado, amistoso, alegre, emocionado, triste, enojado, aterrorizado, gritando y susurrando. Cada estilo remodela la entrega emocional mientras preserva la identidad del altavoz clonado, dándole un control fino sobre cómo se lee una línea.

OpenVoice es de código abierto bajo la licencia MIT permisiva, por lo que es gratuito para uso comercial. Como con cualquier modelo de clonación, asegúrese de tener los derechos adecuados a cualquier voz que clone para proyectos comerciales.

OpenVoice es compatible con alrededor de 10 idiomas, incluyendo inglés, chino, japonés, coreano y varios idiomas europeos. También ofrece clonación multilingüe, por lo que puede clonar una voz en un idioma y hacerla hablar de forma natural en otro.

OpenVoice tiene una velocidad de generación moderada, normalmente renderizando una oración en 2-4 segundos en una GPU. La calidad de salida es muy buena, con reproducción de voz clara y transferencia de tono que mantiene la identidad del altavoz intacta mientras cambia convincentemente la entrega emocional.

OpenVoice normalmente requiere 6-8 GB de VRAM dependiendo del tamaño del lote y la carga de conversión de tono. Funciona cómodamente en GPUs de rango medio a rango medio superior, y en TextToSpeechAI todo esto se maneja en nuestros servidores para que no necesite ningún hardware local.

OpenVoice es un motor ultra-tier, con un precio de 50 créditos por cada 1000 caracteres. El Ultra tier refleja su avanzado control de tono y el cálculo adicional necesario para la tubería de clonación más estilo-conversión.

OpenVoice es único por su control de tono y estilo: puede tomar una voz clonada y volver a entregarla como alegre, triste, enojado o susurrando. F5-TTS es más rápido y es nuestro motor de clonación predeterminado para el habla natural y neutral. Elija OpenVoice cuando necesite control de estilo emocional, y F5-TTS cuando desee el clon natural más rápido.

Cree una voz clonada cargando audio de referencia y luego especifique un estilo de tono en su solicitud de API. La API aplica el tono emocional elegido a la voz clonada automáticamente y devuelve el audio en formato MP3, WAV o OGG.

Sí. Regístrese para obtener una cuenta TextToSpeechAI gratis para recibir créditos de inicio y probar OpenVoice clonación y control de tono, o utilizar la demo en la página primero. No hay configuración local - subir un clip de referencia, elegir un tono, y generar en el navegador.

Technical Specs

  • Generation Speed Moderate
  • Output Quality Very Good
  • Voice Cloning Supported
  • Languages 10
  • GPU VRAM 3-6GB
  • Credits/1000 chars 50

Try OpenVoice Now

Generate your first audio free. No credit card required.

Start Free