CosyVoice2

Premium

Clonación de voz multilingüe de tiro cero con soporte de streaming

Fast Velocidad
Very Good Calidad
Clonación
5 Idiomas

Acerca de CosyVoice2

CosyVoice2 es un modelo de síntesis de voz de próxima generación de FunAudioLLM (Alibaba). Ofrece clonación de voz de sonido natural sin disparos a través de varios idiomas con capacidad de transmisión para aplicaciones de baja latencia. Construido sobre un enfoque de cuantificación escalar finito, logra una excelente similitud de voz con sólo unos segundos de audio de referencia.

Características principales

Clonación de voz cero-caliente

Clonar cualquier voz de 3-10 segundos de audio de referencia con alta fidelidad.

Multilingüe

Soporta chino, inglés, japonés, coreano y cantonés con síntesis interlingüe.

Apoyo a la transmisión

Modo de streaming de baja latencia para aplicaciones en tiempo real y sistemas interactivos.

Prosodia natural

El modelado prosodiado avanzado produce un sonido natural del habla con la entonación apropiada.

Casos de uso

Creación de contenidos multilingües Asistentes de voz en tiempo real Doblaje multilingüe Aplicaciones de voz personalizadas

Cómo usar CosyVoice2

  1. 1

    Regístrese y reclame créditos gratuitos

    Cree una cuenta gratuita TextToSpeechAI para reclamar sus créditos de inicio, o intente primero la demo. No se necesita ninguna instalación local de GPU o CosyVoice2 - todo se ejecuta en nuestra infraestructura.

  2. 2

    Seleccione CosyVoice2 y agregue un clip de referencia

    Elija CosyVoice2 como su motor, luego cargue una grabación de referencia limpia de 3-10 segundos de la voz que desea clonar. CosyVoice2 extraerá las características del altavoz para la clonación multilingüe de cero disparos.

  3. 3

    Introduzca su texto en cualquier idioma soportado

    Escriba o pegue su guión en chino, inglés, japonés, coreano o cantonés. CosyVoice2 admite síntesis multilingüe, por lo que la voz clonada puede hablar un idioma diferente del clip de referencia.

  4. 4

    Generar el discurso

    Haga clic en generar y CosyVoice2 sintetiza el habla natural y multilingüe en la voz clonada, por lo general en cuestión de segundos para texto corto.

  5. 5

    Descargue o utilice la API

    Descargue el audio terminado como MP3 o WAV desde su historial, o automatice la clonación de voz de CosyVoice2 a escala a través de la API de TextToSpeechAI REST.

CosyVoice2 API

Generar voz programáticamente usando la API de TextToSpeechAI REST.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "CosyVoice2 ofrece un lenguaje multilingüe natural con capacidad de clonación de voz de cero disparos.",
    "voice": "en_US-lessac-medium"
  }'

Preguntas frecuentes

CosyVoice2 es un modelo de clonación de texto a voz y voz de próxima generación de FunAudioLLM (Alibaba). Soporta la clonación de voz de cero imágenes a partir de sólo unos segundos de audio de referencia y puede sintetizar el habla natural en chino, inglés, japonés, coreano y cantonés. En TextToSpeechAI se puede ejecutar CosyVoice2 en el navegador sin ninguna configuración local.

Sí, CosyVoice2 tiene licencia completa de Apache 2.0 - tanto el código como los pesos del modelo. Esto hace que sea seguro utilizar en productos comerciales, contenido pagado y trabajo del cliente sin honorarios de licencia o restricciones no comerciales.

CosyVoice2 es compatible con cinco idiomas: chino (Mandarín), inglés, japonés, coreano y cantonés. También maneja la síntesis interlingüe, para que puedas clonar una voz de una grabación en un idioma y generar voz en otro.

Proporcionar 3-10 segundos de audio de referencia limpio del altavoz de destino. CosyVoice2 extrae las características del altavoz utilizando un enfoque de cuantificación escalar finito, a continuación, genera un nuevo discurso en esa voz clonada a través de cualquiera de sus idiomas soportados.

CosyVoice2 es uno de los modelos de clonación multilingüe más fuertes, preservando la identidad del hablante incluso al generar un lenguaje diferente del clip de referencia. Produce prosodia natural y entonación, lo que lo hace muy adecuado para doblaje interlingüe y contenido localizado.

Yes. CosyVoice2 is a fast model and includes a streaming mode that produces audio with low latency, making it suitable for voice assistants and interactive applications. On TextToSpeechAI generations typically complete in seconds for short text.

CosyVoice2 requiere unos 4-6GB de VRAM para el modelo de parámetro 0.5B, por lo que se recomienda una GPU con 6GB o más cuando se auto-anfitriona. En TextToSpeechAI el modelo se ejecuta en nuestra infraestructura GPU, por lo que no necesita ningún hardware propio.

CosyVoice2 es un modelo de primer nivel y cuesta 25 créditos por cada 1.000 caracteres de texto. Cada nueva cuenta recibe créditos de inicio gratuitos, por lo que puede probar la clonación de voz de CosyVoice2 antes de decidir sobre un plan de pago.

Ambos son motores de clonación de voz premium. GPT-SoVITS a menudo alcanza la mayor similitud cruda para una sola voz objetivo, mientras que CosyVoice2 es más fuerte para la clonación multilingüe y multilingüe y añade un modo de transmisión de baja latencia. Elija CosyVoice2 cuando necesite una voz clonada para hablar varios idiomas.

CosyVoice2 admite más idiomas (5 frente a 2) y añade streaming para uso en tiempo real, mientras que F5-TTS puede ser un poco más rápido para cargas de trabajo únicamente inglesas. Para proyectos multilingües CosyVoice2 suele ser el mejor ajuste.

TextToSpeechAI le permite exportar generaciones CosyVoice2 en formatos comunes como MP3 y WAV. Puede descargar el archivo directamente desde su página de historial o recuperarlo programáticamente a través de la API TextToSpeechAI.

Sí. Puede probar CosyVoice2 con la demo gratuita y sus créditos de arranque gratuitos en TextToSpeechAI sin instalar nada. Sólo tiene que registrarse, subir un clip de referencia corto, escribir su texto en cualquier idioma soportado, y generar.

Technical Specs

  • Generation Speed Fast
  • Output Quality Very Good
  • Voice Cloning Supported
  • Languages 5
  • GPU VRAM 4-6GB
  • Credits/1000 chars 25

Try CosyVoice2 Now

Generate your first audio free. No credit card required.

Start Free