CosyVoice2

Premium

Clonación de voz multilingüe de tiro cero con soporte de streaming

Probar gratis CosyVoice2 Navegando por Voces (0)

Fast Velocidad

Very Good Calidad

Sí Clonación

5 Idiomas

Acerca de CosyVoice2

CosyVoice2 es un modelo de síntesis de voz de próxima generación de FunAudioLLM (Alibaba). Ofrece clonación de voz de sonido natural sin disparos a través de varios idiomas con capacidad de transmisión para aplicaciones de baja latencia. Construido sobre un enfoque de cuantificación escalar finito, logra una excelente similitud de voz con sólo unos segundos de audio de referencia.

Características principales

Clonación de voz cero-caliente

Clonar cualquier voz de 3-10 segundos de audio de referencia con alta fidelidad.

Multilingüe

Soporta chino, inglés, japonés, coreano y cantonés con síntesis interlingüe.

Apoyo a la transmisión

Modo de streaming de baja latencia para aplicaciones en tiempo real y sistemas interactivos.

Prosodia natural

El modelado prosodiado avanzado produce un sonido natural del habla con la entonación apropiada.

Casos de uso

Creación de contenidos multilingües Asistentes de voz en tiempo real Doblaje multilingüe Aplicaciones de voz personalizadas

Cómo usar CosyVoice2

1

Regístrese y reclame créditos gratuitos

Cree una cuenta gratuita TextToSpeechAI para reclamar sus créditos de inicio, o intente primero la demo. No se necesita ninguna instalación local de GPU o CosyVoice2 - todo se ejecuta en nuestra infraestructura.
2

Seleccione CosyVoice2 y agregue un clip de referencia

Elija CosyVoice2 como su motor, luego cargue una grabación de referencia limpia de 3-10 segundos de la voz que desea clonar. CosyVoice2 extraerá las características del altavoz para la clonación multilingüe de cero disparos.
3

Introduzca su texto en cualquier idioma soportado

Escriba o pegue su guión en chino, inglés, japonés, coreano o cantonés. CosyVoice2 admite síntesis multilingüe, por lo que la voz clonada puede hablar un idioma diferente del clip de referencia.
4

Generar el discurso

Haga clic en generar y CosyVoice2 sintetiza el habla natural y multilingüe en la voz clonada, por lo general en cuestión de segundos para texto corto.
5

Descargue o utilice la API

Descargue el audio terminado como MP3 o WAV desde su historial, o automatice la clonación de voz de CosyVoice2 a escala a través de la API de TextToSpeechAI REST.

CosyVoice2 API

Generar voz programáticamente usando la API de TextToSpeechAI REST.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "CosyVoice2 ofrece un lenguaje multilingüe natural con capacidad de clonación de voz de cero disparos.",
    "voice": "en_US-lessac-medium"
  }'

Leer los documentos de API Obtener su clave de API

Preguntas frecuentes

CosyVoice2 es un modelo de clonación de texto a voz y voz de próxima generación de FunAudioLLM (Alibaba). Soporta la clonación de voz de cero imágenes a partir de sólo unos segundos de audio de referencia y puede sintetizar el habla natural en chino, inglés, japonés, coreano y cantonés. En TextToSpeechAI se puede ejecutar CosyVoice2 en el navegador sin ninguna configuración local.

Sí, CosyVoice2 tiene licencia completa de Apache 2.0 - tanto el código como los pesos del modelo. Esto hace que sea seguro utilizar en productos comerciales, contenido pagado y trabajo del cliente sin honorarios de licencia o restricciones no comerciales.

CosyVoice2 es compatible con cinco idiomas: chino (Mandarín), inglés, japonés, coreano y cantonés. También maneja la síntesis interlingüe, para que puedas clonar una voz de una grabación en un idioma y generar voz en otro.

Proporcionar 3-10 segundos de audio de referencia limpio del altavoz de destino. CosyVoice2 extrae las características del altavoz utilizando un enfoque de cuantificación escalar finito, a continuación, genera un nuevo discurso en esa voz clonada a través de cualquiera de sus idiomas soportados.

CosyVoice2 es uno de los modelos de clonación multilingüe más fuertes, preservando la identidad del hablante incluso al generar un lenguaje diferente del clip de referencia. Produce prosodia natural y entonación, lo que lo hace muy adecuado para doblaje interlingüe y contenido localizado.

Yes. CosyVoice2 is a fast model and includes a streaming mode that produces audio with low latency, making it suitable for voice assistants and interactive applications. On TextToSpeechAI generations typically complete in seconds for short text.

CosyVoice2 requiere unos 4-6GB de VRAM para el modelo de parámetro 0.5B, por lo que se recomienda una GPU con 6GB o más cuando se auto-anfitriona. En TextToSpeechAI el modelo se ejecuta en nuestra infraestructura GPU, por lo que no necesita ningún hardware propio.

CosyVoice2 es un modelo de primer nivel y cuesta 25 créditos por cada 1.000 caracteres de texto. Cada nueva cuenta recibe créditos de inicio gratuitos, por lo que puede probar la clonación de voz de CosyVoice2 antes de decidir sobre un plan de pago.

Ambos son motores de clonación de voz premium. GPT-SoVITS a menudo alcanza la mayor similitud cruda para una sola voz objetivo, mientras que CosyVoice2 es más fuerte para la clonación multilingüe y multilingüe y añade un modo de transmisión de baja latencia. Elija CosyVoice2 cuando necesite una voz clonada para hablar varios idiomas.

CosyVoice2 admite más idiomas (5 frente a 2) y añade streaming para uso en tiempo real, mientras que F5-TTS puede ser un poco más rápido para cargas de trabajo únicamente inglesas. Para proyectos multilingües CosyVoice2 suele ser el mejor ajuste.

TextToSpeechAI le permite exportar generaciones CosyVoice2 en formatos comunes como MP3 y WAV. Puede descargar el archivo directamente desde su página de historial o recuperarlo programáticamente a través de la API TextToSpeechAI.

Sí. Puede probar CosyVoice2 con la demo gratuita y sus créditos de arranque gratuitos en TextToSpeechAI sin instalar nada. Sólo tiene que registrarse, subir un clip de referencia corto, escribir su texto en cualquier idioma soportado, y generar.

Technical Specs

Generation Speed Fast
Output Quality Very Good
Voice Cloning Supported
Languages 5
GPU VRAM 4-6GB
Credits/1000 chars 25

Try CosyVoice2 Now

Generate your first audio free. No credit card required.

Start Free

Other TTS Engines

CosyVoice2

Acerca de CosyVoice2

Características principales

Clonación de voz cero-caliente

Multilingüe

Apoyo a la transmisión

Prosodia natural

Casos de uso

Cómo usar CosyVoice2

Regístrese y reclame créditos gratuitos

Seleccione CosyVoice2 y agregue un clip de referencia

Introduzca su texto en cualquier idioma soportado

Generar el discurso

Descargue o utilice la API

CosyVoice2 API

Preguntas frecuentes

¿Qué es CosyVoice2?

¿Es CosyVoice2 libre de usar comercialmente?

¿Qué idiomas soporta CosyVoice2?

¿Cómo funciona la clonación de voz de CosyVoice2?

¿Qué tan bueno es CosyVoice2 en la clonación multilingüe de voz?

¿Es CosyVoice2 lo suficientemente rápido para su uso en tiempo real?

¿Cuánta memoria de GPU necesita CosyVoice2?

¿Cuántos créditos cuesta CosyVoice2 en TextToSpeechAI?

CosyVoice2 vs GPT-SoVITS - ¿Qué debo usar?

¿Cómo se compara CosyVoice2 con F5-TTS?

¿Qué formatos de audio puedo descargar de CosyVoice2?

¿Puedo probar CosyVoice2 gratis?

Technical Specs

Try CosyVoice2 Now

Other TTS Engines

Corteza

Chatterbox

Dia