Corteza

Premium

Discurso expresivo de IA con emociones y efectos de sonido

Slow Velocidad
Very Good Calidad
No Clonación
13 Idiomas

Acerca de Corteza

Bark es un modelo de texto a audio basado en transformadores que puede generar un discurso altamente expresivo con emociones, risas, suspiros y otros sonidos no verbales. A diferencia de la TTS tradicional, Bark entiende el contexto y puede producir un discurso que suena genuinamente expresivo y humano. Soporta múltiples lenguajes e incluso puede generar efectos musicales y de sonido.

Características principales

Expresión emocional

Genera el habla con risas, suspiros, jadeos y emociones genuinas.

Marcadores de emociones

Usa [risas], [suspira], CAPS para enfatizar, y... para vacilar.

Multilingüe

Soporta más de 13 idiomas con acentos naturales y pronunciación.

& Efectos de la música

Puede generar música simple y sonidos ambientales.

Presets del altavoz

Múltiples voces de altavoces pre-entrenadas con diferentes estilos.

Código abierto

MIT licenciado con derechos de uso comercial completo.

Casos de uso

Diálogo de caracteres Contenido animado Narración de audiolibros Actuación de voz de juego Proyectos creativos Auxiliares expresivos

Corteza Voices

View All 130
Bark Chinese Speaker 0
ZH
Bark Chinese Speaker 1
ZH
Bark Chinese Speaker 2
ZH
Bark Chinese Speaker 3
ZH
Bark Chinese Speaker 4
ZH
Bark Chinese Speaker 5
ZH
Bark Chinese Speaker 6
ZH
Bark Chinese Speaker 7
ZH
Bark Chinese Speaker 8
ZH
Bark Chinese Speaker 9
ZH
Bark English Speaker 0
EN
Bark English Speaker 1
EN

Cómo usar Corteza

  1. 1

    Regístrate gratis y abre la demo

    Cree una cuenta gratuita TextToSpeechAI para reclamar sus créditos de inicio, o utilice la demo sin registro para probar Bark de inmediato. Los créditos gratuitos son suficientes para generar varios clips de Bark expresivos antes de actualizar.

  2. 2

    Escoge una voz de corteza

    Abra la biblioteca de voz y seleccione un preset de altavoz de Bark que coincida con el tono que desee. Las voces de la corteza se etiquetan como el nivel premium (25 créditos por 1000 caracteres) y se sintonizan para la narración emocional, estilo carácter.

  3. 3

    Introduzca texto con marcadores de emoción

    Escribe tu guión e incrusta marcadores de emoción de Bark en línea: [risas] por risas, [suspira] por suspiros, [jadeos] por jadeos,... por una pausa, y CAPS por énfasis. Por ejemplo: "Oh wow! [risas] Esto es increíble... ¡No puedo creerlo!"

  4. 4

    Generar el audio

    Haga clic en Generar y Bark representa su texto en un discurso expresivo, convirtiendo cada marcador en el sonido correspondiente. Generación es más lento que los motores ligeros debido al modelo de transformador de Bark, por lo que permita unos segundos adicionales por frase.

  5. 5

    Descargue o utilice la API

    Previsualizar el resultado, luego descargarlo como MP3, WAV, u OGG. Para automatizar Bark en su propia aplicación, llame a la API TextToSpeechAI con una voz de Bark y el mismo texto rico en marcadores para recuperar el audio expresivo.

Corteza API

Generar voz programáticamente usando la API de TextToSpeechAI REST.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Oh wow! Esto es increíble... ¡Me encanta lo expresivo que suena esto!",
    "voice": "bark-zh_0"
  }'

Preguntas frecuentes

Bark es un modelo de texto a audio basado en transformadores creado por Suno. A diferencia de los sistemas TTS tradicionales, Bark genera un habla altamente expresiva con emociones naturales, risas, suspiros y otros sonidos no verbales. Incluso puede generar música y efectos de sonido.

Sí, Bark es de código abierto bajo la licencia MIT, lo que permite el uso comercial gratuito. En TextToSpeechAI, cobramos 25 créditos por 1000 caracteres debido a los importantes recursos de GPU necesarios para la generación.

Bark es compatible con más de 13 idiomas, incluyendo inglés, alemán, español, francés, hindi, italiano, japonés, coreano, polaco, portugués, ruso, turco y chino. Cada idioma tiene pronunciación y acentos naturales.

La corteza es más lenta que la mayoría de los motores TTS debido a su arquitectura de transformadores autorregresivos. Una frase típica tarda 5-15 segundos en generar en GPU. La compensación es significativamente más expresiva y la salida natural.

Bark sólo ofrece clonación de voz limitada a través de "prompts semánticos" y presets de altavoz, por lo que no puede clonar de manera fiable una voz arbitraria de una muestra. Si la clonación de voz completa es su objetivo, utilice F5-TTS, StyleTTS2, OpenVoice, o Tortoise en su lugar, todos disponibles en TextToSpeechAI.

Bark lee marcadores en línea colocados directamente en su texto y los convierte en sonidos coincidentes. Use [risas] para reír, [suspiros] para suspiros, [jadeos] para jadeos,... para vacilar o una pausa, y CAPS para enfatizar. Ejemplo: "¡Oh wow! [risas] Esto es increíble... ¡No puedo creerlo!"

Más allá del lenguaje sencillo, Bark puede producir sonidos no verbales como risas, suspiros, jadeos, limpieza de garganta y tartamudez, además de música simple y efectos ambientales.Estos se activan con marcadores como [risas], [suspiros] y [suspiros] incrustados en el texto, que es lo que hace que Bark se sienta más expresivo que el TTS estándar.

La corteza produce audio de muy buena calidad con expresividad natural que rivaliza con el habla humana para el contenido emocional. La salida 24kHz suena profesional, aunque la calidad del habla pura es ligeramente inferior a StyleTTS2.

Bark requiere 8-12GB de VRAM dependiendo del tamaño del modelo. El modelo completo necesita ~12GB, mientras que las variantes más pequeñas funcionan con 8GB. La inferencia de CPU es extremadamente lenta y no se recomienda.

Sí, Bark tiene licencia MIT, que permite el uso comercial sin restricciones sin cargos de licencia. Puede utilizar Bark en productos, servicios y aplicaciones libremente. En TextToSpeechAI puede probar Bark gratis utilizando sus créditos de registro antes de pagar por más.

La corteza sobresale en el discurso expresivo de un solo orador con marcadores de emoción como [risas] y [suspira], mientras que Dia está construido para el diálogo multi-parlante con los giros [S1]/[S2] y señales no verbales. Elija la corteza para la narración emocional y la voz de carácter, y Dia para conversaciones de ida y vuelta. Ambos están disponibles en TextToSpeechAI.

La corteza es única en su capacidad de generar un habla genuinamente expresiva con emociones y sonidos no verbales. Es más lenta que otros motores, pero produce resultados más humanos para el contenido creativo. Para una síntesis más rápida, utilice Piper. Para la clonación de voz, utilice F5-TTS o OpenVoice.

Technical Specs

  • Generation Speed Slow
  • Output Quality Very Good
  • Voice Cloning Not Supported
  • Languages 13
  • GPU VRAM 8-12GB
  • Credits/1000 chars 25

Try Corteza Now

Generate your first audio free. No credit card required.

Start Free