Частербокс

Premium

Клонирование с нулевым голосом с выразительной речью на 23 языках

Fast Скорость
Very Good Качество
Выполнено Клонирование
23 Знание языков

О том, что Частербокс

Чаттербокс — мощная модель клонирования голоса TTS из Resemble AI. Она осуществляет клонирование голоса с нулевым снимком всего лишь с нескольких секунд эталонного аудио, поддерживая 23 языка естественным выражением. Чаттербокс включает паралингвистические метки для добавления естественных звуков, таких как смех и кашляние, к генерируемой речи.

Основные характеристики

Клонирование нулевого голоса

Сделай любой голос с нескольких секунд звука - тренировки не требуется.

23 языка

От арабского до китайского, на большинстве основных мировых языков.

Экспрессивные метки

Добавить [смех], [кашель], [усмехается] для естественных паралингвистических звуков.

Быстрый исход

Запоздалый вариант Turbo для приложений в реальном времени.

Использовать

Клонирование голоса для создания контента Многоязычные приложения голосовой связи Формат голосовых знаков для игр Персональные голосовые помощники

Как пользоваться Частербокс

  1. 1

    Подпиши или открой демо.

    Создайте свободный TextToSpeechAI аккаунт, чтобы потребовать 200 стартер-кредитов, или используйте на сайте демо, чтобы попробовать Chatterbox без записи.

  2. 2

    Выберите & чаттербокс и добавьте клип

    Выберите двигатель Chatterbox, затем загрузите короткий (несколько секунд) аудиоклип голоса, который вы хотите клонировать. Чаттербокс с нулевым клоном мгновенно - тренировки не требуется.

  3. 3

    Введите текст с факультативными тегами

    Напечатайте или вставьте текст, чтобы он говорил на любом из 23 языков, на которых поддерживается, и заходите в [смех], [кашель] или [хихикает] теджи, где вам захочется натуральные паралингвистические звуки.

  4. 4

    Выстроить речь

    Нажмите на кнопку и TextToSpeechAI подает ваш текст в клонированном голосе Chatterbox на размещенной инфраструктуре GPU, тратя 25 кредитов на 1000 символов.

  5. 5

    Загрузка или использование API

    Загрузить заключённый аудио файл или автоматизировать поколение через TextToSpeechAI REST API на апи.textospeechai.com с помощью символа вашего счета.

Частербокс API

Создать речь программно используя TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Чаттербокс может клонировать ваш голос с нескольких секунд звука и говорить на 23 языках.",
    "voice": "en_US-lessac-medium"
  }'

Часто задаваемые вопросы

Чаттербокс — это модель клонирования с нулевым голосом от текстов до звука из Resemble AI. Она может воспроизводить любой голос всего лишь с нескольких секунд эталонного аудио и генерировать естественную, выразительную речь на 23 языках, без какой-либо подготовки по каждому голосу.

Да, Chatterbox полностью лицензирован MIT - как код, так и модель весов - так что вы можете свободно использовать его в коммерческих продуктах. Сформированный аудио включает в себя факультативный нейронный водяной знак, который может быть отключен, и не существует роялти за пользование.

Вы предоставляете короткий справочный клип с любым голосом (несколько секунд достаточно) и Chatterbox выдерживает этот голос тимбром и стиль в речевой встроенный. Затем он создает совершенно новую речь в этом голосе без четкой настройки или тренировки, что означает "нулевой выстрел".

В вашем тексте в чаттербоксе прописаны специальные метки, чтобы добавить естественный невербальный звук: [смеется] вставляет смех, вставляет кашель и [хихикает] вставляет мягкий хекер. Просто помещайте метку, где вы хотите звук, например, "Это смешно, но серьезно..."

Введите метку непосредственно в входной текст в месте, где должен происходить звук, в окружении остальной части предложения. Чаттербокс делает паралингвистический звук в клонированном голосе, смешивая его в окружающий его текст, так что он звучит спонтанно, а не смешавшись с ним.

На этих языках можно говорить только один клонированный голос.

Чаттербокс быстро создает речь на GPU, и вариант Турбо достигает 200 мс латентности для разговорного использования в реальном времени. Качество очень хорошее, с естественным прозодиозным и верным воспроизведением голоса из даже коротких справочных клипов.

В чаттербоксе нужно примерно 4-8GB VRAM в зависимости от варианта, а модель Турбо работает удобно примерно в 4GB. TextToSpeechAI вам не нужно никаких местных GPU - погодных прогонов на нашей ухоженной инфраструктуре.

Чатербокс - двигатель высшего уровня, стоящий 25 кредитов на 1000 символов. Новые счета получают 200 бесплатных кредитов для клонирования голоса, и вы тратите только кредит на текст, который вы на самом деле производите.

Оба поддерживают клонирование с нулевым голосом, но Chatterbox охватывает гораздо больше языков (23 против 2) и добавляет экспрессивные паралингвистические метки. F5-TTS может вытеснить немного более натуральный английский прозоди, так что выбирайте Чаттербокс для многоязычного клонирования и экспрессивных звуков, и F5-TTS для чисто английского языка.

Оба этих варианта обеспечивают высококачественное клонирование голоса. Чаттербокс поддерживает 23 языка и встроенный экспрессивный тег, а OpenVoice добавляет тон-контроль (дружелюбный, грустный, злой и более), который отсутствует в Чатербоксе. Выберите Чаттербокс для широкого языкового освещения и OpenVoice, когда вам нужен эксплицитный эмоциональный тон.

Да. Запишитесь на бесплатный TextToSpeechAI аккаунт, чтобы получить 200 стартеров, или использовать встроенную демо-демо, чтобы услышать Чаттербокс без подписи. Загрузите короткий клип, напечатайте текст и создайте клонированный голос в секунды.

Technical Specs

  • Generation Speed Fast
  • Output Quality Very Good
  • Voice Cloning Supported
  • Languages 23
  • GPU VRAM 4-8GB
  • Credits/1000 chars 25

Try Частербокс Now

Generate your first audio free. No credit card required.

Start Free