Диа

Ultra

Ориентированная на диалог ТТС с использованием клонирования голоса и невербальных звуков

Medium Скорость
Excellent Качество
Выполнено Клонирование
1 Знание языков

О том, что Диа

Dia by Nari Labs — модель, ориентированная на диалог с помощью текстового языка на язык. Она успешно создает естественную разговорную речь с поддержкой невербальных звуков, таких как смех, вздыхание и кашель. Диа поддерживает создание многопикового диалога и клонирование голоса с 5-10 секунд эталонного звука, что делает ее идеальной для создания реалистических разговоров и голосов персонажей.

Основные характеристики

Построение диалога

Создайте естественный многоязычный разговор с разными голосами и поворотом.

Звуки невербалов

Добавить [смех], [вздыхает], [кашель], (вздохи) для естественного паралингвистического выражения.

Голос

Сделайте любой голос с 5-10 секунд референцного звука для персональной речи.

Естественные разговоры

1.6B параметры производят очень натуральную беседу и интонацию.

Использовать

Построение диалога и диалога Производство аудиокниги с несколькими символами Голоса персонажей игры Подкаст и создание контента

Как пользоваться Диа

  1. 1

    Подпишитесь бесплатно или откройте демо.

    Создайте свободный TextToSpeechAI аккаунт, чтобы получить ваши стартер-кредиты, или открыть демо-выпуск без подписи, чтобы попробовать диалог Диа прямо сейчас.

  2. 2

    Выберите двигатель диагона

    В приборной панели TTS Диа выбирается из списка двигателей. Диа является ориентированной на диалог, ультрауровневой моделью с многоязыковой и голосовой клонирующей поддержкой.

  3. 3

    Написать сценарий диалога с метками

    Начинайте разговор с помощью [S1] и [S2] для обозначения каждого поворачивания и опускайтесь в невербальные метки, такие как [смех], [вздыхает], [кашель] или (вздыхает] там, где вам нужны естественные реакции.

  4. 4

    Создать звук

    Нажмите на кнопку, чтобы отправить сценарий Диа на наши GPU. Диа превращает диалог двухъязычника с поворотом и ваши невербаловые метки в один аудио файл.

  5. 5

    Загрузка или вызов API

    Загрузите заключённый диалог в выбранном формате или автоматизируете его, поместив тот же [S1]/[S2] скрипт в TextToSpeechAI API с помощью символа вашего счета.

Диа API

Создать речь программно используя TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Привет, как дела?",
    "voice": "en_US-lessac-medium"
  }'

Часто задаваемые вопросы

Диа — модель, ориентированная на диалог между буквами и точками из Нари Лабс, специализирующаяся на подготовке естественной речи для разговора с поддержкой нескольких ораторов, невербальных звуков и клонирования голоса.

Да, Диа полностью лицензирована Apache 2.0 - как код, так и модель весов.

В настоящее время Диа поддерживает только английский язык.

Диа требует примерно 10 GB VRAM для своей модели параметров 1.6B. Для удобной работы рекомендуется GPU с по меньшей мере 12 GB. На TextToSpeechAI все это работает на наших ГПС, так что вам не нужно какое-либо собственное оборудование.

Да - диалог именно для того, чтобы создать Диа.

Приготовьте каждую строчку вашего сценария к [S1] или [S2] для обозначения того, кто говорит. Диа назначает последовательный голос каждому тег и переключает их по ходу разговора, так что [S1] и [S2] будут двумя персонажами вашего диалога.

Диа поддерживает клонирование голоса примерно с 5 до 10 секунд чистого эталонного звука, позволяя вам использовать конкретный голос для оратора. Вы можете объединить клонирование с тегами [S1]/[S2], так что каждый персонаж в диалоге звучит как голос, который вы клонировали.

Диа делает [смех], [вздыхает], [кашель] и (вздыхает) как естественный паралингвистический звук, вплетенный в речь, а не говорящие слова. Поставьте метку, где вы хотите услышать реакцию, например, [[S1] Это смешно], чтобы диалог чувствовал себя более человечным.

И Диа, и Барк поддерживают экспрессивные невербальные звуки, но Диа специально построена для диалога с несколькими говорящими с [S1]/[S2] поворотом и клонированием голоса. Выберите Диа для реалистических разговоров с двумя лицами и работы над персонажами; Барк лучше подходит, когда вам нужно более широкое языковое освещение в одноразовом рассказе.

Диа — ультрауровневый двигатель, поэтому он стоит 50 градусов на 1000 символов генерируемой речи. Ультраусть отражает большую модель 1.6B и ~10GB памяти ГПС, которую он использует для высококачественного диалога.

Да, новые счета TextToSpeechAI включают бесплатные стартер-кредиты, и есть демо, которое можно пропустить без регистрации. Этого достаточно, чтобы создать короткий диалог с [S1]/[S2] метками перед тем, как принять решение о оплачиваемом плане.

Да. Как только у вас будет символ API с вашей страницы, вы можете представить сценарий диалога Dia, включая [S1]/[S2] поворачивается и теги, как [смеется], на TextToSpeechAI REST API и загружает полученный аудиопрограммный скрипт.

Technical Specs

  • Generation Speed Medium
  • Output Quality Excellent
  • Voice Cloning Supported
  • Languages 1
  • GPU VRAM 10GB
  • Credits/1000 chars 50

Try Диа Now

Generate your first audio free. No credit card required.

Start Free