Диа
UltraОриентированная на диалог ТТС с использованием клонирования голоса и невербальных звуков
О том, что Диа
Dia by Nari Labs — модель, ориентированная на диалог с помощью текстового языка на язык. Она успешно создает естественную разговорную речь с поддержкой невербальных звуков, таких как смех, вздыхание и кашель. Диа поддерживает создание многопикового диалога и клонирование голоса с 5-10 секунд эталонного звука, что делает ее идеальной для создания реалистических разговоров и голосов персонажей.
Основные характеристики
Построение диалога
Создайте естественный многоязычный разговор с разными голосами и поворотом.
Звуки невербалов
Добавить [смех], [вздыхает], [кашель], (вздохи) для естественного паралингвистического выражения.
Голос
Сделайте любой голос с 5-10 секунд референцного звука для персональной речи.
Естественные разговоры
1.6B параметры производят очень натуральную беседу и интонацию.
Использовать
Как пользоваться Диа
-
1
Подпишитесь бесплатно или откройте демо.
Создайте свободный TextToSpeechAI аккаунт, чтобы получить ваши стартер-кредиты, или открыть демо-выпуск без подписи, чтобы попробовать диалог Диа прямо сейчас.
-
2
Выберите двигатель диагона
В приборной панели TTS Диа выбирается из списка двигателей. Диа является ориентированной на диалог, ультрауровневой моделью с многоязыковой и голосовой клонирующей поддержкой.
-
3
Написать сценарий диалога с метками
Начинайте разговор с помощью [S1] и [S2] для обозначения каждого поворачивания и опускайтесь в невербальные метки, такие как [смех], [вздыхает], [кашель] или (вздыхает] там, где вам нужны естественные реакции.
-
4
Создать звук
Нажмите на кнопку, чтобы отправить сценарий Диа на наши GPU. Диа превращает диалог двухъязычника с поворотом и ваши невербаловые метки в один аудио файл.
-
5
Загрузка или вызов API
Загрузите заключённый диалог в выбранном формате или автоматизируете его, поместив тот же [S1]/[S2] скрипт в TextToSpeechAI API с помощью символа вашего счета.
Диа API
Создать речь программно используя TextToSpeechAI REST API.
curl -X POST "https://api.texttospeechai.com/v1/generate/" \
-H "Authorization: Bearer YOUR_API_TOKEN" \
-H "Content-Type: application/json" \
-d '{
"text": "Привет, как дела?",
"voice": "en_US-lessac-medium"
}'
Часто задаваемые вопросы
Technical Specs
- Generation Speed Medium
- Output Quality Excellent
- Voice Cloning Supported
- Languages 1
- GPU VRAM 10GB
- Credits/1000 chars 50