Діа

Ultra

Діалогове налаштування TTS з клонуванням голосу і невербальними звуками

Medium Швидкість
Excellent Якість
Так Клонування
1 Мови

Про програму Діа

Dia by Nari Labs - це модель аргументу 1. 6B, що зосереджується на текстовому синтезі мовлення. Вона перевершує можливість створення природної розмовної мови з підтримкою невербальних звуків, зокрема сміху, зітхання і кашлю. Dia підтримує створення багатомовних діалогів і клонування голосу з 5- 10 секунд еталонного звуку, що робить її ідеальною для створення реалістичних розмов і голосів символів.

Можливості ключів

Створення діалогового вікна

Створюйте натуральні багатомовні розмови з окремими голосами і повертними.

Звуки без прислів'я

Додайте [сміється] [зітхання], [зітхання], [зітхання] для природного паралінгвістичного вираження.

Клинування голосу

Клонувати будь- який голос з 5- 10 секунд еталонного звуку для персоналізованої мовлення.

Природна розмова

1. 6Б параметри створюють дуже природні розмовні прозодії і інтонацію.

Випадки використання

Створення діалогових вікон і створення розмови Виробництво аудіокниги з декількома символами Голоси символів гри Створення трансляцій і вмісту

Як користуватися Діа

  1. 1

    Розписатися безкоштовно або відкрити демонстрацію

    Створіть вільний обліковий запис TextToSpeechAI, щоб отримати кредити на початку або відкрийте демонстрацію без підпису, щоб негайно спробувати Діалог.

  2. 2

    Виберіть рушій Dia

    На панелі інструментів TTS оберіть пункт Діа зі списку рушіїв. Діа - це орієнтована на дилему, ультра- тайта модель з підтримкою багатомовної програми і правомовної підтримки.

  3. 3

    Записати скрипт діалогу мітками

    Завершіть вашу розмову [S1] і [S2], щоб позначити кожну чергу промовця, і закиньте невербальні мітки, такі як [сміх], [зітхання], або (зітхання) де ви хочете мати природні реакції.

  4. 4

    Створити звуковий файл

    Натисніть кнопку Створити, щоб надіслати ваш скрипт Dia до нашого вузненого GPU. Dia переводить діалог двомовця з покроковим та вашими невербальними мітками у єдиний звуковий файл.

  5. 5

    Звантажити або викликати API

    Звантажити завершений діалог у вибраному вами форматі або автоматично створити його, надішлівши той самий скрипт [S1] / [S2] до API TextToSpeechAI з вашим лекцією на обліковому записі.

Діа API

Створюйте програму мовлення за допомогою TextToSpeechAI програм API MEST.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "[S1] Привіт, як справи? [S2] Я роблю все чудово, дякую, що запитав!",
    "voice": "en_US-lessac-medium"
  }'

Часті запитання

Діа - це модель параметрів, орієнтована на мовлення у 1. 6 B з лабораторії Nari. Вона спеціалізується на створенні природної розмовної мови з підтримкою декількох мовних апаратів, невербальних звуків і клонування голосів.

Так, Dia повністю ліцензована Apache 2. 0 - код і модель ваги. Ним можна користуватися у комерційних програмах.

У поточній версії Діа підтримує лише англійську. Модель оптимізовано для природної розмовної мови англійською.

Для моделі параметрів Dia потрібно приблизно 10GB VRAM. Рекомендуємо використовувати GPU з принаймні 12GB для зручності дій. На TextToSpeechAI всіх цих параметрів запущено на наших вузьких GPU, отже, вам не потрібна ваша власна апаратура.

Так - діалог є якраз тим, для чого саме побудовано Діаву. За допомогою чергування [S1] і [S2] у вашому сценарії Dia TTS створює двомовну розмову з окремими голосами і реалістичним поворотом, який важче досягти за допомогою моделей одномовного синтезу мовлення.

Префікс кожного рядка вашого скрипту [S1] або [S2] для позначення того, хто буде розмовляти. Dia пов' язує текст кожного з теґів і перемикає його під час пересування, отже [S1] і [S2] будуть двома символами у вашому діалогі.

Так. Діа підтримує клонування голосу приблизно з 5- 10 секунд чистого звукового сигналу, що надає вам змогу повторно використовувати певний голос для промовця. Ви можете комбінувати клонування з мітками [S1] / [S2], так, щоб кожен символ у діалозі був схожим на голос, який ви клонували.

Діа перекладає [сміх], [зітхає], [зітхає], і (зітхає) як природні паралінгвістичні звуки, що вплетені в мову, а не усними словами. Поставте мітку, де ви хочете почути реакцію, наприклад, "[S1] це весело [сміється]," щоб діалог став більш людяним.

Підтримка і створення виразних невербальних звуків Dia, але Dia побудовано з метою діалогу багатомовця з [S1] / [S2] turrent і volume Close. Оберіть варіант Dia для реалістичних розмов двох осіб і роботи з символами; Стовпчик краще підходить, якщо вам потрібно, щоб він був ширшим, якщо вам потрібно, щоб він розповідався лише у одному залі.

Діа - це ультра- двигун, отже, він коштує 50 кредитів на 1000 символів створеного мовлення. Надзвуковий інструмент відповідає більшій моделі 1. 6B і пам' яті GPU з ~10GB, яку використовує для високоякісного діалогу.

Yes. New TextToSpeechAI accounts include free starter credits, and there is a demo you can run without signing up. That is enough to generate a short Dia dialogue with [S1]/[S2] tags before deciding on a paid plan.

Так. Після того, як у вас буде ключ API зі сторінки вашого облікового запису, ви зможете надіслати скрипти Dia Dia - зокрема [S1] / [S2] - і показати мітки на зразок [сміється] - до TextToSpeechAI REST API і звантажити отримані аудіопрограми.

Technical Specs

  • Generation Speed Medium
  • Output Quality Excellent
  • Voice Cloning Supported
  • Languages 1
  • GPU VRAM 10GB
  • Credits/1000 chars 50

Try Діа Now

Generate your first audio free. No credit card required.

Start Free