Диа

Ultra

Диалогово ориентиран TTS с гласово клониране и невербални звуци

Medium Скорост
Excellent Качество
Да. Клониране
1 Езици

За Диа

Dia by Nari Labs is a 1.6B parameter-focused text-to-speech model. Тя превъзхожда при генериране на естествена разговорна реч с подкрепа на невербални звуци като смях, въздишки и кашлица. Dia поддържа мултизвук диалог и клониране на глас от 5-10 секунди референтен звук, което го прави идеален за създаване на реалистични разговори и характерни гласове.

Ключови характеристики

Създаване на диалог

Генерирайте естествени мулти-говорители разговори с различни гласове и превръщане.

Невербални звукове

Добавете [смее се], [въздишки], [кашляне], (въздишки) за естествен паралингвистичен израз.

Гласово клониране

Клонирайте всеки глас от 5-10 секунди референтен звук за персонализирана реч.

Естествен разговор

1.6B параметрите произвеждат високо естествени разговорни прозии и интонация.

Случаи за използване

Генериране на диалог и разговор Производство на аудиокниги с множество символи Гласове на герой на играта Създаване на подкаст и съдържание

Как да използвате Диа

  1. 1

    Запишете се безплатно или отворите демото

    Създайте безплатен TextToSpeechAI акаунт, за да поискате стартер кредити, или да отворите демо без регистрация, за да опитате Диа диалог веднага.

  2. 2

    Избор на двигателя Dia

    В таблото на TTS изберете Dia от списъка на двигателите. Dia е диалог-ориентиран, ултра-тие модел с мулти-говорител и глас-клониране поддръжка.

  3. 3

    Записване на скрипт за диалог с етикети

    Съставете разговора си с помощта на [S1] и [S2], за да отбележите всеки говорител завъртане, и пуснете в невербални тагове като [смее], [въздишки], [кашалка], или (въздишки) където искате естествени реакции.

  4. 4

    Създаване на звука

    Кликнете да генерирате, за да изпратите вашия диа скрипт на нашия домакин GPUs. Dia прави двузвучен диалог с завъртане и вашите невербални тагове в един аудио файл.

  5. 5

    Изтеглете или се обадите на API

    Изтеглете окончателния диалог в избрания ви формат, или го автоматизирайте, като публикувате същия сценарий [S1]/[S2] на TextToSpeechAI API с вашия акаунт жетон.

Диа API

Генерирайте речна програма с помощта на TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Здравейте, как сте днес?",
    "voice": "en_US-lessac-medium"
  }'

Често задавани въпроси

Dia is a 1.6B parameter-oriented text-to-speech model from Nari Labs. Тя е специализирана в генерирането на естествена разговорна реч с подкрепа за множество говорители, невербални звуци и клониране на гласа.

Да, Dia е напълно Apache 2.0 лицензирани - както код, така и модел тежести. Тя може да се използва свободно в търговски приложения.

В момента Dia поддържа само английски език. Моделът е оптимизиран за естествен английски разговор.

Диа изисква приблизително 10GB VRAM за своя модел на параметр 1.6B. ГПУ с поне 12GB се препоръчва за удобно функциониране. На TextToSpeechAI всичко това се провежда в нашия домакин GPU, така че не се нуждаете от собствен хардуер.

Да - диалогът е точно за това, за което е изграден Диа. С изменливи [S1] и [S2] завърта във вашия сценарий, Dia TTS продуцира течен двуговорителен разговор с различни гласове и реалистичен обратен процес, който е по-трудно да се постигне с единични модели TTS.

Префикс на всеки ред от вашия скрипт с [S1] или [S2], за да се отбележи кой говори. Dia присвоява последователен глас на всеки таг и превключва между тях, докато разговорът се движи, така че [S1] и [S2] действат като двата символа във вашия диалог.

Да. Dia поддържа клониране на гласа от около 5-10 секунди чист референтен звук, позволявайки ви да използвате специфичен глас за говорител. Можете да комбинирате клониране с [S1]/[S2] таго всеки символ в диалог звучи като глас, който сте клонирали.

Диа прави [смее се], [въздишки], [кашлица] и (въздишки) като естествени паралингвистичен звук в речта, а не говорещи думи. Поставете етикет, където искате реакцията - например "[S1] Това е смешно [смее се]" - да направи диалогът да се чувства по-човешко.

И Диа и Барк подкрепят изразителни невербални звуци, но Диа е изграден за многоговорителен диалог с [S1]/[S2] обръщане и клониране на глас. Изберете Диа за реалистичен двуличен разговор и работа с характер; Барк е по-добре приспособен, когато се нуждаете от по-широко езиково покритие в едногласна разказване.

Диа е ултра-тиер двигател, така че струва 50 кредита на 1000 символа на генерирана реч. Ултра нивото отразява по-големия 1,6B модел и ~10GB на GPU паметта, която използва за високо качество диалог.

Да. Нови TextToSpeechAI акаунти включват безплатни стартер кредити, и има демо, което може да се стартира без регистрация. Това е достатъчно, за да се генерира кратък Диа диалог с [S1]/[S2] тагове, преди да се реши за платен план.

Да. След като имате API жетон от вашата страница на профила, можете да представите Dia dialog скриптове - включително [S1]/[S2] завърта и етикети като [смее се] - на TextToSpeechAI REST API и изтеглите резултатите аудио програмно.

Technical Specs

  • Generation Speed Medium
  • Output Quality Excellent
  • Voice Cloning Supported
  • Languages 1
  • GPU VRAM 10GB
  • Credits/1000 chars 50

Try Диа Now

Generate your first audio free. No credit card required.

Start Free