Диа
UltraДиалогово ориентиран TTS с гласово клониране и невербални звуци
За Диа
Dia by Nari Labs is a 1.6B parameter-focused text-to-speech model. Тя превъзхожда при генериране на естествена разговорна реч с подкрепа на невербални звуци като смях, въздишки и кашлица. Dia поддържа мултизвук диалог и клониране на глас от 5-10 секунди референтен звук, което го прави идеален за създаване на реалистични разговори и характерни гласове.
Ключови характеристики
Създаване на диалог
Генерирайте естествени мулти-говорители разговори с различни гласове и превръщане.
Невербални звукове
Добавете [смее се], [въздишки], [кашляне], (въздишки) за естествен паралингвистичен израз.
Гласово клониране
Клонирайте всеки глас от 5-10 секунди референтен звук за персонализирана реч.
Естествен разговор
1.6B параметрите произвеждат високо естествени разговорни прозии и интонация.
Случаи за използване
Как да използвате Диа
-
1
Запишете се безплатно или отворите демото
Създайте безплатен TextToSpeechAI акаунт, за да поискате стартер кредити, или да отворите демо без регистрация, за да опитате Диа диалог веднага.
-
2
Избор на двигателя Dia
В таблото на TTS изберете Dia от списъка на двигателите. Dia е диалог-ориентиран, ултра-тие модел с мулти-говорител и глас-клониране поддръжка.
-
3
Записване на скрипт за диалог с етикети
Съставете разговора си с помощта на [S1] и [S2], за да отбележите всеки говорител завъртане, и пуснете в невербални тагове като [смее], [въздишки], [кашалка], или (въздишки) където искате естествени реакции.
-
4
Създаване на звука
Кликнете да генерирате, за да изпратите вашия диа скрипт на нашия домакин GPUs. Dia прави двузвучен диалог с завъртане и вашите невербални тагове в един аудио файл.
-
5
Изтеглете или се обадите на API
Изтеглете окончателния диалог в избрания ви формат, или го автоматизирайте, като публикувате същия сценарий [S1]/[S2] на TextToSpeechAI API с вашия акаунт жетон.
Диа API
Генерирайте речна програма с помощта на TextToSpeechAI REST API.
curl -X POST "https://api.texttospeechai.com/v1/generate/" \
-H "Authorization: Bearer YOUR_API_TOKEN" \
-H "Content-Type: application/json" \
-d '{
"text": "Здравейте, как сте днес?",
"voice": "en_US-lessac-medium"
}'
Често задавани въпроси
Technical Specs
- Generation Speed Medium
- Output Quality Excellent
- Voice Cloning Supported
- Languages 1
- GPU VRAM 10GB
- Credits/1000 chars 50