Кун

Ultra

Диалогига қаратилган TTS овозни клонлаш ва сўзсиз товушлар билан

Medium Тезлик
Excellent Сифати
Ҳа Клонлаш
1 Тиллар

Маълумот Кун

ing the most accurate text-to-speech results. Dia is a 1.6B parameter text-to-speech model that is designed to generate natural conversational speech with support for nonverbal sounds like laughter, sighs, and coughs. It excels at generating the most accurate text-to-speech results. Dia is a 1.6B parameter text-to-speech model that is designed to generate natural conversational speech with support for nonverbal sounds like laughter, sighs, and coughs. Dia is a 1.6B parameter

Ключа хусусиятлар

Диалоги яратиш

Тасвирланган овозлар ва айланма билан табиий кўп-сўзловчи суҳбатларни яратинг.

Сўзсиз товушлар

[кулади], [ҳечқиси йўқ], [йўталди], (ҳалқ тилида) табиий ифода учун қўшинг.

Товушни клонлаш

Ўзингизга мос сўзлашув учун 5-10 сониялик аудиодан ҳар қандай овозни клонлаш.

Табиий суҳбат

1.6B параметрлари жуда табиий суҳбат прозоди ва интонацияни ҳосил қилади.

Ишлатиш ҳолатлари

Диалоги ва суҳбатлар яратиш Кўп аломатли аудиокитоблар яратиш Ўйин персонаж овозлари Подкаст ва мазмун яратиш

Қўллаш усули Кун

  1. 1

    Бепул рўйхатдан ўтинг ёки демони очинг

    Сизнинг бошланғич кредитларингизни олиш учун бепул TextToSpeechAI ҳисобни яратинг ёки Dia диалогини ҳозироқ синаш учун рўйхатдан ўтмасдан демо очинг.

  2. 2

    Dia моторини танлаш

    TTS панелида Dia'ни моторлар рўйхатидан танланг. Dia диалогга қаратилган, кўп эшиттирувчи ва овозни клонлашни қўллаб-қувватловчи ультра-даражали моделдир.

  3. 3

    Теглар билан диалог скрипти ёзиш

    Мулоқотингизни ҳар бир сўзловчининг навбатини белгилаш учун [S1] ва [S2] ни қўллаб тузинг ва [laughs], [sighs], [coughs] ёки (gasps) каби сўзсиз тегиларни ташланг, агар табиий жавобни хоҳласангиз.

  4. 4

    Аудио яратиш

    Сизнинг Dia скриптингизни бизнинг хостланган GPUларга юбориш учун яратиш тугмасини босинг. Dia иккита сўзловчининг суҳбатини айланма олиш билан ва сизнинг сўзсиз тегингизни битта аудио файлга кўрсатади.

  5. 5

    APIни юклаб олиш ёки чақириш

    Танланган форматда тугалланган диалогни юклаб олинг ёки ҳисобингиз токенини TextToSpeechAI API'га [S1]/[S2] скриптни юбориш орқали автоматлаштиринг.

Кун API

TextToSpeechAI REST API ёрдамида дастурий сўзлашув яратиш.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "[S1] Салом! Бугун қандайсиз? [кулади] [S2] Мен яхши иш қиляпман, сўраганингиз учун раҳмат!",
    "voice": "en_US-lessac-medium"
  }'

Доимий сўраладиган саволлар

Dia Nari Labs'дан 1.6B параметрли диалогга қаратилган матн-нутқ моделидир. У кўплаб сўзловчилар, сўзсиз товушлар ва овозни клонлашни қўллаб-қувватлаш билан табиий суҳбат сўзини яратишда ихтисослашган.

Ҳа, Dia тўлиқ Apache 2.0 лицензияси билан таъминланган - код ва моделлар учун ҳам. У эркин равишда савдо дастурларида қўлланилиши мумкин.

Ҳозирда Dia фақат инглиз тилини қўллаб-қувватлайди. Модель инглиз тилида гаплашиш учун оптималлаштирилган.

Dia 1.6B параметр модели учун тахминан 10GB VRAM талаб қилади. Тезкор ишлаш учун камида 12GB GPU тавсия этилади. TextToSpeechAI'да буларнинг барчаси бизнинг хостланган GPU'ларда ишлайди, шунинг учун сизга ўзингизнинг жиҳозларингиз керак эмас.

Ҳа - диалог Dia учун яратилган. Скриптингизда [S1] ва [S2] айланмаларини алмаштириб, Dia TTS икки эшиттирувчининг суҳбатини ажралиб турувчи овозлар ва реал турғунлик билан ҳосил қилади, бу бир эшиттирувчи TTS моделлари билан эришиш қийинроқ.

Скриптингиздаги ҳар бир сатрга ким гапираётганини кўрсатиш учун [S1] ёки [S2] префиксини қўшинг. Dia ҳар бир тегга бир хил овозни белгилайди ва суҳбат ҳаракати билан улар орасидан ўтиб боради, шунинг учун [S1] ва [S2] диалогингиздаги иккита характердек ишлайди.

Ҳа. Dia 5-10 сониялик тоза манба аудиосидан овозни клонлашни қўллаб-қувватлайди, бу сизга овозли эшиттириш учун муайян овозни қайта ишлашни имкон беради. Сиз [S1]/[S2] теглар билан клонлашни бирлаштира оласиз, шунинг учун диалогдаги ҳар бир характер сиз клонлаган овозга ўхшаб эшитилади.

Dia [кулади], [ҳалқуми], [томоқ қичиши] ва (ҳалқуми) товушларини гапирилган сўзлар ўрнига гапга сингдирилган табиий паралингвистик товушлар сифатида кўрсатади. Диалогини инсонийроқ қилиш учун жавобни хоҳлаган жойга тег қўйинг, масалан "[S1] Бу кулгили [кулади]".

Ҳар иккала Dia ва Bark ҳам сўзсиз овозларни қўллаб-қувватлайди, аммо Dia [S1]/[S2] айланма ва овозни клонлаш билан кўп эшитувчили диалог учун мўлжалланган. Диани реал икки кишилик суҳбатлар ва персонажлар учун танланг; Bark бир овозли ҳикояда кенг тил қамровига эҳтиёжингиз бўлганида яхшироқ.

Dia ультра-даражали двигатель бўлиб, у 1000 та сўзлашув аломати учун 50 кредитга тушади. Ултра-даражали 1.6B модели ва юқори сифатли диалог учун ~10GB GPU хотирасини акс эттиради.

Ҳа. Янги TextToSpeechAI ҳисоблар бепул бошланғич кредитларни ўз ичига олади, ва сиз рўйхатдан ўтмасдан ишга туширадиган демо мавжуд. Бу тўловли режани танлашдан олдин [S1]/[S2] теглар билан қисқа Dia диалогини яратиш учун етарли.

Ҳа. Ҳисобингиз саҳифасида API токенингиз бўлса, Dia диалог скриптларини - [S1]/[S2] айланишлари ва [лаughs] каби теглар билан бирга - TextToSpeechAI REST API'га тақдим этишингиз ва натижадаги аудиони дастурий юклаб олишингиз мумкин.

Technical Specs

  • Generation Speed Medium
  • Output Quality Excellent
  • Voice Cloning Supported
  • Languages 1
  • GPU VRAM 10GB
  • Credits/1000 chars 50

Try Кун Now

Generate your first audio free. No credit card required.

Start Free