Օր

Ultra

Դիալոգային TTS ձայնի կլոնավորմամբ և ոչ-վերջին ձայներով

Medium արագություն
Excellent Գործողություն
Այո Կլոնավորում
1 Լեզուներ

Ընդհանուր Օր

ing the most accurate text-to-speech results for the most complex texts. Dia is a 1.6B parameter text-to-speech model that is designed to generate natural conversational speech with support for nonverbal sounds like laughter, sighs, and coughs. It excels at generating the most accurate text-to-speech results for the most complex texts. Dia is a 1.6B parameter text-to-speech model that is designed for the most complex texts

Կարգավորումներ

Դիալոգների ստեղծում

Ծննդաբերել բնական բազմահազարանոց զրույցներ տարբեր ձայներով և հերթականությամբ։

Չխոսական ձայներ

Ավելացնել [ծիծաղ], [հառաչանք], [խոց], (հրմշտոց) բնական պարալեզվական արտահայտության համար։

Ձայնի կլոնավորում

Կլոնավորել ցանկացած ձայն 5-10 վայրկյանի ընթացքում՝ ձայնային տվյալների հիման վրա, ըստ անձնական խոսակցության։

Ծանոթություն

1.6B parameters produce highly natural conversational prosody and intonation.

Օգտագործման դեպքեր

Դիալոգների և զրույցների գեներացիա Ավդիոգիրքերի ստեղծում մի քանի կերպարներով Խաղի հերոսների ձայներ Podcast և բովանդակության ստեղծում

Ինչպես օգտագործել Օր

  1. 1

    Գրանցվել անվճար կամ բացել ցուցադրական տարբերակը

    Կերեք անվճար TextToSpeechAI հաշիվ, որպեսզի ստանա ձեր սկզբնական վարկերը, կամ բացեք առանց գրանցման փորձարկումը Dia dialog-ը փորձելու համար։

  2. 2

    Ընտրել Dia- ի մոդել

    TTS ցուցադրման վահանակում ընտրեք Dia-ն սարքի ցանկից։ Dia-ն դիալոգի վրա հիմնված, շատ բարձր մակարդակի մոդել է, որը աջակցում է բազմաթիվ խոսնակների և ձայնի կլոունինգի։

  3. 3

    Գրել վիճաբանության սկրիպտ ՝ պիտակներով

    Ստեղծեք ձեր զրույցը օգտագործելով [S1] և [S2] կոճակները՝ նշելու համար յուրաքանչյուր խոսողի հերթը, և ներառեք ոչ-վերլուծական տեգեր, ինչպիսիք են [ծիծաղ], [ժպտում], [խոց], կամ (գլուխը ցած է դնում), որտեղ ցանկանում եք բնական արձագանքներ:

  4. 4

    Ծննդաբերել ձայնային նյութը

    Սեղմեք ստեղծել, որպեսզի Dia սցենարը ուղարկեք մեր սերվերին։ Dia-ն կցուցադրի երկու խոսնակների երկխոսությունը, որի ընթացքում դուք կկարողանաք ձայնագրել ձեր խոսքը և ձայնային ֆայլ ստեղծել։

  5. 5

    Հեռացնել կամ կոչել API

    Բեռնել վերջնական երկխոսությունը ձեր ընտրած ձևաչափով կամ ավտոմատացնել այն՝ նույն [S1]/[S2] սկրիպտը TextToSpeechAI API-ին ուղարկելով ձեր հաշվի տոկելով։

Օր API

Ծրագրային ապահովման միջոցով խոսակցության ստեղծում TextToSpeechAI REST API-ի միջոցով։

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Բարի օր, ինչպե՞ս եք այսօր։ [ծիծաղ] [Բ] Ես լավ եմ, շնորհակալ եմ հարցնելու համար։",
    "voice": "en_US-lessac-medium"
  }'

Հաճախակի տրվող հարցեր

Dia-ն Nari Labs-ի 1.6B պարամետրով դիալոգ-օգտագործվող տեքստը խոսքի վերածելու մոդել է։ Այն հատկապես տիրապետում է բնական խոսակցության գեներացմանը՝ մի քանի խոսնակների, անխոս ձայների և ձայնի կլոունավորման աջակցությամբ։

Այո, Dia- ն ամբողջությամբ Apache 2. 0- ի լիցենզիայով է՝ ինչպես կոդով, այնպես էլ մոդելի քաշով։ Այն կարող է ազատորեն օգտագործվել առևտրային ծրագրերում։

Այժմ Dia- ն աջակցում է միայն անգլերենը։ Մասնավորապես, մոդելը օպտիմիզացված է բնական անգլերենի համար։

Dia-ն պահանջում է մոտավորապես 10 ԳԲ VRAM իր 1.6B պարամետրային մոդելի համար։ Հնարավոր է, որ 12 ԳԲ GPU-ն անհրաժեշտ լինի հարմարավետ աշխատանքի համար։ TextToSpeechAI-ի դեպքում այս ամենը աշխատում է մեր ապահովված GPU-ների վրա, այնպես որ դուք չունեք սեփական սարքավորման կարիք։

Այո, Dia-ն ստեղծված է հենց այդպիսի երկխոսության համար։ Ձեր սցենարի մեջ [S1] և [S2] հանգույցները փոխարինելով Dia TTS-ը ստեղծում է երկու խոսնակների միջև հոսող զրույց՝ տարբեր ձայներով և իրական ընթացքով, ինչը դժվար է անել մեկ խոսնակի TTS մոդելներով։

Ձեր սցենարի յուրաքանչյուր տողին նախորդեք [S1] կամ [S2] նշանները՝ նշելու համար, թե ով է խոսում։ Dia-ն յուրաքանչյուր տեգին տալիս է համընկնող ձայն և փոխում է դրանք, երբ խոսակցությունը շարժվում է, այսպիսով [S1] և [S2] գործում են որպես ձեր երկխոսության երկու հերոսներ։

Այո։ Dia-ն աջակցում է ձայնի կլոնավորմանը մոտավորապես 5-10 վայրկյան տևողությամբ մաքուր ձայնային նյութից, թույլ տալով ձեզ կրկին օգտագործել ձայնը խոսնակի համար։ Դուք կարող եք կլոնավորումը համադրել [S1]/[S2] տեքստային նշանների հետ, որպեսզի երկխոսության յուրաքանչյուր կերպարը հնչի ինչպես կլոնավորված ձայնը։

Dia- ն [ծիծաղ], [հառաչանք], [խռմփոց] և (գլուխը ցած գցելով) արտահայտում է որպես բնական ձայներ, որոնք ներառված են խոսակցության մեջ, այլ ոչ թե արտասանված բառեր։ Դիմադրության համար նշեք այնտեղ, որտեղ ցանկանում եք արձագանք տալ, օրինակ՝ «[S1] Դա զվարճալի է [ծիծաղ]»՝ երկխոսությունը ավելի մարդկային դարձնելու համար։

Dia-ն և Bark-ը աջակցում են արտահայտիչ ոչ-խոսքով ձայներ, բայց Dia-ն նախատեսված է բազմահաղորդակցական երկխոսության համար [S1]/[S2] հերթականությամբ և ձայնի կլոնավորմամբ։ Ընտրեք Dia-ն երկու անձանց միջև իրական զրույցների և հերոսների աշխատանքի համար։ Bark-ը ավելի լավ է, երբ դուք լեզվի ավելի լայն շրջանակ եք ցանկանում մեկ ձայնով պատմության համար։

Dia-ն ուլտրա-մակարդակով սարքն է, այնպես որ այն արժե 50 դրամ յուրաքանչյուր 1000 ձայնագրված այբուբենի համար։ ուլտրա-մակարդակով սարքը մեծ 1.6B մոդելի է և ~10GB GPU հիշողություն է օգտագործում բարձր որակի երկխոսության համար։

Այո։ Նոր TextToSpeechAI հաշիվները ներառում են անվճար սկզբնական վարկային քարտեր, և կա մի փորձնական տարբերակ, որը կարող եք օգտագործել առանց գրանցվելու։ Դա բավական է Dia-ի կարճ երկխոսություն ստեղծելու համար [S1]/[S2] տեքստային նշաններով, մինչև վճարովի պլանի մասին որոշում կայացնելը։

Այո։ Երբ դուք ունեք API token Ձեր հաշվի էջից, դուք կարող եք ներկայացնել Dia երկխոսության սկրիպտները՝ ներառյալ [S1]/[S2] շարժումները և [laughs]-ի նման նշանները TextToSpeechAI REST API-ին և ծրագրային կերպով ներբեռնել ստացված ձայնը։

Technical Specs

  • Generation Speed Medium
  • Output Quality Excellent
  • Voice Cloning Supported
  • Languages 1
  • GPU VRAM 10GB
  • Credits/1000 chars 50

Try Օր Now

Generate your first audio free. No credit card required.

Start Free