Өдрийн

Ultra

Хэлний дутуугийн болон үггүй дууны тусламжтайгаар яриа руу чиглэсэн TTS

Medium Хурд
Excellent чанар
Тийм ээ Хослох
1 Хэл

Тодорхойлолт Өдрийн

ing the most accurate text-to-speech results. Dia is the first text-to-speech model to use the 1.6B parameter text-to-speech model, which is the most widely used text-to-speech model in the world. Dia is the first text-to-speech model to use the 1.6B parameter text-to-speech model, which is the most widely used text-to-speech model in the world.

Түлхүүр шинж чанарууд

Диалогийн самбар үүсгэх

Өөр өөр дуу хоолой, эргэлттэй олон дуут яриаг бий болго.

Хэл бус дуунууд

[инээв], [хөлс], [хөлс], (хөлс)-ийг нэмэх нь байгалийн хэлний илэрхийлэл юм.

Дууны дугуй

5-10 секундын аудиог өөрийн дуу хоолойгоор солих

Нийгмийн яриа

1.6B параметрүүд нь маш байгалийн ярианы хэмнэл, интонацийн үр дүнг өгдөг.

Ашиглах тохиолдол

Чат болон ярианы үүсгүүр Олон тэмдэгттэй аудио номын үйлдвэрлэл Тоглоомын дүрийн дуу Подкаст болон агуулга үүсгэх

Хэрхэн ашиглах вэ Өдрийн

  1. 1

    Үнэгүй бүртгүүлэх эсвэл туршилтын хувилбарыг нээнэ үү

    Та эхлэх зээлийг авахын тулд үнэгүй TextToSpeechAI дансыг үүсгэх эсвэл бүртгэлгүй туршилтын хувилбарыг нээж Диа яриаг шууд туршиж үзээрэй.

  2. 2

    Диа багцыг сонгох

    ТТС-ийн удирдлагын самбар дээр хөдөлгүүрийн жагсаалтаас Dia-г сонгоно. Dia нь яриа, олон дуут болон дууны дуурайл дэмжлэг бүхий хэт өндөр түвшний загвар юм.

  3. 3

    Сэдвийн хамт диалогын скрипт бичих

    [S1] ба [S2] - ийг ашиглан яриагаа бичиж, яриачийн алхамыг тэмдэглэж, [инээв], [хөлс], [хөлсөх], эсвэл (хөлсөх) гэх мэт үггүй тэмдгийг оруулна.

  4. 4

    Дэлгэцийг үүсгэх

    Диа скриптийг GPU- нд илгээхийн тулд үүсгэх товчийг дарна уу. Диа нь хоёр дуут яриаг нэг аудио файлд оруулна.

  5. 5

    API татаж авах эсвэл дуудах

    Бүтсэн яриаг сонгосон хэлбэрээр татаж авах эсвэл TextToSpeechAI API-д өөрийн дансны түлхүүрээр [S1]/[S2] скриптийг илгээж автоматжуулах.

Өдрийн API

TextToSpeechAI REST API-г ашиглан програмчлалын хэлийг үүсгэх.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "[S1] Сайн уу! Өнөөдөр та яаж байна? [инээв] [S2] Би маш сайн байна, асуусанд баярлалаа!",
    "voice": "en_US-lessac-medium"
  }'

Заримдаа асуудаг асуултууд

Dia бол Nari Labs-ийн 1.6B параметртэй яриа-д суурилсан текст-аас-амьдралд-орсон-амьдрал-д шилжих загвар юм. Энэ нь олон дуут, үггүй дуу, дууны клончлолыг дэмжсэн, ярианы байгалийн яриаг бий болгох зорилготой.

Тийм ээ, Dia нь Apache 2. 0- ийн код болон загварыг бүрэн зөвшөөрсөн. Энэ нь бизнесийн програмд чөлөөтэй ашиглагдах боломжтой.

Одоогоор Dia нь зөвхөн Англи хэлийг дэмждэг. Энэ загвар нь Англи хэлний ярианд тохируулсан.

Dia нь 1. 6B параметрийн загварт 10GB VRAM шаарддаг. Хамгийн багадаа 12GB- ийн график процессор шаардагдана. TextToSpeechAI дээр бүх зүйл бидний график процессор дээр ажилладаг, тиймээс танд ямар ч тоног төхөөрөмж хэрэггүй.

Тийм ээ - Диа нь яг л энэ яриагаар бүтээгдсэн. Скриптдээ [S1] ба [S2] эргэлтүүдийг солих замаар Диа TTS нь хоёр дуу хоолойтой яриаг ялгаатай дуу хоолойгоор, бодит эргэлттэй хийж чадна. Энэ нь нэг дуу хоолойтой TTS загвартай харьцуулахад илүү хэцүү.

Скриптийнхээ мөр бүрийг [S1] эсвэл [S2] - ээр эхлэх нь хэн ярьж байгааг заах зорилготой. Dia нь тегинд нэг хэвийн дууг зааж, яриа явагдах үед хооронд нь шилжүүлдэг. Иймээс [S1] ба [S2] нь таны ярианы хоёр дүрс юм.

Тийм ээ. Dia нь 5-10 секундын цэвэр өгөгдөлтэй дууны дохиог клонлох боломжийг олгодог бөгөөд энэ нь та тодорхой дууг дуут дохио болгон дахин ашиглах боломжийг олгодог. Та [S1] / [S2] тегитэй хослуулан клонлох боломжтой бөгөөд ингэснээр ярианы цонхны бүх дүрсүүд та нарын клонолсон дууны дохио шиг сонсогдоно.

Dia нь [инээв], [хөлс], [хөлсөх], болон (хөлсөх) гэсэн үгсийг ярианд орсон байгалийн дуу авиагаар дүрсэлнэ. Та хариу үйлдлийг хүссэн газарт теги байрлуулна. Жишээ нь "[S1] Энэ нь хөгжилтэй [инээв]" - яриаг илүү хүнийх болгохын тулд.

Dia болон Bark нь үггүй илэрхийлэлд тусалдаг боловч Dia нь [S1]/ [S2]-ийн ээлжлэн авах болон дууны клончлолын олон дуут ярианд зориулагдсан. Диаг хоёр хүний яриа болон дүрийн ажилд сонгоно. Bark нь нэг дуут ярианд илүү өргөн хэлний хүрээ шаардагдах үед илүү тохирно.

Dia нь хэт өндөр түвшний хөдөлгүүр бөгөөд 1000 үгийг 50 кредитээр бүтээдэг. Энэ нь 1. 6B загвар болон өндөр чанартай ярианд ~10GB GPU санах ойг ашигладаг.

Тийм ээ. Шинэ TextToSpeechAI дансанд үнэгүй эхлүүлэх кредитүүд багтсан бөгөөд бүртгүүлэхгүйгээр туршиж үзэх боломжтой. Энэ нь төлбөртэй төлөвлөгөөг сонгохоос өмнө [S1]/[S2] тэмдгүүдтэй богино Диа яриаг үүсгэхэд хангалттай.

Тийм ээ. Та өөрийн дансны хуудаснаас API-ийн тэмдэгт авч чадвал [S1]/[S2] эргэлт, [инээв] зэрэг тэмдгийг багтаасан Dia ярианы скриптүүдийг TextToSpeechAI REST API-д илгээж, дууны үр дүнг програмчлалаар татаж авах боломжтой.

Technical Specs

  • Generation Speed Medium
  • Output Quality Excellent
  • Voice Cloning Supported
  • Languages 1
  • GPU VRAM 10GB
  • Credits/1000 chars 50

Try Өдрийн Now

Generate your first audio free. No credit card required.

Start Free