ថ្ងៃ

Ultra

TTS ដែល​មាន​ទិសដៅ​ប្រអប់​ជាមួយ​ការ​ក្លូន​សំឡេង និង​សំឡេង​មិន​និយាយ

Medium ល្បឿន​
Excellent គុណភាព
បាទ/ ចាស ក្លូន
1 ភាសា

អំពី ថ្ងៃ

ing the most accurate text-to-speech results for the most diverse audiences. Dia is the first text-to-speech model to use the 1.6B parameter, and is the first text-to-speech model to use the 1.6B parameter for the most diverse audiences. Dia is the first text-to-speech model to use the 1.6B parameter, and is the first text-to-speech model to use the 1.6B parameter

លក្ខណៈ​ពិសេស​សំខាន់

ការ​បង្កើត​ប្រអប់

បង្កើត​ការ​សន្ទនា​អ្នក​និយាយ​ច្រើន​ដោយ​មាន​សំឡេង​ខុសៗ​គ្នា និង​ការ​ចាប់​ផ្ដើម​ជុំ ។

សំឡេង​មិន​និយាយ​

បន្ថែម [លាន់មាត់], [សើច], [ហៀរ​សំបោរ], (gasps) សម្រាប់​ប្រសាសន៍ paralinguistic ធម្មជាតិ & # 160; ។

ការ​ក្លូន​សំឡេង

ក្លូន​សំឡេង​ណាមួយ​ពី 5-10 វិនាទី​នៃ​អូឌីយ៉ូ​យោង​សម្រាប់​ការ​និយាយ​ផ្ទាល់ខ្លួន ។

ការ​សន្ទនា​ធម្មតា

ប៉ារ៉ាម៉ែត្រ 1.6B ផលិតការនិយាយធម្មជាតិខ្ពស់ prosody និង intonation ។

ករណី​ប្រើ

ការ​បង្កើត​ប្រអប់ និង​ការ​សន្ទនា ការ​ផលិត​សៀវភៅ​អូឌីយ៉ូ​ជាមួយ​តួអក្សរ​ច្រើន សំឡេង​តួអក្សរ​ល្បែង ផតខាស់ និង​ការ​បង្កើត​មាតិកា

របៀប​ប្រើ ថ្ងៃ

  1. 1

    ចុះឈ្មោះដោយឥតគិតថ្លៃឬបើកការសាកល្បង

    បង្កើតគណនី TextToSpeechAI ឥតគិតថ្លៃដើម្បីទាមទារប្រាក់រង្វាន់ចាប់ផ្តើមរបស់អ្នកឬបើកការបង្ហាញមិនចុះឈ្មោះដើម្បីសាកល្បងប្រអប់ Dia ភ្លាមៗ។

  2. 2

    ជ្រើស​ម៉ាស៊ីន Dia

    ក្នុង​បន្ទះ​ឧបករណ៍ TTS ជ្រើស Dia ពី​បញ្ជី​ម៉ាស៊ីន & # 160; ។ Dia គឺ​ជា​ការ​ឆ្លើយ​តប​ដែល​មាន​ទិសដៅ ម៉ូដែល​កម្រិត​ខ្ពស់​ដែល​មាន​អ្នក​និយាយ​ច្រើន និង​ការ​គាំទ្រ​ក្លូន​សំឡេង & # 160; ។

  3. 3

    សរសេរ​ស្គ្រីប​ប្រអប់​ជាមួយ​ស្លាក

    បង្កើត​ការ​សន្ទនា​របស់​អ្នក​ដោយ​ប្រើ [S1] និង [S2] ដើម្បី​សម្គាល់​ការ​ប្ដូរ​អ្នក​និយាយ​នីមួយៗ និង​ទម្លាក់​ស្លាក​មិន​និយាយ​ដូច​ជា [laughs], [sighs], [coughs], ឬ (gasps) នៅ​កន្លែង​ដែល​អ្នក​ចង់​មាន​ប្រតិកម្ម​ធម្មជាតិ & # 160; ។

  4. 4

    បង្កើត​អូឌីយ៉ូ

    ចុច​បង្កើត ដើម្បី​ផ្ញើ​ស្គ្រីប Dia របស់​អ្នក​ទៅ GPU ដែល​បាន​រៀបចំ​របស់​យើង & # 160; ។ Dia បង្ហាញ​ប្រអប់​អ្នក​និយាយ​ពីរ​ជាមួយ​ការ​ចាប់​ផ្ដើម​ជុំ និង​ស្លាក​មិន​និយាយ​របស់​អ្នក​ទៅ​ក្នុង​ឯកសារ​អូឌីយ៉ូ​តែ​មួយ & # 160; ។

  5. 5

    ទាញយក ឬ​ហៅ API

    ទាញយកប្រអប់បញ្ចប់នៅក្នុងទ្រង់ទ្រាយដែលអ្នកបានជ្រើស, ឬស្វ័យប្រវត្តិវាដោយការបង្ហោះស្គ្រីបដូចគ្នា [S1] / [S2] ទៅ TextToSpeechAI API ជាមួយតួអក្សរគណនីរបស់អ្នក.

ថ្ងៃ API

បង្កើត​ការ​និយាយ​ដោយ​ប្រើ​កម្មវិធី​ដោយ​ប្រើ TextToSpeechAI REST API ។

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "[S1] ជំរាបសួរ! តើអ្នកនៅថ្ងៃនេះយ៉ាងម៉េច? [ខឹង] [S2] ខ្ញុំកំពុងធ្វើល្អ, សូមអរគុណសម្រាប់ការសួរ!",
    "voice": "en_US-lessac-medium"
  }'

សំណួរ​ដែល​សួរ​ញឹកញាប់

Dia គឺ​ជា​ម៉ូដែល​អត្ថបទ​ទៅ​ជា​សំឡេង​ដែល​មាន​ប៉ារ៉ាម៉ែត្រ 1.6B ដែល​មាន​ទិសដៅ​ប្រអប់​ពី Nari Labs ។ វា​មាន​ជំនាញ​ក្នុង​ការ​បង្កើត​ការ​និយាយ​ធម្មតា​ដែល​មាន​ការ​គាំទ្រ​សម្រាប់​អ្នក​និយាយ​ច្រើន សំឡេង​មិន​និយាយ និង​ការ​ក្លូន​សំឡេង ។

បាទ Dia គឺ​ជា​អាជ្ញាប័ណ្ណ Apache 2.0ពេញលេញ - ទាំង​កូដ និង​ទំងន់​ម៉ូដែល & # 160; ។ វា​អាច​ប្រើ​ដោយ​សេរី​ក្នុង​កម្មវិធី​ពាណិជ្ជកម្ម & # 160; ។

បច្ចុប្បន្ន Dia គាំទ្រ​តែ​ភាសា​អង់គ្លេស​ប៉ុណ្ណោះ & # 160; ។ ម៉ូដែល​ត្រូវ​បាន​ធ្វើ​ឲ្យ​ប្រសើរ​សម្រាប់​ការ​និយាយ​ភាសា​អង់គ្លេស​ធម្មតា & # 160; ។

Dia ត្រូវការប្រហែល 10GB នៃ VRAM សម្រាប់ម៉ូដែលប៉ារ៉ាម៉ែត្រ 1.6B របស់វា។ GPU ដែលមានយ៉ាងហោចណាស់ 12GB ត្រូវបានផ្ដល់អនុសាសន៍សម្រាប់ប្រតិបត្តិការងាយស្រួល។ នៅលើ TextToSpeechAI ទាំងអស់នេះរត់នៅលើ GPUs ដែលយើងបាន hosted ដូច្នេះអ្នកមិនត្រូវការផ្នែករឹងណាមួយរបស់ខ្លួនឯងទេ។

បាទ - ប្រអប់​គឺ​ជា​អ្វី​ដែល Dia ត្រូវ​បាន​បង្កើត​សម្រាប់ & # 160; ។ ដោយ​ផ្លាស់ប្ដូរ [S1] និង [S2] ជុំ​ក្នុង​ស្គ្រីប​របស់​អ្នក Dia TTS ផលិត​ការ​សន្ទនា​អ្នក​និយាយ​ពីរ​ដែល​ហូរ​ដោយ​មាន​សំឡេង​ខុសៗ​គ្នា និង​ការ​ធ្វើ​ជុំ​ពិត​ប្រាកដ ដែល​ពិបាក​ក្នុង​ការ​សម្រេច​បាន​ជាមួយ​ម៉ូដែល TTS អ្នក​និយាយ​តែ​មួយ & # 160; ។

បញ្ចូល​បុព្វបទ​បន្ទាត់​នីមួយៗ​នៃ​ស្គ្រីប​របស់​អ្នក​ជាមួយ [S1] ឬ [S2] ដើម្បី​សម្គាល់​ថា​អ្នក​កំពុង​និយាយ & # 160; ។ Dia ផ្ដល់​សំឡេង​ដែល​មិន​ប្រែប្រួល​ទៅ​ស្លាក​នីមួយៗ ហើយ​ប្ដូរ​រវាង​ពួក​វា​ដូច​ការ​ផ្លាស់ទី​ការ​សន្ទនា ដូច្នេះ [S1] និង [S2] ធ្វើ​ជា​តួអក្សរ​ពីរ​ក្នុង​ប្រអប់​របស់​អ្នក & # 160; ។

បាទ/ ចាស & # 160; ។ Dia គាំទ្រ​ការ​ក្លូន​សំឡេង​ពី​ប្រហែល ៥- ១០ វិនាទី​នៃ​សំឡេង​យោង​ស្អាត អនុញ្ញាត​ឲ្យ​អ្នក​ប្រើ​សំឡេង​ជាក់លាក់​សម្រាប់​អ្នក​និយាយ​ម្ដង​ទៀត & # 160; ។ អ្នក​អាច​រួម​បញ្ចូល​ការ​ក្លូន​ជាមួយ​ស្លាក [S1] / [S2] ដូច្នេះ​តួអក្សរ​នីមួយៗ​ក្នុង​ប្រអប់​មាន​សំឡេង​ដូច​សំឡេង​ដែល​អ្នក​ក្លូន & # 160; ។

Dia បង្ហាញ​ [ញញឹម] [យំ] [ហៀរ​សំបោរ] និង (ហៀរ​សំបោរ) ជា​សំឡេង​ធម្មជាតិ​ដែល​បាន​ដេរ​ចូល​ក្នុង​ការ​និយាយ​ជំនួស​ឲ្យ​ពាក្យ​ដែល​និយាយ & # 160; ។ ដាក់​ស្លាក​នៅ​កន្លែង​ដែល​អ្នក​ចង់​ឲ្យ​មាន​ប្រតិកម្ម - ឧទាហរណ៍ "[S1] That is hilarious [laughs]" - ដើម្បី​ធ្វើ​ឲ្យ​ប្រអប់​មាន​អារម្មណ៍​មនុស្ស​ច្រើន​ជាង & # 160; ។

ទាំង Dia និង Bark គាំទ្រ​សំឡេង​មិន​និយាយ​ដែល​បង្ហាញ​ ប៉ុន្តែ Dia ត្រូវ​បាន​បង្កើត​សម្រាប់​គោលបំណង​សម្រាប់​ប្រអប់​អ្នក​និយាយ​ច្រើន​ជាមួយ [S1] / [S2] ពេល​ដើរ​និង​ក្លូន​សំឡេង & # 160; ។ ជ្រើស Dia សម្រាប់​ការ​សន្ទនា​មនុស្ស​ពីរ​នាក់​ពិត​ប្រាកដ និង​ការងារ​តួអក្សរ & # 160; ។ Bark គឺ​សម​ល្អ​ជាង​ពេល​អ្នក​ត្រូវការ​ការ​គ្របដណ្តប់​ភាសា​ទូលំទូលាយ​ក្នុង​ការ​និយាយ​សំឡេង​តែ​មួយ & # 160; ។

Dia គឺជាម៉ាស៊ីនកម្រិតខ្ពស់ដូច្នេះវាចំណាយពេល 50 ពិន្ទុក្នុងមួយ 1,000 តួអក្សរនៃការនិយាយដែលបានបង្កើតឡើង។ កម្រិតខ្ពស់ឆ្លុះបញ្ចាំងពីម៉ូដែលធំជាង 1.6B និង ~10GB នៃសតិ GPU ដែលវាប្រើសម្រាប់ការសន្ទនាដែលមានគុណភាពខ្ពស់។

បាទ. គណនីថ្មី TextToSpeechAI រួមបញ្ចូលទាំងឥណទានចាប់ផ្តើមដោយឥតគិតថ្លៃ, ហើយមាន demo មួយដែលអ្នកអាចរត់ដោយគ្មានការចុះឈ្មោះឡើង. នោះគឺគ្រប់គ្រាន់ដើម្បីបង្កើតប្រអប់ Dia ខ្លីមួយជាមួយ [S1] / [S2] ស្លាកមុនពេលសម្រេចចិត្តលើផែនការបង់ប្រាក់.

បាទ / ចាស ។ នៅពេលអ្នកមានតួអក្សរ API ពីទំព័រគណនីរបស់អ្នកអ្នកអាចដាក់ស្នើស្គ្រីបប្រអប់ Dia - រួមទាំង [S1] / [S2] វិលនិងស្លាកដូចជា [laughs] - ទៅ TextToSpeechAI REST API និងទាញយកអូឌីយ៉ូដែលទទួលបានដោយកម្មវិធី។

Technical Specs

  • Generation Speed Medium
  • Output Quality Excellent
  • Voice Cloning Supported
  • Languages 1
  • GPU VRAM 10GB
  • Credits/1000 chars 50

Try ថ្ងៃ Now

Generate your first audio free. No credit card required.

Start Free