វិត

Standard

ចុង​បញ្ចប់​ទៅ​ចុង​បញ្ចប់​ TTS រហ័ស​ជាមួយ​ការ​និយាយ​ធម្មជាតិ

Very Fast ល្បឿន​
Good គុណភាព
គ្មាន ក្លូន
10 ភាសា

អំពី វិត

-efficient, and highly-efficient TTS model. It is designed to be used in the field of text-to-speech, and is based on the

លក្ខណៈ​ពិសេស​សំខាន់

ការ​សំយោគ​រហ័ស

សង់​ស្ថាបត្យកម្ម​ពី​ចុង​ទៅ​ចុង​សម្រាប់​ការ​បង្កើត​ការ​និយាយ​រហ័ស & # 160; ។

ការ​ដំណើរការ​បាច់

ដំណើរការ​អត្ថបទ​ច្រើន​យ៉ាង​មាន​ប្រសិទ្ធភាព​ក្នុង​ពេល​តែ​មួយ & # 160; ។

ការ​និយាយ​ធម្មតា

ការ​បណ្តុះ​បណ្តាល VAE+GAN បង្កើត​ការ​ច្រៀង​បែប​ធម្មជាតិ និង​រោទិ៍ ។

ធុងបាស​ច្រើន

ម៉ូដែល​តែ​មួយ​គាំទ្រ​សំឡេង​អ្នក​និយាយ​ច្រើន & # 160; ។

​មាន​ប្រសិទ្ធភាព

កម្រិត​សតិ​ទាប​ជាមួយ​ការ​អនុវត្ត​ល្អ & # 160; ។

ប្រភព​បើកចំហ

MIT អាជ្ញាប័ណ្ណ​សម្រាប់​ករណី​ប្រើ​ណាមួយ & # 160; ។

ករណី​ប្រើ

ការ​បង្កើត​អូឌីយ៉ូ​ជា​បាច់ វេទិកា​សិក្សា​តាម​អ៊ីនធឺណិត កម្មវិធី​អាន​ព័ត៌មាន ការ​ប្រកាស​ដោយ​ស្វ័យប្រវត្តិ ប្រព័ន្ធ IVR មាតិកា​កម្រិត​សំឡេង​ខ្ពស់

វិត Voices

View All 109
LJSpeech (English Female)
EN
VCTK Speaker 225 (English Female)
EN
VCTK Speaker 226 (English Male)
EN
VCTK Speaker 227 (English Male)
EN
VCTK Speaker 228 (English Female)
EN
VCTK Speaker 229
EN
VCTK Speaker 230
EN
VCTK Speaker 231
EN
VCTK Speaker 232
EN
VCTK Speaker 233
EN
VCTK Speaker 234
EN
VCTK Speaker 236
EN

របៀប​ប្រើ វិត

  1. 1

    ចុះឈ្មោះដោយឥតគិតថ្លៃឬព្យាយាមបង្ហាញ

    បង្កើតគណនីឥតគិតថ្លៃ TextToSpeechAI ដើម្បីទទួលបានប្រាក់បញ្ញើចាប់ផ្តើម, ឬប្រើលើទំព័របង្ហាញដើម្បីឮ VITS មុនពេលចុះឈ្មោះ.

  2. 2

    ជ្រើស​សំឡេង ឬ​ធុងបាស VITS

    រកមើល​បណ្ណាល័យ​សំឡេង និង​ជ្រើស​សំឡេង​ដែល​បាន​សម្គាល់​ដោយ​សញ្ញា VITS & # 160; ។ បណ្ណាល័យ VITS ច្រើន​អ្នក​និយាយ រួម​ទាំង​សំណុំ​អ្នក​និយាយ VCTK អនុញ្ញាត​ឲ្យ​អ្នក​ជ្រើស​ពី​សំឡេង​ខុសៗ​គ្នា​ជាច្រើន & # 160; ។

  3. 3

    បញ្ចូល​អត្ថបទ​របស់​អ្នក

    វាយ ឬ​បិទភ្ជាប់​អត្ថបទ​ដែល​អ្នក​ចង់​និយាយ​ទៅ​ក្នុង​កម្មវិធី​និពន្ធ & # 160; ។ VITS ដោះស្រាយ​អត្ថបទ​វែង​ល្អ ហើយ​វា​ល្អ​សម្រាប់​បាច់ និង​មាតិកា​កម្រិត​ខ្ពស់ & # 160; ។

  4. 4

    បង្កើត​អូឌីយ៉ូ

    ចុច​បង្កើត​ដើម្បី​សំយោគ​ការ​និយាយ​ជាមួយ VITS ។ ដោយសារ VITS គឺ​លឿន​ណាស់ និង​ស្តង់ដារ​កម្រិត (10 ឥណទាន​ក្នុង​មួយ 1000 តួអក្សរ) លទ្ធផល​ត្រឡប់​យ៉ាង​ឆាប់រហ័ស​ក្នុង​តម្លៃ​ទាប ។

  5. 5

    ទាញយក ឬ​ប្រើ API

    ទាញយក​អូឌីយ៉ូ​ដែល​បាន​បញ្ចប់​ជា MP3, WAV ឬ OGG ឬ​ហៅ​សំឡេង VITS ដូចគ្នា​តាមរយៈ TextToSpeechAI REST API ដើម្បី​បង្កើត​ស្វ័យប្រវត្តិ​ក្នុង​កម្មវិធី​ផ្ទាល់ខ្លួន​របស់​អ្នក ។

វិត API

បង្កើត​ការ​និយាយ​ដោយ​ប្រើ​កម្មវិធី​ដោយ​ប្រើ TextToSpeechAI REST API ។

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "VITS ផ្ដល់​ការ​និយាយ​ធម្មតា​រហ័ស​សម្រាប់​កម្មវិធី​កម្រិត​ខ្ពស់ \u0026 # 160\u003B ។",
    "voice": "vits-ljspeech"
  }'

សំណួរ​ដែល​សួរ​ញឹកញាប់

VITS (ការសន្និដ្ឋានខុសគ្នាជាមួយនឹងការរៀនសូត្រប្រឆាំងសម្រាប់អត្ថបទទៅជាសំឡេងពីចុងទៅចុង) គឺជាម៉ូដែល TTS សរសៃប្រសាទពីចុងទៅចុងដែលរួមបញ្ចូលគ្នានូវកម្មវិធីអ៊ិនកូដស្វ័យប្រវត្តិដែលមានការបណ្តុះបណ្តាល GAN ប្រឆាំង។ វាបង្កើតការនិយាយដែលមានសំឡេងធម្មជាតិក្នុងដំណាក់កាលតែមួយដែលធ្វើឱ្យវាលឿននិងមានប្រសិទ្ធភាព។ អ្នកអាចសាកល្បង VITS ដោយឥតគិតថ្លៃនៅលើ TextToSpeechAI ។

បាទ, VITS គឺជាប្រភពបើកចំហក្រោមអាជ្ញាប័ណ្ណ MIT, ដូច្នេះវាគាំទ្រការប្រើពាណិជ្ជកម្មពេញលេញដោយគ្មានការកំណត់. វាត្រូវបានប្រើយ៉ាងទូលំទូលាយនៅក្នុងផលិតផលនិងសេវាកម្មពាណិជ្ជកម្ម. នៅលើ TextToSpeechAI, VITS ចំណាយ 10 ឥណទានក្នុងមួយ 1000 តួអក្សរនៅលើកម្រិតស្តង់ដារ.

TextToSpeechAI ផ្ដល់​បណ្ណាល័យ VITS ធំ​មួយ​ដែល​មាន​អ្នក​និយាយ​ច្រើន​រួម​ទាំង​សំឡេង VCTK ដែល​បាន​កំណត់​ជា​មួយ​អ្នក​និយាយ​ភាសា​អង់គ្លេស​ខុស​គ្នា​រាប់​ពាន់​នាក់ ។ ម៉ូដែល VITS មួយ​អាច​ធ្វើ​ជា​ម្ចាស់​អ្នក​និយាយ​ច្រើន​ដូច្នេះ​អ្នក​អាច​ជ្រើស​ពី​សំឡេង​ផ្សេង​គ្នា​ជាច្រើន​ដោយ​មិន​ប្តូរ​ម៉ាស៊ីន ។

ការ​គាំទ្រ VITS ផ្អែក​លើ​គំរូ​ដែល​បាន​ហ្វឹកហាត់ & # 160; ។ គំរូ VITS ទូទៅ​គ្របដណ្តប់​ភាសា​អង់គ្លេស ចិន ជប៉ុន កូរ៉េ អាល្លឺម៉ង់ បារាំង និង​ភាសា​សំខាន់​ផ្សេង​ទៀត​ដែល​មាន​ការ​គ្របដណ្តប់​ភាសា​អង់គ្លេស​ច្រើន​អ្នក​និយាយ​ពី​សំណុំ​ទិន្នន័យ VCTK & # 160; ។

VITS គឺ​លឿន​ណាស់ បង្កើត​ការ​និយាយ​ក្នុង​ពេល​ពិត ឬ​លឿន​ជាង​លើ GPU ។ ស្ថាបត្យកម្ម​ចុង​បញ្ចប់​របស់​វា​ជៀសវាង​ដំណាក់កាល​ដំណើរការ​ច្រើន​នៃ​ម៉ូដែល​ផ្សេង​ទៀត ដែល​ជា​មូលហេតុ​ដែល VITS គឺ​សម​នឹង​ការ​បង្កើត​បាច់ និង​កម្រិត​ខ្ពស់ ។

No, VITS does not support voice cloning. It uses pre-trained multi-speaker models rather than copying a target voice from a sample. For voice cloning on TextToSpeechAI, use F5-TTS or GPT-SoVITS instead.

VITS បង្កើត​អូឌីយ៉ូ​គុណភាព​ល្អ​ជាមួយ​នឹង​ការ​និយាយ​ធម្មតា និង​រោទិ៍ & # 160; ។ ខណៈ​ពេល​ដែល​វា​មិន​នៅ​កម្រិត StyleTTS2ឬ Tortoise វា​ផ្ដល់​គុណភាព​ល្អ​សម្រាប់​ល្បឿន​របស់​វា ជា​ពិសេស​សម្រាប់​ដំណើរការ​បាច់ & # 160; ។

VITS គឺ​មាន​ប្រសិទ្ធភាព​ក្នុង​ការ​ប្រើ​ប្រាស់​សតិ​ជា​ធម្មតា​ត្រូវការ​តែ​មួយ​ចំនួន​នៃ​GB នៃ VRAM (នៅ​ជុំវិញ 4GB) ។ វា​រត់​យ៉ាង​ងាយស្រួល​លើ​ GPUs របស់​អ្នក​ប្រើប្រាស់ ហើយ​នៅ​លើ TextToSpeechAI ការ​បង្ហាញ​ទាំងអស់​កើតឡើង​លើ​ម៉ាស៊ីន​បម្រើ​របស់​យើង ដូច្នេះ​អ្នក​មិន​ត្រូវការ​ផ្នែក​រឹង​ណាមួយ​របស់​អ្នក​ផ្ទាល់​ឡើយ ។

VITS និង Piper គឺ​ជា​ម៉ាស៊ីន​ស្តង់ដារ​កម្រិត​ខ្ពស់​ដែល​បាន​អនុញ្ញាត​ដោយ MIT លើ TextToSpeechAI & # 160; ។ Piper គឺ​ជា​ជម្រើស​ស្រាល និង​លឿន​បំផុត ខណៈ​ពេល VITS ផ្ដល់​បណ្ណាល័យ​អ្នក​និយាយ​ច្រើន​ធំ (រួម​បញ្ចូល VCTK) ជាមួយ​នឹង​ការ​និយាយ​ធម្មតា​បន្តិច​បន្តួច & # 160; ។ ទាំង​ពីរ​មិន​គាំទ្រ​ការ​ក្លូន​សំឡេង​ទេ & # 160; ។

VITS គឺជាម៉ាស៊ីនស្តង់ដារកម្រិត, ចំណាយ 10 ឥណទានក្នុងមួយ 1000 តួអក្សរ. នេះជាកម្រិតទាបបំផុតរបស់យើងតម្លៃអរគុណដល់ប្រសិទ្ធភាព, ធម្មជាតិលឿននៃគំរូ VITS.

VITS បង្កើត​អូឌីយ៉ូ​នៅ 22050Hz ដើម ។ តាមរយៈ TextToSpeechAI អ្នក​អាច​ស្នើ​សុំ MP3 WAV ឬ OGG ទ្រង់ទ្រាយ​ជាមួយ​ការ​បម្លែង​ស្វ័យ​ប្រវត្តិ​ដែល​បាន​ដោះស្រាយ​សម្រាប់​អ្នក ។

ចុះឈ្មោះនៅលើ TextToSpeechAI ដើម្បីទទួលយកឥណទានចាប់ផ្តើមដោយឥតគិតថ្លៃ, បន្ទាប់មកជ្រើសសំឡេង VITS, បញ្ចូលអត្ថបទរបស់អ្នក, និងបង្កើតអូឌីយ៉ូ. អ្នកក៏អាចប្រើការបង្ហាញដើម្បីឮ VITS មុនពេលបង្កើតគណនីមួយ, និងចូលដំណើរការ VITS តាមរយៈ REST API របស់យើងនៅពេលដែលអ្នកចុះឈ្មោះ.

Technical Specs

  • Generation Speed Very Fast
  • Output Quality Good
  • Voice Cloning Not Supported
  • Languages 10
  • GPU VRAM 1-2GB
  • Credits/1000 chars 10

Try វិត Now

Generate your first audio free. No credit card required.

Start Free