ရုပ်ပုံ

Standard

သဘာဝစကားပြောနှင့်အတူမြန်ဆန် End-to-End TTS

အခမဲ့စမ်းကြည့်ပါ ရုပ်ပုံ အသံများကို ရှာဖွေပါ (109)

Very Fast အမြန်နှုန်း

Good အရည်အသွေး

ဟုတ်တယ် ကူးယူခြင်း

10 ဘာသာစကားများ

အကြောင်း ရုပ်ပုံ

-efficient, and highly-efficient neural TTS model that generates natural-sounding speech. It combines variational autoencoders with adversarial learning for

အဓိကအင်္ဂါရပ်များ

အမြန်ပေါင်းစပ်ခြင်း

မြန်ဆန်သောစကားပြောထုတ်လုပ်မှုအတွက် end-to-end architecture ။

အုပ်စုလိုက်စီမံခြင်း

များစွာသောစာသားများကိုတစ်ပြိုင်နက်တည်းထိရောက်စွာစီမံခန့်ခွဲပါ။

သဘာဝစကားပြော

VAE + GAN လေ့ကျင့်ရေးသဘာဝ prosody နှင့်အလှဆင်ထုတ်လုပ်.

အမျိုးမျိုးသော ထုတ်လွှင့်သူများ

Single model များမှာ speaker voice များ ပါဝင်သည်။

စွမ်းဆောင်ရည်

ကောင်းမွန်သောစွမ်းဆောင်ရည်နှင့်အတူအနည်းငယ်မှတ်ဉာဏ်ခြေရာခံ။

ရင်းမြစ် ဖွင့်

MIT လိုင်စင်ကိုအသုံးပြုခြင်းအတွက်မည်သည့်ကိစ္စအတွက်။

အသုံးပြုမှုအခြေအနေများ

အသံဖိုင်များစုစည်းခြင်း E-သင်ယူရေး Platforms သတင်းဖတ်ရန် အလိုအလျောက် ကြေညာချက် IVR စနစ်များ အသံအမြင့် အကြောင်းအရာ

ရုပ်ပုံ Voices

View All 109

LJSpeech (English Female)

VCTK Speaker 225 (English Female)

VCTK Speaker 226 (English Male)

VCTK Speaker 227 (English Male)

VCTK Speaker 228 (English Female)

VCTK Speaker 229

VCTK Speaker 230

VCTK Speaker 231

VCTK Speaker 232

VCTK Speaker 233

VCTK Speaker 234

VCTK Speaker 236

ဘယ်လိုအသုံးပြုရမည် ရုပ်ပုံ

1

အခမဲ့မှတ်ပုံတင်သို့မဟုတ် demo ကိုစမ်းသပ်

Starter Credits များရယူရန် အခမဲ့ TextToSpeechAI Account တစ်ခု ဖန်တီးပါ။ သို့မဟုတ် VITS ကိုကြားရရန် အပေါ်-စာမျက်နှာ Demo ကိုအသုံးပြုပါ။
2

VITS အသံ သို့မဟုတ် ထုတ်လွှင့်သူကို ရွေးပါ

Voice Library ကို ရှာဖွေပြီး VITS badge နဲ့ အမှတ်အသားပြုထားတဲ့ အသံကို ရွေးချယ်ပါ။ VCTK speaker set ပါဝင်တဲ့ multi-speaker VITS Library ဟာ ကွဲပြားတဲ့ အသံများစွာထဲက ရွေးချယ်ခွင့်ပြုပါတယ်။
3

စာသားကို ထည့်ပါ

Type or paste the text you want to speak into the editor. VITS ကြာ passages ကောင်းစွာကိုင်တွယ်ပြီး batch နှင့် high-volume content အတွက်အလွန်ဖြစ်ပါသည်.
4

အသံဖိုင်ကို ထုတ်လုပ်ပါ

VITS နှင့်အတူစကားပြော synthesize ရန် generate ကိုကလစ်နှိပ်ပါ. VITS အလွန်မြန်ဆန်ပြီး Standard-tier ဖြစ်ပါတယ်ကြောင့် (10 credits per 1000 characters), အကျိုးဆက်များနိမ့်ကုန်ကျစရိတ်တွင်လျင်မြန်စွာပြန်လာ.
5

API ကို download လုပ်ပါ

MP3, WAV, or OGG အဖြစ်ပြီးစီးအသံကိုဒေါင်းလုပ်လုပ်, သို့မဟုတ်သင်၏ကိုယ်ပိုင် application ကိုထဲမှာ generation ကို automate TextToSpeechAI REST API ကိုမှတဆင့်တူညီ VITS အသံကိုခေါ်ဆို.

ရုပ်ပုံ API

TextToSpeechAI REST API ကိုအသုံးပြုပြီးစကားပြော programming အားဖြင့် generate ။

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "VITS မြန်နှုန်းမြင့်, မြင့်မားသော\u002Dvolume applications များအတွက်သဘာဝစကားပြောပေးပို့။",
    "voice": "vits-ljspeech"
  }'

API မှတ်တမ်းဖတ်ပါ သင့်ရဲ့ API ကို Key ကို Get

မေးလေ့ရှိသောမေးခွန်းများ

VITS (end-to-end Text-to-Speech အတွက် adversarial သင်ယူမှုနှင့်အတူ Variation Inference) သည် adversarial GAN လေ့ကျင့်ရေးနှင့်အတူ variational autoencoder ကိုပေါင်းစပ်သော end-to-end neural TTS ပုံစံတစ်ခုဖြစ်သည်။ ၎င်းသည်တစ်ဦးတည်းသော pass တွင်သဘာဝ-အသံထွက်စကားပြောဆိုမှုဖြစ်ပေါ်စေသည်၊ ၎င်းသည်မြန်ဆန်ပြီးထိရောက်စေသည်။ သင်သည် TextToSpeechAI တွင် VITS ကိုအခမဲ့စမ်းသပ်နိုင်သည်။

ဟုတ်ကဲ့, VITS MIT လိုင်စင်အောက်တွင် open-source ဖြစ်ပါသည်, ဒါကြောင့်ကကန့်သတ်ချက်မရှိဘဲအပြည့်အဝစီးပွားရေးလုပ်ငန်းအသုံးပြုမှုကိုထောက်ခံ. ဒါဟာစီးပွားရေးလုပ်ငန်းထုတ်ကုန်များနှင့်ဝန်ဆောင်မှုများတွင်ကျယ်ပြန့်အသုံးပြုသည်။ အပေါ် TextToSpeechAI, VITS ကုန်ကျစရိတ် 10 credits per 1000 characters on the Standard tier.

TextToSpeechAI ကွဲပြားအင်္ဂလိပ်စကားပြောသူဒဏ္ဍာရီနှင့်အတူ VCTK အသံ set ကိုအပါအဝင်ကြီးမားသော multi-speaker VITS library ကိုပေးသည်။ တစ်ခုတည်း VITS ပုံစံစကားပြောသူများစွာကို host လုပ်နိုင်ပါတယ်, သငျသညျအင်ဂျင် switching မပါဘဲများစွာသောကွဲပြားခြားနားသောအသံများမှရွေးချယ်နိုင်ပါတယ်ဒါကြောင့်.

VITS ထောက်ခံမှုလေ့ကျင့်ထားသောပုံစံပေါ်တွင်မူတည်သည်။ ယေဘုယျ VITS ပုံစံများအင်္ဂလိပ်, တရုတ်, ဂျပန်, ကိုရီးယား, ဂျာမန်, ပြင်သစ်နှင့်အခြားအဓိကဘာသာစကားများ, VCTK dataset မှ multi-speaker အင်္ဂလိပ်ကာကွယ်မှုနှင့်အတူကျယ်ပြန့်။

VITS သည်အလွန်မြန်ဆန်ပြီး GPU တစ်ခုပေါ်တွင်အမှန်တကယ်အချိန်သို့မဟုတ်ပိုမြန်သောစကားပြောခြင်းကိုဖြစ်ပေါ်စေသည်။ ၎င်း၏ end-to-end architecture သည်အခြားမော်ဒယ်များ၏များစွာသော processing အဆင့်များကိုရှောင်ရှားသည်။

VITS ဟာ voice clone ကို support မလုပ်ပါဘူး။ ဥပမာတစ်ခုကနေ target voice ကို copy လုပ်တာထက် pre-trained multi-speaker model ကိုသုံးပါတယ်။ TextToSpeechAI ပေါ်မှာ voice clone လုပ်ဖို့အတွက် F5-TTS or GPT-SoVITS ကိုသုံးပါ။

VITS သဘာဝ prosody နှင့်အလှည့်အပြောင်းနှင့်အတူကောင်းမွန်သောအရည်အသွေးအသံထုတ်လုပ်. ဒါဟာ StyleTTS ၏အဆင့်မှာမဟုတ်ပါဘူး2သို့မဟုတ် Tortoise စဉ်, ဒါဟာအမြန်နှုန်းအတွက်အလွန်အစွမ်းထက်တဲ့အရည်အသွေးကိုပေး, အထူးသဖြင့် batch processing အတွက်.

VITS မှတ်ဉာဏ်-ထိရောက်သောဖြစ်ပါသည်, အများအားဖြင့် VRAM ၏အနည်းငယ် GB ကိုသာလိုအပ်သော (4GB ပတ်လည်) ။ ဒါဟာစားသုံးသူ GPUs အပေါ်အဆင်ပြေပြေ run နိုင်ပါတယ်, နှင့်အပေါ် TextToSpeechAI အားလုံး rendering ကျွန်တော်တို့ရဲ့ဆာဗာများပေါ်တွင်ဖြစ်ပျက်သငျသညျသင့်ရဲ့ကိုယ်ပိုင်မည်သည့် hardware ကိုမလိုအပ်ပါဘူးဒါကြောင့်.

VITS နှင့် Piper နှစ်ဦးစလုံးမြန်ဆန်, MIT-လိုင်စင်ရရှိ Standard-tier အင်ဂျင်များအပေါ် TextToSpeechAI. Piper အလင်းနှင့်အမြန်ဆုံးရွေးချယ်မှုဖြစ်ပါသည်, VITS တစ်ခုကြီးမားသော multi-speaker library ကိုပေးဆောင်နေစဉ် (VCTK အပါအဝင်) အနည်းငယ်ပိုမိုသဘာဝ prosody နှင့်အတူ. မည်သူမဆိုအသံ clone ကိုထောက်ခံ.

VITS သည် Standard-tier engine တစ်ခုဖြစ်သည်, ကုန်ကျစရိတ် 10 credits per 1000 characters. ဒါဟာစွမ်းဆောင်ရည်မြင့်မားသောကျေးဇူးတင်စကားကျွန်တော်တို့ရဲ့အနည်းဆုံးစျေးနှုန်း tier ဖြစ်ပါတယ်။, VITS ပုံစံ၏မြန်ဆန်သဘာဝ.

VITS 22050Hz တွင်အသံကိုဖန်တီး သဘာဝ. ကနေတဆင့် TextToSpeechAI သင် MP3 ကိုတောင်းဆိုနိုင်ပါတယ်, WAV, သို့မဟုတ် OGG formats, သင်တို့အဘို့အလိုအလျောက်ပြောင်းလဲမှုကိုင်တွယ်ခြင်းနှင့်အတူ.

TextToSpeechAI အပေါ်အခမဲ့စတင်ခရက်ဒစ်ရယူရန် sign up, ထို့နောက် VITS အသံကို pick, သင့်ရဲ့စာသားကို enter, နှင့်အသံထုတ်လုပ်. သင်သည်လည်းအကောင့်တစ်ခုဖန်တီးမတိုင်မီ VITS နားထောင်ဖို့ demo ကိုအသုံးပြုနိုင်ပါတယ်, နှင့်သင်မှတ်ပုံတင်တစ်ကြိမ်ကျွန်တော်တို့ရဲ့ REST API ကိုမှတဆင့် VITS ကို access လုပ်နိုင်ပါတယ်။

Technical Specs

Generation Speed Very Fast
Output Quality Good
Voice Cloning Not Supported
Languages 10
GPU VRAM 1-2GB
Credits/1000 chars 10

Try ရုပ်ပုံ Now

Generate your first audio free. No credit card required.

Start Free

Other TTS Engines

ရုပ်ပုံ

အကြောင်း ရုပ်ပုံ

အဓိကအင်္ဂါရပ်များ

အမြန်ပေါင်းစပ်ခြင်း

အုပ်စုလိုက်စီမံခြင်း

သဘာဝစကားပြော

အမျိုးမျိုးသော ထုတ်လွှင့်သူများ

စွမ်းဆောင်ရည်

ရင်းမြစ် ဖွင့်

အသုံးပြုမှုအခြေအနေများ

ရုပ်ပုံ Voices

LJSpeech (English Female)

VCTK Speaker 225 (English Female)

VCTK Speaker 226 (English Male)

VCTK Speaker 227 (English Male)

VCTK Speaker 228 (English Female)

VCTK Speaker 229

VCTK Speaker 230

VCTK Speaker 231

VCTK Speaker 232

VCTK Speaker 233

VCTK Speaker 234

VCTK Speaker 236

ဘယ်လိုအသုံးပြုရမည် ရုပ်ပုံ

အခမဲ့မှတ်ပုံတင်သို့မဟုတ် demo ကိုစမ်းသပ်

VITS အသံ သို့မဟုတ် ထုတ်လွှင့်သူကို ရွေးပါ

စာသားကို ထည့်ပါ

အသံဖိုင်ကို ထုတ်လုပ်ပါ

API ကို download လုပ်ပါ

ရုပ်ပုံ API

မေးလေ့ရှိသောမေးခွန်းများ

VITS TTS ဆိုတာဘာလဲ?

VITS ကို စီးပွားရေးလုပ်ငန်းသုံးစွဲဖို့ အခမဲ့ပါသလား။

VITS အသံတွေ ဘယ်လောက်ရှိလဲ။

VITS က မည်သည့်ဘာသာစကားများကို ထောက်ပံ့ပေးသနည်း။

VITS ကိုဘယ်လောက်မြန်လဲ။

VITS က အသံခိုးယူမှုကို ထောက်ခံပါသလား။

VITS ၏ အသံအရည်အသွေးကဘာလဲ။

VITS က GPU မှတ်ဉာဏ် ဘယ်လောက်လိုအပ်သလဲ

VITS vs Piper: ငါအသုံးပြုသင့်သည်မည်သည့်?

VITS TextToSpeechAI အပေါ်ကုန်ကျစရိတ်ဘယ်လောက်ခရက်ဒစ်လုပ်သလဲ?

VITS ထုတ်လွှင့်မှုတွင် အသံဖိုင်ပုံစံများ မည်သို့ရှိပါသနည်း

VITS ကို အခမဲ့ ဘယ်လိုသုံးနိုင်မလဲ?

Technical Specs

Try ရုပ်ပုံ Now

Other TTS Engines

ပင်

စကားပြော

သက်တောင့်သက်သာအသံ ၂