VITS

Standard

قدرتی بولنے کے ساتھ تیز انت-توسط TTS

Very Fast رفتار
Good معيار
نہیں کلوننگ
10 زبانیں

متعلقہ VITS

-to-end neural TTS model that generates natural-sounding speech. It combines variational autoencoders with adversarial learning for

کلیدی خصوصیات

جلدي سنتز

تیزی سے بولنے کی پیداوار کے لئے آخر تک فن تعمیر.

بٹ پروسیسنگ

متعدد تحریروں کو ایک ساتھ موثر طور پر پروسس کریں

فطری بولي

وی اے ای + گان تربیت قدرتی prosody اور ریتھ پیدا کرتا ہے.

متعدد اسپیکر

ایک ماڈل متعدد اسپیکر آوازوں کو مدد دیتا ہے.

موثر

اچھی کارکردگی کے ساتھ کم میموری فوٹ پرنٹ.

اوپن سورس

MIT کسی بھی استعمال کے معاملے کے لئے لائسنس.

استعمال کے حالات

باچ آڈیو پیدائش اي- ليرننگ پليٽ فارم خبریں پڑھنے والے خودکار اعلانات IVR نظام اعلیٰ حجم مواد

VITS Voices

View All 109
LJSpeech (English Female)
EN
VCTK Speaker 225 (English Female)
EN
VCTK Speaker 226 (English Male)
EN
VCTK Speaker 227 (English Male)
EN
VCTK Speaker 228 (English Female)
EN
VCTK Speaker 229
EN
VCTK Speaker 230
EN
VCTK Speaker 231
EN
VCTK Speaker 232
EN
VCTK Speaker 233
EN
VCTK Speaker 234
EN
VCTK Speaker 236
EN

استعمال کيونکر کريں VITS

  1. 1

    مفت میں رجسٹر کریں یا ڈیمو کو آزمائیں

    شروع کریڈٹ حاصل کرنے کے لئے ایک مفت TextToSpeechAI اکاؤنٹ بنائے، یا ان-پیج ڈیمو استعمال کر کے VITS کو سننے کے لئے سائن اپ کرنے سے پہلے.

  2. 2

    VITS آواز يا اسپيکر منتخب کريں

    آواز لائبرري براؤز کريں اور VITS با ج سے نشان زد آواز منتخب کريں VCTK اسپيکر سٹ شامل کر کے ملٹی اسپيکر VITS لائبر ري آپ کو مختلف آوازوں سے انتخاب کر نے کي اجازت ديتي هے

  3. 3

    آپ کا متن داخل کریں

    ٹائپ يا پيسٹ کريں يه متن آپ ايڈيٽر ميں بولنا چا هيتے هيں VITS طويل گزرے کو اچھي طرح سے ہینڈل کر تا هے اور بيٹ اور بلند حجم کے مواد کے ليے مثالي هے

  4. 4

    آڈیو بناؤ

    VITS کے ساتھ بولي سنتھز کر نے کے ليے جنرائز کريں کلک کريں VITS بہت جلدي اور معياري سطح (10 کرڈٹس پر 1000 حروف) هے ، نتيجے کم قيمت پر جلدي واپس آتے هيں

  5. 5

    API ڈائون لوڈ کریں یا استعمال کریں

    MP3, WAV, or OGG کے طور پر ختم شدہ اوڈيو ڈائون لوڈ کریں، يا TextToSpeechAI REST API کے ذریعے ویٹس آواز کو بلايں آپ کے آپريشن میں خودکار پیداوار کے ليے

VITS API

TextToSpeechAI REST API کے استعمال سے پروگرامنگ کے طور پر بولي پيدا کريں

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "VITS تیز، اعلیٰ حجم کے ایپلیکیشنوں کے لئے قدرتی کلام فراہم کرتا ہے.",
    "voice": "vits-ljspeech"
  }'

بار بار پوچھے گئے سوالات

VITS ( متن سے کلام تک متن کے ليے مخالف لينگويج کے ساتھ فرقي انفريشن) ايں ايں ايں نيورال TTS ماڈل هے جو مخالف GAN تربيت کے ساتھ فرقي خود کار کو ڈي کو جوڑتا هے اس سے فطري آواز کي کلام کي پيدائش کيا جا تا هے جو اس کو تيز اور موثر بنا تا هے آپ TextToSpeechAI پر VITS کو مفت ميں آزمائي کر سکتے هيں

ہاں ، VITS MIT لائسنس کے تحت اوپن سورس ہے ، اس ليے وہ تمام تجارتي استعمال کو بغير قيادت کے مدد دے تا هے یہ تجارتي مصنوعات اور سروس میں وسیع طور پر استعمال کيا جاتا هے TextToSpeechAI پر ، VITS کے 10 کرڈٹ 1000 حروف پر سٹنڈرڈ سطح پر لگتے هيں

TextToSpeechAI نے VCTK آواز سٹ شامل کر کے مختلف انگريزي آوازوں کے دزينوں کے ساتھ VITS لائبريري کو بڑا ملٹی اسپيکر پيش کريا هے ۔ ایک واحد VITS ماڈل بہت سے اسپيکر ميزبان کر سکتا هے ، اس ليے آپ مختلف آوازوں سے انتخاب کر سکتے هيں بغیر اينجينينوں کو تبديل کر کے

VITS کی مدد کو تربیت یافتہ ماڈل پر منحصر ہے عام VITS ماڈل انگریزی، چینی، جاپانی، کو ریاني، جرمن، فرانسيسي اور دیگر اہم زبانوں کو ڈھانپتے ہیں، VCTK ڈیٹا سیٹ سے متعدد اسپیکروں کے ساتھ انگریزی کوڈنگ کے ساتھ.

VITS بہت تیز ہے ، واقعی وقت میں بات بناتا ہے يا GPU پر تیز تر اس کا آخر تک فن تعمير دوسرے ماڈل کے متعدد پروسیسنگ مرحلوں سے بچتا ہے ، جو VITS کے لئے بہت مناسب ہے اور بہت بڑے حجم کے ترکیب کے لئے

نہیں، VITS آواز کلوننگ کو مدد نہیں دے رہا. اس نے ایک نمونے سے مقصد آواز کا نسخہ بنانے کے بجائے پہلے تربيت شدہ ملٹی اسپیکر ماڈل استعمال کريں TextToSpeechAI پر آواز کلوننگ کے ليے، بدلے میں F5-TTS يا GPT-SoVITS استعمال کريں

VITS قدرتی prosody اور ریتھ کے ساتھ اچھی کیفیت کی اوڈيو پیدا کرتا ہے جبکہ یہ StyleTTS2یا Tortoise کے سطح پر نہیں ہے، یہ اس کی رفتار کے لیے بہترین کیفیت پیش کرتا ہے، خاص طور پر بیٹ پروسیسنگ کے لیے.

VITS میموری کا مؤثر استعمال ہے، عام طور پر صرف چند GB VRAM کی ضرورت ہوتی ہے (4GB کے ارد گرد). یہ صارفين GPUs پر آرام سے چلتا ہے، اور TextToSpeechAI پر تمام رنڈنگ ہمارے سرور پر ہوتا ہے تاکہ آپ کو اپنے آپ کے کوئی ہارڈ ویئر کی ضرورت نہیں ہوتی.

VITS اور Piper دو ئيں جلدي، MIT ليزز TextToSpeechAI پر معياري سطحي انجن هے Piper سب سے ہلکا اور سب سے جلدي آپشن هے ، جبکہ VITS نے يک بڑ ملٹی اسپيکر لائبرري پيش کيا هے (VCTK شامل هے) جو يک کمي زیادہ طبيعي پروزو ڈي کے ساتھ هے

VITS ایک معیاری سطح انجن ہے، ہر 1000 حروف کے لئے 10 کریڈٹ کی قیمت ہے۔ یہ ہماری سب سے کم قیمت کی سطح ہے، VITS ماڈل کی موثر، تیز طبیعت کے شکریہ۔

VITS 22050Hz پر فطری طور پر آڈیو پیدا کرتا ہے. TextToSpeechAI کے ذریعے آپ MP3, WAV, or OGG فارمیٹ کی درخواست کر سکتے ہیں، آپ کے لئے خودکار تبدیل کے ساتھ ہینڈل کیا جاتا ہے.

مفت شروع کريٹ ائيز حاصل کر نے کے ليے TextToSpeechAI پر رجسٽري کريں ، پھر VITS آواز منتخب کريں ، اپنے متن داخل کريں ، اور آ ڊيو جنيڑ کريں آپ ايک اکاونٹ بنا نے سے پہلے VITS کو سننے کے ليے ديمو استعمال کر سکتے هيں ، اور VITS کو ہمارے REST API کے ليے رسائي حاصل کريں جب آپ رجسٽري کريں

Technical Specs

  • Generation Speed Very Fast
  • Output Quality Good
  • Voice Cloning Not Supported
  • Languages 10
  • GPU VRAM 1-2GB
  • Credits/1000 chars 10

Try VITS Now

Generate your first audio free. No credit card required.

Start Free