انداز

Ultra

انسانی سطح کا متن سے بولنے والا

Moderate رفتار
Excellent معيار
ہاں کلوننگ
1 زبانیں

متعلقہ انداز

s. StyleTTS 2 is a

کلیدی خصوصیات

انسانی سطح کی صفت

اندھی ٹیسٹ میں انسانی ریکارڈ سے غیر قابل ممتاز بات پیدا کرتا ہے.

نقل و انتقال

کسی بھی حوالہ آڈیو نمونے سے بولنے کی انداز منتقل کریں

فطري نظم

مکمل ریتمی، دباؤ، اور diffusion-based موڈلنگ کے ساتھ انٹنیشن.

آواز کا کلوننگ

غیر معمولی دقت اور فطرت کے ساتھ آوازوں کو کلون.

جلدي حصول

کیفیت کو برقرار رکھتے ہوئے autoregressive ماڈل سے تیز.

اوپن سورس

ایم آئی ٹی لائسنس کے ساتھ مکمل تجارتی استعمال کے حقوق.

استعمال کے حالات

پرائم آڈیو بک پرو فا ئل ويز اوور فلم اور ٹی وی پرو ڈکشن اعلیٰ سطحی اشتہارات پوڈکاسٹ پروڈیوس آواز

انداز Voices

View All 6
StyleTTS2 Default
EN
StyleTTS2 Expressive
EN
StyleTTS2 Fast
EN
StyleTTS2 Natural
EN
StyleTTS2 Neutral
EN
StyleTTS2 Quality
EN

استعمال کيونکر کريں انداز

  1. 1

    مفت میں رجسٹر کریں یا ڈیمو چلائیں

    شروع کريٹيز حاصل کر نے کے ليے مفت TextToSpeechAI اکاؤنٹ بنا ئيں يا گھري پيج ديمو استعمال کريں StyleTTS2 کو سننے کے ليے بغیر لاگ ان کے

  2. 2

    سٹائلTTS2 انجن منتخب کريں

    آواز لائبريري سے StyleTTS2 آواز منتخب کريں آواز کي کلون کر نے کے ليے 10-30 سيکنڈ کا ريفرنس کلپ اپ لوڈ کريں اور StyleTTS2 اسکا انداز منتقل کريں گا

  3. 3

    آپ کا متن داخل کریں

    اس ليکد کي ميزاني کو پسٹ کريں يا ٹائپ کريں جو آپ بيان کر نے چا هيتے هيں StyleTTS2 انگريزي ميں ممتاز هے اور طويل فاصلوں ميں طبيعي prosody ، دباؤ اور انطوانے ميں پيش کر تا هے

  4. 4

    آڈیو بناؤ

    جنرائز کريں اور TextToSpeechAI آپ کا StyleTTS2 آ ڊيو GPU پر رنڈ کريں Ultra-tier StyleTTS2 پر 50 کريڈٹ 1000 حروف

  5. 5

    API ڈائون لوڈ کریں یا استعمال کریں

    MP3, WAV, or OGG کے طور پر ختم شدہ StyleTTS2 آڈیو ڈائون لوڈ کریں، يا آپ کو آپ کو خودکار بنانے کے ليے آپ کی StyleTTS2 آواز کے ساتھ TextToSpeechAI API کو بلايں

انداز API

TextToSpeechAI REST API کے استعمال سے پروگرامنگ کے طور پر بولي پيدا کريں

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "StyleTTS2 بات کو اتنی قدرتی بناتا ہے، یہ پیشہ ور انسانی ریکارڈنگ کے مقابلے میں ہے.",
    "voice": "styletts2-default"
  }'

بار بار پوچھے گئے سوالات

StyleTTS2 ایک جديد متن سے کلام ماڈل هے جو انساني سطح پر کلام کي سنتز کو حاصل کر تا هے اس ميں انداز کے تقسيم اور مقابلي تربيت کا استعمال کيا جاتا هے جو کلام کي پيدا کر نے کے ليے استعمال کيا جاتا هے جو برين لينگ ٹیسٹ ميں حقيقي انساني ريجو ريشن سے تما ش کر نے کے ليے غير قابل تمييز هے آپ TextToSpeechAI پر StyleTTS2 کو مفت ميں آزما سکتے هيں

StyleTTS2 TextToSpeechAI پر دستیاب سب سے اعلیٰ کیفیت کے TTS اوڈيو پیدا کرتا ہے. رسمی ایویلیویشن میں یہ MOS (میانی راءِ سکورِ) ٹیسٹ پر انسانی سطح کی رےٹنگ تک پہنچا، سننے والوں کے ساتھ اکثر ایک حقیقی انسانی اسپیکر سے اس کو الگ کرنے میں نا قادر. یہ اس وجہ کے لیے Tortoise کے ساتھ ہمارے الٹرا ٹائر میں بیٹھتا ہے.

ہاں، StyleTTS2 آواز کے کلوننگ کو ستا ئل منتقلی کے ذریعے مدد دیتا ہے یہ صرف آواز کے رنگ کو نہیں نکالا کرتا بلکہ ایک حوالہ کلیپ سے بولنے کے نمونے، ریتھم اور جذباتی خصوصیات کو بھی نکالا کرتا ہے سب سے صحیح StyleTTS2 کلون کے لیے 10-30 سیکنڈ واضح اوڈيو فراہم کریں

جی ہاں StyleTTS2 MIT لا ئسنس کے تحت آزاد کیا گیا ہے جو کہ مکمل تجارتی استعمال کو اجازت دیتا ہے اور کوئی روایات نہیں رکھتا ہے یہ اسے آڈیو بک، اشتہار، فلم اور دیگر پیشہ ورانہ StyleTTS2 پروجیکٹوں کے لیے محفوظ بناتا ہے جہاں حقوق اہم ہیں

StyleTTS2 اصلی طور پر انگریزی کو مدد دیتا ہے، کیونکہ ماڈل کو انگریزی ڈیٹا سیٹ پر تربیت دی گئی تھی. اگر آپ کو متعدد زبانوں میں ایک ہی کیفیت کی ضرورت ہے، TextToSpeechAI پر F5-TTS ایک بہتر فٹ ہے جب بھی آواز کلوننگ کو مدد دی جاتی ہے.

StyleTTS2 کی متوسط نسل کی رفتار ہے یہ Tortoise جیسے autoregressive ماڈل سے بہت تیز ہے لیکن Piper جیسے ہلکی وزن انجن سے سست ہے اس کی پرائمی کیفیت اور کمپیوٹ لاگت کی وجہ سے StyleTTS2 کو ایک ریئل ٹائم ماڈل کی بجائے ہمارے الٹرا ٹیئر میں قیمت دی جاتی ہے

StyleTTS2 کو انفریشن کے لیے VRAM کے تقریباً 4-6GB کی ضرورت ہے یہ Bark یا Tortoise سے زیادہ میمورے کو موثر بناتا ہے جبکہ اعلیٰ معیار کے آؤٹ پٹ پیدا کرتا ہے TextToSpeechAI پر سب StyleTTS2 پروسیسنگ ہمارے GPUs پر چلتا ہے، تو آپ کو اپنے ہیڈڈرائور کی ضرورت نہیں ہے

StyleTTS2 ایک الٹرا-تیئر ماڈل ہے اور TextToSpeechAI پر ہر 1000 حروف کے لئے 50 کریڈٹ کی قیمت ہے۔ یہ پرائم قیمت انسانی سطح کی کیفیت اور GPU کے وسائل کی ضرورت کو ظاہر کرتی ہے۔ Piper جیسے معیاری ماڈلوں کی قیمت ہر 1000 حروف کے لئے 10 کریڈٹ کی ہے۔

StyleTTS2 کو منتخب کريں جب روا انگلش او ديو کي معيار اعلي اوليت هے اور آپ سب سے فطري آواز حاصل کر نے چا هيتے هيں F5-TTS کو منتخب کريں جب آپ کو جلدي کثير زباني سنتز کو آواز کے کلوننگ کے ساتھ ضرورت هے دوئي کلوننگ کو مدد ديں ، مگر StyleTTS2 اولٹرا تير (50 کرڈٹ) هے جب F5-TTS پرائمي تير (25 کرڈٹ) هے

StyleTTS2 24kHz پر اعلیٰ معیار کی اوڈيو پیدا کرتا ہے. TextToSpeechAI کے ذریعے آپ MP3, WAV, or OGG کے طور پر نتیجے کو ڈاؤن لوڈ کر سکتے ہیں اور ہم اعلیٰ معیار کی کوڈنگ استعمال کرتے ہیں تاکہ غیر معمولی StyleTTS2 کی کیفیت آخری فائلیں میں محفوظ ہو جائے.

ہاں StyleTTS2 بولنے کی شرح کے تعدیل کو مدد دیتا ہے اور اس کا انداز منتقل کرنے کا ڈیزائن آپ کو مختلف حوالہ کلیپ کو منتخب کر کے prosody کو شکل دینے کی اجازت دیتا ہے آپ کو StyleTTS2 کے رزلٹ پر اچھی کنٹرول دے گا

ہمارے لائبريري سے StyleTTS2 آواز منتخب کريں يا يه حوالہ آ ڊيو اپ لوڈ کريں کلون آواز بنا نے کے ليے، پھر آپ کے API درخواستوں ميں اس آواز کا حوالہ دیں TextToSpeechAI تمام GPU پروسيسنگ کو ہینڈل کر تا هے اور آپ کے پرائم StyleTTS2 آ ڈیو کے ساتھ ڈائون لوڈ URL واپس کر تا هے

Technical Specs

  • Generation Speed Moderate
  • Output Quality Excellent
  • Voice Cloning Supported
  • Languages 1
  • GPU VRAM 4-6GB
  • Credits/1000 chars 50

Try انداز Now

Generate your first audio free. No credit card required.

Start Free