الشكل 2

Ultra

تحويل النص إلى كلمة على المستوى البشري مع نقل الأسلوب

Moderate السرعة
Excellent الجودة
نعم الاستنساخ
1 اللغات

عن الشكل 2

s. It is a

السمات الرئيسية

النوعية على المستوى البشري

ينتج صوتاً لا يمكن تمييزه عن التسجيلات البشرية في الاختبارات العمياء.

نقل الأسلوب

نقل أسلوب الكلام من أي عينة سمعية مرجعية.

الصوت الطبيعي

إيقاع مثالي، الضغط، و النغمة مع النمذجة القائمة على الانتشار.

استنساخ الصوت

استنساخ الأصوات بدقة و طبيعية استثنائية

الاستدلال السريع

أسرع من النماذج ذاتية التراجع مع الحفاظ على الجودة.

المصدر المفتوح

MIT مرخص مع حقوق الاستخدام التجاري الكامل.

حالات الاستخدام

الكتب السمعية العالية الجودة صوتيات مهنية إنتاج الأفلام والتلفزيون الإعلانات العالية الجودة إنتاج البودكاست التمثيل الصوتي

الشكل 2 Voices

View All 6
StyleTTS2 Default
EN
StyleTTS2 Expressive
EN
StyleTTS2 Fast
EN
StyleTTS2 Natural
EN
StyleTTS2 Neutral
EN
StyleTTS2 Quality
EN

كيف تستخدم الشكل 2

  1. 1

    انضم مجانا أو ابدأ العرض

    إنشاء حساب مجاني TextToSpeechAI للحصول على ائتمانات البدء، أو استخدام العرض التجريبي الصفحة الرئيسية للاستماع إلى StyleTTS2 دون التسجيل.

  2. 2

    اختار محرك StyleTTS2

    انتقِ صوت StyleTTS2 من مكتبة الأصوات. لنسخ صوت، قم بتحميل مقطع مرجعي لمدة 10-30 ثانية وسوف يقوم StyleTTS2 بنقل أسلوبه.

  3. 3

    أدخل نصك

    لصق أو طبع النص الذي تريد أن يسرد. StyleTTS2 يتفوق في اللغة الإنجليزية ويقدم النغمة الطبيعية، والتشديد، والنبرة عبر المقاطع الطويلة.

  4. 4

    صنع الصوت

    انقر على إنشاء و TextToSpeechAI يقوم بعرض الصوت StyleTTS2 الخاص بك على وحدة المعالجة الرسومية.

  5. 5

    تنزيل أو استخدام واجهة البرمجة التطبيقية

    تحميل الصوت StyleTTS2 النهائي كMP3 أو WAV أو OGG، أو استدعاء TextToSpeechAI API مع صوت StyleTTS2 لتشغيل التوليد آليا.

الشكل 2 ألف - البرنامج المتقدم للتطبيق

توليد الكلام برمجياً باستخدام REST API TextToSpeechAI.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "StyleTTS 2 ينتج حديث طبيعي جدا، فهو يتنافس مع التسجيلات البشرية المهنية.",
    "voice": "styletts2-default"
  }'

الأسئلة المتكررة

StyleTTS2 هو نموذج متقدم لتحويل النص إلى كلمة يحقق تركيب الكلام على المستوى البشري. وهو يستخدم نشر الأسلوب والتدريب التنافسي لإنتاج كلمة لا يمكن تمييزها تقريباً عن التسجيلات البشرية الحقيقية في اختبارات الاستماع العمياء. يمكنك تجربة StyleTTS2 مجاناً على TextToSpeechAI.

ينتج StyleTTS2 أعلى جودة للصوت المتاح على TextToSpeechAI. في التقييمات الرسمية بلغت تصنيفات المستوى البشري على اختبارات MOS (متوسط تقييم الرأي)، مع المستمعين غالبا غير قادرين على التمييز بينه وبين متحدث بشري حقيقي. يجلس في مستوى Ultra إلى جانب Tortoise لهذا السبب.

نعم، StyleTTS2 يدعم استنساخ الصوت من خلال نقل الأسلوب. إنه لا يستخرج فقط النغمة ولكن أنماط الكلام، الإيقاع، والخصائص العاطفية من مقطع مرجعي. يوفر 10-30 ثانية من الصوت الواضح لأكثر استنساخ StyleTTS2 دقة.

نعم، تم إصدار StyleTTS2 تحت رخصة MIT المتساهلة، والتي تسمح بالاستخدام التجاري الكامل بدون حقوق الملكية. وهذا يجعله آمنًا للكتب السمعية، والإعلانات، والأفلام، ومشاريع StyleTTS2 المهنية الأخرى حيث الحقوق مهمة.

StyleTTS2 يدعم اللغة الإنجليزية في المقام الأول، حيث تم تدريب النموذج على مجموعات البيانات الإنجليزية. إذا كنت بحاجة إلى جودة مماثلة عبر لغات متعددة، فإن F5-TTS على TextToSpeechAI هو ملائمة أفضل بينما لا يزال يدعم استنساخ الصوت.

StyleTTS2 لديه سرعة توليد معتدلة. إنه أسرع بكثير من النماذج ذاتية التراجع مثل Tortoise ولكن أبطأ من المحركات الخفيفة مثل Piper. بسبب جودته العالية وتكاليف الحساب، يتم تسعير StyleTTS2 في مستوى Ultra بدلاً من كونه نموذجاً للوقت الحقيقي.

يتطلب StyleTTS2 حوالي 4- 6 جيجا بايت من ذاكرة العرض للاستنتاج. وهو أكثر كفاءة في استخدام الذاكرة من Bark أو Tortoise بينما ينتج مخرجات ذات جودة أعلى. على TextToSpeechAI، يتم تشغيل جميع عمليات StyleTTS2 على وحدات المعالجة الرسومية الخاصة بنا، لذلك لا تحتاج إلى أي معدات خاصة بك.

StyleTTS2 هو نموذج من الطبقة العليا وتكلف 50 نقطة لكل 1000 حرف على TextToSpeechAI. وتعكس هذه الأسعار العالية نوعيته على المستوى البشري وموارد وحدة المعالجة الرسومية المطلوبة. وتكلفت النماذج القياسية مثل Piper 10 نقاط لكل 1000 حرف للمقارنة.

اختار StyleTTS2 عندما تكون جودة الصوت الإنجليزية الخام هي الأولوية العليا و تريد النتيجة الأكثر طبيعية. اختار F5-TTS عندما تحتاج إلى تركيب متعدد اللغات سريع مع استنساخ الصوت. كلاهما يدعم الاستنساخ، ولكن StyleTTS2 هو المستوى العالي (50 نقطة) بينما F5-TTS هو المستوى الأعلى (25 نقطة).

ينتج StyleTTS2 صوتاً عالي الجودة بتردد 24 كيلوهرتز. ومن خلال TextToSpeechAI يمكنك تنزيل النتيجة في شكل MP3 أو WAV أو OGG، ونحن نستخدم ترميزاً عالي الجودة بحيث يتم الحفاظ على جودة StyleTTS2 الاستثنائية في الملف النهائي.

نعم. StyleTTS2 يدعم تعديلات معدل الكلام، وتصميم نقل الأسلوب يسمح لك بتشكيل النغمة باختيار مقاطع مرجعية مختلفة. اختيار الصوت مع الإيقاع والعاطفة التي تريد يعطيك التحكم الدقيق على تسليم StyleTTS2.

اختار صوت StyleTTS2 من مكتبتنا أو تحميل مرجع الصوت لإنشاء صوت مستنسخ، ثم ارجع إلى ذلك الصوت في طلبات API الخاصة بك. TextToSpeechAI يتعامل مع جميع معالجة GPU ويعيد عنوان URL للتنزيل مع صوت StyleTTS2 الأعلى.

Technical Specs

  • Generation Speed Moderate
  • Output Quality Excellent
  • Voice Cloning Supported
  • Languages 1
  • GPU VRAM 4-6GB
  • Credits/1000 chars 50

Try الشكل 2 Now

Generate your first audio free. No credit card required.

Start Free