اختبارات الاختبارات التلقائية

Standard

ترجمة النصوص من نقطة إلى نقطة بسرعة مع الكلام الطبيعي

Very Fast السرعة
Good الجودة
لا الاستنساخ
10 اللغات

عن اختبارات الاختبارات التلقائية

-to-end neural TTS model that generates natural-sounding speech. It combines variational autoencoders with adversarial learning for efficient synthesis. VITS is excellent for batch processing and applications requiring

السمات الرئيسية

التوليف السريع

بنية من البداية إلى النهاية لتوليد الكلام بسرعة.

التجهيز بالدفعات

تجهيز نصوص متعددة بكفاءة في وقت واحد.

الكلام الطبيعي

التدريب VAE + GAN ينتج النغمة الطبيعية والإيقاع.

متحدثون متعددون

النموذج الواحد يدعم أصوات المتحدثين المتعددة.

فعالة

ذاكرة منخفضة مع أداء جيد.

المصدر المفتوح

معهد ماساتشوستس للتكنولوجيا مرخص لأي حالة استخدام.

حالات الاستخدام

توليد الصوت مناهج التعلم الإلكتروني قارئ أخبار الإعلانات الآلية نظم الاستجابة الهاتفية المتكاملة المحتوى الكبير الحجم

اختبارات الاختبارات التلقائية Voices

View All 109
LJSpeech (English Female)
EN
VCTK Speaker 225 (English Female)
EN
VCTK Speaker 226 (English Male)
EN
VCTK Speaker 227 (English Male)
EN
VCTK Speaker 228 (English Female)
EN
VCTK Speaker 229
EN
VCTK Speaker 230
EN
VCTK Speaker 231
EN
VCTK Speaker 232
EN
VCTK Speaker 233
EN
VCTK Speaker 234
EN
VCTK Speaker 236
EN

كيف تستخدم اختبارات الاختبارات التلقائية

  1. 1

    تسجيل مجاني أو تجربة العرض

    إنشاء حساب مجاني TextToSpeechAI للحصول على ائتمانات البدء، أو استخدام العرض على الصفحة للاستماع إلى VITS قبل التسجيل.

  2. 2

    اختار صوتاً أو متحدثاً من نظام التعرف على الصوت

    تصفح مكتبة الأصوات واختار صوتاً يحمل شارة VITS. مكتبة VITS متعددة المكبرات، بما في ذلك مجموعة مكبرات الصوت VCTK، تسمح لك بالاختيار من بين العديد من الأصوات المتميزة.

  3. 3

    أدخل نصك

    يكتـب أو يصـلـح النص الذي تريد أن يـُـقـال في المحرر. ويتعامل نظام VITS مع المقاطع الطويلة بشكل جيد وهو مثالي للمحتوى الكمي والعالي الحجم.

  4. 4

    صنع الصوت

    ونظرا لأن نظام VITS سريع جدا وذو مستوى معياري (10 وحدات لكل 000 1 حرف)، فإن النتائج تعود بسرعة وبتكلفة منخفضة.

  5. 5

    تنزيل أو استخدام واجهة البرمجة التطبيقية

    تحميل الصوت النهائي كMP3 أو WAV أو OGG، أو استدعاء نفس صوت VITS من خلال TextToSpeechAI REST API لتشغيل التوليد في تطبيقك الخاص.

اختبارات الاختبارات التلقائية ألف - البرنامج المتقدم للتطبيق

توليد الكلام برمجياً باستخدام REST API TextToSpeechAI.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "وتوفر هذه التكنولوجيا صوتاً سريعاً وطبعياً للتطبيقات الكبيرة الحجم.",
    "voice": "vits-ljspeech"
  }'

الأسئلة المتكررة

VITS (الاستدلال المتباين مع التعلم المتنازع عليه لتحويل النص إلى حديث من البداية إلى النهاية) هو نموذج عصبي لتحويل النص إلى حديث من البداية إلى النهاية يجمع بين مشفر أوتوماتيكي متباين مع تدريب GAN متنازع عليه. وهو يولد حديثا طبيعي الصوت في مرحلة واحدة، مما يجعله سريعا وكفؤا. يمكنك تجربة VITS مجاناً على TextToSpeechAI.

نعم، VITS مفتوح المصدر تحت ترخيص MIT، لذلك يدعم الاستخدام التجاري الكامل دون قيود. وهو يستخدم على نطاق واسع في المنتجات والخدمات التجارية. على TextToSpeechAI، VITS تكلفة 10 أرصدة لكل 1000 كلمة على المستوى القياسي.

TextToSpeechAI يقدم مكتبة كبيرة متعددة المتحدثين VITS، بما في ذلك مجموعة الصوت VCTK مع عشرات من المتحدثين الإنجليزية المتميزة. نموذج واحد VITS يمكن أن يستضيف العديد من المتحدثين، لذلك يمكنك الاختيار من العديد من الأصوات المختلفة دون تغيير المحركات.

ويعتمد دعم نظام المعلومات الجغرافية المتنقل على النموذج المدرب، وتشمل نماذج نظام المعلومات الجغرافية المتنقل الشائعة اللغات الإنكليزية والصينية واليابانية والكورية والألمانية والفرنسية وغيرها من اللغات الرئيسية، مع تغطية متعددة الناطقين بالإنكليزية من مجموعة بيانات نظام المعلومات الجغرافية المتنقل.

إن نظام VITS سريع للغاية، حيث ينتج الكلام في الوقت الحقيقي أو أسرع من ذلك على وحدة المعالجة المركزية الرسومية. ويتجنب بنيانها من النهاية إلى النهاية مراحل المعالجة المتعددة للنماذج الأخرى، ولهذا السبب فإن نظام VITS مناسب تماماً للتوليف بالدفعات والحجم الكبير.

لا، VITS لا يدعم استنساخ الصوت. إنه يستخدم نماذج متعددة المتحدثين مدربة مسبقاً بدلاً من نسخ صوت مستهدف من عينة. لاستنساخ الصوت على TextToSpeechAI، استخدم F5-TTS أو GPT-SoVITS بدلاً من ذلك.

وينتج نظام VITS صوتاً جيداً النوعية مع نغمة طبيعية وإيقاع طبيعي، ورغم أنه ليس على مستوى نظام StyleTTS 2 أو Tortoise، فإنه يوفر جودة ممتازة لسرعته، وخاصة في تجهيز المجموعات.

إن VITS فعّال في استخدام الذاكرة، ولا يحتاج عادة إلا إلى بضعة جيجا بايت من ذاكرة VRAM (حوالي 4 جيجا بايت). وهو يعمل بشكل مريح على وحدات المعالجة الرسومية الاستهلاكية، وعلى TextToSpeechAI يحدث كل التمثيل على خوادمنا، لذا فلا تحتاج إلى أي أجهزة خاصة بك.

VITS و Piper هما محركان سريعا، مرخص من قبل MIT، من الدرجة القياسية على TextToSpeechAI. Piper هو الخيار الأخف والأسرع، بينما VITS يقدم مكتبة كبيرة متعددة المتحدثين (بما في ذلك VCTK) مع صوت طبيعي أكثر قليلا. لا يدعم أي منهما استنساخ الصوت.

ويعتبر نموذج VITS محركاً من المستوى القياسي، بتكلفة 10 وحدات لكل 1000 كلمة، وهو أدنى مستوى تسعيري لدينا بفضل الطبيعة الفعالة والسريعة لنموذج VITS.

VITS يولد الصوت على 22050 هرتز أصلاً. من خلال TextToSpeechAI يمكنك طلب MP3، WAV، أو OGG، مع التحويل الآلي معالجة لك.

انضم إلى TextToSpeechAI للحصول على ائتمانات بدء مجانية، ثم اختار صوت VITS، وأدخل نصك، وتولد الصوت. يمكنك أيضا استخدام العرض الإيضاحي للاستماع إلى VITS قبل إنشاء حساب، والوصول إلى VITS من خلال REST API الخاص بنا بمجرد التسجيل.

Technical Specs

  • Generation Speed Very Fast
  • Output Quality Good
  • Voice Cloning Not Supported
  • Languages 10
  • GPU VRAM 1-2GB
  • Credits/1000 chars 10

Try اختبارات الاختبارات التلقائية Now

Generate your first audio free. No credit card required.

Start Free