صوت رائع

Premium

استنساخ صوتي متعدد اللغات بدون تسجيل مع دعم التدفق

Fast السرعة
Very Good الجودة
نعم الاستنساخ
5 اللغات

عن صوت رائع

CosyVoice2 is a next-generation speech synthesis model from FunAudioLLM (Alibaba). It delivers natural-sounding zero-shot voice cloning across multiple languages with streaming capability for low-latency applications. Built on a finite scalar quantization approach, it achieves excellent voice similarity with just a few seconds of reference audio.

السمات الرئيسية

استنساخ الصوت

استنساخ أي صوت من 3-10 ثوان من السمع المرجعي مع دقة عالية.

تعدد اللغات

يدعم الصينية والإنكليزية واليابانية والكورية والكانتونية مع توليف متعدد اللغات.

دعم البث

)ب( طريقة تدفق منخفضة التأخير للتطبيقات الزمنية الحقيقية والنظم التفاعلية.

الصوت الطبيعي

وينتج نمذجة النطق المتقدمة كلمات ذات صوت طبيعي مع النطق المناسب.

حالات الاستخدام

إنشاء المحتوى المتعدد اللغات مساعدون صويون في الوقت الحقيقي الترجمة الشفوية المتعددة اللغات التطبيقات الصوتية الشخصية

كيف تستخدم صوت رائع

  1. 1

    انضم واحصل على ائتمانات مجانية

    إنشاء حساب TextToSpeechAI مجانا للمطالبة ببدء الائتمانات، أو تجربة العرض الأول. لا GPU أو CosyVoice2 محلية تثبيت مطلوب - كل شيء يعمل على البنية التحتية لدينا.

  2. 2

    انقر على CosyVoice2 و أضف مقطع مرجعي

    اختار CosyVoice2 كمحركك، ثم قم بتحميل تسجيل مرجعي نظيف مدته 3-10 ثوانٍ للصوت الذي تريد استنساخه. سوف يستخرج CosyVoice2 خصائص المتحدث لاستنساخ متعدد اللغات من الصفر.

  3. 3

    أدخل نصك بأي لغة مدعومة

    يكتب أو يصطف النص بالصينية أو الإنجليزية أو اليابانية أو الكورية أو الكانتوني. ويدعم CosyVoice2 التركيب عبر اللغات، بحيث يمكن للصوت المستنسخ أن يتكلم لغة مختلفة عن المقطع المرجعي.

  4. 4

    توليد الخطاب

    ويتم توليف الكلام الطبيعي المتعدد اللغات في الصوت المستنسخ، عادة في غضون ثوانٍ للنص القصير، باستخدام برنامج CosyVoice2.

  5. 5

    تنزيل أو استخدام واجهة البرمجة التطبيقية

    تنزيل الصوت النهائي كMP3 أو WAV من تاريخك، أو أتمتة CosyVoice2 استنساخ الصوت على نطاق واسع من خلال REST API TextToSpeechAI.

صوت رائع ألف - البرنامج المتقدم للتطبيق

توليد الكلام برمجياً باستخدام REST API TextToSpeechAI.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "وتوفر برامجية CosyVoice2 صوتاً طبيعياً متعدد اللغات مع القدرة على استنساخ الصوت دون أي تشويش.",
    "voice": "en_US-lessac-medium"
  }'

الأسئلة المتكررة

CosyVoice2 هو نموذج للجيل القادم من النص إلى الكلام واستنساخ الصوت من FunAudioLLM (Alibaba). وهو يدعم استنساخ الصوت من الصفر من ثوان قليلة فقط من الصوت المرجعي ويمكنه توليف الكلام الطبيعي باللغات الصينية والإنجليزية واليابانية والكورية والكانتونية. على TextToSpeechAI يمكنك تشغيل CosyVoice2 في المتصفح دون أي تثبيت محلي.

نعم، CosyVoice2 مرخصة بالكامل من قبل Apache 2.0 - كل من الشفرة والنموذج. وهذا يجعلها آمنة للاستخدام في المنتجات التجارية، والمحتوى المدفوع الأجر، وعمل العملاء دون رسوم الترخيص أو القيود غير التجارية.

يدعم برنامج CosyVoice2 خمس لغات: الصينية (الماندرين)، والإنجليزية، واليابانية، والكورية، والكانتونية. كما يتعامل مع التركيب المتعدد اللغات، بحيث يمكنك استنساخ صوت من تسجيل بلغة واحدة وتوليد الكلام بلغة أخرى.

يوفر 3-10 ثوان من الصوت المرجعي النظيف للمتحدث المستهدف. CosyVoice2 يستخرج خصائص المتحدث باستخدام نهج كمي قياسي محدود، ثم يولد حديثا جديدا في ذلك الصوت المستنسخ عبر أي من لغاته المدعومة. لا يلزم أي تدريب للنموذج أو ضبط دقيق.

إن برنامج CosyVoice2 هو أحد نماذج الاستنساخ المتعدد اللغات الأكثر قوة، حيث يحافظ على هوية المتكلم حتى عند توليد الكلام بلغة مختلفة عن المقطع المرجعي. وهو ينتج نغمة طبيعية ونغمة صوتية، مما يجعله مناسباً للدبلجة عبر اللغات والمحتوى المحلي.

Yes. CosyVoice2 is a fast model and includes a streaming mode that produces audio with low latency, making it suitable for voice assistants and interactive applications. On TextToSpeechAI generations typically complete in seconds for short text.

CosyVoice2 يتطلب حوالي 4-6GB من VRAM لنموذج 0.5B البارامترات، لذلك وحدة معالجة رسومية مع 6GB أو أكثر موصى بها عند الاستضافة الذاتية. على TextToSpeechAI النموذج يعمل على البنية التحتية وحدة المعالجة الرسومية، لذلك لا تحتاج إلى أي معدات الخاصة بك.

إن CosyVoice2 هو نموذج من المستوى الأعلى وتكلف 25 نقطة لكل 1000 حرف من النص. ويحصل كل حساب جديد على نقاط بدء مجانية، لذا يمكنك تجربة نسخة صوتية من CosyVoice2 قبل أن تقرر الاشتراك في خطة مدفوعة.

كلاهما محركات استنساخ صوت عالية الجودة. GPT-SoVITS غالبا ما تصل إلى أعلى تشابه خام لصوت هدف واحد، في حين أن CosyVoice2 أقوى للاستنساخ المتعدد اللغات واللغات ويضيف نموذج تدفق منخفض التأخير. اختار CosyVoice2 عندما تحتاج إلى صوت مستنسخ واحد للتحدث بعدة لغات.

ويدعم برنامج CosyVoice2 عدداً أكبر من اللغات (5 مقابل 2) ويضيف تدفقاً للاستخدام في الوقت الحقيقي، في حين أن برنامج F5-TTS يمكن أن يكون أسرع قليلاً لأعباء العمل التي تستخدم اللغة الإنجليزية فقط.

TextToSpeechAI يسمح لك بتصدير أجيال CosyVoice2 في أشكال شائعة مثل MP3 و WAV. يمكنك تنزيل الملف مباشرة من صفحة تاريخك أو استرجاعه برمجياً من خلال TextToSpeechAI API.

نعم، يمكنك اختبار CosyVoice2 مع العرض المجاني واعتمادات البدء المجانية على TextToSpeechAI دون تثبيت أي شيء. فقط انضم، تحميل مقطع مرجعي قصير، كتابة نصك في أي لغة مدعومة، وإنشاء.

Technical Specs

  • Generation Speed Fast
  • Output Quality Very Good
  • Voice Cloning Supported
  • Languages 5
  • GPU VRAM 4-6GB
  • Credits/1000 chars 25

Try صوت رائع Now

Generate your first audio free. No credit card required.

Start Free