المناطق

Ultra

استنساخ الصوت التعبيري مع التحكم في العواطف والأسلوب

Medium السرعة
Excellent الجودة
نعم الاستنساخ
5 اللغات

عن المناطق

s.

السمات الرئيسية

التحكم في المشاعر

التحكم في مشاعر الكلام: السعادة، الحزن، الغضب، الخوف، المفاجأة، الإشمئزاز، والمحايدة.

استنساخ الصوت

استنساخ أي صوت من 5-30 ثانية من السمع المرجعي مع دقة عالية.

كلمة تعبيرية

تنتج البارامترات 1.6B حديثا تعبيريا للغاية مع تقديم عاطفي دقيق.

تعدد اللغات

يدعم اللغات الإنجليزية واليابانية والصينية والفرنسية والألمانية.

حالات الاستخدام

إنشاء محتوى يعبر عن العواطف أصوات شخصيات الألعاب مع مشاعر سرد كتاب مسموع مع المزاج تجارب الصوت التفاعلية

كيف تستخدم المناطق

  1. 1

    تسجيل أو فتح العرض

    إنشاء حساب مجاني TextToSpeechAI للحصول على ائتمانات البدء، أو استخدام البيان العملي لا التسجيل لتجربة زونوس على الفور.

  2. 2

    اختار محرك زونوس

    انقر على "Zonos" من خيار الصوت والنموذج. لنسخ صوت، قم بتحميل 5-30 ثانية من الصوت المرجعي النظيف حتى يمكن لـ"Zonos" أن يطابق المتحدث.

  3. 3

    أدخل نصك

    يكتب أو يصطف النص الذي تريد أن يقال. يعمل زونوس عبر اللغة الإنجليزية، اليابانية، الصينية، الفرنسية، والألمانية.

  4. 4

    اختار مشاعرك و تولد

    اختار أحد مشاعر زونوس السبعة - الحياد، السعادة، الحزن، الغضب، الخوف، المفاجأة، أو الاشمئزاز - ثم انقر على توليد لجعل الخطاب التعبيري في ذلك المزاج.

  5. 5

    تنزيل أو استخدام واجهة البرمجة التطبيقية

    تشغيل وتحميل الصوت المنتهي، أو استدعاء نفس محرك زونوس برمجياً من خلال REST API TextToSpeechAI لعمليات التدفق الآلي.

المناطق ألف - البرنامج المتقدم للتطبيق

توليد الكلام برمجياً باستخدام REST API TextToSpeechAI.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "\u0022زونوس\u0022 يولد حديثاً تعبيرياً لا يصدق مع تحكم دقيق في العواطف",
    "voice": "en_US-lessac-medium"
  }'

الأسئلة المتكررة

زونوس هو نموذج 1.6B من زيفرا لتحويل النص إلى صوت وهو متخصص في توليد صوت تعبيري مع التحكم في العواطف بعناية واستنساخ الصوت بجودة عالية وعلى TextToSpeechAI يعمل كمحرك ذو طبقة فائقة لأكثر الصوتيات دقة وغنية بالعواطف

نعم، تم إطلاق زونوس تحت ترخيص أباتشي 2.0 لكل من شفرته وأوزان نموذجه، وبالتالي يمكن استخدامه بحرية في المنتجات التجارية دون أي قيود على التصنيف أو القيود غير التجارية. وهذا يجعله آمنًا للتطبيقات المدفوعة، وعمل العملاء، والمحتوى الممول.

يعرض زونوس سبع حالات عاطفية - محايدة، سعادة، حزن، غضب، خوف، مفاجأة، اقتناع - التي تختارها قبل توليدها. ويشترط النموذج تسليمه على المشاعر المختارة، وتغيير النبرة، والوتيرة، والنبرة بحيث يمكن أن تبدو نفس الجملة سعيدة أو غاضبة. وهذا يجعل زونوس مثاليًا لأصوات الشخصيات والحوار الذي يحتاج إلى مزاج محدد.

يدعم برنامج زونوس سبعة خيارات للمشاعر: الحياد، والسعادة، والحزن، والغضب، والخوف، والمفاجأة، والاشمئزاز. وتختار واحداً لكل جيل لتحديد النبرة العاطفية للمقطع بأكمله.

نعم، تستنسخ زونوس صوتاً من 5 إلى 30 ثانية فقط من الصوت المرجعي، واستخلاص خصائص المتكلم وإعادة إنتاجها في كلمة جديدة. ويمكنك الجمع بين الاستنساخ وأي من المشاعر السبعة لجعل الصوت المستنسخ يبدو سعيداً، أو غاضبا، أو خائفا.

يتعامل زونوس مع خمس لغات: الإنجليزية، اليابانية، الصينية، الفرنسية، والألمانية. ويعمل التحكم في المشاعر واستنساخ الصوت عبر جميع هذه اللغات.

يقوم زونوس بالعمل بسرعة متوسطة بسبب حجمه 1.6 بليون بارامتر، ويقوم بمبادلة الإنتاجية الخام بالخروجات الممتازة والتعبيرية للغاية. والجودة من بين أفضلها للكلمات العاطفية والمستنسخة، لذا فهي مناسبة للإنتاج الصوتي النهائي بدلاً من توليد الوقت الحقيقي بالجملة.

تحتاج زونوس إلى 8 جيجا بايت أو أكثر من ذاكرة العرض لنموذجها 1.6B. يوصى بمعالج رسوميات بـ 10 جيجا بايت على الأقل للتشغيل المريح عند الجمع بين استنساخ الصوت والتحكم في العواطف. على TextToSpeechAI، كل هذا يعمل على خلفية وحدة المعالجة الرسومية، لذلك لا تحتاج إلى معدات خاصة بك.

زونوس هو محرك ذو طبقة فائقة، ويتم رسومه بـ 50 نقطة لكل 1000 كلمة. ويعكس المستوى الفائق نموذجه الكبير وقدراته المتقدمة في مجال العاطفة والاستنساخ، وهو نفس المستوى الذي يمثله StyleTTS2، و Tortoise، و OpenVoice.

كل منهما يقدم أسلوباً وتحكماً في العواطف مع استنساخ الصوت. يوفر زونوس سبع حالات منفصلة للعواطف وبنياناً حديثاً 1.6B، بينما يوفر أوبن فويس أنماطاً للنغمات مثل الودية، والسعادة، والهمس مع استنساخ فوري سريع جداً. اختار زونوس عندما تريد اختياراً واضحاً للعواطف وأقصى قدر من التعبير؛ اختار أوبن فويس لتغيير النغمات بصورة أسرع وأخف.

يقوم محرك الصوت بإضافة علامات تعبيرية مثل [ضحك] و [انتفاخ] ولكنه يقدم استنساخاً محدوداً، ويركز محرك ديا على الحوار بين متحدثين متعددين مع أصوات غير لفظية. ويركز محرك زونوس على اختيار المشاعر الصريحة بالإضافة إلى استنساخ الصوت الواحد القوي، مما يعطيك تحكماً دقيقاً في مزاج كل مقطع. اختار المحرك الذي يتناسب معك سواء كنت بحاجة إلى علامات المشاعر، أو تحولات الحوار، أو المشاعر القابلة للاختيار.

نعم، حسابات TextToSpeechAI الجديدة تحصل على رصيد مبدئي مجاني، ويسمح لك العرض التجريبي بإنشاء عينة صوتية دون التسجيل، وهذا يكفي لاختبار التحكم في المشاعر واستنساخ الصوت قبل شراء رصيد إضافي.

Technical Specs

  • Generation Speed Medium
  • Output Quality Excellent
  • Voice Cloning Supported
  • Languages 5
  • GPU VRAM 8GB+
  • Credits/1000 chars 50

Try المناطق Now

Generate your first audio free. No credit card required.

Start Free