أنا

Ultra

تحويل النصوص إلى صوت موجه نحو الحوار مع استنساخ الصوت والأصوات غير اللفظية

Medium السرعة
Excellent الجودة
نعم الاستنساخ
1 اللغات

عن أنا

ing a 100% natural conversational speech with support for nonverbal sounds like laughter, sighs, and coughs. Dia supports multi-speaker dialogue generation and voice cloning from 5-10 seconds of reference audio, making it ideal for creating realistic conversational speech with support for nonverbal sounds like laughter, sighs, and coughs. Dia supports multi-speaker dialogue generation and voice cloning from

السمات الرئيسية

جيل الحوار

توليد محادثات طبيعية متعددة المتحدثين بأصوات متميزة وتناوب.

الأصوات غير اللفظية

تضاف عبارة [ضحك]، [انتفاخ]، [سعال]، (تنفس) للتعبير الطبيعي عن التعبيرات الشبه اللغوية.

استنساخ الصوت

استنساخ أي صوت من 5-10 ثوان من السمع المرجعي للكلام الشخصي.

محادثة طبيعية

1.6B البارامترات تنتج لغة طبيعية جدا ونغمة المحادثة.

حالات الاستخدام

إقامة الحوار والمحادثات إنتاج كتب سمعية تتضمن أشخاصا متعددين أصوات شخصيات الألعاب بث البرامج الإذاعية وإنشاء المحتوى

كيف تستخدم أنا

  1. 1

    انضم مجانا أو افتح العرض

    إنشاء حساب مجاني TextToSpeechAI للمطالبة ببدء الائتمانات، أو فتح العرض التجريبي بدون التسجيل لتجربة حوار ديا على الفور.

  2. 2

    انتقِ محرك Dia

    في لوحة التحكم لترجمة النصوص إلى صوت، اختر Dia من قائمة المحركات. Dia هو نموذج ذو طبقة فائقة موجه نحو الحوار مع دعم للمتحدثين المتعددين واستنساخ الصوت.

  3. 3

    كتابة نص حوار مع علامات

    ضع محادثتك باستخدام [S1] و [S2] لتحديد كل دور للمتحدث، وأسقط علامات غير لفظية مثل [ضحك]، [انتفاخ]، [سعال]، أو (تنفس) حيث تريد ردود فعل طبيعية.

  4. 4

    صنع الصوت

    انقر على إنشاء لإرسال نص ديّا الخاص بك إلى وحدات المعالجة الرسومية المستضافة لدينا. وسيقوم ديّا بعرض حوار المتكلمين مع التناوب وعلاماتك غير اللفظية في ملف صوت واحد.

  5. 5

    تنزيل أو استدعاء واجهة البرمجة التطبيقية

    تحميل الحوار المنتهي في الشكل الذي اخترته، أو أتمتته بنشر نفس النص [S1]/[S2] إلى TextToSpeechAI API مع رمز حسابك.

أنا ألف - البرنامج المتقدم للتطبيق

توليد الكلام برمجياً باستخدام REST API TextToSpeechAI.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "مرحباً كيف حالك اليوم؟ أنا بخير، شكراً على السؤال",
    "voice": "en_US-lessac-medium"
  }'

الأسئلة المتكررة

ديا هو نموذج 1.6B من مختبرات ناري لتحويل النص إلى حديث موجه نحو الحوار، وهو متخصص في توليد حديث محادثة طبيعي مع دعم لمتحدثين متعددين، وأصوات غير لفظية، واستنساخ الصوت.

نعم، برنامج ديا مرخص بالكامل من قبل شركة أباشي 2.0 - سواء فيما يتعلق بالشفرة أو بالنموذج، ويمكن استخدامه بحرية في التطبيقات التجارية.

ويدعم برنامج ديا حاليا اللغة الإنكليزية فقط، وقد تم تحسين النموذج ليكون مناسبا للكلام الطبيعي باللغة الإنكليزية.

يتطلب Dia حوالي 10 جيجا بايت من ذاكرة العرض لنموذجه 1.6B. يوصى بمعالج رسوميات بحجم 12 جيجا بايت على الأقل للتشغيل المريح. على TextToSpeechAI، كل هذا يعمل على معالجات الرسوميات المستضافة لدينا، لذلك لا تحتاج إلى أي معدات خاصة بك.

نعم - الحوار هو بالضبط ما تم بناءه لـ Dia. من خلال التناوب بين [S1] و [S2] في النص الخاص بك، ينتج Dia TTS محادثة متدفقة بين متحدثين اثنين بأصوات متميزة وتحويلات واقعية، وهو ما يصعب تحقيقه مع نماذج TTS ذات متحدث واحد.

ضع علامة [S1] أو [S2] قبل كل سطر من نصك لتحديد من يتحدث. وتعطي ديا صوتًا ثابتًا لكل علامة وتتحول بينهما مع حركة المحادثة، لذا [S1] و [S2] يعملان كشخصين في حوارك.

نعم. يدعم Dia استنساخ الصوت من حوالي 5-10 ثوان من الصوت المرجعي النظيف، مما يسمح لك بإعادة استخدام صوت محدد لمتحدث. يمكنك الجمع بين الاستنساخ مع العلامات [S1]/[S2] بحيث يبدو كل شخصية في حوار مثل الصوت الذي استنسخته.

ديا تترجم [ضحك]، [انتفاخ]، [سعال]، و [تنفس] كأصوات طبيعية شبه لغوية منسوجة في الخطاب بدلا من الكلمات المنطوقة. ضع علامة على المكان الذي تريد أن يحدث فيه رد الفعل - على سبيل المثال "[S1] هذا مضحك [ضحك]" - لجعل الحوار يبدو أكثر إنسانية.

كل من ديا وبارك يدعمان الأصوات غير اللفظية التعبيرية، ولكن ديا مصمم خصيصًا للحوار بين متحدثين متعددين مع [S1]/[S2] التناوب واستنساخ الصوت. اختار ديا للمحادثات الواقعية بين شخصين وعمل الشخصيات؛ وبارك هو ملائم أفضل عندما تحتاج إلى تغطية لغة أوسع في السرد بصوت واحد.

إن محرك دي آي آي هو محرك ذو طبقة فائقة، لذا فإن تكلفة كل ألف حرف من الكلمات المولدة تبلغ 50 نقطة. ويعكس المستوى الفائق النموذج الأكبر 1.6B وذاكرة وحدة المعالجة الرسومية التي تستخدمها للحوارات عالية الجودة والتي تبلغ نحو 10 جيجا بايت.

نعم. تتضمن حسابات TextToSpeechAI الجديدة ائتمانات بدء مجانية، وهناك عرض يمكنك تشغيله دون التسجيل. وهذا يكفي لإنتاج حوار قصير لـ Dia مع علامات [S1]/[S2] قبل اتخاذ قرار بشأن خطة مدفوعة.

نعم، بمجرد أن تحصل على رمز API من صفحة حسابك، يمكنك تقديم نصوص الحوار Dia - بما في ذلك [S1]/[S2] وعلامات مثل [ضحك] - إلى TextToSpeechAI REST API وتحميل الصوت الناتج عن ذلك برمجياً.

Technical Specs

  • Generation Speed Medium
  • Output Quality Excellent
  • Voice Cloning Supported
  • Languages 1
  • GPU VRAM 10GB
  • Credits/1000 chars 50

Try أنا Now

Generate your first audio free. No credit card required.

Start Free