كوكورو

Standard

سريع، خفيف الوزن، TTS مع نوعية طبيعية

Very Fast السرعة
Good الجودة
لا الاستنساخ
9 اللغات

عن كوكورو

Kokoro is an ultra-lightweight 82M parameter TTS model that delivers natural-sounding speech at incredible speed. It runs near real-time even on CPU, making it ideal for applications where low latency is critical. Kokoro supports multiple languages and offers voice blending capabilities.

السمات الرئيسية

الخفيفة جدا

82M بارامترات، ~300MB حجم النموذج. يعمل على وحدة المعالجة المركزية مع الحد الأدنى من الموارد.

قريبة من الوقت الحقيقي

يولد الكلام أسرع من سرعة التشغيل، حتى بدون تسارع GPU.

تعدد اللغات

يدعم اللغات الإنكليزية والفرنسية والإسبانية والهندية واليابانية والصينية والإيطالية والبرتغالية والكورية.

مزج الصوت

خلط صوتين معاً لإنشاء مجموعات صوتية فريدة.

حالات الاستخدام

الروبوتات الدردشة في الوقت الحقيقي والمساعدون الافتراضيون تحويل النصوص إلى صوت نشر التطبيقات المحيطية والتطبيقات المتنقلة تجهيز كميات كبيرة من البيانات

كيف تستخدم كوكورو

  1. 1

    تسجيل مجاني أو تجربة العرض

    إنشاء حساب مجاني TextToSpeechAI للحصول على 200 رصيد بدء، أو استخدام البيان العملي دون التسجيل للاستماع كوكورو فورا. المستوى القياسي يعني كوكورو تكلفة فقط 10 رصيد لكل 1000 كلمة.

  2. 2

    اختار صوت كوكورو

    افتح متصفح الصوت وانتخب صوت كوكورو باللغة المستهدفة (9 مدعومة، من الإنجليزية إلى اليابانية والكوريّة). يمكنك أيضاً استخدام مزج الصوت كوكورو لخلط صوتين في تركيبة شخصية.

  3. 3

    أدخل نصك

    يقوم كوكورو بمعالجة المقاطع الطويلة بكفاءة بفضل محركه الخفيف الوزن 82M-parameter، الذي يعمل في الوقت الحقيقي تقريباً.

  4. 4

    تعديل السرعة و توليد

    حدد سرعة التشغيل لتتناسب مع حالة استخدامك، ثم انقر على توليد. يقوم كوكورو بعرض الصوت أسرع من الوقت الحقيقي، لذا فإن كلمتك جاهزة على الفور تقريباً.

  5. 5

    تنزيل أو استخدام واجهة البرمجة التطبيقية

    تنزيل الصوت النهائي في MP3 أو WAV، أو توليد آلي من خلال REST API TextToSpeechAI على api.texttospeechai.com لعبء العمل في الوقت الحقيقي.

كوكورو ألف - البرنامج المتقدم للتطبيق

توليد الكلام برمجياً باستخدام REST API TextToSpeechAI.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "كوكورو يقدم حديث طبيعي بسرعة وفعالية لا تصدق.",
    "voice": "en_US-lessac-medium"
  }'

الأسئلة المتكررة

إن كوكورو نموذج خفيف للغاية لتحويل النص إلى كلمة لا يحتوي إلا على 82 مليون بارامترات. وعلى الرغم من حجمه الصغير، فإنه ينتج كلمات طبيعية عبر لغات متعددة بسرعة قريبة من الزمن الحقيقي، حتى على المعالج المركزي.

نعم، كوكورو مرخصة بالكامل من قبل أباشي 2.0 - سواء في الشفرة أو في وزن النموذج، ويمكن استخدامها بحرية في التطبيقات التجارية دون قيود.

يدعم كوكورو الإنجليزية (الأمريكية والبريطانية)، والفرنسية، والإسبانية، والهندية، واليابانية، والصينية، والإيطالية، والبرتغالية، والكورية.

كوكورو هو واحد من أسرع نماذج TTS المتاحة، وهو يولد الكلام أسرع من سرعة التشغيل في الوقت الحقيقي حتى على وحدة المعالجة المركزية، مما يجعله مثاليا للتطبيقات التفاعلية.

لا، كوكورو لا يدعم استنساخ الصوت. إنه يستخدم مكتبة صوتية مختارة مع قدرات مزج الصوت. لاستنساخ الصوت، استخدم F5-TTS، Chatterbox، StyleTTS2، OpenVoice، أو Tortoise.

يمكن لكوكورو أن يخلط صوتين معاً لإنشاء تركيبات فريدة. وهذا يسمح لك بإنشاء خصائص صوتية مخصصة دون استنساخ الصوت التقليدي.

وكلاهما نموذجان سريعا وخفيف الوزن، ولدى كوكورو بنية أكثر حداثة وتدعم مزج الأصوات، بينما لدى بايبر مكتبة أصوات أكبر، وكلاهما ممتازان للتطبيقات في الوقت الحقيقي.

لقد صمم كوكورو ليعمل على وحدة المعالجة المركزية ويتطلب الحد الأدنى من الموارد - حوالي 300 ميغابايت. لا يحتاج إلى وحدة معالجة رسومية، على الرغم من دعم تسريع وحدة المعالجة المركزية لمعالجة أسرع.

نعم، تولد كوكورو الكلام بسرعة أكبر من إعادة التشغيل حتى على وحدة المعالجة المركزية، مع تأخير منخفض للغاية، لذا فهي ملائمة بشكل ممتاز للروبوتات الدردشة، والمساعدين الصوتيين، والبث المباشر. ويحافظ حجم بارامترات 82 ميجا بايت على استخدام الذاكرة ضئيلا، مما يجعلها عملية لنشر الحجم الكبير والحافة.

مزج الصوت يسمح لك بمزج صوتين كوكورو معاً لإنشاء مزيج فريد من نوعه بخصائص مخصصة. إنه ليس استنساخ صوت تقليدي - لا يمكنك استنساخ شخص محدد من عينة - ولكنه يعطيك تنوعاً أكبر من مكتبة أصوات ثابتة. يمكنك تجربة المزج مباشرة في محرر TextToSpeechAI.

كلاهما محركان سريعا، وهما من الدرجة القياسية وهما صديقان لمعالج المعالجة المركزية بدون استنساخ الصوت. كوكورو هو الأخف وزنا (حوالي 300 ميغابايت) ويدعم مزج الصوت عبر 9 لغات، بينما يركز MeloTTS على لهجات إنجليزية متعددة وخرج متعدد اللغات في الوقت الحقيقي. اختار كوكورو لأصغر مساحة ومزج؛ اختار MeloTTS عندما تحتاج لهجات محددة.

كوكورو هو محرك من المستوى القياسي، بتكلفة 10 ائتمانات لكل 1000 حرف - أدنى مستوى على TextToSpeechAI. الحسابات الجديدة تحصل على 200 ائتمانات مجانية، لذلك يمكنك تجربة كوكورو دون دفع. وهذا يجعله واحدا من أكثر الطرق فعالية من حيث التكلفة لتوليد حديث عالي الجودة على نطاق واسع.

Technical Specs

  • Generation Speed Very Fast
  • Output Quality Good
  • Voice Cloning Not Supported
  • Languages 9
  • GPU VRAM CPU OK
  • Credits/1000 chars 10

Try كوكورو Now

Generate your first audio free. No credit card required.

Start Free