کوکورو

Standard

TTS سریع و سبک با کیفیت طبیعی

Very Fast سرعت
Good کیفیت
نه شبیه‌سازی
9 زبانها

در مورد کوکورو

Kokoro is an ultra-lightweight 82M parameter TTS model that delivers natural-sounding speech at incredible speed. It runs near real-time even on CPU, making it ideal for applications where low latency is critical. Kokoro supports multiple languages and offers voice blending capabilities.

ویژگیهای کلیدی

سبک‌بار

پارامترهای ۸۲M، ~۳۰۰MB اندازه مدل. روی CPU با منابع کم اجرا می‌شود.

نزدیک به زمان واقعی

سرعت تولید گفتار سریعتر از سرعت پخش است، حتی بدون شتاب‌دهنده GPU.

چند زبانه

از زبان‌های انگلیسی، فرانسوی، اسپانیایی، هندی، ژاپنی، چینی، ایتالیایی، پرتغالی و کره‌ای پشتیبانی می‌کند.

ترکیب صدا

دو صدا را با هم ترکیب کنید تا ترکیب‌های منحصر به فردی را ایجاد کنید.

موارد استفاده

چت‌بات‌های زمان واقعی و دستیارهای مجازی متن به گفتار انتشار Edge و برنامه‌های کاربردی موبایل پردازش دسته ای حجم بالا

چطور استفاده شود کوکورو

  1. 1

    ثبت نام رایگان یا آزمایش نمایشی

    Create a free TextToSpeechAI account to get 200 starter credits, or use the no-signup demo to hear Kokoro instantly. The standard tier means Kokoro only costs 10 credits per 1000 characters.

  2. 2

    صدای کوکورو را انتخاب کنید

    باز کردن مرورگر صدا و انتخاب یک صدای Kokoro در زبان هدف خود (۹ پشتیبانی شده ، از انگلیسی تا ژاپنی و کره‌ای). همچنین می‌توانید از ترکیب صدای Kokoro برای ترکیب دو صدا به یک ترکیب سفارشی استفاده کنید.

  3. 3

    وارد کردن متن

    متنی را که می‌خواهید به عنوان گفتار در ویرایشگر تایپ یا چسبیده شود. Kokoro به لطف پارامتر ۸۲M سبک وزن و موتور نزدیک به زمان واقعی ، گذرگاه‌های طولانی را به صورت کارآمد مدیریت می‌کند.

  4. 4

    تنظیم سرعت و تولید

    سرعت پخش را برای مورد استفاده‌تان تنظیم کنید ، سپس تولید را فشار دهید. Kokoro صدا را سریع‌تر از زمان واقعی نمایش می‌دهد ، بنابراین گفتار شما تقریباً بلافاصله آماده است.

  5. 5

    دانلود یا استفاده از API

    دانلود صوت نهایی به صورت MP3 یا WAV، یا تولید خودکار از طریق TextToSpeechAI REST API در api.texttospeechai.com برای بارهای کاری بسته و زمان واقعی.

کوکورو API

تولید گفتار به صورت برنامه‌ریزی شده با استفاده از REST API TextToSpeechAI.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "کوکورو با سرعت و کارایی باورنکردنی سخنرانی طبیعی ارائه می‌دهد.",
    "voice": "en_US-lessac-medium"
  }'

پرسشهای متداول

کوکورو یک مدل متن به گفتار فوق سبک با تنها ۸۲ میلیون پارامتر است که با وجود اندازه کوچکش، صدای طبیعی را در زبان‌های مختلف با سرعت نزدیک به زمان واقعی تولید می‌کند، حتی در CPU.

بله ، Kokoro کاملاً مجوز آپاچی ۲٫ ۰ را دارد — هم کد و هم وزن مدل. می‌تواند به صورت آزاد در برنامه‌های کاربردی تجاری بدون محدودیت استفاده شود.

کوکورو از زبان‌های انگلیسی (آمریکایی و بریتانیایی)، فرانسوی، اسپانیایی، هندی، ژاپنی، چینی، ایتالیایی، پرتغالی و کره‌ای پشتیبانی می‌کند.

Kokoro یکی از سریع‌ترین مدل‌های TTS موجود است. آن حتی در CPU نیز سریع‌تر از سرعت پخش زمان واقعی تولید سخن می‌کند، که آن را برای برنامه‌های کاربردی تعاملی ایده‌آل می‌کند.

نه ، Kokoro از شبیه‌سازی صدا پشتیبانی نمی‌کند. از یک کتابخانه صدای تنظیم شده با قابلیت‌های ترکیب صدا استفاده می‌کند. برای شبیه‌سازی صدا ، از F5-TTS ، Chatterbox ، StyleTTS2 ، OpenVoice یا Tortoise استفاده کنید.

Kokoro می‌تواند دو صدا را با هم ترکیب کند تا ترکیب‌های منحصربه‌فردی ایجاد کند. این به شما اجازه می‌دهد تا بدون شبیه‌سازی سنتی صدا ، ویژگی‌های صدای سفارشی ایجاد کنید.

هر دو مدل سریع و سبک هستند. Kokoro معماری مدرن تری دارد و از ترکیب صدا پشتیبانی می‌کند ، در حالی که Piper کتابخانهٔ صدای بزرگتری دارد. هر دو برای کاربردهای زمان واقعی عالی هستند.

Kokoro برای اجرا بر روی CPU طراحی شده و نیازمند منابع کم است - حدود ۳۰۰ مگابایت. هیچ GPU نیازی نیست، اگرچه شتاب‌دهنده GPU برای پردازش سریع‌تر پشتیبانی می‌شود.

بله. Kokoro حتی در CPU، با تأخیر بسیار کم، گفتار را سریعتر از پخش تولید می‌کند، بنابراین برای چت‌بات‌ها، دستیارهای صوتی و پخش زنده مناسب است. اندازه پارامتر ۸۲M آن حافظه را کوچک نگه می‌دارد، که برای انتشار حجم بالا و لبه کاربردی است.

Voice blending lets you mix two Kokoro voices together to create a unique combination with custom characteristics. It is not traditional voice cloning - you cannot reproduce a specific person from a sample - but it gives you more variety than a fixed voice library. You can experiment with blends directly in the TextToSpeechAI editor.

هر دو موتور سریع و استاندارد سطح CPU- friendly بدون شبیه‌سازی صدا هستند. Kokoro سبک‌ترین (حدود ۳۰۰ مگابایت) و پشتیبانی از ترکیب صدا در ۹ زبان است ، در حالی که MeloTTS بر روی لهجه‌های انگلیسی چندی و خروجی چندزبانه همزمان تمرکز دارد. Kokoro را برای کوچکترین اثر و ترکیب انتخاب کنید. MeloTTS را هنگامی که به لهجه‌های خاص نیاز دارید انتخاب کنید.

Kokoro is a standard-tier engine, costing 10 credits per 1000 characters - the lowest tier on TextToSpeechAI. New accounts get 200 free credits, so you can try Kokoro without paying. This makes it one of the most cost-effective ways to generate high-quality speech at scale.

Technical Specs

  • Generation Speed Very Fast
  • Output Quality Good
  • Voice Cloning Not Supported
  • Languages 9
  • GPU VRAM CPU OK
  • Credits/1000 chars 10

Try کوکورو Now

Generate your first audio free. No credit card required.

Start Free