صدای دلنشین ۲Name

Premium

شبیه‌سازی صدای چندزبانه Zero-shot با پشتیبانی جریان

Fast سرعت
Very Good کیفیت
آره شبیه‌سازی
5 زبانها

در مورد صدای دلنشین ۲Name

CosyVoice2 is a next-generation speech synthesis model from FunAudioLLM (Alibaba). It delivers natural-sounding zero-shot voice cloning across multiple languages with streaming capability for low-latency applications. Built on a finite scalar quantization approach, it achieves excellent voice similarity with just a few seconds of reference audio.

ویژگیهای کلیدی

شبیه‌سازی صدای Zero-Shot

هر صدایی را از ۳ تا ۱۰ ثانیه صدای مرجع با صدایی با کیفیت بالا کپی کنید.

چندزبانه

از زبان چینی، انگلیسی، ژاپنی، کره‌ای و کانتونی با ترکیب بین زبانی پشتیبانی می‌کند.

پشتیبانی جریان

حالت جریان با تأخیر کم برای برنامه‌های کاربردی زمان واقعی و سیستم‌های تعاملی.

نظم طبیعی

مدل‌سازی پیشرفتهٔ صدای گفتار، صدای طبیعی را با نت‌بندی مناسب تولید می‌کند.

موارد استفاده

ایجاد محتوای چندزبانه دستیارهای صوتی زمان واقعی ترجمه فارسی برنامه‌های کاربردی صدای شخصیName

چطور استفاده شود صدای دلنشین ۲Name

  1. 1

    ثبت نام و درخواست اعتبار رایگان

    Create a free TextToSpeechAI account to claim your starter credits, or try the demo first. No GPU or local CosyVoice2 install is needed - everything runs on our infrastructure.

  2. 2

    انتخاب صدای دلنشین ۲ و اضافه کردن یک کلیپ مرجع

    CosyVoice2 را به عنوان موتور خود انتخاب کنید ، سپس یک ضبط مرجع ۳- ۱۰ ثانیه‌ای از صدایی که می‌خواهید شبیه سازی کنید را بارگذاری کنید. CosyVoice2 ویژگی‌های سخنران را برای شبیه سازی چندزبانه با شلیک صفر استخراج می‌کند.

  3. 3

    متن خود را در هر زبان پشتیبانی‌شده وارد کنید

    تایپ یا چسباندن دست‌نوشتۀ خود به زبان چینی، انگلیسی، ژاپنی، کره‌ای یا کانتونی. CosyVoice2 از ترکیب زبانی پشتیبانی می‌کند ، بنابراین صدای شبیه‌سازی شده می‌تواند به زبانی متفاوت از ویدئو مرجع صحبت کند.

  4. 4

    تولید گفتار

    کلیک روی Generate و CosyVoice2 گفتار طبیعی و چندزبانه را در صدای شبیه سازی شده ترکیب می‌کند، معمولاً در عرض چند ثانیه برای متن کوتاه.

  5. 5

    دانلود یا استفاده از API

    فایل صوتی نهایی را به صورت MP3 یا WAV از تاریخچه خود دانلود کنید، یا از طریق REST API TextToSpeechAI، کپی صدای CosyVoice2 را در مقیاس خودکار کنید.

صدای دلنشین ۲Name API

تولید گفتار به صورت برنامه‌ریزی شده با استفاده از REST API TextToSpeechAI.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "CosyVoice2، گفتار طبیعی چندزبانه را با قابلیت شبیه‌سازی صدای صفر\u002Dشلیک ارائه می‌دهد.",
    "voice": "en_US-lessac-medium"
  }'

پرسشهای متداول

CosyVoice2 is a next-generation text-to-speech and voice cloning model from FunAudioLLM (Alibaba). It supports zero-shot voice cloning from just a few seconds of reference audio and can synthesize natural speech in Chinese, English, Japanese, Korean, and Cantonese. On TextToSpeechAI you can run CosyVoice2 in the browser without any local setup.

بله ، CosyVoice2 کاملاً مجوز آپاچی ۲٫ ۰ را دارد — هم کد و هم وزن مدل. این باعث می‌شود که استفاده از آن در محصولات تجاری ، محتوای پرداختی و کارهای مشتری بدون هزینه مجوز یا محدودیت‌های غیر تجاری ایمن باشد.

CosyVoice2 از پنج زبان پشتیبانی می‌کند: چینی (ماندران)، انگلیسی، ژاپنی، کره‌ای و کانتونی. همچنین ترکیب بین زبانی را مدیریت می‌کند، بنابراین می‌توانید صدایی را از یک ضبط در یک زبان شبیه سازی کرده و گفتاری را در زبان دیگر تولید کنید.

۳- ۱۰ ثانیه از صدای مرجع تمیز از بلندگو هدف را فراهم می‌کند. CosyVoice2 ویژگی‌های بلندگو را با استفاده از یک رویکرد کوانتیزه کردن مقیاسی متناهی استخراج می‌کند ، سپس گفتار جدیدی را در آن صدای شبیه سازی شده در هر زبان پشتیبانی شده تولید می‌کند. هیچ آموزش مدل یا تنظیم دقیقی نیاز نیست.

CosyVoice2 یکی از قوی‌ترین مدل‌های شبیه‌سازی چندزبانه است که هویت سخنران را حتی هنگام تولید سخنرانی به زبانی متفاوت از کلیپ مرجع حفظ می‌کند.

Yes. CosyVoice2 is a fast model and includes a streaming mode that produces audio with low latency, making it suitable for voice assistants and interactive applications. On TextToSpeechAI generations typically complete in seconds for short text.

CosyVoice2 requires about 4-6GB of VRAM for the 0.5B parameter model, so a GPU with 6GB or more is recommended when self-hosting. On TextToSpeechAI the model runs on our GPU infrastructure, so you do not need any hardware of your own.

CosyVoice2 یک مدل سطح بالا است و هزینه آن ۲۵ کرید برای هر ۱۰۰۰ کاراکتر متن است. هر حساب جدیدی که ایجاد می‌شود، کریدهای رایگان دریافت می‌کند، بنابراین می‌توانید قبل از تصمیم‌گیری برای یک برنامهٔ پرداختی، شبیه‌سازی صدای CosyVoice2 را امتحان کنید.

هر دو موتور شبیه‌سازی صدای پرمیوم هستند. GPT- SoVITS اغلب به بالاترین شباهت خام برای یک صدای هدف تکی می‌رسد ، در حالی که CosyVoice2 برای شبیه‌سازی چندزبانه و چندزبانه قوی‌تر است و حالت جریان با تأخیر کم را اضافه می‌کند. CosyVoice2 را هنگامی که به یک صدای شبیه‌سازی شده برای صحبت به چندین زبان نیاز دارید ، انتخاب کنید.

هر دو آن‌ها شبیه‌سازی صدای با کیفیت بالا را ارائه می‌دهند. CosyVoice2 از زبان‌های بیشتری پشتیبانی می‌کند (۵ در مقابل ۲) و پخش را برای استفاده در زمان واقعی اضافه می‌کند، در حالی که F5-TTS می‌تواند برای بارهای کاری فقط انگلیسی کمی سریعتر باشد.

TextToSpeechAI به شما اجازه می‌دهد تا نسل‌های CosyVoice2 را در فرمت‌های رایج مانند MP3 و WAV صادر کنید.

Yes. You can test CosyVoice2 with the free demo and your free starter credits on TextToSpeechAI without installing anything. Just sign up, upload a short reference clip, type your text in any supported language, and generate.

Technical Specs

  • Generation Speed Fast
  • Output Quality Very Good
  • Voice Cloning Supported
  • Languages 5
  • GPU VRAM 4-6GB
  • Credits/1000 chars 25

Try صدای دلنشین ۲Name Now

Generate your first audio free. No credit card required.

Start Free