سبک TTS ۲

Ultra

متن به گفتار سطح انسانی با انتقال سبکName

Moderate سرعت
Excellent کیفیت
آره شبیه‌سازی
1 زبانها

در مورد سبک TTS ۲

s. It is a

ویژگیهای کلیدی

کیفیت سطح انسانی

این روش، از روش‌های غیرخطی برای ثبت داده‌های تصادفی در داده‌های تصادفی استفاده می‌کند.

انتقال سبک

انتقال سبک گفتار از هر نمونهٔ مرجع صوتی.

نظم طبیعی

ریتم کامل، استرس و نغمه با مدل‌سازی مبتنی بر انتشار.

شبیه‌سازی صدا

صداها رو با دقت و ظرافت فوق العاده کپي کن

استنتاج سریع

سرعت بالاتر از مدل‌های خودبازگشتی با حفظ کیفیت.

متن باز

این نرم‌افزار دارای مجوز MIT با تمام حقوق تجاری است.

موارد استفاده

کتاب‌های صوتی Premium حرفه‌ای تولید فیلم و تلویزیون تبلیغات بالا تولید پادکست صداگذاری

سبک TTS ۲ Voices

View All 6
StyleTTS2 Default
EN
StyleTTS2 Expressive
EN
StyleTTS2 Fast
EN
StyleTTS2 Natural
EN
StyleTTS2 Neutral
EN
StyleTTS2 Quality
EN

چطور استفاده شود سبک TTS ۲

  1. 1

    ثبت نام رایگان یا اجرا کردن نمایش

    Create a free TextToSpeechAI account to get starter credits, or use the homepage demo to hear StyleTTS2 without signing in.

  2. 2

    برگزیدن موتور StyleTTS2

    انتخاب یک صدای StyleTTS2 از کتابخانه صداها. برای شبیه‌سازی یک صدا ، یک کلیپ مرجع ۱۰- ۳۰ ثانیه‌ای را بارگذاری کنید و StyleTTS2 سبک آن را انتقال می‌دهد.

  3. 3

    وارد کردن متن

    متنی را که می‌خواهید گوینده باشد را تایپ یا چسب دهید. StyleTTS2 در انگلیسی برتر است و در گذرگاه‌های طولانی ، نظم طبیعی ، تأکید و نغمه را ارائه می‌دهد.

  4. 4

    تولید صدا

    Click generate and TextToSpeechAI renders your StyleTTS2 audio on GPU. Ultra-tier StyleTTS2 costs 50 credits per 1000 characters.

  5. 5

    دانلود یا استفاده از API

    فایل صوتی StyleTTS2 را به صورت MP3، WAV یا OGG دانلود کنید یا API TextToSpeechAI را با صدای StyleTTS2 خود برای تولید خودکار صدا فراخوانی کنید.

سبک TTS ۲ API

تولید گفتار به صورت برنامه‌ریزی شده با استفاده از REST API TextToSpeechAI.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "StyleTTS2 صدایی طبیعی تولید می‌کند که با ضبط حرفه‌ای انسان رقابت می‌کند.",
    "voice": "styletts2-default"
  }'

پرسشهای متداول

StyleTTS2 is a state-of-the-art text-to-speech model that achieves human-level speech synthesis. It uses style diffusion and adversarial training to produce speech that is virtually indistinguishable from real human recordings in blind listening tests. You can try StyleTTS2 free on TextToSpeechAI.

StyleTTS2 produces the highest quality TTS audio available on TextToSpeechAI. In formal evaluations it reached human-level ratings on MOS (Mean Opinion Score) tests, with listeners often unable to distinguish it from a real human speaker. It sits in our Ultra tier alongside Tortoise for that reason.

بله ، StyleTTS2 از شبیه‌سازی صدا از طریق انتقال سبک پشتیبانی می‌کند. این نه تنها صدای صدا را بلکه الگوهای گفتار ، ریتم و ویژگی‌های احساسی را از یک کلیپ مرجع استخراج می‌کند. برای دقیق‌ترین شبیه‌سازی StyleTTS2 ، ۱۰ تا ۳۰ ثانیه صدای واضح را فراهم کنید.

بله. StyleTTS2 تحت مجوز MIT منتشر می‌شود که اجازه استفاده تجاری کامل بدون حق امتیاز را می‌دهد. این باعث می‌شود که برای کتاب‌های صوتی، تبلیغات، فیلم و دیگر پروژه‌های حرفه ای StyleTTS2 که حقوق اهمیت دارد ایمن باشد.

StyleTTS2 primarily supports English, since the model was trained on English datasets. If you need similar quality across multiple languages, F5-TTS on TextToSpeechAI is a better fit while still supporting voice cloning.

StyleTTS2 سرعت تولید متوسطی دارد. از مدلهای خودبازگشتی مانند Tortoise سریعتر است ، اما از موتورهای سبک مانند Piper کندتر است. به دلیل کیفیت بالا و هزینه محاسباتی ، StyleTTS2 به جای مدل زمان واقعی ، در سطح فوق‌العاده ما قیمت‌گذاری می‌شود.

StyleTTS2 requires roughly 4-6GB of VRAM for inference. It is more memory-efficient than Bark or Tortoise while producing higher quality output. On TextToSpeechAI all StyleTTS2 processing runs on our GPUs, so you do not need any hardware of your own.

StyleTTS2 is an Ultra-tier model and costs 50 credits per 1000 characters on TextToSpeechAI. That premium pricing reflects its human-level quality and the GPU resources required. Standard models like Piper cost 10 credits per 1000 characters by comparison.

هنگامی که کیفیت صدای خام انگلیسی اولویت اول است و شما به طبیعی‌ترین نتیجه نیاز دارید ، StyleTTS2 را انتخاب کنید. هنگامی که به ترکیب چندزبانه سریع با شبیه‌سازی صدا نیاز دارید ، F5- TTS را انتخاب کنید. هر دو از شبیه‌سازی پشتیبانی می‌کنند ، اما StyleTTS2 سطح فوق العاده (۵۰ واحد) است ، در حالی که F5- TTS سطح پرمیوم (۲۵ واحد) است.

StyleTTS2 generates high-quality audio at 24kHz. Through TextToSpeechAI you can download the result as MP3, WAV, or OGG, and we use high-quality encoding so the exceptional StyleTTS2 quality is preserved in the final file.

بله. StyleTTS2 از تنظیمات نرخ گفتار پشتیبانی می‌کند ، و طراحی انتقال سبک آن به شما اجازه می‌دهد که با انتخاب کلیپ‌های مرجع مختلف ، نظم را شکل دهید. انتخاب صدا با ریتم و احساسی که می‌خواهید ، کنترل دقیقی بر تحویل StyleTTS2 به شما می‌دهد.

Pick a StyleTTS2 voice from our library or upload reference audio to create a cloned voice, then reference that voice in your API requests. TextToSpeechAI handles all GPU processing and returns a download URL with your premium StyleTTS2 audio.

Technical Specs

  • Generation Speed Moderate
  • Output Quality Excellent
  • Voice Cloning Supported
  • Languages 1
  • GPU VRAM 4-6GB
  • Credits/1000 chars 50

Try سبک TTS ۲ Now

Generate your first audio free. No credit card required.

Start Free