VITS

Standard

TTS سریع از سر تا سر با گفتار طبیعی

Very Fast سرعت
Good کیفیت
نه شبیه‌سازی
10 زبانها

در مورد VITS

-to-end neural TTS model that generates natural-sounding speech. It combines variational autoencoders with adversarial learning for

ویژگیهای کلیدی

ترکیب سریع

معماری پایان به پایان برای تولید سریع گفتار.

پردازش دسته

به صورت همزمان چندین برنامه را اجرا کنید.

گفتار طبیعی

آموزش VAE+GAN تولید صدای طبیعی و ریتم را فراهم می‌کند.

چند بلندگو

یک مدل واحد از چندین صدای سخنگو پشتیبانی می‌کند.

کارآمد

حافظه کم با عملکرد خوب.

متن باز

هر نوع استفاده از آن ممنوع است.

موارد استفاده

تولید صوتی دسته بسترهای یادگیری الکترونیکی خوانندگان خبرName اعلامیه‌های خودکار سیستم‌های IVR محتوای حجم بالا

VITS Voices

View All 109
LJSpeech (English Female)
EN
VCTK Speaker 225 (English Female)
EN
VCTK Speaker 226 (English Male)
EN
VCTK Speaker 227 (English Male)
EN
VCTK Speaker 228 (English Female)
EN
VCTK Speaker 229
EN
VCTK Speaker 230
EN
VCTK Speaker 231
EN
VCTK Speaker 232
EN
VCTK Speaker 233
EN
VCTK Speaker 234
EN
VCTK Speaker 236
EN

چطور استفاده شود VITS

  1. 1

    ثبت نام رایگان یا آزمایش نمایشی

    Create a free TextToSpeechAI account to get starter credits, or use the on-page demo to hear VITS before signing up.

  2. 2

    برگزیدن صدا یا بلندگوهای VITS

    در کتابخانه صداها جستجو کنید و صدایی را که با نشان VITS نشان داده شده است ، انتخاب کنید. کتابخانه چند بلندگوهای VITS ، از جمله مجموعه بلندگوهای VCTK ، به شما اجازه می‌دهد که از میان صداهای متمایز بسیاری ، انتخاب کنید.

  3. 3

    وارد کردن متن

    متنی را که می‌خواهید به ویرایشگر گفته شود ، تایپ یا بچسبانید. VITS ، گذرگاه‌های طولانی را به خوبی مدیریت می‌کند و برای محتوای دسته و حجم بالا ایده‌آل است.

  4. 4

    تولید صدا

    برای ساخت گفتار با VITS ، روی تولید کلیک کنید. چون VITS بسیار سریع و سطح استاندارد است (۱۰ واحد در ۱۰۰۰ کاراکتر)، نتایج به سرعت با هزینه کم برمی‌گردند.

  5. 5

    دانلود یا استفاده از API

    فایل صوتی نهایی را به صورت MP3، WAV یا OGG دانلود کنید، یا همان صدای VITS را از طریق REST API TextToSpeechAI برای تولید خودکار در برنامه خود فراخوانی کنید.

VITS API

تولید گفتار به صورت برنامه‌ریزی شده با استفاده از REST API TextToSpeechAI.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "VITS، گفتار سریع و طبیعی را برای برنامه‌های حجم بالا ارائه می‌دهد.",
    "voice": "vits-ljspeech"
  }'

پرسشهای متداول

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is an end-to-end neural TTS model that combines a variational autoencoder with adversarial GAN training. It generates natural-sounding speech in a single pass, which makes it fast and efficient. You can try VITS free on TextToSpeechAI.

Yes, VITS is open-source under the MIT license, so it supports full commercial use without restrictions. It is widely used in commercial products and services. On TextToSpeechAI, VITS costs 10 credits per 1000 characters on the Standard tier.

TextToSpeechAI offers a large multi-speaker VITS library, including the VCTK voice set with dozens of distinct English speakers. A single VITS model can host many speakers, so you can choose from many different voices without switching engines.

مدل‌های رایج VITS شامل انگلیسی، چینی، ژاپنی، کره‌ای، آلمانی، فرانسوی و دیگر زبان‌های اصلی با پوشش چندزبانه انگلیسی از مجموعه داده‌های VCTK است.

معماری از سر تا سر آن از مراحل پردازش چند گانه مدل‌های دیگر جلوگیری می‌کند، که به همین دلیل VITS برای ترکیب بسته و حجم بالا مناسب است.

No, VITS does not support voice cloning. It uses pre-trained multi-speaker models rather than copying a target voice from a sample. For voice cloning on TextToSpeechAI, use F5-TTS or GPT-SoVITS instead.

VITS صدای با کیفیت خوب با ریتم و قافیه طبیعی تولید می‌کند. در حالی که در سطح StyleTTS 2 یا Tortoise نیست ، کیفیت عالی برای سرعت خود را ارائه می‌دهد ، به ویژه برای پردازش دسته ای.

VITS is memory-efficient, typically needing only a few GB of VRAM (around 4GB). It runs comfortably on consumer GPUs, and on TextToSpeechAI all rendering happens on our servers so you do not need any hardware of your own.

VITS and Piper are both fast, MIT-licensed Standard-tier engines on TextToSpeechAI. Piper is the lightest and fastest option, while VITS offers a large multi-speaker library (including VCTK) with slightly more natural prosody. Neither supports voice cloning.

VITS یک موتور سطح استاندارد است که هزینه آن ۱۰ کرید در هر ۱۰۰۰ کاراکتر است. این پایین‌ترین سطح قیمت گذاری ما به لطف طبیعت سریع و کارآمد مدل VITS است.

VITS generates audio at 22050Hz natively. Through TextToSpeechAI you can request MP3, WAV, or OGG formats, with automatic conversion handled for you.

Sign up on TextToSpeechAI to receive free starter credits, then pick a VITS voice, enter your text, and generate audio. You can also use the demo to hear VITS before creating an account, and access VITS through our REST API once you sign up.

Technical Specs

  • Generation Speed Very Fast
  • Output Quality Good
  • Voice Cloning Not Supported
  • Languages 10
  • GPU VRAM 1-2GB
  • Credits/1000 chars 10

Try VITS Now

Generate your first audio free. No credit card required.

Start Free