VITS

Standard

TTS سریع از سر تا سر با گفتار طبیعی

Very Fast سرعت

Good کیفیت

نه شبیه‌سازی

10 زبانها

در مورد VITS

-to-end neural TTS model that generates natural-sounding speech. It combines variational autoencoders with adversarial learning for

ویژگیهای کلیدی

ترکیب سریع

معماری پایان به پایان برای تولید سریع گفتار.

پردازش دسته

به صورت همزمان چندین برنامه را اجرا کنید.

گفتار طبیعی

آموزش VAE+GAN تولید صدای طبیعی و ریتم را فراهم می‌کند.

چند بلندگو

یک مدل واحد از چندین صدای سخنگو پشتیبانی می‌کند.

کارآمد

حافظه کم با عملکرد خوب.

متن باز

هر نوع استفاده از آن ممنوع است.

موارد استفاده

تولید صوتی دسته بسترهای یادگیری الکترونیکی خوانندگان خبرName اعلامیه‌های خودکار سیستم‌های IVR محتوای حجم بالا

VITS Voices

View All 109

LJSpeech (English Female)

VCTK Speaker 225 (English Female)

VCTK Speaker 226 (English Male)

VCTK Speaker 227 (English Male)

VCTK Speaker 228 (English Female)

VCTK Speaker 229

VCTK Speaker 230

VCTK Speaker 231

VCTK Speaker 232

VCTK Speaker 233

VCTK Speaker 234

VCTK Speaker 236

چطور استفاده شود VITS

1

ثبت نام رایگان یا آزمایش نمایشی

Create a free TextToSpeechAI account to get starter credits, or use the on-page demo to hear VITS before signing up.
2

برگزیدن صدا یا بلندگوهای VITS

در کتابخانه صداها جستجو کنید و صدایی را که با نشان VITS نشان داده شده است ، انتخاب کنید. کتابخانه چند بلندگوهای VITS ، از جمله مجموعه بلندگوهای VCTK ، به شما اجازه می‌دهد که از میان صداهای متمایز بسیاری ، انتخاب کنید.
3

وارد کردن متن

متنی را که می‌خواهید به ویرایشگر گفته شود ، تایپ یا بچسبانید. VITS ، گذرگاه‌های طولانی را به خوبی مدیریت می‌کند و برای محتوای دسته و حجم بالا ایده‌آل است.
4

تولید صدا

برای ساخت گفتار با VITS ، روی تولید کلیک کنید. چون VITS بسیار سریع و سطح استاندارد است (۱۰ واحد در ۱۰۰۰ کاراکتر)، نتایج به سرعت با هزینه کم برمی‌گردند.
5

دانلود یا استفاده از API

فایل صوتی نهایی را به صورت MP3، WAV یا OGG دانلود کنید، یا همان صدای VITS را از طریق REST API TextToSpeechAI برای تولید خودکار در برنامه خود فراخوانی کنید.

VITS API

تولید گفتار به صورت برنامه‌ریزی شده با استفاده از REST API TextToSpeechAI.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "VITS، گفتار سریع و طبیعی را برای برنامه‌های حجم بالا ارائه می‌دهد.",
    "voice": "vits-ljspeech"
  }'

خواندن مستندات API کلید API خود را دریافت کنید

پرسشهای متداول

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is an end-to-end neural TTS model that combines a variational autoencoder with adversarial GAN training. It generates natural-sounding speech in a single pass, which makes it fast and efficient. You can try VITS free on TextToSpeechAI.

Yes, VITS is open-source under the MIT license, so it supports full commercial use without restrictions. It is widely used in commercial products and services. On TextToSpeechAI, VITS costs 10 credits per 1000 characters on the Standard tier.

TextToSpeechAI offers a large multi-speaker VITS library, including the VCTK voice set with dozens of distinct English speakers. A single VITS model can host many speakers, so you can choose from many different voices without switching engines.

مدل‌های رایج VITS شامل انگلیسی، چینی، ژاپنی، کره‌ای، آلمانی، فرانسوی و دیگر زبان‌های اصلی با پوشش چندزبانه انگلیسی از مجموعه داده‌های VCTK است.

معماری از سر تا سر آن از مراحل پردازش چند گانه مدل‌های دیگر جلوگیری می‌کند، که به همین دلیل VITS برای ترکیب بسته و حجم بالا مناسب است.

No, VITS does not support voice cloning. It uses pre-trained multi-speaker models rather than copying a target voice from a sample. For voice cloning on TextToSpeechAI, use F5-TTS or GPT-SoVITS instead.

VITS صدای با کیفیت خوب با ریتم و قافیه طبیعی تولید می‌کند. در حالی که در سطح StyleTTS 2 یا Tortoise نیست ، کیفیت عالی برای سرعت خود را ارائه می‌دهد ، به ویژه برای پردازش دسته ای.

VITS is memory-efficient, typically needing only a few GB of VRAM (around 4GB). It runs comfortably on consumer GPUs, and on TextToSpeechAI all rendering happens on our servers so you do not need any hardware of your own.

VITS and Piper are both fast, MIT-licensed Standard-tier engines on TextToSpeechAI. Piper is the lightest and fastest option, while VITS offers a large multi-speaker library (including VCTK) with slightly more natural prosody. Neither supports voice cloning.

VITS یک موتور سطح استاندارد است که هزینه آن ۱۰ کرید در هر ۱۰۰۰ کاراکتر است. این پایین‌ترین سطح قیمت گذاری ما به لطف طبیعت سریع و کارآمد مدل VITS است.

VITS generates audio at 22050Hz natively. Through TextToSpeechAI you can request MP3, WAV, or OGG formats, with automatic conversion handled for you.

Sign up on TextToSpeechAI to receive free starter credits, then pick a VITS voice, enter your text, and generate audio. You can also use the demo to hear VITS before creating an account, and access VITS through our REST API once you sign up.

Technical Specs

Generation Speed Very Fast
Output Quality Good
Voice Cloning Not Supported
Languages 10
GPU VRAM 1-2GB
Credits/1000 chars 10

Try VITS Now

Generate your first audio free. No credit card required.

Start Free

Other TTS Engines

VITS

در مورد VITS

ویژگیهای کلیدی

ترکیب سریع

پردازش دسته

گفتار طبیعی

چند بلندگو

کارآمد

متن باز

موارد استفاده

VITS Voices

LJSpeech (English Female)

VCTK Speaker 225 (English Female)

VCTK Speaker 226 (English Male)

VCTK Speaker 227 (English Male)

VCTK Speaker 228 (English Female)

VCTK Speaker 229

VCTK Speaker 230

VCTK Speaker 231

VCTK Speaker 232

VCTK Speaker 233

VCTK Speaker 234

VCTK Speaker 236

چطور استفاده شود VITS

ثبت نام رایگان یا آزمایش نمایشی

برگزیدن صدا یا بلندگوهای VITS

وارد کردن متن

تولید صدا

دانلود یا استفاده از API

VITS API

پرسشهای متداول

VTTS چیست؟

VITS برای استفاده تجاری رایگان است؟

چند تا صداي VITS هست؟

زبان فارسی از چه زبان‌هایی پشتیبانی می‌کند؟

چقدر سرعت داره؟

VITS از شبیه‌سازی صدا پشتیبانی می‌کند؟

کیفیت صدای VITS چیه؟

به چه میزان حافظه GPU VITS نیاز دارد؟

ویتس در مقابل پایپر: کدام را باید استفاده کنم؟

VITS چقدر براي TextToSpeechAI دلار ارزش داره؟

چه فرمت‌های صوتی VITS خروجی می‌دهد؟

چطور مي تونم VITS رو مجاني امتحان کنم؟

Technical Specs

Try VITS Now

Other TTS Engines

پوست

جعبه گفتگو

صدای دلنشین ۲Name