در مورد VITS
-to-end neural TTS model that generates natural-sounding speech. It combines variational autoencoders with adversarial learning for
ویژگیهای کلیدی
ترکیب سریع
معماری پایان به پایان برای تولید سریع گفتار.
پردازش دسته
به صورت همزمان چندین برنامه را اجرا کنید.
گفتار طبیعی
آموزش VAE+GAN تولید صدای طبیعی و ریتم را فراهم میکند.
چند بلندگو
یک مدل واحد از چندین صدای سخنگو پشتیبانی میکند.
کارآمد
حافظه کم با عملکرد خوب.
متن باز
هر نوع استفاده از آن ممنوع است.
موارد استفاده
VITS Voices
View All 109LJSpeech (English Female)
ENVCTK Speaker 225 (English Female)
ENVCTK Speaker 226 (English Male)
ENVCTK Speaker 227 (English Male)
ENVCTK Speaker 228 (English Female)
ENVCTK Speaker 229
ENVCTK Speaker 230
ENVCTK Speaker 231
ENVCTK Speaker 232
ENVCTK Speaker 233
ENVCTK Speaker 234
ENVCTK Speaker 236
ENچطور استفاده شود VITS
-
1
ثبت نام رایگان یا آزمایش نمایشی
Create a free TextToSpeechAI account to get starter credits, or use the on-page demo to hear VITS before signing up.
-
2
برگزیدن صدا یا بلندگوهای VITS
در کتابخانه صداها جستجو کنید و صدایی را که با نشان VITS نشان داده شده است ، انتخاب کنید. کتابخانه چند بلندگوهای VITS ، از جمله مجموعه بلندگوهای VCTK ، به شما اجازه میدهد که از میان صداهای متمایز بسیاری ، انتخاب کنید.
-
3
وارد کردن متن
متنی را که میخواهید به ویرایشگر گفته شود ، تایپ یا بچسبانید. VITS ، گذرگاههای طولانی را به خوبی مدیریت میکند و برای محتوای دسته و حجم بالا ایدهآل است.
-
4
تولید صدا
برای ساخت گفتار با VITS ، روی تولید کلیک کنید. چون VITS بسیار سریع و سطح استاندارد است (۱۰ واحد در ۱۰۰۰ کاراکتر)، نتایج به سرعت با هزینه کم برمیگردند.
-
5
دانلود یا استفاده از API
فایل صوتی نهایی را به صورت MP3، WAV یا OGG دانلود کنید، یا همان صدای VITS را از طریق REST API TextToSpeechAI برای تولید خودکار در برنامه خود فراخوانی کنید.
VITS API
تولید گفتار به صورت برنامهریزی شده با استفاده از REST API TextToSpeechAI.
curl -X POST "https://api.texttospeechai.com/v1/generate/" \
-H "Authorization: Bearer YOUR_API_TOKEN" \
-H "Content-Type: application/json" \
-d '{
"text": "VITS، گفتار سریع و طبیعی را برای برنامههای حجم بالا ارائه میدهد.",
"voice": "vits-ljspeech"
}'
پرسشهای متداول
Technical Specs
- Generation Speed Very Fast
- Output Quality Good
- Voice Cloning Not Supported
- Languages 10
- GPU VRAM 1-2GB
- Credits/1000 chars 10