VITS

Standard

Təbii Sözlə Yüksək Sürətli Son-Son TTS

Very Fast Sür'ət
Good Keyfiyyət
_Yox Köçür
10 Dillər

Bağlan VITS

-to-end neural TTS model that generates natural-sounding speech. It combines variational autoencoders with adversarial learning for efficient synthesis. VITS is excellent for batch processing and applications requiring

Xüsusiyyətlər

Sür'ətli sintez

End-to-end arxitekturası sürətli söz istehsalı üçün.

Paket İşləmə

Birdən çox mətni effektiv şəkildə işlət.

Təbii Sənəd

VAE+GAN təlimində təbii prosodiya və ritm yaranır.

Çoxlu səsləndirici

Bir model bir neçə səsləndirici səsləri dəstəkləyir.

Mükəmməl

Düzgün performansla aşağı yaddaş istifadəsi.

Açıq mənbə

Hər hansı bir istifadə üçün MIT lisenziyalıdır.

İstifadə halları

Audio Yarad E-öyrənmə platformaları Xəbər oxuyucuları Avtomatik bildirişlər IVR Sistemləri Yüksək səsli

VITS Voices

View All 109
LJSpeech (English Female)
EN
VCTK Speaker 225 (English Female)
EN
VCTK Speaker 226 (English Male)
EN
VCTK Speaker 227 (English Male)
EN
VCTK Speaker 228 (English Female)
EN
VCTK Speaker 229
EN
VCTK Speaker 230
EN
VCTK Speaker 231
EN
VCTK Speaker 232
EN
VCTK Speaker 233
EN
VCTK Speaker 234
EN
VCTK Speaker 236
EN

Necə istifadə edilməlidir VITS

  1. 1

    Pulsuz qeyd olun ya da demonu sınayın

    Starter kreditləri almaq üçün pulsuz TextToSpeechAI hesabını yaradın, ya da qeydiyyatdan keçmədən əvvəl VITS-i eşitmək üçün səhifədəki demodan istifadə edin.

  2. 2

    VITS səsi ya da səsləndiricisi seçin

    Sessi kitabxanasını gəzərək VITS simvolu ilə işarələnmiş səsi seçin. VCTK səsləndiriciləri də daxil olmaqla çoxlu səsləndirici VITS kitabxanası sizə bir çox fərqli səslərdən seçməyinizə imkan verir.

  3. 3

    Mətni daxil edin

    Yazmaq istədiyiniz mətni redaktora daxil edin ya da yapışdırın. VITS uzun hissələri yaxşı idarə edir və çoxlu və böyük həcmli məzmun üçün idealdır.

  4. 4

    Audionu yarat

    VITS ilə sintez etmək üçün yaradıl düyməsini basın. VITS çox sürətli və Standart səviyyəli olduğundan (1000 xarakter üçün 10 kredit), nəticələr tez və ucuz olaraq geri gəlir.

  5. 5

    API yüklə və ya istifadə et

    Son audionu MP3, WAV, ya da OGG olaraq yükləyin, ya da eyni VITS səsini TextToSpeechAI REST API vasitəsilə çağırın öz tətbiqinizdə avtomatlaşdırılmış istehsal etmək üçün.

VITS API

TextToSpeechAI REST API-ni istifadə edərək proqramlaşdırma yolu ilə danışığı yarada bilərsiniz.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "VITS yüksək həcmli tətbiqlər üçün sürətli, təbii danışığı təmin edir.",
    "voice": "vits-ljspeech"
  }'

Tez-tez Sorulan Sual

VITS (Variasiyalı İnferensiya ilə Mübarizəli Öyrənmə üçün Sondan Sona Mətndən Söhbətə) sondan sona neyron TTS modelidir ki, bu da variasiyalı avto-koderi mübarizəli GAN təlimlə birləşdirir. Bu, tək bir keçiddə təbii səsli səsi yaradır, bu da onu sürətli və səmərəli edir. VITS-i TextToSpeechAI-də pulsuz sınaya bilərsiniz.

Bəli, VITS MIT lisenziyası altında açıq mənbədir, buna görə də məhdudiyyətsiz ticarət istifadəsini dəstəkləyir. Ticarət məhsulları və xidmətlərində geniş istifadə olunur. TextToSpeechAI-də VITS-in qiyməti Standart səviyyədə 1000 xarakter üçün 10 kreditdir.

TextToSpeechAI VCTK səsləri və onlarla fərqli İngilis səsləri ilə birlikdə çoxlu səsli VITS kitabxanası təklif edir. Bir VITS modeli bir çox səsi qəbul edə bilər, buna görə də siz motoru dəyişmədən bir çox səsdən seçə bilərsiniz.

VITS dəstəkləməsi öyrənilmiş modelə bağlıdır. Ən çox yayılmış VITS modelləri ingilis, çin, yapon, koreya, alman, fransız və digər əsas dilləri əhatə edir, VCTK məlumat toplusundan çox-sözlü ingilis dili əhatə edir.

VITS çox sürətlidir, real vaxtda və ya GPU-da daha sürətli səs yarada bilir. Onun son-son mimarisi digər modellərin çoxlu işləmə mərhələlərindən uzaqdır, bu səbəbdən VITS paket və yüksək həcmli sintez üçün yaxşı uyğundur.

Xeyr, VITS səs klonlamasını dəstəkləmir. O, məqsəd səsini nümunədən kopyalamaq əvəzinə əvvəlcədən öyrədilmiş çoxlu-hazırlayıcı modelləri istifadə edir. TextToSpeechAI-də səs klonlama üçün, bunun əvəzinə F5-TTS və ya GPT-SoVITS istifadə edin.

VITS təbii prozodiya və ritmlə yaxşı keyfiyyətli səs istehsal edir. StyleTTS 2 və ya Tortoise səviyyəsində olmasa da, sürəti üçün, xüsusilə də paket işləmə üçün mükəmməl keyfiyyət təklif edir.

VITS yaddaş səmərəlidir, adətən yalnız bir neçə GB VRAM (təxminən 4GB) tələb edir. İstehsalçı GPU-larda rahat işləyir, TextToSpeechAI-də bütün renderləmələr bizim serverlərdə baş verir, buna görə də öz hardveriniz lazım deyil.

VITS və Piper TextToSpeechAI-də MIT-licensiyalı Standart-tier mühərrikləridir. Piper ən yüngül və sürətli seçimdir, VITS isə VCTK daxil olmaqla daha təbii prozodiya ilə böyük bir çox səsləndirici kitabxanası təklif edir. Heç biri səs klonlaşdırmasını dəstəkləmir.

VITS 1000 xarakter üçün 10 kredit dəyərində olan Standart səviyyəli bir motordur. VITS modelinin səmərəli və sürətli olmasına görə bu bizim ən aşağı qiymətli səviyyəmizdir.

VITS 22050Hz-də səsi yerli olaraq yaradır. TextToSpeechAI vasitəsilə MP3, WAV, ya da OGG formatlarını istəyərək, avtomatik çevirməni sizin üçün idarə edə bilərsiniz.

Pulsuz kreditlər almaq üçün TextToSpeechAI-ə qeyd olun, sonra VITS səsini seçin, mətninizi daxil edin və səsi yarada bilərsiniz. Hesab açmadan əvvəl VITS-i dinləmək üçün demo istifadə edə bilərsiniz və qeyd olunduqdan sonra VITS-ə REST API vasitəsilə daxil ola bilərsiniz.

Technical Specs

  • Generation Speed Very Fast
  • Output Quality Good
  • Voice Cloning Not Supported
  • Languages 10
  • GPU VRAM 1-2GB
  • Credits/1000 chars 10

Try VITS Now

Generate your first audio free. No credit card required.

Start Free