VITS

Standard

Тез әрі толық TTS табиғи дыбыспенName

Very Fast Жылдамдығы
Good Сапа
Жоқ Клондау
10 Тілдер

& Бұл туралы VITS

-efficient, and low-cost TTS model that generates natural-sounding speech. It is a

Басты мүмкіндіктері

Жедел синтез

Архитектуралық стильдер мен стильдік стильдер арасындағы айырмашылықтар.

Дестелік өңдеу

Бірнеше мәтіндерді бір мезгілде тиімді өңдеу.

Табиғи дыбыс

Қазақ тілі мен әдебиеті пәнінің мұғалімі, доцент.

Көп дыбыс шығарғыш

Біріншісі – лингвистикалық модель, екіншісі – лингвистикалық модель.

Тиімді

Жадты аз пайдаланады, бірақ жылдамдығы жақсы.

Ашық коды

MIT лицензиясы кез келген пайдалану жағдайы үшін.

Пайдалану жағдайлары

Аудио жинағын құру Электрондық оқу платформаларыName Жаңалықтарды оқуName Автоматты құлақтандырулар IVR жүйелеріName Дыбысы жоғары мазмұны

VITS Voices

View All 109
LJSpeech (English Female)
EN
VCTK Speaker 225 (English Female)
EN
VCTK Speaker 226 (English Male)
EN
VCTK Speaker 227 (English Male)
EN
VCTK Speaker 228 (English Female)
EN
VCTK Speaker 229
EN
VCTK Speaker 230
EN
VCTK Speaker 231
EN
VCTK Speaker 232
EN
VCTK Speaker 233
EN
VCTK Speaker 234
EN
VCTK Speaker 236
EN

Пайдалануы VITS

  1. 1

    Тегін тіркеліңіз немесе демоны сынап көріңіз

    TextToSpeechAI-нан астам нұсқасы бар, олардың ішінде TextToSpeechAI-нан астам нұсқасы 1999 жылы шығарылған, ал TextToSpeechAI-нан астам нұсқасы 2000 жылы шығарылған.

  2. 2

    VITS дыбыс не динамигін таңдау

    Дыбыс тізімін қарап, VITS белгісі бар дыбысын таңдаңыз. VCTK динамик жиынынан басқа, көп дыбыс шығаратын VITS жиынында көптеген дыбыстарды таңдауға болады.

  3. 3

    Мәтінді келтіріңіз

    Мәтінді жазу үшін редакторға жазуды немесе орналастыруды таңдаңыз. VITS ұзақ фрагменттерді жақсы өңдейді, ірі көлемдегі мазмұнды жинақтау үшін өте қолайлы.

  4. 4

    Дыбыс файлын құру

    VITS- те сөйлеуді синтездеу үшін Жалпылау дегенді басыңыз. VITS өте жылдам және Стандартты деңгейдегі (1000 таңба үшін 10 кредит) болғандықтан, нәтижелер тез және арзан қайтарылады.

  5. 5

    API жүктеп алу не қолдану

    Аудио файлды MP3, WAV, OGG түрінде жүктеп алыңыз, немесе өзіңіздің қолданбаңызда автоматты түрде жасау үшін TextToSpeechAI REST API арқылы VITS дыбысын шақырыңыз.

VITS API

TextToSpeechAI REST API-мен бағдарламалық түрде сөйлеуді құру.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "VITS жылдам, табиғи сөйлеу үшін көп көлемді қолданбаларды ұсынады.",
    "voice": "vits-ljspeech"
  }'

Жиі қойылатын сұрақтар

VITS (Variation Inference with adversarial learning for end- to- end Text- to- Speech) - бұл GAN- ға қарсы оқытумен біріктірілген, өзгермелі автокодтауышпен бірге қолданылатын, аясынан аясына дейінгі нейрондық TTS моделі. Ол бір реттік өту кезінде табиғи дыбыстарды шығарады, бұл оны жылдам әрі тиімді етеді. VITS- ті TextToSpeechAI- да тегін сынап көре аласыз.

Иә, VITS MIT лицензиясы бойынша ашық көзі бар, сондықтан ол шектеусіз коммерциялық пайдалануға арналған. Коммерциялық өнімдер мен қызметтерде кеңінен қолданылады. TextToSpeechAI- да VITS стандартты деңгейінде 1000 таңба үшін 10 кредитті құрайды.

TextToSpeechAI- дің көп дыбыс шығаратын VITS жиыны бар, оның ішінде VCTK дыбыс жиындары, ондаған ағылшын дыбыс шығарушылары бар. Бір VITS үлгісі көп дыбыс шығарушыларды қабылдай алады, сондықтан тетігін ауыстырып, көп дыбыстарды таңдай аласыз.

VITS қолдауы оқытылған модельге байланысты. Жалпы VITS модельдері ағылшын, қытай, жапон, корей, неміс, француз және басқа да негізгі тілдерді қамтиды, VCTK деректер қорынан ағылшын тілінің көп сөйлеушілерді қамтитын түрін қамтиды.

VITS өте жылдам, сөйлемді шын уақытында немесе графикалық процессордың жылдамдығында құрайды. Оның бүтін архитектурасы басқа модельдердің көп өңдеу сатыларын азайтады, сондықтан VITS көп көлемді синтездеуге өте ыңғайлы.

Жоқ, VITS дауысты клондауды қолдамайды. Ол үлгіден ауыстырып алу үшін емес, алдын- ала үйренген көп дыбыс шығарғыш үлгілерін қолданады. TextToSpeechAI- да дауысты клондау үшін, оның орнына F5- TTS не GPT- SoVITS дегендерді қолданыңыз.

VITS табиғи прозодия мен ритмі бар, сапалы дыбыс шығарады. StyleTTS 2 не Tortoise деңгейінде емес, бірақ жылдамдығы жағынан, әсіресе, дестелік өңдеу үшін, өте жақсы сапалы дыбыс шығарады.

VITS жады ресурстарын тиімді пайдаланады, әдетте, тек бірнеше ГБ VRAM (шамамен 4 ГБ) қажет. Ол тұтынушы графикалық процессорларында оңай орындалады, TextToSpeechAI- да барлық рендеринг серверлерімізде орындалады, сондықтан сізге өзіңіздің жабдығыңыз қажет емес.

VITS пен Piper - TextToSpeechAI- дегі MIT лицензиялы, жылдам, стандартты деңгейдегі тетіктер. Piper - ең жеңіл, жылдам, ал VITS - көп дыбыс шығарғыштар жиынына (VCTK- ға қоса) ұқсас, бірақ табиғи дыбыс шығару. Екі де дауысты клондауды қолдамайды.

VITS - бұл Стандартты деңгейдегі тетігі, 1000 таңба үшін 10 кредит төленеді. Бұл біздің ең төменгі бағалы деңгейіміз, себебі VITS моделі тиімді әрі жылдам.

VITS 22050 Гц жиілігінде дыбыс шығарады. TextToSpeechAI арқылы MP3, WAV немесе OGG пішімдерін сұрап алуға болады, автоматты түрде аударылады.

TextToSpeechAI нөміріне тіркеліңіз, онда сіз тегін кредиттер аласыз, содан кейін VITS дауысын таңдап, мәтініңізді енгізіп, дыбыс шығара аласыз. Тіркелгіні құрмас бұрын VITS-ті тыңдау үшін демо-нұсқасын қолдана аласыз, тіркелгеннен кейін VITS-ке біздің REST API арқылы кіре аласыз.

Technical Specs

  • Generation Speed Very Fast
  • Output Quality Good
  • Voice Cloning Not Supported
  • Languages 10
  • GPU VRAM 1-2GB
  • Credits/1000 chars 10

Try VITS Now

Generate your first audio free. No credit card required.

Start Free