ВИТС

Standard

Тез, бүткүл текстти табигый үн менен которуу

Very Fast Жылдамдык
Good _Качество
Жок Клондоо
10 Тилдер

Маалымат ВИТС

-to-end neural TTS model that generates natural-sounding speech. It combines variational autoencoders with adversarial learning for

Ачкыч өзгөчөлүктөрү

Жылдам синтез

Жылдам сүйлөмдү түзүү үчүн бүткүл архитектура.

Партиялык иштетүү

Бир эле учурда бир нече текстти натыйжалуу иштетүү.

Табигый үн

VAE+GAN тренинги табигый прозодия жана ритми менен камсыз кылат.

Бир нече үн чыгаргыч

Бир моделдин бир нече сүйлөмдөрү колдоого алынат.

Эффективдүү

Жакшы иштөө менен аз эсти талап кылуу.

Ачык булак

MIT лицензиясы ар кандай колдонуу үчүн.

Колдонуу мисалдары

Аудио генератор Электрондук окуу платформалары Маалымат окурмандар Автоматтык кабарлоо IVR системалары Көп үндүү мазмун

ВИТС Voices

View All 109
LJSpeech (English Female)
EN
VCTK Speaker 225 (English Female)
EN
VCTK Speaker 226 (English Male)
EN
VCTK Speaker 227 (English Male)
EN
VCTK Speaker 228 (English Female)
EN
VCTK Speaker 229
EN
VCTK Speaker 230
EN
VCTK Speaker 231
EN
VCTK Speaker 232
EN
VCTK Speaker 233
EN
VCTK Speaker 234
EN
VCTK Speaker 236
EN

Колдонуу ВИТС

  1. 1

    Акысыз катталуу же демо версияны колдонуу

    Starter credits алуу үчүн акысыз TextToSpeechAI аккаунтун түзүңүз, же VITSти угуу үчүн катталуудан мурун беттеги демону колдонуп көрүңүз.

  2. 2

    VITS үн же динамикти тандоо

    Слушайте аудиокниги и выбирайте голос, обозначенный VITS-багсом. Многоголосная библиотека VITS, включая VCTK-диктор, позволяет выбирать из множества разных голосов.

  3. 3

    Текстти киргизиңиз

    Текст, который вы хотите услышать, введите в редактор или поместите туда. VITS хорошо справляется с длинными отрывками и идеально подходит для пакетного и большого объема контента.

  4. 4

    Аудио түзүү

    VITS менен сүйлөмдү синтездөө үчүн "Жаңылоо" баскычын чыкылдатыңыз. VITS өтө тез жана стандарттык деңгээлде (1000 символго 10 кредит), натыйжалар тез жана арзан кайтарылат.

  5. 5

    API жүктөп алуу же колдонуу

    Окулган аудиону MP3, WAV же OGG түрүндө жүктөп алыңыз, же ошол эле VITS үнүнө TextToSpeechAI REST API аркылуу чалып, өз тиркемеңизде генерациялоону автоматташтырыңыз.

ВИТС API

TextToSpeechAI REST API'ни колдонуп программалык түрдө сүйлөмдү түзүү.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "VITS тез жана табигый сүйлөмдү көп көлөмдөгү тиркемелерге берет.",
    "voice": "vits-ljspeech"
  }'

Кайра-кайра берилүүчү суроолор

VITS (Variation Inference with adversarial learning for end-to-end Text-to-Speech) - бул варианттык автокоддоону жана GAN машыгуусун бириктирген, бүткүл текстти сүйлөмгө айландыруучу нейрондук модель. Ал бир жолу гана табигый үн менен сүйлөмдү жаратат, бул аны тез жана натыйжалуу кылат. VITSти TextToSpeechAIде акысыз сынап көрүңүз.

Ооба, VITS MIT лицензиясы менен ачык булак, ошондуктан ал чектөөсүз толук коммерциялык колдонууну колдойт. Ал коммерциялык продуктуларда жана кызматтарда кеңири колдонулат. TextToSpeechAIде VITS стандарттык деңгээлде 1000 символ үчүн 10 кредитке бааланат.

TextToSpeechAI кеңири көп сүйлөмдүү VITS китепканасын сунуштайт, анын ичинде VCTK үн топтомун, анда ондогон ар кандай англис сүйлөмдөрү бар. Бир VITS модели бир нече сүйлөмдү камтыйт, ошондуктан сиз бир нече үндү тандап, двигательди алмаштырбайсыз.

VITS колдоосу үйрөтүлгөн моделге жараша болот. Жалпы VITS моделдери англис, кытай, япон, корей, немис, француз жана башка негизги тилдер менен камсыздалат, VCTK маалымат базасынан көп сүйлөгөн англис тилин камтыйт.

VITS абдан тез, сөздөрдү чыныгы убакытта же GPUда тез генерациялайт. Анын бүткүл архитектурасы башка моделдердин бир нече иштетүү баскычтарын жокко чыгарат, ошондуктан VITS пакеттик жана чоң көлөмдөгү синтездөөгө ылайыктуу.

Жок, VITS үн клондоону колдобойт. Ал алдын-ала даярдалган көп сүйлөмдүү моделдерди колдонот, ал эми максаттуу үн үлгүдөн көчүрүлүп алынбайт. TextToSpeechAI-де үн клондоо үчүн, анын ордуна F5-TTS же GPT-SoVITS колдонсо болот.

VITS табигый прозодия жана ритми менен жакшы сапаттагы аудиону жаратат. StyleTTS 2 же Tortoise деңгээлинде эмес, бирок ылдамдыгы үчүн, айрыкча пакеттик иштетүү үчүн, сапаты абдан жакшы.

VITS эсти үнөмдүү колдонот, адаттагыдай эле бир нече ГБ VRAM (4 ГБга жакын) керектелет. Ал колдонуучулардын графикалык процессорлорунда ыңгайлуу иштейт, ал эми TextToSpeechAIде бардык рендерлөө биздин серверлерде болот, ошондуктан сизге эч кандай аппараттык жабдык керек эмес.

VITS жана Piper - бул TextToSpeechAI процессорлорунда тез иштей турган, MIT лицензиясы менен жабдылган стандарттык деңгээлдеги кыймылдаткычтар. Piper - эң жеңил жана тез иштей турган вариант, ал эми VITS - бул көп сүйлөмдүү, көп үн чыгаруучу, табигый прозодиялуу кеңири китепкана (VCTK менен кошо). Эч бири да үн клондоону колдобойт.

VITS - бул стандарттык деңгээлдеги двигатель, анын баасы 1000 символ үчүн 10 кредит. Бул биздин эң төмөнкү баалуу деңгээлибиз, анткени VITS модели эффективдүү жана тез.

VITS 22050 Гц ылдамдыкта аудиону жаратат. TextToSpeechAI аркылуу MP3, WAV же OGG форматтарын талап кыла аласыз, автоматтык түрдө конвертациялоо сиз үчүн иштелип чыгат.

Sign up on TextToSpeechAI to receive free starter credits, then pick a VITS voice, enter your text, and generate audio. You can also use the demo to hear VITS before creating an account, and access VITS through our REST API once you sign up.

Technical Specs

  • Generation Speed Very Fast
  • Output Quality Good
  • Voice Cloning Not Supported
  • Languages 10
  • GPU VRAM 1-2GB
  • Credits/1000 chars 10

Try ВИТС Now

Generate your first audio free. No credit card required.

Start Free