ВИТС

Standard

Бърз край до край ТТС с естествена реч

Very Fast Скорост
Good Качество
Не. Клониране
10 Езици

За ВИТС

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speak) е бърз, край-то-краен Neural TTS модел, който генерира естествено-звучна реч. Съчетава вариационни автокодери с административно обучение за ефективен синтез. VITS е отлично за преработка на партиди и приложения, изискващи както качество, така и скорост.

Ключови характеристики

Бързо синтезиране

Край-то-край архитектура за построяване на бързи думи.

Пакетна обработка

Ефективно обработване на множество текстове едновременно.

Естествена реч

VAE+GAN обучението произвежда естествена прозодия и ритъм.

Многозвук

Единственият модел поддържа множество гласове.

Ефективно

Нисък отпечатък от паметта с добро изпълнение.

Отворен източник

MIT лицензиран за всеки случай на употреба.

Случаи за използване

Създаване на пакетно звуково устройство Е-учебни платформи Читатели на новини Автоматизирани обявления ИВР системи Съдържание с високо съдържание на volume

ВИТС Voices

View All 109
LJSpeech (English Female)
EN
VCTK Speaker 225 (English Female)
EN
VCTK Speaker 226 (English Male)
EN
VCTK Speaker 227 (English Male)
EN
VCTK Speaker 228 (English Female)
EN
VCTK Speaker 229
EN
VCTK Speaker 230
EN
VCTK Speaker 231
EN
VCTK Speaker 232
EN
VCTK Speaker 233
EN
VCTK Speaker 234
EN
VCTK Speaker 236
EN

Как да използвате ВИТС

  1. 1

    Запишете се безплатно или опитайте демото

    Създайте безплатен акаунт TextToSpeechAI, за да получите стартер кредити, или да използвате демото на страницата, за да чуете VITS преди да се регистрира.

  2. 2

    Изберете глас или говорител на VITS

    Преглед на гласовата библиотека и изберете глас, маркиран с значката VITS. Библиотеката VITS, включително настройката на VCTK, ви позволява да изберете от много различни гласове.

  3. 3

    Въведете вашия текст

    Въведете или вметнете текста, който искате да говорите в редактора. VITS се справя добре с дълги пасажи и е идеален за партидно и високо обемно съдържание.

  4. 4

    Създаване на звука

    Кликнете, за да синтезирате речта с VITS. Тъй като VITS е много бързо и Standard-tier (10 кредита на 1000 символа), резултатите се връщат бързо с ниска цена.

  5. 5

    Изтеглете или използвайте API

    Изтеглете завършения звук като MP3, WAV или OGG, или се обадите на същия VITS глас чрез TextToSpeechAI REST API, за да автоматизирате поколението си в собствената програма.

ВИТС API

Генерирайте речна програма с помощта на TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "VITS осигурява бързо, естествено говорене за високообемни приложения.",
    "voice": "vits-ljspeech"
  }'

Често задавани въпроси

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speak) е крайно-конечен неврален TTS модел, който съчетава вариационен автоматичен кодер с адверсален GAN обучение. Тя генерира естествено-звукова реч в единичен проход, което го прави бързо и ефективно. Можете да опитате VITS безплатно на TextToSpeechAI.

Да, VITS е отворен източник по лиценза на MIT, така че той подкрепя пълна търговска употреба без ограничения. Той се използва широко в търговски продукти и услуги. На TextToSpeechAI, VITS струва 10 кредита на 1000 символа на стандартния ниво.

TextToSpeechAI предлага голяма многоговорителна библиотека VITS, включително VCTK гласов набор с десетки различни английски говорители. Един единствен модел VITS може да бъде домакин на много говорители, така че можете да изберете от много различни гласове без превключване на двигатели.

Поддръжката на VITS зависи от обучения модел. Обикновените модели на VITS обхващат английски, китайски, японски, корейски, немски, френски и други основни езици, с многоговорително английско покритие от VCTK данните.

VITS е много бърз, генерирайки реч в реално време или по-бързо в GPU. Нейната крайна архитектура избягва многобройните етапи на обработка на други модели, поради което VITS е подходящ за пакетен и високообемен синтез.

Не, VITS не поддържа клониране на гласа. Използва предварително обучени мултизвук модели, вместо да копира целевия глас от проба. За клониране на гласа на TextToSpeechAI, използвайте F5-TTS или GPT-SoviTS вместо това.

VITS произвежда добър качествен звук с естествена прозодия и ритъм. Въпреки че не е на нивото на StyleTTS 2 или Tortoise, той предлага отлично качество за своята скорост, особено за преработка на партиди.

VITS е паметно ефикасен, обикновено се нуждае от само няколко GB от VRAM (около 4GB). Той работи удобно на потребителски GPUs, а на TextToSpeechAI всички излъчвания се случват на нашите сървъри, така че не се нуждаете от хардуер.

VITS и Piper са и бързи, лицензирани от MIT Standard-tier двигатели на TextToSpeechAI. Piper е най-лесната и най-бърза опция, докато VITS предлага голяма многоговорителна библиотека (включително VCTK) с леко по-естествена прозодия. Нито поддържа клониране на гласа.

VITS е стандартен двигател, който струва 10 кредита на 1000 символа. Това е най-ниското ни ниво на ценообразуване благодарение на ефикасния, бърз характер на модела VITS.

VITS генерира звук на 22050Hz натурално. През TextToSpeechAI можете да поискате MP3, WAV, или OGGG формати, с автоматично преобразуване, обработени за вас.

Регистрирайте се на TextToSpeechAI, за да получите безплатни стартер кредити, след това изберете VITS глас, въведете вашия текст и генерирате звук. Можете също така да използвате демото, за да чуете VITS преди създаването на акаунт, и достъп до VITS чрез нашия REST API, след като се регистрирате.

Technical Specs

  • Generation Speed Very Fast
  • Output Quality Good
  • Voice Cloning Not Supported
  • Languages 10
  • GPU VRAM 1-2GB
  • Credits/1000 chars 10

Try ВИТС Now

Generate your first audio free. No credit card required.

Start Free