ВИТС

Standard

Быстрое завершение работы TTS с естественной речью

Very Fast Скорость
Good Качество
Нет Клонирование
10 Знание языков

О том, что ВИТС

VITS (Вариационная результативность состязательного обучения для конечных текстовых программ) — это быстрая, отличная модель для неврологических TTS, которая генерирует естественный звук. Она сочетает вариативные автокодеры с состязательным обучением для эффективного синтеза. VITS является отличной для обработки партии и приложений, требующих как качества, так и скорости.

Основные характеристики

Быстрое обобщение

Конец архитектуры для быстрого развития речи.

Обработка партии

Эффективно обрабатывать одновременно несколько текстов.

Естественная речь

Обучение VAE+GAN производит естественный прозодиоз и ритм.

Многоязычный

Единая модель поддерживает голоса нескольких ораторов.

Эффективные

Низкий след памяти с хорошими результатами.

Открытый источник

МТИ лицензировала любой случай использования.

Использовать

Построение звука Электронная учебная платформа Читатели новостей Автоматизированные объявления Системы ИВР Содержание с высоким объемом

ВИТС Voices

View All 109
LJSpeech (English Female)
EN
VCTK Speaker 225 (English Female)
EN
VCTK Speaker 226 (English Male)
EN
VCTK Speaker 227 (English Male)
EN
VCTK Speaker 228 (English Female)
EN
VCTK Speaker 229
EN
VCTK Speaker 230
EN
VCTK Speaker 231
EN
VCTK Speaker 232
EN
VCTK Speaker 233
EN
VCTK Speaker 234
EN
VCTK Speaker 236
EN

Как пользоваться ВИТС

  1. 1

    Подпишитесь бесплатно или попробуйте демо

    Создайте бесплатный TextToSpeechAI аккаунт, чтобы получить стартер-кредиты, или используйте на сайте демо, чтобы услышать VITS перед подписанием.

  2. 2

    Выбрать голос или громкую речь

    Проверьте голосовую библиотеку и выберите голос, помеченные значками VITS. Многоязычная библиотека VITS, включая набор спикера VCTK, позволит выбрать из множества голосов.

  3. 3

    Введите ваш текст

    Введите или вставьте текст, на который вы хотите поговорить в редакторе. VITS хорошо работает с длинными отрывками и идеально подходит для пакетного и объемного контента.

  4. 4

    Создать звук

    Нажмите на кнопку, чтобы синтезировать речь с VITS. Поскольку VITS очень быстр и стандартный уровень (10 титров на 1000 символов), результаты быстро возвращаются при низкой стоимости.

  5. 5

    Загрузка или использование API

    Загрузить заключённый звук как MP3, WAV, или ОВГ, или вызвать тот же голос VITS через TextToSpeechAI REST API, чтобы автоматизировать поколение в вашем собственном приложении.

ВИТС API

Создать речь программно используя TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "ВИТС обеспечивает быстрое, естественное выступление для многочисленных прикладных программ.",
    "voice": "vits-ljspeech"
  }'

Часто задаваемые вопросы

VITS (Varional Interitional concerning comptition for------------------) — модель, основанная на конечных нейронных ТТС, сочетающая в себе вариативную автоенкодерную подготовку с состязательной подготовкой GAN. Она генерирует естественный звук в одном пропуске, что делает его быстрым и эффективным. Вы можете попробовать VITS бесплатно на TextToSpeechAI.

Да, VITS является открытым источником в соответствии с лицензией MIT, поэтому он поддерживает полное коммерческое использование без ограничений. Он широко используется в коммерческих продуктах и услугах. TextToSpeechAI VITS стоит 10 кредитов на 1000 знаков на уровне Стандартного.

TextToSpeechAI предлагает большую многопиковую библиотеку VITS, включая VCTK-звук с десятками разных англоязычных ораторов. Единственная модель VITS может принимать многих ораторов, так что вы можете выбрать из множества голосов без переключения на двигатели.

Поддержка VITS зависит от подготовленной модели. Общие модели VITS охватывают английский, китайский, японский, корейский, немецкий, французский и другие основные языки, а также многоязыковый английский язык из набора данных VCTK.

ВиТС очень быстрая, генерирующая речь в реальном времени или быстрее на GPU. Его конечная архитектура избегает многочисленных этапов обработки других моделей, поэтому VITS хорошо подходит для пакетного и высокообъемного синтеза.

Нет, VITS не поддерживает клонирование голоса. Он использует предварительно подготовленные модели с несколькими говорящими, а не копирование мишени из выборки. Для клонирования голоса на TextToSpeechAI вместо этого используется F5-TTS или GPT-SOVITS.

ВиТС производит хороший качественный аудио- и натуральный прозодиоз и ритм. Хотя он не на уровне StyleTS 2 или Tortoise, он обеспечивает прекрасное качество для скорости, особенно для обработки партии.

VITS является эффективным с точки зрения памяти, обычно ему нужно только несколько GB VRAM (около 4GB). Он работает удобно на потребительских GPU, и на TextToSpeechAI все транслирование происходит на наших серверах, так что вам не нужно какое-либо собственное оборудование.

VITS и Piper - это быстрые, лицензированные MIT двигатели стандартного уровня на TextToSpeechAI. Piper - это самый легкий и быстрый вариант, в то время как VITS предлагает большую многопиковую библиотеку (включая VCTK) с чуть более естественным прозодиозом.

VITS — это двигатель стандартного уровня, стоящий 10 кредитов на 1000 знаков.

VITS генерирует аудио на уровне 22050Hz на местах. Через TextToSpeechAI вы можете запросить MP3, WAV, или ОВГ форматы с автоматическим преобразованием.

Подпишитесь на TextToSpeechAI, чтобы получить бесплатные стартер-кредиты, затем выберите голос VITS, введите текст и создайте звук. Вы также можете использовать демо для слышимости VITS перед созданием аккаунта, и доступ к VITS через наш REST API, как только вы запишитесь.

Technical Specs

  • Generation Speed Very Fast
  • Output Quality Good
  • Voice Cloning Not Supported
  • Languages 10
  • GPU VRAM 1-2GB
  • Credits/1000 chars 10

Try ВИТС Now

Generate your first audio free. No credit card required.

Start Free