VITS

Standard

Швидке закінчення мовлення з тексту натуральних слів

Very Fast Швидкість
Good Якість
Ні Клонування
10 Мови

Про програму VITS

VITS (Variational Inference) - це швидка, кінцева модель нервових технологій, яка створює мову, що звучить природньо. Вона поєднує варіаційні автокодери з адверсарною програмою для ефективного синтезу мовлення. VITS чудово пасує до пакетної обробки і програм, які потребують як якості, так і швидкості.

Можливості ключів

Швидкий синтезатор

Архітектура завершення роботи для швидкого створення мовлення.

Пакетна обробка

Зусилля виконувати одночасно декілька текстів.

Природна мова

Тренування ВЕ + ҐАН створює природні просодії та ритм.

Багатомовець

Одна модель підтримує багато голосів.

Витрати

Низький рівень сліду пам'яті з хорошою швидкодією.

Відкрити джерело

Уповноважений для будь-якого випадку в користуванні.

Випадки використання

Пакетне створення аудіо Навігаційні платформи Читачі Автоматизовані оголошення Система IVR Вміст високої ширини

VITS Voices

View All 109
LJSpeech (English Female)
EN
VCTK Speaker 225 (English Female)
EN
VCTK Speaker 226 (English Male)
EN
VCTK Speaker 227 (English Male)
EN
VCTK Speaker 228 (English Female)
EN
VCTK Speaker 229
EN
VCTK Speaker 230
EN
VCTK Speaker 231
EN
VCTK Speaker 232
EN
VCTK Speaker 233
EN
VCTK Speaker 234
EN
VCTK Speaker 236
EN

Як користуватися VITS

  1. 1

    Виписатися безкоштовно або спробувати демонстрацію

    Створіть вільний обліковий запис TextToSpeechAI для отримання кредитів або скористайтеся демонстрацією на сторінці для того, щоб почути VITS перед підписуванням.

  2. 2

    Виберіть голос VITS або гучномовець

    Переглядати бібліотеку голосів і обрати голос, позначений значком VITS. Бібліотека з декількома звуками VITS, зокрема набір дикторів VCTK, надає вам змогу вибрати один з багатьох голосів.

  3. 3

    Введіть ваш текст

    Введіть або вставте текст, який ви бажаєте передати у редактор. VITS добре працює з довгими рядками, це ідеальна можливість для пакетного та багатовольтного вмісту.

  4. 4

    Створити звуковий файл

    Натисніть кнопку Створити для синтезу мовлення з VITS. Оскільки VITS є дуже швидким і стандартним (10 кредитів на 1000 символів), програма швидко повертає за низькою вартістю.

  5. 5

    Звантажити або скористатися API

    Звантажте завершений звук як MP3, WAV або OGG або звантажте той самий голос VITS через TextToSpeechAI REST API до автоматичного створення у вашій власній програмі.

VITS API

Створюйте програму мовлення за допомогою TextToSpeechAI програм API MEST.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "VITS \u002D це швидкий і природний засіб для вимови високовольтних.",
    "voice": "vits-ljspeech"
  }'

Часті запитання

VITS (Variational Inference) (Веріацієнтальна цінність з адверсаційним навчанням для кінцевого синтезу мовлення з тексту) - це кінцева модель нейронного TTS, яка поєднує варіалізований автокодувальник з адверверсальним GAN. Вона створює природну мову у одному проході, що робить її швидкою і ефективною. Ви можете спробувати VITS безкоштовно на TextToSpeechAI.

Yes, VITS is open-source under the MIT license, so it supports full commercial use without restrictions. It is widely used in commercial products and services. On TextToSpeechAI, VITS costs 10 credits per 1000 characters on the Standard tier.

У TextToSpeechAI передбачено велику бібліотеку VITS для багатомовця, зокрема голос VCTK з десятками різних англомовних мовців. Одна модель VITS може містити багато мовних осіб, отже ви можете вибрати один з багатьох голосів без перемикання рушіїв.

Підтримка VITS залежить від професійної моделі. Загальні моделі VITS охоплюють англійську, китайську, японську, корейську, німецьку, французьку та інші великі мови з багатьма мовними оповіщеннями англійською мовою з набору даних VCTK.

VITS дуже швидко створює мовлення у реальному часі або швидше у GPU. Її архітектура наприкінці дуже швидко уникає етапів обробки інших моделей, саме тому VITS добре пристосований до пакетного і високовольтного синтезу.

Ні, VITS не підтримує клонування голосів. Замість копіювання на зразок, використовує попередньо підготовлені моделі багатомовців замість копіювання цільового голосу. Для клонування голосу на TextToSpeechAI, скористайтеся F5- TTS або GPT- SoVITS.

VITS створює якісний звуковий файл з природною просодіїю та ритмом. Хоча звукові картки не є на рівні StyleTTS 2 або Tortoise, вони надають чудову якість для його швидкодії, особливо для пакетного обробки.

VITS є ефективних пам' яті, зазвичай, потребує лише декілька ГБ VRAM (коло 4GB). Програма працює зручно для клієнта GPU, і на TextToSpeechAI всіх серверах відбувається відтворення, отже вам не потрібно буде мати обладнання для власного сервера.

VITS і Piper є швидкими, рушіями, які мають стандарти MIT Standard- tier на TextToSpeechAI. Piper є найсвіжішим і найшвидшим, а VITS пропонує велику бібліотеку багатомовця (зокрема VCTK) з трохи природнішим просодою. Жоден з них не підтримує клонування голосів.

VITS - це рушій стандартного рівня, який коштує 10 кредитів на 1000 символів. Це наша найнижча прив' язка ціноутворення завдяки ефективній, швидкій природі моделі VITS.

VITS створює звукові дані на рівні 22050 Гц. Через TextToSpeechAI ви можете надіслати запит у форматах MP3, WAV або OGG, у яких автоматично відбувається автоматичне перетворення.

Підписатися на TextToSpeechAI слід на безкоштовні кредити, а потім обрати голос VITS, ввести текст і створити звукові дані. Крім того, ви можете скористатися демо, щоб почути VITS перед створенням рахунка і отримати доступ до VITS через наш програмний інтерфейс REST, після того, як ви підпишете запис.

Technical Specs

  • Generation Speed Very Fast
  • Output Quality Good
  • Voice Cloning Not Supported
  • Languages 10
  • GPU VRAM 1-2GB
  • Credits/1000 chars 10

Try VITS Now

Generate your first audio free. No credit card required.

Start Free