OpenSpace

Ultra

Прибирання миттєвого голосу за допомогою графічного керування тоном

Moderate Швидкість
Very Good Якість
Так Клонування
10 Мови

Про програму OpenSpace

OpenWoom - це універсальна модель миттєвого клонування голосу, яка надає вам змогу добре керувати мовленістю. На відміну від інших моделей клонування, OpenWoom, відокремлює профіль голосу від стилю мовлення, що відповідає за створення клонованого голосу і застосовує різні тони - веселий, сумний, злий, збуджений або шепіння - без нового еталонного звуку.

Можливості ключів

миттєве клонування

Клонувати будь-який голос лише з декількох секунд аудіо.

Керування тоном

Застосуйте веселий, сумний, злий, збуджений або шепочучий тон.

Перенесення стилю

Відокремлювати особистість голосу від ораторського стилю для гнучкості.

Крос- лінгуальний

Використовувати клоновані голоси різними мовами.

Швидка обробка

Здатний до вимови швидкого голосу.

Відкрити джерело

Уповноважений для комерційних програм.

Випадки використання

Емоційне задоволення Анімація символів Інтерактивні ігри Передача аудіокнижки Продаж відео Віртуальні помічники

Як користуватися OpenSpace

  1. 1

    Виписатися безкоштовно або спробувати демонстрацію

    Створіть вільний обліковий запис TextToSpeechAI для отримання кредитів на початковій сторінці або скористайтеся демонстрацією на сторінці, щоб почути OpenSpace перед впровадженням. Не потрібен локальний обліковий запис GPU або встановлення - всі програми, які виконуються на наших серверах.

  2. 2

    Оберіть пункт Відкрити голос і вивантажити відповідний кліп

    Виберіть рушій OpenGome, а потім вивантажити декілька секунд чистого звукового запису, щоб негайно клонувати голос. Відкрити голос захоплює профіль промовця, щоб ви могли використовувати його для використання будь- якого тексту і тону.

  3. 3

    Введіть ваш текст

    Введіть або вставте скрипт, який ви бажаєте вимовити, голосом клонованим. Відкрити голос підтримує близько 10 мов і міжмовну доставку, щоб ви могли писати іншою мовою, ніж еталон.

  4. 4

    Виберіть стиль тону і створіть

    Виберіть один з дев'яти стилів, які можна почути в стилі " Відкриті голоси," - типовий, дружній, веселий, збуджений, сумний, розлючений, переляканий, крик, або шепіт, - і тоді буде генеруватися той самий клонований голос.

  5. 5

    Звантажити або скористатися API

    Завантажувати ваш звуковий файл як MP3, WAV, OGG або автогенерування за допомогою TextToSpeechAI API, передавши у кожному з запитів стиль клонованого голосу і тону.

OpenSpace API

Створюйте програму мовлення за допомогою TextToSpeechAI програм API MEST.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Неупереджений голос може говорити будь \u002D яким тоном \u002D веселим, сумним чи навіть шепочучим.",
    "voice": "en_US-lessac-medium"
  }'

Часті запитання

OpenWoom - це складна модель синтезу мовлення з тексту і клонування голосу, яка відокремлює профіль голосу від ораторського стилю. Таким чином ви зможете клонувати голос і застосовувати різні емоційні тони без потреби у новому еталонному звуковому запису для кожної з емоцій. Її створено для створення регульованого, керованого мовного створення.

Так, OpenGome виконує миттєве клонування голосу лише за декілька секунд від звукового запису - не потрібного тренування. Після захоплення голосу, OpenGome може використовувати цей профіль у будь- якому тексті і будь- якому обраному вами стилі тону.

OpenWoom використовує двостулковий інструмент, який розділює базовий синтез мовлення з перетворення тонів. Після клонування голосу ви можете застосувати будь- який з 9 тонів - типовий, дружній, веселий, збуджений, сумний, розлючений, переляканий, крик, що викликає перешіпання, - а той самий голос, що клонований, - може бути інакше, якщо ви не записуєте його повторно.

OpenWoom підтримує дев' ять мовних стилів: типовий, дружній, веселий, збуджений, сумний, розлючений, переляканий, крик, і шепотіння. Кожен стиль перетворює емоційну доставку з збереження ідентичності, яку виконує клонований промовець, що надає вам добре тямущий контроль над тим, як читається рядок.

OpenWoom - це відкритий код у доступній ліцензії MIT, отже, він є вільним для комерційного використання. Як і у випадку з будь- якою моделлю клонування, переконайтеся, що ви маєте належні права на будь- який голос, який ви клонуєте для комерційних проектів.

У OpenWoom підтримується близько 10 мов, зокрема англійська, китайська, японська, корейська та декілька європейських мов. Також вона пропонує перехресне клонування, щоб клонувати голос однією мовою і дозволити йому говорити природно іншою.

Відкрита голосність має помірну швидкість створення, зазвичай, вона виконує речення за 2- 4 секунди при ГПУ. Якість виводу дуже добра, з чітким відтворенням голосу і тоновим перенесенням, що тримає особистість промовця незмінною і переконливо змінює емоційну доставку.

Для відкриття голосів зазвичай потрібно 6- 8GB VRAM, залежно від пакетного розміру і навантаження на тон. Цей параметр працює зручно, якщо ви не маєте доступу до комп' ютерного забезпечення середнього діапазону, а на TextToSpeechAI всіх цих даних буде оброблено на наших серверах, отже, вам не потрібно буде використовувати локальне обладнання.

OpenWoom - це рушій Ultra- tier, який оціниться за 50 кредитів на 1000 символів. Ультра- трійця відображає свій докладний контроль за тоном і додаткові обчислення, потрібні для трубопроводу з клонуванням плюс конвергування.

Відкриті голосні унікальні для його тонового і стилю керування: ви можете взяти один клонований голос і повторно передати його як веселий, сумний, сердитий або шепотів. F5- TTS швидші і є типовим рушієм клонування для природної, нейтральної мови. Оберіть пункт Відкрити голос, якщо вам потрібно керувати емоційним стилем, і F5- TTS, якщо ви бажаєте, щоб клонувати найшвидкісніший.

Створіть клонований голос за допомогою вивантаження еталонного звуку, а потім вкажіть стиль тону у вашому запиті на API. Програмне забезпечення API автоматично застосовує ваш вибраний емоційний тон до клонованого голосу і повертає звук у форматі MP3, WAV або OGG.

Так. Спочатку підпишіться на безкоштовний обліковий запис TextToSpeechAI, щоб отримати кредит на початку, спробуйте відкрити вікно з клонуванням і керування тоном або скористайтеся демонстрацією на сторінці. У програмі не передбачено жодного локального налаштування - вивантажуйте еталонний кліп, оберіть тон і створіть його у переглядачі.

Technical Specs

  • Generation Speed Moderate
  • Output Quality Very Good
  • Voice Cloning Supported
  • Languages 10
  • GPU VRAM 3-6GB
  • Credits/1000 chars 50

Try OpenSpace Now

Generate your first audio free. No credit card required.

Start Free