Otwórz głos

Ultra

Klonowanie głosu natychmiastowego z kontrolą tonów granularnych

Moderate Prędkość
Very Good Jakość
Tak. Klonowanie
10 Języki

O tematie Otwórz głos

OpenVoice to wszechstronny model klonowania głosu, który pozwala na doskonale ziarna kontrola nad stylem mowy. W przeciwieństwie do innych modeli klonowania, OpenVoice oddziela tożsamość głosu od stylu mowy, pozwalając na klonowanie głosu i nakładanie różnych tonów - wesele, smutne, wściekłe, podekscytowane, lub szepcze - bez nowego odnośnika audio.

Kluczowe cechy

Klonowanie natychmiastowe

Klonuj głos z tylko kilku sekund audio.

Kontrola tonu

Nakładaj radosne, smutne, złe, podekscytowane lub szeptujące tony.

Przeniesienie stylu

Oddziel tożsamość głosu od stylu mowy dla elastyczności.

Krzyżowy język

Użyj sklonowanych głosów w różnych językach.

Szybkie przetwarzanie

Skuteczne wyniki dla szybkiego generowania głosu.

Otwarte źródło

MIT licencja do zgłoszeń handlowych.

Przypadki użytkowania

Zawartość emocjonalna Animacja znaków Gry interaktywne Audiobook Narration Filmy marketingowe Asystenci wirtualny

Jak stosować lek Otwórz głos

  1. 1

    Zarejestruj się za darmo lub spróbuj demo

    Stwórz bezpłatne konto TextToSpeechAI, aby uzyskać kredyty starterowe, lub użyj demo na stronie, aby usłyszeć OpenVoice przed złożeniem. Nie jest potrzebny lokalny GPU lub instalacja - wszystko działa na naszych serwerach.

  2. 2

    Wybierz OpenVoice i wyślij klip referencyjny

    Wybierz silnik OpenVoice, następnie prześlij kilka sekund czystego odnośnika audio, aby natychmiast sklonować głos docelowy. OpenVoice przechwyca tożsamość głośnika, tak aby można go ponownie wykorzystać w dowolnym tekście i tonie.

  3. 3

    Wpisz tekst

    Wpisz lub wklej skrypt, który chcesz wypowiedzieć w sklonowanym głosie. OpenVoice obsługuje około 10 języków i dostawę krzyżową, tak że możesz pisać w innym języku niż klip referencyjny.

  4. 4

    Wybierz styl tonu i wygeneruj

    Wybierz jeden z dziewięciu stylów tonu OpenVoice - domyślny, przyjazny, wesely, podekscytowany, smutny, zły, przerażony, krzyczący, lub szepczący - a następnie generuj. Ten sam głos klonowany będzie mówić z tym emocjonalnym dostawą.

  5. 5

    Pobierz lub użyj API

    Pobierz dźwięk jako MP3, WAV, lub OGG, lub automatyzuj generację przez TextToSpeechAI API, przekazując sklonowany głos i styl tonu w każdym z wymagań.

Otwórz głos API

Generuj mowy w programie, używając TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Otworzony głos mówi w każdym tonie \u002D wesoły, smutny, a nawet szepczący.",
    "voice": "en_US-lessac-medium"
  }'

Często zadawane pytania

OpenVoice to zaawansowany model klonowania tekstu i głosu, który oddziela tożsamość głosu od stylu mowy. Pozwala to na sklonowanie głosu, a następnie nakłada różne tony emocjonalne, bez konieczności nowego odnośnika do każdego emocji. Jest on zbudowany do wyrażania się i kontrolowania mowy.

Tak, OpenVoice wykonuje natychmiastowe klonowanie głosu z zaledwie kilku sekund dźwięku referencyjnego - nie wymagane jest uruchomienie treningu. Po zachowaniu głosu, OpenVoice może ponownie wykorzystać tę tożsamość w każdym tekście i stylu tonu, który wybierzesz.

OpenVoice używa dwustopniowej architektury, która rozdziela bazową syntezę mowy od konwersji tonu. Po klonowaniu głosu, można zastosować dowolny z 9 stylów tonu - domyślny, przyjazny, weselny, podekscytowany, smutny, przerażony, krzyczący, lub szepczący - a ten sam klonowany głos mówi inaczej na podstawie wybranego tonu bez ponownego nagrywania.

OpenVoice obsługuje dziewięć stylów mów: domyślne, przyjazne, radosne, podekscytowane, smutne, przerażone, przerażone, krzyczące i szepczące. Każdy styl zmienia emocjonalne dostawy przy zachowaniu tożsamości sklonowanego głośnika, zapewniając ci doskonale kontrolowane sposób czytania linii.

OpenVoice jest otwarty źródło na podstawie licencji MIT, więc jest bezpłatny do użytku komercyjnego. Tak jak w przypadku każdego modelu klonowania, upewnij się, że masz odpowiednie prawa do głosu, który klonujesz do projektów komercyjnych.

OpenVoice obsługuje około 10 języków, w tym angielski, chiński, japoński, koreański i kilka języków europejskich. Oferuje również klonowanie krzyżowe, więc można sklonować głos w jednym języku i mieć go mówić naturalnie w innym.

OpenVoice ma umiarkowane pokolenie szybkości, zazwyczaj zdania w ciągu 2-4 sekund na GPU. Wyjście jakość jest bardzo dobra, z jasne reprodukcja głosu i transfer tonu, który utrzymuje tożsamość głośnika nietknięty, a jednocześnie przekonująco zmienia dostawę emocjonalną.

OpenVoice zazwyczaj wymaga 6-8GB VRAM w zależności od wielkości partii i obciążenia konwersji tonu. Wygodnie działa na średnim zasięgu do górnego zasięgu GPU, a na TextToSpeechAI wszystko jest obsługiwane na naszych serwerach, więc nie potrzebujesz żadnego lokalnego sprzętu.

OpenVoice to silnik Ultra-tier, cenny 50 kredytów na 1000 znaków. Ultra szczebel odzwierciedla zaawansowaną kontrolę tonu i dodatkową obliczenię potrzebną do klonowania plus style-conversion rurociąg.

OpenVoice jest wyjątkowy dla kontroli tonu i stylu: można wziąć jeden klonowany głos i ponownie dostarczyć go jako wesely, smutny, zły lub szeptany. F5-TTS jest szybszy i jest naszym domyślnym silnikiem klonowania dla naturalnej, neutralnej mowy. Wybierz OpenVoice, gdy potrzebujesz sterowania stylem emocjonalnym, a F5-TTS, gdy chcesz najszybszy naturalny klon.

Stwórz głos klonowany poprzez wysyłanie dźwięku referencyjnego, następnie określ styl tonu w swoim zapytaniu API. API stosuje wybrany ton emocjonalny do głosu klonowanego automatycznie i zwraca dźwięk w formacie MP3, WAV lub OGG.

Tak. Zarejestruj się na bezpłatne TextToSpeechAI konto, aby otrzymywać kredyty starterowe i spróbować OpenVoice klonowania i sterowania tonem, lub skorzystać z demo na stronie pierwszej. Nie ma lokalnych konfiguracji - wyślij klip referencyjny, wybierz ton i generuj w przeglądarce.

Technical Specs

  • Generation Speed Moderate
  • Output Quality Very Good
  • Voice Cloning Supported
  • Languages 10
  • GPU VRAM 3-6GB
  • Credits/1000 chars 50

Try Otwórz głos Now

Generate your first audio free. No credit card required.

Start Free