Tortuz TTS

Ultra

Wymiar Ultra-wysokiej jakości z nieprzeważaną naturalnością

Very Slow Prędkość
Exceptional Jakość
Tak. Klonowanie
1 Języki

O tematie Tortuz TTS

Tortoise TTS to autoregresywny model tekstu do speech, który priorytetowo określa jakość dźwięku przede wszystkim. Korzystając z kombinacji samoregresyjnych transformatorów i modeli dyfuzji, Tortoise generuje niezwykle naturalne wypowiedzi, które odbiera subtelne nuansy ludzkiego głosu. Chociaż wolniejsze niż inne modele, Tortoise wytwarza najbardziej naturalnie dźwiękowe wyjście TTS dostępne.

Kluczowe cechy

Ultra- wysoka jakość

Najbardziej naturalnie dźwiękowe wyjście TTS dostępne.

Klonowanie głosu

Klonujcie głosy z wyjątkową wiernością i nuansą.

Naturalna prozody

Przechwyca subtelne wzory mowy i mikrowyrażenia.

Przedwzór jakości

Wybierz z ultrafit_szybciej do wysokiej _jakości przetwarzania.

Głębokość emocjonalna

Generuje mowy z prawdziwym rezonansem emocjonalnym.

Otwarte źródło

Apache 2.0 licencjonowane z prawem użytkowania handlowego.

Przypadki użytkowania

Audio książki premium Produkcja filmu Dokumentarne narracja Profesjonalne recenzje Archiwalowe projekty Zawartość wysokiego końca

Tortuz TTS Voices

View All 18
Tortoise Angie
EN
Tortoise Deniro
EN
Tortoise Freeman
EN
Tortoise Geralt
EN
Tortoise Halle
EN
Tortoise Jlaw
EN
Tortoise Lj
EN
Tortoise Mol
EN
Tortoise Myself
EN
Tortoise Pat
EN
Tortoise Pat2
EN
Tortoise Snakes
EN

Jak stosować lek Tortuz TTS

  1. 1

    Zarejestruj się lub spróbuj bezpłatnego demo

    Stwórz bezpłatne konto TextToSpeechAI, aby uzyskać kredyty starterowe, lub użyć demo strony internetowej, aby spróbować Tortoise bez podpisania. Tortoise jest silnik Ultra-tyer (50 kredytów na 1000 znaków), więc darmowe kredyty są idealne dla pierwszego krótkiego testu.

  2. 2

    Wybierz Tortoise i dodaj głos do klonu

    Wybierz głos Tortoise z przeglądarki głosowej. Aby sklonować daną osobę, wyślij klip referencyjny (w połączeniu z paroma czystymi 5-10 sekund) i Tortoise odtworzy ten głos z dużą wiernością. W przeciwnym razie wybierz jeden z wbudowanych głosów Tortoise.

  3. 3

    Wpisz tekst

    Wpisz lub wklej tekst, który chcesz narrated. Ponieważ Tortoise jest powolny, rozpocznij od krótkiego przejścia, aby potwierdzić głos i ton przed wysyłaniem pełnego rozdziału audiobook lub długi skrypt.

  4. 4

    Wybierz ustawienie jakości i wygeneruj

    Wybierz ustawienie jakości Tortoise: ultra_speed dla szybkich testów, szybki dla dobrej szybkości/równoważności (domyślnie), standard lub wysoką _jakość dla maksymalnego realizmu. Następnie kliknij wygeneruj i bądź cierpliwy - Tortoise może trwać od 30 sekund do kilku minut na klip, szczególnie w wyższych ustawieniach.

  5. 5

    Pobierz lub użyj API

    Po zakończeniu generacji pobierz audio jako MP3, WAV lub OGG, lub pobierz go z historii. Aby automatyzować zadanie Tortoise, zadzwoń do TextToSpeechAI API i przedaj wybraną jakość ustawień - pamiętaj, aby pozwolić na dłuższe limity czasu, ponieważ Tortoise odtwarza powoli.

Tortuz TTS API

Generuj mowy w programie, używając TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Tortoise zajmuje czas, ale wyniki warto czekać.",
    "voice": "tortoise-angie"
  }'

Często zadawane pytania

Tortoise TTS to autoregresywny model tekstu stworzony przez Jamesa Betkera, który priorytetowo określa jakość dźwięku przede wszystkim. Połącza modelowanie językowe oparte na transformatorze z dyfuzją dekodowaniem, aby wygenerować mowy z nieprzepasowaną naturalnością, głębokością emocjonalną i ludzką prozą. Jest to powszechnie uważane za jeden z najbardziej realistycznych silników TTS otwartego źródła.

Tak. Tortoise TTS jest otwartym źródłem w ramach licencji Apache 2.0, która pozwala na użytek handlowy, modyfikację i redystrybucję. W dniu TextToSpeechAI Tortoise znajduje się w Ultra sterowniku w wysokości 50 kredytów na 1000 znaków z powodu jego ciężkich wymagań obliczeniowych i wyjątkowej jakości wyjścia.

Tortoise jest powolny w drodze projektu: generuje kilka klipów kandydujących automatycznie agresywnie, a następnie udoskonala najlepszy model dyfuzyjny i krok ponownego rankingu CTVP. Ten pierwszy rurociąg jakościowy oznacza, że pojedynczy klip może trwać od 30 sekund do kilku minut w zależności od długości tekstu i jakości ustawień. Tortoise jest, że Tortoise wytwarza niektóre z najbardziej naturalnych wypowiedzi każdego silnika TTS.

Tortoise oferuje cztery ustawienia, które wymieniają prędkość jakości: ultrafit_speed (~10x szybszy, dobry do testowania), szybkie (~4x szybsze, domyślne domyślne), standardowe (balansowane) i wysokiej jakości (maksymalna jakość, wolne). Wyższe ustawienia próbki więcej kandydatów i więcej kroków dyfuzji przed wyborem najlepszego rezultatu. Na TextToSpeechAI można wybrać ustawienie przed generowaniem.

Tak, Tortoise TTS wspiera klonowanie głosu z wyjątkową wiernością. Zadaj kilka krótkich klipów docelowego głosu (dokładnie 3-10 próbek 5-10 sekund każdej), a Tortoise załapanie głośnika, akcent, pacyowanie i subtelne mikro-wyrażenia. Jest to jeden z najbardziej dokładnych silników klonowania zerowego, chociaż klonowanie zwiększa już już długi czas pokolenia.

Tortoise został przeszkolony głównie na angielskich zestawach danych mów, więc angielski jest tam, gdzie jego jakość jest najsilniejsza. Dla wielojęzycznych projektów, które potrzebują podobnego realizmu, rozważ F5-TTS lub CosyVoice2 na TextToSpeechAI, które wspierają więcej języków, a jednocześnie oferują klonowanie głosu.

Tortoise wytwarza wyjątkowe, często nierozróżnialne audio. Zachowuje oddychanie, wahanie, intonację i szczerą emocjonalną rezonans, który zaginie. Dlatego pozostaje ulubionym dla premium audiobooks, narracji filmowej i wysokiej jakości głosowej pracy, gdzie realizm jest najważniejszy.

Tortoise zwykle wymaga 12-24GB VRAM w zależności od jakości ustawienia i rozmiaru partii, więc wysokiej jakości GPU, takie jak RTX 3090, 4090 lub A100, są zalecane do użytku lokalnego. Wynik procesora jest technicznie możliwy, ale niezwykle powolny. W TextToSpeechAI model działa na naszej infrastrukturze GPU, więc nie potrzebujesz żadnego sprzętu własnego.

Tortoise natywnie wytwarza wysokiej jakości 24kHz WAV. Przez TextToSpeechAI możesz zażądać MP3, WAV lub OGGG, a my transkodujemy kodowaniem jakości, więc zachowaj szczegóły modelu w każdym formacie potrzebnym dla Twojego projektu.

Tortoise jest w poziomie cen Ultra w wysokości 50 kredytów na 1000 znaków, odzwierciedlając czas GPU pierwszej jakości zużycia jego rurociągów. Nowe konta otrzymują darmowe kredyty starterowe, więc można sprawdzić Tortoise przed zobowiązaniem. Ultra stopa obejmuje również StyleTTS2, OpenVoice, Dia, i Zonos.

Obie silniki Ultra-tyer, ale one wymianę inaczej. Tortoise TTS osiąga absolutny szczyt naturalności i głębokości emocjonalnych, ale jest daleko powolniejszym silnikiem. StyleTTS2 zapewnia jakość blisko-Tortoise o dużo szybszej generacji, co sprawia, że lepszy wybór, gdy potrzebujesz wielu klipów lub szybszego przekształcenia. Wybierz Tortoise, gdy jakość nie jest dokonująca, a czas nie jest ograniczeniem.

Tak. Zarejestruj się na TextToSpeechAI, aby otrzymywać darmowe kredyty starter, lub użyj demo na stronie internetowej, i wybierz głos Tortoise, aby wygenerować klip bez instalacji nic. Ponieważ Tortoise jest powolny, rozpocznij od krótkiego zdania i "szybką" ustawioną, aby zobaczyć jakość przed uruchomieniem dłuższych miejsc pracy.

Technical Specs

  • Generation Speed Very Slow
  • Output Quality Exceptional
  • Voice Cloning Supported
  • Languages 1
  • GPU VRAM 12-24GB
  • Credits/1000 chars 50

Try Tortuz TTS Now

Generate your first audio free. No credit card required.

Start Free