Pocket TTS

Standard

Ultra-lekkie klonowanie głosu, które działa w czasie rzeczywistym w CPU

Very Fast Prędkość
Good Jakość
Tak. Klonowanie
2 Języki

O tematie Pocket TTS

Pocket TTS przez Kyutai to ultra-latkie parametry 100M, które działa w czasie rzeczywistym w CPU. Mimo jego małej wielkości, wspiera klonowanie głosu z zaledwie 5 sekund odnośnego audio. Idealny do rozmieszczenia krawędzi, aplikacji mobilnych i scenariuszy, w których zasoby GPU są ograniczone. Obecnie obsługuje angielski i francuski.

Kluczowe cechy

Ultra- lekkie

Parametry 100M - uruchamia w czasie rzeczywistym w CPU z minimalnymi zasobami.

Klonowanie głosu

Klonuj głos z zaledwie 5 sekund odnośnego dźwięku, nawet w procesorze.

Realizacja czasu w CPU

Nie wymaga się GPU. Generuje mowy przy prędkości rzeczywistej na standardowym sprzętie.

Przygotowanie do krawędzi

Wystarczająco mały dla urządzeń mobilnych, Malina Pi i wbudowanych systemów.

Przypadki użytkowania

Wykorzystanie krawędzi i telefonii komórkowej Realizacja głosowych asystentów w CPU Urządzenia IoT i wbudowane Klonowanie głosu niskiego źródła

Jak stosować lek Pocket TTS

  1. 1

    Zarejestruj się za darmo lub spróbuj demo

    Stwórz bezpłatne konto TextToSpeechAI, aby otrzymywać kredyty starterowe, lub użyć demo na miejscu, aby usłyszeć Pocket TTS przed zalogowaniem. Nie jest potrzebny GPU ani lokalny instalator.

  2. 2

    Wybierz Pocket TTS i dodaj głos do klonowania

    Wybierz Pocket TTS jako silnik, następnie wyślij krótki klip referencyjny o około 5 do 10 sekund, aby sklonować ten głos. Pocket TTS działa w całości na procesorze, więc klonowanie jest szybkie i lekkie.

  3. 3

    Wpisz tekst

    Wpisz lub wklej tekst angielski lub francuski, który chcesz wypowiedzieć. Miej na oku liczbę znaków, ponieważ Pocket TTS banknoty standardowe stawki 10 kredytów na 1000 znaków.

  4. 4

    Wygeneruj dźwięk

    Kliknij generować i Pocket TTS syntetyzuje Twój tekst w sklonowanym głosie przy prędkości w czasie rzeczywistym. Większość klipów jest gotowa w sekundach, ponieważ model jest tak mały i wydajny na procesorze.

  5. 5

    Pobierz lub użyj API

    Pobierz zakończone pokolenie audio lub automatyzuj generację przez TextToSpeechAI REST API na api.texttospeechai.com za pomocą żetonu konta. API ujawnia to samo Klonowanie i syntezę pocketu TTS dla własnych aplikacji.

Pocket TTS API

Generuj mowy w programie, używając TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Pocket TTS dostarcza klonowanie głosu, które działa w czasie rzeczywistym, nawet w CPU.",
    "voice": "en_US-lessac-medium"
  }'

Często zadawane pytania

Pocket TTS jest ultra-latką modelką tekstu-to-speech z Kyutai z tylko 100 milionami parametrów. Bieżąc w czasie rzeczywistym w CPU i obsługuje klonowanie głosu od 5 sekund audio.

Pocket TTS jest licencjonowany na CC-BY-4.0, co pozwala na użytkowanie handlowe z przypisywaniem. Przy zastosowaniu aplikacji handlowych należy zasługować Kyutai.

Obecnie Pocket TTS obsługuje angielski i francuski. W przyszłych wydaniach można dodać więcej języków.

Tak! Z tylko parametrami 100M, Pocket TTS działa w czasie rzeczywistym przy standardowym sprzętie procesorowym. Nie jest potrzebny GPU, co sprawia, że jest idealny dla aplikacji rozmieszczania krawędzi i mobilnych.

Obie są lekkie i dobrze działają na CPU. Pocket TTS unikalnie obsługuje klonowanie głosu (Kokoro nie obsługuje). Kokoro obsługuje więcej języków (9 vs 2). Wybierz Pocket TTS jeśli potrzebujesz lekkiego klonowania głosu, Kokoro, jeśli potrzebujesz więcej języka.

Zapewnij 5 sekund odnośnego audio. Pocket TTS wyciąga charakterystykę głośnika i może wygenerować nowy mowy w tym głosie. Jakość poprawia się o dłuższych odniesieniach (do 10 sekund).

Tak. W przeciwieństwie do większości modeli klonowania wymagających GPU, Pocket TTS wykonuje zerowo klonowanie głosu w całości w CPU dzięki jego małemu śladowi 100M-parametru. Możesz sklonować głos z krótkiego klipu nawet na laptopie lub komputerze jednotonowym.

Pocket TTS jest wydany w ramach CC-BY-4.0, więc należy zasługować Kyutai jako pierwotnego twórcy podczas jego użycia lub redystrybucji. Proste przypisywanie takie jak "Głos generowany przez Pocket TTS przez Kyutai" spełnia licencję na użytek komercyjny i niekomercyjny.

Pocket TTS generuje mowy w czasie rzeczywistym lub szybszym w standardowym procesorze, bez GPU wymaganego. To czyni go jednym z najbardziej reagujących silników w przypadku niskiego czasu użytkowania, takich jak żywe asystenty głosowe i generacja na urządzeniach.

Pocket TTS jest w standardowym poziomie cenowym, kosztuje 10 kredytów na 1000 znaków. To czyni go jedną z najbardziej ekonomicznych opcji klonowania głosu dostępne na TextToSpeechAI.

Oba są lekkie, przyjazne do procesora, standardowo-tyer silniki. Pick Pocket TTS kiedy potrzebujesz klonowania głosu, ponieważ Kokoro nie obsługuje tego. Wybierz Kokoro, gdy potrzebujesz szerszego pokrycia języka i nie musisz klonować określonego głosu.

Tak. Nowe TextToSpeechAI konta otrzymują darmowe kredyty starterowe, a demo na miejscu pozwala usłyszeć Pocket TTS przed dokonaniem. Zarejestruj się za darmo, wyślij krótki klip referencyjny i generuj klonowane mowy w sekundach.

Technical Specs

  • Generation Speed Very Fast
  • Output Quality Good
  • Voice Cloning Supported
  • Languages 2
  • GPU VRAM CPU OK
  • Credits/1000 chars 10

Try Pocket TTS Now

Generate your first audio free. No credit card required.

Start Free