Kokoro

Standard

Błyskawiczna, lekka TTS o naturalnej jakości

Very Fast Prędkość
Good Jakość
Nie Klonowanie
9 Języki

O tematie Kokoro

Kokoro jest ultra-latecznym parametrem 82M TTS modelem, który zapewnia naturalnie dźwiękową mowy z niesamowitą prędkością. Bieży w pobliżu czasu rzeczywistego nawet w CPU, co sprawia, że jest idealny dla aplikacji, w których niska latencja jest krytyczna. Kokoro obsługuje wiele języków i oferuje możliwości mieszania głosu.

Kluczowe cechy

Ultra- lekkie

82M parametry, ~300MB rozmiar modelu. Uruchamia procesor z minimalnymi zasobami.

Niedaleko czasu rzeczywistego

Generuje mowy szybciej niż szybkość odtwarzania, nawet bez przyspieszenia GPU.

Wielojęzykowy

Wsparcie angielski, francuski, hiszpański, hindi, japoński, chiński, włoski, portugalski i koreański.

Zmieszanie głosu

Mieszaj dwa głosy, aby stworzyć wyjątkowe kombinacje głosu.

Przypadki użytkowania

Realizacja czatów i asystentów wirtualnych Live streaming text-to-speech Rozmieszczenie krawędzi i aplikacje mobilne Przetwarzanie serii o dużej objętości

Jak stosować lek Kokoro

  1. 1

    Zarejestruj się za darmo lub spróbuj demo

    Stwórz bezpłatne TextToSpeechAI konto aby uzyskać 200 kredytów starterowych, lub użyć demo bez podpisu, aby usłyszeć Kokoro natychmiast. Standardowy poziom oznacza Kokoro kosztuje tylko 10 kredytów na 1000 znaków.

  2. 2

    Wybierz głos Kokoro

    Otwórz przeglądarkę głosową i wybierz głos kokoro w języku docelowym (9 obsługiwanych, z angielskiego na japoński i koreański). Możesz również użyć kokoro mączki głosowej, aby zmieszać dwa głosy w połączeniach własnych.

  3. 3

    Wpisz tekst

    Wpisz lub wklej tekst, który chcesz wymienić do edytora. Kokoro sprawnie obsługuje długie przejścia dzięki lekkim 82M-parametrom, w pobliżu silnika w czasie rzeczywistym.

  4. 4

    Ustawia prędkość i generuje

    Ustaw szybkość odtwarzania, aby dopasować do przypadku użytkowania, a następnie kliknij Generuj. Kokoro odtwarza dźwięk szybciej niż w czasie rzeczywistym, więc przemówienie jest gotowe niemal natychmiast.

  5. 5

    Pobierz lub użyj API

    Pobierz zakończony dźwięk jako MP3 lub WAV, lub automatyzuj generację przez TextToSpeechAI REST API w api.texttospechai.com dla partii i czasu rzeczywistego.

Kokoro API

Generuj mowy w programie, używając TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Kokoro dostarcza naturalne przemówienie z niesamowitą szybkością i wydajnością.",
    "voice": "en_US-lessac-medium"
  }'

Często zadawane pytania

Kokoro jest ultra-latecznym modelem tekstu do języka o tylko 82 milionach parametrów. Mimo jego małej wielkości, produkuje naturalnie dźwiękowe przemówienie w wielu językach przy niemal szybkości w czasie rzeczywistym, nawet w CPU.

Tak, Kokoro jest w pełni licencjonowany Apache 2.0 - zarówno kod, jak i wagi modelowe. Można go swobodnie używać w aplikacjach handlowych bez ograniczeń.

Kokoro wspiera angielski (USA i brytyjski), francuski, hiszpański, hindi, japoński, chiński, włoski, portugalski i koreański.

Kokoro jest jednym z najszybszych dostępnych modeli TTS. Generuje mowy szybciej niż prędkość odtwarzania w czasie rzeczywistym nawet w CPU, co sprawia, że jest idealny dla aplikacji interaktywnych.

Nie, Kokoro nie obsługuje klonowania głosu. Wykorzystuje funkcję klonowania głosu z wykurowaną biblioteką głosową. Do klonowania głosu należy użyć F5-TTS, Chatterbox, StyleTTS2, OpenVoice lub Tortoise.

Kokoro może mieszać dwa głosy razem, aby stworzyć unikatowe kombinacje. Pozwala to na stworzenie własnych cech głosowych bez tradycyjnego klonowania głosu.

Obie są szybkie, lekkie modele. Kokoro ma bardziej nowoczesną architekturę i obsługuje mieszanie głosu, podczas gdy Piper ma większą bibliotekę głosową. Obie są doskonałe dla aplikacji w czasie rzeczywistym.

Kokoro jest zaprojektowany do uruchomienia w CPU i wymaga minimalnych zasobów - około 300MB. Nie jest potrzebny GPU, chociaż przyspieszenie GPU jest wspierane jeszcze szybciej.

Tak. Kokoro generuje mowy szybciej niż odtwarzanie nawet w CPU, z bardzo niskim latentności, więc jest to doskonały pas do chatbotów, asystentów głosowych i streaming na żywo. Jego rozmiar 82M-parametr utrzymuje pamięć używać malutkich, co sprawia, że jest praktyczny dla wysokich ilości i rozmieszczenia krawędzi.

Miksowanie głosu pozwala na mieszanie dwóch głosów Kokoro w celu stworzenia wyjątkowej kombinacji z własnymi cechami. To nie jest tradycyjne klonowanie głosu - nie można odtworzyć konkretnej osoby z próbki - ale daje więcej odmiany niż stała biblioteka głosowa. Można eksperymentować z mieszankami bezpośrednio w TextToSpeechAI edytor.

Obie są szybkie, przyjazne dla procesora standardowe silniki bez klonowania głosu. Kokoro jest najłagodniejszym (około 300MB) i obsługuje głos mieszający się w 9 językach, podczas gdy MelotTS koncentruje się na wielu anglickich akcentach i w czasie rzeczywistym wielojęzycznym wyjściu. Wybierz Kokoro dla najmniejszego śladu i mieszania; wybierz Melotts, gdy potrzebujesz konkretnych akcentów.

Kokoro jest silnikiem standardowym, kosztuje 10 kredytów na 1000 znaków - najniższy poziom na TextToSpeechAI. Nowe konta otrzymują 200 bezpłatnych kredytów, więc można spróbować Kokoro bez płacenia. To czyni to jednym z najbardziej kosztownych sposobów generowania wysokiej jakości mowy na skali.

Technical Specs

  • Generation Speed Very Fast
  • Output Quality Good
  • Voice Cloning Not Supported
  • Languages 9
  • GPU VRAM CPU OK
  • Credits/1000 chars 10

Try Kokoro Now

Generate your first audio free. No credit card required.

Start Free