Kokoro

Standard

Lightning-cepat, ringan TTS dengan kualitas alami

Very Fast Kecepatan
Good Kualitas
Tidak Kloning
9 Bahasa

Tentang Kokoro

Kokoro adalah sebuah parameter ultra ringan 8M TTS model yang memberikan pidato yang terdengar alami dengan kecepatan yang luar biasa. ia berjalan hampir real-time bahkan pada CPU, membuatnya ideal untuk aplikasi di mana latensi rendah kritis. Kokoro mendukung berbagai bahasa dan menawarkan kemampuan mencampur suara.

Fitur Kunci

Berat-liburan Ultra

Parameter 82M, ukuran model ~300MB. Jalankan CPU dengan sumber daya minimal.

Dekat Masa-Awal

Membuat pidato lebih cepat daripada kecepatan putar, bahkan tanpa akselerasi GPU.

Multi-Bahasa

Mendukung bahasa Inggris, Prancis, Spanyol, Hindi, Jepang, Cina, Italia, Portugis, dan Korea.

Suara Menempel

Campurkan dua suara bersama untuk menciptakan kombinasi suara yang unik.

Gunakan Kasus

Chabot-Chatbot dan asisten virtual streaming teks-ke-peech Penyebaran tepi dan aplikasi mobile Pemrosesan batch volume tinggi

Cara Menggunakan Kokoro

  1. 1

    Daftar bebas atau coba demo

    Create a free TextToSpeechAI account to get 200 starter credits, or use the no-signup demo to hear Kokoro instantly. The standard tier means Kokoro only costs 10 credits per 1000 characters.

  2. 2

    Pilih suara Kokoro

    Buka peramban suara dan pilih suara Kokoro dalam bahasa target Anda (9 didukung, dari Inggris ke Jepang dan Korea). Anda juga dapat menggunakan suara Kokororo untuk mencampur dua suara ke kombinasi ubahan.

  3. 3

    Masukkan teks Anda

    Ketik atau tempelkan teks yang ingin Anda sampaikan ke penyunting. Kokoro menangani bagian panjang secara efisien berkat ringan 82M-parameter, dekat mesin real-time.

  4. 4

    Sesuaikan kecepatan dan hasilkan

    Atur kecepatan putar untuk sesuai dengan huruf pakai Anda, lalu klik Generate. Kokoro membuat audio lebih cepat dari real-time, jadi pidato Anda segera siap.

  5. 5

    Unduh atau gunakan API

    Download the finished audio as MP3 or WAV, or automate generation through the TextToSpeechAI REST API at api.texttospeechai.com for batch and real-time workloads.

Kokoro API

Generate speech programmatically using the TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Kokoro menyampaikan pidato alami dengan kecepatan dan efisiensi yang luar biasa.",
    "voice": "en_US-lessac-medium"
  }'

Pertanyaan yang Sering Diajukan

Kokoro adalah model teks yang sangat ringan dengan hanya 82 juta parameter. walaupun ukurannya kecil, ia menghasilkan pidato yang terdengar alami di berbagai bahasa pada hampir kecepatan real-time, bahkan pada CPU.

Ya, Kokoro sepenuhnya Apache 2.0 dilisensikan - baik kode maupun berat model, dapat digunakan secara bebas dalam aplikasi komersial tanpa pembatasan.

Kokoro mendukung bahasa Inggris (AS dan Inggris), Prancis, Spanyol, Hindi, Jepang, Cina, Italia, Portugis, dan Korea.

Kokoro adalah salah satu model TTS tercepat yang tersedia. Ia menghasilkan pidato lebih cepat dari kecepatan putar real-time bahkan pada CPU, membuatnya ideal untuk aplikasi interaktif.

Tidak, Kokoro tidak mendukung kloning suara. Ia menggunakan perpustakaan suara yang dikukurasi dengan kemampuan mencampur suara. Untuk kloning suara, gunakan F5-TTS, Chatterbox, StyTTS2, OpenVoice, atau Tortoise.

Kokoro dapat mencampur dua suara bersama-sama untuk menciptakan kombinasi unik. Hal ini memungkinkan Anda untuk membuat karakteristik suara gubahan tanpa kloning suara tradisional.

Keduanya cepat, model ringan, Kokoro memiliki arsitektur yang lebih modern dan mendukung pencampuran suara, sementara Piper memiliki perpustakaan suara yang lebih besar. keduanya sangat bagus untuk aplikasi real-time.

Kokoro dirancang untuk menjalankan CPU dan membutuhkan sumber daya minimal - sekitar 300MB. Tidak ada GPU diperlukan, meskipun akselerasi GPU didukung untuk pemrosesan yang lebih cepat.

Kokoro menghasilkan pidato yang lebih cepat dari pemutaran bahkan pada CPU, dengan latensi yang sangat rendah, sehingga sangat cocok untuk chatbots, asisten suara, dan streaming hidup. ukuran 82M-parameternya membuat memori tetap menggunakan kecil, membuatnya praktis untuk volume tinggi dan edge penyebaran.

Voice blending lets you mix two Kokoro voices together to create a unique combination with custom characteristics. It is not traditional voice cloning - you cannot reproduce a specific person from a sample - but it gives you more variety than a fixed voice library. You can experiment with blends directly in the TextToSpeechAI editor.

Keduanya cepat, mesin standar-tier CPU ramah tanpa kloning suara. Kokoro adalah paling ringan (sekitar 300MB) dan mendukung pencampuran suara dalam 9 bahasa, sementara Melottis berfokus pada berbagai aksen Inggris dan real-time multilingual output. Pilih Kokoro untuk jejak terkecil dan campuran; pilih Melotts ketika Anda membutuhkan aksen tertentu.

Kokoro is a standard-tier engine, costing 10 credits per 1000 characters - the lowest tier on TextToSpeechAI. New accounts get 200 free credits, so you can try Kokoro without paying. This makes it one of the most cost-effective ways to generate high-quality speech at scale.

Technical Specs

  • Generation Speed Very Fast
  • Output Quality Good
  • Voice Cloning Not Supported
  • Languages 9
  • GPU VRAM CPU OK
  • Credits/1000 chars 10

Try Kokoro Now

Generate your first audio free. No credit card required.

Start Free