Kokoro

Standard

TTS nhanh, nhẹ với chất lượng tự nhiên

Very Fast Tốc độ
Good Chất lượng
Không Bản sao
9 Ngôn ngữ

Về Kokoro

[Translation temporarily unavailable. Please try again.]

Tính năng chính

Nhẹ siêu

82M tham số, ~300MB kích thước mô hình. chạy trên CPU với tài nguyên tối thiểu.

Gần thời gian thực

Tạo lời nói nhanh hơn tốc độ chơi, ngay cả khi không có gia tốc GPU.

Nhiều ngôn ngữ

Hỗ trợ tiếng Anh, Pháp, Tây Ban Nha, Hindi, Nhật Bản, Trung Quốc, Ý, Bồ Đào Nha, và Hàn Quốc.

Trộn âm thanh

Trộn hai giọng nói với nhau để tạo ra các kết hợp giọng nói độc đáo.

Tình huống sử dụng

Chatbot thời gian thực và trợ lý ảo Truyền trực tiếp văn bản thành lời nói Thiết lập Edge và ứng dụng di động Xử lý hàng loạt với số lượng lớn

Cách sử dụng Kokoro

  1. 1

    Đăng ký miễn phí hoặc thử bản demo

    Tạo một tài khoản TextToSpeechAI miễn phí để nhận 200 tín hiệu khởi động, hoặc sử dụng bản demo không đăng ký để nghe Kokoro ngay lập tức. Tầm tiêu chuẩn có nghĩa là Kokoro chỉ tốn 10 tín hiệu cho mỗi 1000 ký tự.

  2. 2

    Chọn giọng Kokoro

    Mở trình duyệt giọng nói và chọn giọng nói Kokoro trong ngôn ngữ mục tiêu (hỗ trợ 9 ngôn ngữ, từ tiếng Anh đến tiếng Nhật và tiếng Hàn). Bạn cũng có thể dùng hỗn hợp giọng nói Kokoro để trộn hai giọng nói thành một tổ hợp riêng.

  3. 3

    Nhập văn bản

    Nhập hoặc dán văn bản bạn muốn nói vào trình biên tập. Kokoro xử lý các đoạn dài hiệu quả nhờ vào tham số 82M nhẹ, động cơ gần thời gian thực.

  4. 4

    Điều chỉnh tốc độ và tạo

    Đặt tốc độ chơi nhạc phù hợp với trường hợp sử dụng của bạn, sau đó nhấn vào Create. Kokoro tạo âm thanh nhanh hơn thời gian thực, vì vậy lời nói của bạn sẽ sẵn sàng gần như ngay lập tức.

  5. 5

    Tải xuống hoặc sử dụng API

    Tải xuống âm thanh hoàn thành như MP3 hoặc WAV, hoặc tự động tạo thông qua API REST TextToSpeechAI tại api.texttospeechai.com cho các tải trọng hàng loạt và thời gian thực.

Kokoro API

Tạo lời nói bằng cách lập trình sử dụng TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Kokoro cung cấp lời nói tự nhiên với tốc độ và hiệu quả đáng kinh ngạc.",
    "voice": "en_US-lessac-medium"
  }'

Câu hỏi thường gặp

Kokoro là một mô hình chuyển văn bản sang giọng nói siêu nhẹ với chỉ 82 triệu tham số. Mặc dù kích thước nhỏ, nó tạo ra giọng nói tự nhiên trên nhiều ngôn ngữ với tốc độ gần thời gian thực, thậm chí trên CPU.

Có, Kokoro được cấp phép đầy đủ Apache 2. 0 - cả mã và trọng lượng mô hình. Nó có thể được sử dụng tự do trong các ứng dụng thương mại mà không bị giới hạn.

Kokoro hỗ trợ tiếng Anh (Mỹ và Anh), Pháp, Tây Ban Nha, Hindi, Nhật Bản, Trung Quốc, Ý, Bồ Đào Nha và Hàn Quốc.

Kokoro là một trong những mô hình TTS nhanh nhất có sẵn. Nó tạo ra giọng nói nhanh hơn tốc độ chơi thời gian thực ngay cả trên CPU, làm cho nó lý tưởng cho các ứng dụng tương tác.

Không, Kokoro không hỗ trợ sao chép giọng nói. Nó sử dụng thư viện giọng nói được quản lý với khả năng pha trộn giọng nói. Để sao chép giọng nói, hãy dùng F5- TTS, Chatterbox, StyleTTS2, OpenVoice, hoặc Tortoise.

Kokoro có thể trộn hai giọng nói lại với nhau để tạo ra những kết hợp độc đáo. Điều này cho phép bạn tạo ra những đặc điểm giọng nói tùy chỉnh mà không cần sao chép giọng nói truyền thống.

Cả hai đều là những mẫu nhanh, nhẹ. Kokoro có kiến trúc hiện đại hơn và hỗ trợ hỗn hợp giọng nói, trong khi Piper có thư viện giọng nói lớn hơn. Cả hai đều rất tốt cho các ứng dụng thời gian thực.

Kokoro được thiết kế để chạy trên CPU và yêu cầu tài nguyên tối thiểu - khoảng 300MB. Không cần GPU, mặc dù tăng tốc GPU được hỗ trợ để xử lý nhanh hơn.

Có. Kokoro tạo ra giọng nói nhanh hơn là chơi lại ngay cả trên CPU, với độ trễ rất thấp, vì vậy nó phù hợp tuyệt vời cho chatbots, trợ lý giọng nói, và truyền trực tiếp. Kích thước tham số 82M của nó giữ bộ nhớ sử dụng nhỏ, làm cho nó thực tế cho các quy mô lớn và các sự triển khai rìa.

Điều này cho phép bạn trộn hai giọng nói Kokoro lại với nhau để tạo ra một sự kết hợp độc nhất với các đặc điểm tùy chỉnh. Đây không phải là việc sao chép giọng nói truyền thống - bạn không thể tái tạo một người cụ thể từ một mẫu - nhưng nó cho bạn nhiều sự đa dạng hơn một thư viện giọng nói cố định. Bạn có thể thử nghiệm với sự trộn lẫn trực tiếp trong trình biên tập TextToSpeechAI.

Cả hai đều là những bộ máy cấp chuẩn nhanh, thân thiện CPU mà không có bản sao giọng nói. Kokoro nhẹ nhất (khoảng 300MB) và hỗ trợ hỗn hợp giọng nói trên 9 ngôn ngữ, trong khi MeloTTS tập trung vào nhiều giọng Anh và xuất nhiều ngôn ngữ thời gian thực. Chọn Kokoro cho dấu chân nhỏ nhất và hỗn hợp; chọn MeloTTS khi cần giọng nói đặc biệt.

Kokoro là một máy tính cấp chuẩn, giá 10 tín hiệu cho mỗi 1000 ký tự - cấp thấp nhất là TextToSpeechAI. Tài khoản mới nhận được 200 tín hiệu miễn phí, vì vậy bạn có thể thử Kokoro mà không cần trả tiền. Điều này làm cho nó là một trong những cách tiết kiệm nhất để tạo ra giọng nói chất lượng cao ở quy mô lớn.

Technical Specs

  • Generation Speed Very Fast
  • Output Quality Good
  • Voice Cloning Not Supported
  • Languages 9
  • GPU VRAM CPU OK
  • Credits/1000 chars 10

Try Kokoro Now

Generate your first audio free. No credit card required.

Start Free