Very Fast
スピード
Good
品質
いや
クローン
9
言語
情報 ココロ
[Translation temporarily unavailable. Please try again.]
主要な特徴
超軽量
82M パラメータ、~300MB モデルサイズ。最小限の CPU リソースで動作します。
近似リアルタイム
音声を生成するには、GPU の加速が必要です。
マルチ言語
英語、フランス語、スペイン語、ヒンディー語、日本語、中国語、イタリア語、ポルトガル語、韓国語をサポートします。
ボイスブレンド
二つの声を混ぜ合わせて、ユニークな声の組み合わせを作成します。
ユースケース
リアルタイムチャットボットとバーチャルアシスタント
ライブストリーミングテキスト・トゥ・スピーチ
エッジデプロイメントとモバイルアプリケーション
大容量バッチ処理
使い方 ココロ
-
1
無料で登録するか、デモを試してみてください。
無料のTextToSpeechAIアカウントを作成して200のクレジットを得たり、登録なしのデモを使ってすぐにKokoroを聴くことができます。標準のレベルでは、Kokoroは1000文字あたり10クレジットしかかかりません。
-
2
子供の声を選ぶ
音声ブラウザを開き、目標言語での Kokoro 音声を選択します。 (9 言語サポート、英語から日本語、韓国語まで)。 Kokoro 音声ブレンドを使って、2 つの音声をカスタム組み合わせに混ぜることもできます。
-
3
テキストを入力
話すテキストをエディタに入力または貼り付けます。Kokoroは軽量な82Mパラメータとリアルタイムエンジンを使って長い文章を効率的に処理します。
-
4
速度を調整し、生成
再生速度をユースケースに合わせて設定し、 生成をクリックします。Kokoroはリアルタイムよりも音声を速く再生します。 それで、あなたの話し言葉はほぼ即座に準備できます。
-
5
API をダウンロードまたは使用
音声をMP3やWAVとしてダウンロードしたり、TextToSpeechAI REST APIを使って自動生成したり、バッチやリアルタイムワークロードを利用したりできる。
ココロ API
Generate speech programmatically using the TextToSpeechAI REST API.
curl -X POST "https://api.texttospeechai.com/v1/generate/" \
-H "Authorization: Bearer YOUR_API_TOKEN" \
-H "Content-Type: application/json" \
-d '{
"text": "自然な音声を伝えるココロは,信じられない速さと効率で自然な音声を伝える。",
"voice": "en_US-lessac-medium"
}'
よくある質問
Kokoroは8200万パラメータの超軽量テキスト‐音声モデルで,小型であるにもかかわらず,CPU上でも実時間近くの速度で複数言語間で自然な音声を生成する。
はい、Kokoroはコードとモデル重みの両方で Apache 2.0 ライセンスを完全に受けています。商用アプリケーションで制限なしに自由に使用できます。
Kokoroは英語(米国とイギリス)、フランス語、スペイン語、ヒンディー語、日本語、中国語、イタリア語、ポルトガル語、韓国語をサポートします。
Kokoroは最も速いTTSモデルの一つであり、CPU上でのリアルタイム再生速度よりも速く音声を生成し、対話型アプリケーションに適しています。
Kokoro は音声クローンをサポートしていません。音声混合機能を備えたクアレーションされた音声ライブラリを使用します。音声クローンのためには F5-TTS、Chatterbox、StyleTTS2、OpenVoice、または Tortoise を使用してください。
Kokoro は二つの声を混ぜ合わせてユニークな組み合わせを作成します。これにより、従来の声のクローン化なしにカスタムの声特性を作成できます。
両方とも速く軽量なモデルです。Kokoroはより現代的なアーキテクチャで、音声ブレンドをサポートし、Piperはより大きな音声ライブラリを持っています。両方ともリアルタイムアプリケーションに適しています。
KokoroはCPUで動作するように設計されており、最小限のリソースを必要とします。GPUは必要ありませんが、より高速な処理のためにGPU加速をサポートしています。
はい。Kokoroは CPU 上でも再生よりも速く、遅延が非常に低い音声を生成します。それはチャットボット、音声アシスタント、ライブストリーミングに適しています。82Mパラメータサイズはメモリ使用量を小さく保ち、大容量やエッジデプロイメントに実用的です。
音声ブレンドは、2つの Kokoro 音声を混ぜ合わせて、カスタム特性を持つユニークな組み合わせを作成します。これは伝統的な音声クローンではありません。サンプルから特定の人物を再現することはできません。しかし、固定された音声ライブラリよりも多様性を提供します。TextToSpeechAI エディタで直接ブレンドを実験できます。
両方とも速く、CPU に優しい、声のクローンを含まない標準的なエンジンです。Kokoro は最も軽量で、9 言語の声の混合をサポートします。MeloTTS は複数の英語アクセントとリアルタイムの多言語出力に焦点を当てています。最小のフットプリントと混合を求めるなら Kokoro を選択してください。特定のアクセントが必要な場合は MeloTTS を選択してください。
Kokoro は標準的なエンジンで、1000 文字あたり 10 クレジットを費やします。最低のレベルは TextToSpeechAI です。新規アカウントは 200 クレジットを無料で受け取ります。Kokoro を試すには、支払いが必要ありません。これは、高品質な音声を大規模に生成する最もコスト効率的な方法の一つです。
Technical Specs
- Generation Speed Very Fast
- Output Quality Good
- Voice Cloning Not Supported
- Languages 9
- GPU VRAM CPU OK
- Credits/1000 chars 10