Fast
スピード
Very Good
品質
はい
クローン
23
言語
情報 チャターボックス
[Translation temporarily unavailable. Please try again.]
主要な特徴
ゼロショット音声クローン
数秒のオーディオからどんな声もクローンできます - 訓練は必要ありません。
23言語
アラビア語から中国語まで、世界の主要言語をカバーする。
表現的タグ
自然なパラ言語音を [笑い]、 [咳]、 [笑い] で表す。
ファストインフェクション
実時間応用のためのターボ変種でサブ200msの遅延を得た。
ユースケース
コンテンツ作成のための音声クローン
多言語音声アプリケーション
ゲームのキャラクター声優
パーソナルボイスアシスタント
使い方 チャターボックス
-
1
登録またはデモを開く
無料のTextToSpeechAIアカウントを作成して200のスタートクレジットを要求し、またはページ上のデモを使用してログインせずにChatterboxを試してください。
-
2
チャットボックスを選択し、参照クリップを追加
Chatterbox エンジンを選択し、クローンしたい音声の短いオーディオクリップをアップロードします。Chatterbox zero-shot は即座にクローンします。訓練は必要ありません。
-
3
オプションのタグを使ってテキストを入力
23 言語のうちのどれかでテキストを入力または貼り付けて話し、 [laugh]、[cough]、[chuckle] タグを自然なパラ言語音を望む場所にドラッグしてください。
-
4
音声を生成
クリックして生成すると TextToSpeechAIはホストGPUインフラ上で クローンしたチャッターボックスの音声で テキストをレンダリングします 1000文字あたり25クレジットを使います
-
5
API をダウンロードまたは使用
完成したオーディオファイルをダウンロードするか、アカウントトークンを使ってapi.texttospeechai.comのTextToSpeechAI REST APIを通して自動生成する。
チャターボックス API
Generate speech programmatically using the TextToSpeechAI REST API.
curl -X POST "https://api.texttospeechai.com/v1/generate/" \
-H "Authorization: Bearer YOUR_API_TOKEN" \
-H "Content-Type: application/json" \
-d '{
"text": "Chatterboxは、数秒の音声からあなたの声をクローンし、23の言語で話すことができる。",
"voice": "en_US-lessac-medium"
}'
よくある質問
チャッタボックスは,Resemble AIのゼロショット音声クローンテキスト‐ト-スピーチモデルで,数秒の参照音声から任意の音声を複製し,23言語で自然で表現力のある音声を生成する。
はい、Chatterbox はコードとモデル重みの両方が MIT ライセンスであるため、商用製品に自由に使用できます。生成されたオーディオにはオプションのニューラルウォーターマークが含まれ、無効にすることができ、使用ロイヤリティはありません。
あらゆる声の短い参照クリップを提供すると、Chatterbox はその声の音色とスタイルをスピーカー埋め込みに抽出します。それから、微調整や訓練のステップなしにその声で全く新しい話を生成します。これが「ゼロショット」の意味です。
Chatterbox はテキスト中の特別なインラインタグを読み取り、自然な非言語音を追加します。 [laugh] は笑いを挿入します、[cough] は咳を挿入します、[chuckle] は軽い笑いを挿入します。音を入れる場所にタグを置くだけです。例えば、「それは面白い [笑い] だが真剣に...」。
音が発生する場所にタグを直接入力テキストに入力します。 文の残りの部分に囲まれています。 Chatterbox はクローン音声に対語音を表現します。周囲の音声と混ぜて、スプラッチされる代わりに自然に聞こえます。
Chatterboxは、アラビア語、デンマーク語、ドイツ語、ギリシャ語、英語、スペイン語、フィンランド語、フランス語、ヘブライ語、ヒンディー語、イタリア語、日本語、韓国語、マレー語、オランダ語、ノルウェー語、ポーランド語、ポルトガル語、ロシア語、スウェーデン語、スワヒリ語、トルコ語、中国語など23の言語をサポートします。クローンされた声は、これらの言語をすべて話すことができます。
ChatterboxはGPU上で速く音声を生成し,Turboバージョンはリアルタイム会話用に200ms以下の遅延を達成した。
Chatterbox は、バージョンにより、約 4-8GB の VRAM を必要とします。Turbo モデルは、約 4GB で快適に動作します。TextToSpeechAI では、ローカル GPU は必要ありません。ホストインフラストラクチャ上で、GPU の生成を実行します。
Chatterboxはプレミアムエンジンで、1,000文字あたり25クレジットが必要です。新規アカウントは200クレジットを無料で得て、音声クローンを試してみましょう。クレジットは実際に生成したテキストにのみ使います。
両方ともゼロショット音声クローンをサポートしますが、Chatterboxはより多くの言語をカバーし、表現的なパラ言語的タグを追加します。F5-TTSは少し自然な英語の韻律をエッジアウトします。多言語クローンと表現的な音を求める場合は、Chatterboxを、英語のみの忠実さを求める場合は、F5-TTSを選択してください。
両方とも高品質の音声クローンを提供します。 Chatterbox は 23 言語とインライン表現タグをサポートします。OpenVoice は Chatterbox に欠ける音声スタイルコントロール (友好的、悲しみ、怒りなど) を追加します。広い言語コアのために Chatterbox を選択し、明確な感情的な音声スタイルが必要な場合は OpenVoice を選択してください。
はい。無料のTextToSpeechAIアカウントに登録して200のスタートクレジットを受け取るか、ログインせずにチャットボックスを聴くためにページ上のデモを使用してください。短い参考クリップをアップロードし、テキストを入力して、クローン音声を数秒で生成します。
Technical Specs
- Generation Speed Fast
- Output Quality Very Good
- Voice Cloning Supported
- Languages 23
- GPU VRAM 4-8GB
- Credits/1000 chars 25