Fast
スピード
Very Good
品質
はい
クローン
5
言語
情報 コシー・ボイス2
[Translation temporarily unavailable. Please try again.]
主要な特徴
ゼロショット音声クローン
3〜10秒の参照音声から高信頼性でどんな声もクローンする。
多言語
複数言語合成を行う中国語,英語,日本語,韓国語,広東語をサポートする。
ストリーミングサポート
実時間応用や対話型システムのための低遅延ストリーミングモード。
自然韻律
音声の自然な音声を生成するための音声モデルを提案した。
ユースケース
多言語コンテンツ作成
リアルタイムボイスアシスタント
複数言語のダビング
パーソナルボイスアプリケーション
使い方 コシー・ボイス2
-
1
無料クレジットを申請してください
無料の TextToSpeechAI アカウントを作成して、スタートクレジットを要求するか、まずデモを試してください。GPUやローカルの CosyVoice2 のインストールは必要ありません。すべては我々のインフラストラクチャ上で動作します。
-
2
CosyVoice2を選択し、参照クリップを追加
エンジンとして CosyVoice2 を選択し、クローンしたい音声の 3-10 秒のクリーンな参照録音をアップロードします。CosyVoice2 はゼロショット多言語クローンのために話者の特性を抽出します。
-
3
サポートされている言語のテキストを入力
中国語、英語、日本語、韓国語、または広東語でスクリプトを入力または貼り付けます。CosyVoice2 はクローン音声が参照クリップと異なる言語を話すことを可能にするクロス言語合成をサポートします。
-
4
音声を生成
クリックして生成すると、CosyVoice2はクローン音声で自然な多言語の話し言葉を合成します。短いテキストの場合、通常数秒で合成します。プレミアムの使用は、1,000文字当たり25クレジットです。
-
5
API をダウンロードまたは使用
音声をMP3やWAVとしてダウンロードするか、TextToSpeechAI REST APIを使ってCosyVoice2の音声クローンを自動化する。
コシー・ボイス2 API
Generate speech programmatically using the TextToSpeechAI REST API.
curl -X POST "https://api.texttospeechai.com/v1/generate/" \
-H "Authorization: Bearer YOUR_API_TOKEN" \
-H "Content-Type: application/json" \
-d '{
"text": "CosyVoice2は,ゼロショット音声クローン能力を持つ自然な多言語音声を提供する。",
"voice": "en_US-lessac-medium"
}'
よくある質問
CosyVoice2は FunAudioLLM (Alibaba) の次世代テキストから音声へのクローンモデルです。数秒の参照音声からゼロショットクローンをサポートし、中国語、英語、日本語、韓国語、広東語の自然な音声を合成できます。TextToSpeechAIでは、ローカル設定なしにブラウザでCosyVoice2を実行できます。
はい、CosyVoice2はコードとモデル重みの両方が完全に Apache 2.0 ライセンスである。これにより、ライセンス料や非商用制限なしに商用製品、有料コンテンツ、クライアント作業に安全に使用できます。
CosyVoice2は中国語、英語、日本語、韓国語、広東語の5言語をサポートします。また、クロス言語合成を扱い、ある言語の録音から声をクローンし、他の言語で音声を生成できます。
ターゲットスピーカーの3-10秒のクリーンな参照音声を提供します。CosyVoice2は有限スカラー量子化アプローチを用いてスピーカーの特性を抽出し、サポートされている言語のいずれでもクローンされた音声で新しい音声を生成します。モデルの訓練や微調整は必要ありません。
CosyVoice2は,多言語クローンモデルの一つで,参照クリップと異なる言語での音声を生成した場合でも,話者のアイデンティティを保持し,自然な韻律と音調を生成し,クロス言語のダビングや地域化コンテンツに適している。
はい。CosyVoice2は高速モデルで、低遅延で音声を生成するストリーミングモードを含み、音声アシスタントやインタラクティブアプリケーションに適しています。TextToSpeechAIでは、短いテキストの場合、生成は通常数秒で完了します。
CosyVoice2は0.5Bパラメータモデルに対して約4-6GBのVRAMを必要とします。 だから、自己ホスティングの場合は6GB以上のGPUを推奨します。TextToSpeechAIでは、モデルは我々のGPUインフラストラクチャ上で動作します。 それゆえ、あなたは自分でハードウェアを必要としません。
CosyVoice2 はプレミアムモデルで、テキストの 1,000 文字当たり 25 クレジットが必要です。新規アカウントはすべて無料でスタートクレジットを受け取ります。CosyVoice2 の音声クローンを試してみて、有料プランを決める前に。
両方ともプレミアム音声クローンエンジンです。GPT-SoVITS は単一のターゲット音声に対して最も高い原始類似度を達成しますが、CosyVoice2 は多言語クローンやクロス言語クローンに強く、低遅延ストリーミングモードを追加します。複数の言語を話すクローン音声が必要な場合は、CosyVoice2 を選択してください。
両方とも高品質のゼロショット音声クローンを提供します。CosyVoice2はより多くの言語をサポートし、リアルタイム使用のためのストリーミングを追加します。F5-TTSは英語のみのワークロードに対しては少し速くなります。多言語プロジェクトの場合は、CosyVoice2が通常より適しています。
TextToSpeechAIはCosyVoice2の世代をMP3やWAVのような一般的なフォーマットにエクスポートできます。ファイルは履歴ページから直接ダウンロードできます。またはTextToSpeechAI APIを使ってプログラム的に検索できます。
はい。CosyVoice2 を無料デモと無料のスタートクレジットで何もインストールせずに TextToSpeechAI でテストできます。登録して、短い参考クリップをアップロードし、サポートされている言語でテキストを入力して、生成します。
Technical Specs
- Generation Speed Fast
- Output Quality Very Good
- Voice Cloning Supported
- Languages 5
- GPU VRAM 4-6GB
- Credits/1000 chars 25