Medium
スピード
Excellent
品質
はい
クローン
5
言語
情報 GPT-ソビツ
-quality speech clones.
主要な特徴
フェイショット・ボイス・クローン
3-10秒の参照音声から、最良の品質のために転写を伴う声をクローンします。
言語間合成
1言語で訓練し,中国語,英語,日本語,韓国語,または広東語での発話を生成する。
最高品質
GPT‐Sovitsは,現存する最高品質の音声クローンモデルの中で一貫してランクインしている。
オープンソース
完全にMITライセンスで,活発なコミュニティ開発と広範な文書化を行っている。
ユースケース
プロフェッショナル・ボイス・クローン
多言語字幕
オーディオブック製作
声優
使い方 GPT-ソビツ
-
1
無料アカウントを作成またはデモを開きます
TextToSpeechAIに登録して無料のスタートクレジットを受け取るか、登録なしでGPT-SoVITSを試すデモに直接入る。
-
2
GPT-SoVITS を選択し、参照クリップをアップロード
エンジンとして GPT-SoVITS を選択し、クローンしたい音声の 3-10 秒の参照クリップをアップロードします。クリップの転写を追加することで、最もクリーンで正確なクローンを得ることができます。
-
3
テキストを入力
クローン音声で話すテキストを入力または貼り付けます。GPT-SoVITS は中国語、英語、日本語、韓国語、広東語をサポートし、他の言語の参照からのクローンを含みます。
-
4
音声を生成
作成をクリックして GPU サーバにジョブを送信します。GPT-SoVITS は中速で優れた品質のクローン音声を作成します。1,000 文字あたり 25 クレジットで請求されます。
-
5
API をダウンロードまたは使用
完成したGPT-SoVITSオーディオをファイルとしてダウンロードするか、TextToSpeechAI REST APIを使って自動生成を api.texttospeechai.com でプロダクションワークフローのために行う。
GPT-ソビツ API
Generate speech programmatically using the TextToSpeechAI REST API.
curl -X POST "https://api.texttospeechai.com/v1/generate/" \
-H "Authorization: Bearer YOUR_API_TOKEN" \
-H "Content-Type: application/json" \
-d '{
"text": "GPT‐Sovitsは,数秒の音声から最高品質の音声クローンを生成する。",
"voice": "en_US-lessac-medium"
}'
よくある質問
GPT‐SoVITSは,GPTの言語モデルとSoVITSの音声変換を組み合わせた最新の音声クローンシステムで,3〜10秒の参照音声から,驚くほど自然な音声クローンを生成する。
はい、GPT-SoVITS はコードとモデル重みの両方が MIT ライセンスで完全にライセンスされています。制限なしに商用アプリケーションで自由に使用できます。
GPT-SoVITS は中国語、英語、日本語、韓国語、広東語をサポートします。また、クロス言語音声クローンをサポートします。一つの言語で参照を提供し、他の言語で音声を生成します。
GPT‐Sovitsは,高品質の音声クローンモデルの中で常に優位に立ち,多くの代替モデルよりも自然な韻律を生み出す。
良い結果を得るには、参照オーディオクリップとそのテキストトランスクリプトを提供してください。トランスクリプトはモデルが参照音声の特性をよりよく理解するのに役立ちます。トランスクリプトがないと、モデルはまだ動作しますが、質は少し低くなります。
GPT-SoVITS は入力長さに応じて 4-8GB の VRAM を必要とします。最適な性能を得るには 6GB 以上の GPU を推奨します。TextToSpeechAI では、モデルは我々の GPU サーバで動作します。自分でハードウェアを必要としません。
GPT‐Sovitsは,短い参照クリップから音色,アクセント,韻律を忠実に再現する,現存する最もリアルな声クローンのいくつかを提供します。参照音声の転写を提供することで,クローンをソーススピーカーとほとんど区別できないようにして,質をさらに高めます。
GPT‐SoVITSは声をクローンするのに3〜10秒のクリーンな参照音声しか必要としません。背景ノイズを最小限に抑えた短く明瞭なサンプルが最良の結果を与え、マッチングトランスクリプトを追加することで精度をさらに向上させます。
GPT‐Sovitsは中速で動作し、スタジオ品質に近い優れた出力を生成します。ピパーやココロのような軽量モデルと比較して、少し速度を取引しますが、より自然で表現力のあるクローン音声を生成します。
GPT-SoVITSはプレミアムモデルで、1,000文字当たり25クレジットのコストがかかります。これは標準モデル (10クレジット) より高く、Tortoiseや StyleTTS2のような超高級モデル (50クレジット) より低いです。
両方とも商用にライセンスされたプレミアムな声クローンエンジンです。GPT-SoVITS はクローンの忠実性と言語間の韻律に優れていますが、CosyVoice2 (Apache 2.0) は強力な多言語対応を提供しています。TextToSpeechAI 上で両方を無料で試して、目標の声に最も合うものを選んでください。
はい。無料の TextToSpeechAI アカウントに登録して、一度のスタートクレジットを取得するか、デモを使用してアカウントなしで GPT-SoVITS を聴くことができます。クレジットパックを購入する前に声をクローンして品質をテストするのに十分です。
Technical Specs
- Generation Speed Medium
- Output Quality Excellent
- Voice Cloning Supported
- Languages 5
- GPU VRAM 4-8GB
- Credits/1000 chars 25