Moderate
スピード
Excellent
品質
はい
クローン
1
言語
情報 スタイルTTS 2
s. StyleTTS 2 is a
主要な特徴
人間レベルの品質
人間の音声とは区別できない音声を生成する。
スタイル転送
音声データを音声データベースに保存し,音声データベースから音声データを抽出する。
自然韻律
拡散モデルを用いた完全リズム,ストレス,音調のモデル化を行った。
音声クローン
声をクローン化する
ファストインフェクション
また,自動回帰モデルよりも高速であり,品質を維持できる。
オープンソース
MITライセンスで商用利用権を持つ。
ユースケース
プレミアムオーディオブック
プロフェッショナル・ボーカル
映画・テレビプロダクション
ハイエンド広告
ポッドキャストプロデュース
声優
スタイルTTS 2 Voices
View All 6StyleTTS2 Default
ENStyleTTS2 Expressive
ENStyleTTS2 Fast
ENStyleTTS2 Natural
ENStyleTTS2 Neutral
ENStyleTTS2 Quality
EN使い方 スタイルTTS 2
-
1
無料で登録するか、デモを実行します
無料のTextToSpeechAIアカウントを作成してスタートクレジットを得るか、ホームページのデモを使ってログインせずに StyleTTS2 を聴く。
-
2
StyleTTS2 エンジンを選択
音声ライブラリから StyleTTS2 音声を選択します。音声をクローンするには、10-30 秒の参照クリップをアップロードしてください。 StyleTTS2 はそのスタイルを転送します。
-
3
テキストを入力
ナレーションを行うスクリプトを貼り付けまたはタイプします。 StyleTTS2 は英語に優れ、長いパートにおいて自然な韻律、強調、音調を提供します。
-
4
音声を生成
生成をクリックすると、TextToSpeechAI が StyleTTS2 オーディオを GPU 上でレンダリングします。
-
5
API をダウンロードまたは使用
完成した StyleTTS2 オーディオを MP3、WAV、OGG としてダウンロードするか、自動生成のために StyleTTS2 音声で TextToSpeechAI API を呼び出す。
スタイルTTS 2 API
Generate speech programmatically using the TextToSpeechAI REST API.
curl -X POST "https://api.texttospeechai.com/v1/generate/" \
-H "Authorization: Bearer YOUR_API_TOKEN" \
-H "Content-Type: application/json" \
-d '{
"text": "スタイルTTS2は,プロの人間の録音と競うほど自然な音声を生成する。",
"voice": "styletts2-default"
}'
よくある質問
StyleTTS2は人間レベルの音声合成を達成する最新のテキストから音声へのモデルです。スタイル拡散と対抗訓練を用いて、盲目聴取テストで実際の人間の録音とほとんど区別がつかない音声を生成します。TextToSpeechAI 上で StyleTTS2 を無料で試すことができます。
StyleTTS2 は TextToSpeechAI で利用可能な最高品質の TTS オーディオを生成します。正式な評価では、MOS (平均意見得点) テストで人間レベルの評価を得ました。聴衆はしばしば実際の人間の話者と区別できません。そのため、Tortoise と共に Ultra 層に位置しています。
StyleTTS2 はスタイル転送を通して音声クローンをサポートします。参照クリップから音色だけでなく話し方、リズム、感情的な特性を抽出します。最も正確な StyleTTS2 クローンは 10-30 秒の明瞭な音声を提供します。
はい。StyleTTS2は、ロイヤリティなしで完全な商用利用を許可する MIT ライセンスの下でリリースされています。これはオーディオブック、広告、映画、その他の権利が重要なプロフェッショナル StyleTTS2 プロジェクトに安全に使用できます。
StyleTTS2 は英語を主にサポートします。モデルは英語データセットで訓練されました。複数言語で同じ品質を必要とする場合は、TextToSpeechAI 上の F5-TTS が音声クローンをサポートしながらもより適しています。
StyleTTS2は中程度の生成速度を持っています。Tortoiseのような自己回帰モデルよりはるかに速いが、Piperのような軽量エンジンよりは遅い。その優れた品質と計算コストのため、StyleTTS2はリアルタイムモデルではなくUltra チームで価格設定されています。
StyleTTS2 は推論において 4-6GB の VRAM を必要とします。 Bark や Tortoise よりメモリ効率が良く、出力の品質も高いです。TextToSpeechAI では StyleTTS2 の処理は全て GPU 上で行われ、自分でハードウェアを必要としません。
StyleTTS2は Ultra-tier モデルで、TextToSpeechAI 上で 1000 文字あたり 50 クレジットを費やします。そのプレミアム価格は、その人間レベルの品質と GPU 資源を必要とすることを反映しています。Piper のような標準モデルは、1000 文字あたり 10 クレジットを費やします。
原始英語音声の音質が最優先され、最も自然な音の結果を求める場合は StyleTTS2 を選択します。声クローンを使って高速な多言語合成を行う場合は F5-TTS を選択します。両方ともクローンをサポートしますが、StyleTTS2 は Ultra クラス (50 クレジット) で、F5-TTS は Premium クラス (25 クレジット) です。
StyleTTS2は24kHzで高品質の音声を生成します。TextToSpeechAIを通してMP3、WAV、OGGとしてダウンロードできます。 StyleTTS2の優れた品質を最終ファイルに保持するために高品質のエンコーディングを使用します。
StyleTTS2 は話し方の調整をサポートし、スタイル転送設計により、異なる参照クリップを選択して韻律を形作ることができる。リズムと感情を選択することで、StyleTTS2 の提供を細かくコントロールできます。
ライブラリから StyleTTS2 音声を選択したり、クローン音声を作成するために参照音声をアップロードしたり、API リクエストでその音声を参照したりできます。TextToSpeechAI はすべての GPU 処理を処理し、プレミアム StyleTTS2 音声のダウンロード URL を返します。
Technical Specs
- Generation Speed Moderate
- Output Quality Excellent
- Voice Cloning Supported
- Languages 1
- GPU VRAM 4-6GB
- Credits/1000 chars 50