オープンボイス

Ultra

粒状音調制御を備えたインスタント音声クローン

Moderate スピード
Very Good 品質
はい クローン
10 言語

情報 オープンボイス

of the voice and apply different tones to it. OpenVoice is a versatile instant voice cloning model that allows fine-grained control over speaking style, allowing you to take a look at the voice and apply different tones to it without new reference audio. OpenVoice is a versatile instant voice cloning model that allows fine-grained control over speaking style and apply different tones to the

主要な特徴

インスタントクローン

音声の数秒からどんな声でもクローンできます。

音色制御

喜び、悲しみ、怒り、興奮、ささやきの音を使う。

スタイル転送

音声アイデンティティを話し方から分離し,柔軟性を持たせる。

交叉語

異なる言語間でクローン音声を使用します。

ファストプロセッシング

音声生成のための効率的推論を提案した。

オープンソース

MITの商用ライセンス

ユースケース

感情的な内容 キャラクターアニメーション インタラクティブゲーム オーディオブックナレーション マーケティングビデオ バーチャルアシスタント

使い方 オープンボイス

  1. 1

    無料で登録するか、デモを試してみてください。

    無料の TextToSpeechAI アカウントを作成して、スタートアップクレジットを得るか、ページ内のデモを使って OpenVoice をコミットする前に聞いてみてください。ローカル GPU やインストールが必要ありません。すべては我々のサーバで実行されます。

  2. 2

    OpenVoice を選択し、参照クリップをアップロード

    OpenVoice エンジンを選択し、数秒のクリーンな参照音声をアップロードして、目標の音声を即座にクローンします。OpenVoice は話者のアイデンティティを捕捉し、テキストや音声に対して再利用できます。

  3. 3

    テキストを入力

    クローン音声に聞かせたいスクリプトを入力または貼り付けてください。OpenVoice は約 10 言語とクロス言語提供をサポートします。参照クリップと異なる言語で書くことができます。

  4. 4

    音色を選択し、生成します

    OpenVoice の 9 つの音声スタイルのうち、デフォルト、友好的、喜び、興奮、悲しみ、怒り、恐怖、叫び、ささやきの 1 つを選択して生成します。同じクローン音声がその感情的な伝達で話します。

  5. 5

    API をダウンロードまたは使用

    音声をMP3、WAV、OGGとしてダウンロードするか、TextToSpeechAI APIを通して自動生成を行い、各要求にクローン音声とトーンスタイルを渡す。

オープンボイス API

Generate speech programmatically using the TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "OpenVoiceは喜び、悲しみ、さえもささやきといったどんな音でも話すことができる。",
    "voice": "en_US-lessac-medium"
  }'

よくある質問

OpenVoice は、音声アイデンティティを話し方から独自に分離するテキストから音声への進歩したテキストから音声へのクローンモデルです。これにより、声をクローンし、それぞれの感情に対して新しい参照音声を必要としないで、異なる感情的な音を適用できます。これは表現的で制御可能な音声生成のために作成されています。

OpenVoice は、数秒の参照音声から即座に音声クローンを実行します。訓練は必要ありません。一度音声をキャプチャしたら、OpenVoice はそのアイデンティティを選択したテキストや音声スタイルに再利用できます。

OpenVoice は音声変換と基本的な音声合成を分離する二段階アーキテクチャを使用します。声をクローンした後、9 つの音声スタイルのいずれかを適用できます。デフォルト、友好的、喜び、興奮、悲しみ、怒り、恐怖、叫び、ささやき。同じクローン音声は、再録音なしに、選択した音声に基づいて異なる音声を発します。

OpenVoice は 9 つの話し方をサポートします: デフォルト、友好的、喜び、興奮、悲しみ、怒り、恐怖、叫び、ささやき。それぞれのスタイルはクローンした話者のアイデンティティを保持しながら感情的な伝達を再構築します。これにより、一行の読み方を細かく制御できます。

OpenVoice は MIT ライセンスの下でオープンソースであり、商用利用は無料です。他のクローンモデルと同様に、商用プロジェクトのためにクローンした音声に対して適切な権利を持っていることを確認してください。

OpenVoiceは英語、中国語、日本語、韓国語、ヨーロッパの言語を含む約10の言語をサポートし、クロス言語クローンを提供し、一つの言語の声をクローンし、他の言語で自然に話すことができる。

OpenVoiceは中程度の生成速度を持ち,GPUで文を2〜4秒でレンダリングする。出力品質は非常に良く,明瞭な音声再生と音色転送が得られ,感情的な伝達を説得的に変えながら話者のアイデンティティを保つ。

OpenVoice は通常、バッチサイズと音声変換負荷に依存して 6-8GB の VRAM を必要とします。中級から上級の GPU で快適に動作します。TextToSpeechAI では、これらすべてがサーバで処理されるので、ローカルハードウェアが必要ありません。

OpenVoiceは Ultra-tier エンジンで、1000文字当たり50クレジットで販売されています。Ultra-tierは、高度な音調制御とクローンとスタイル変換パイプラインに必要な追加の計算を反映しています。

OpenVoice は音色とスタイルの制御に優れています。クローンした声を選んで、喜び、悲しみ、怒り、ささやきなどの声を再生できます。F5-TTS はより速く、自然な中立的な音声のデフォルトクローンエンジンです。感情的なスタイルの制御が必要な場合は OpenVoice を、最も速い自然なクローンを望む場合は F5-TTS を選択してください。

参照音声をアップロードしてクローン音声を作成し、API リクエストで音声スタイルを指定します。API は自動的に選択した感情音をクローン音声に適用し、音声を MP3、WAV、OGG フォーマットで返します。

はい。無料の TextToSpeechAI アカウントに登録して、OpenVoice クローンと音声制御を試すか、まずページ上のデモを使ってください。ローカル設定はありません。参照クリップをアップロードし、音声を選択し、ブラウザで生成します。

Technical Specs

  • Generation Speed Moderate
  • Output Quality Very Good
  • Voice Cloning Supported
  • Languages 10
  • GPU VRAM 3-6GB
  • Credits/1000 chars 50

Try オープンボイス Now

Generate your first audio free. No credit card required.

Start Free