ディア

Ultra

音声クローンと非言語音声を備えた対話型TTS

Medium スピード
Excellent 品質
はい クローン
1 言語

情報 ディア

ing a 100% natural conversational speech with support for nonverbal sounds like laughter, sighs, and coughs. Dia supports multi-speaker dialogue generation and voice cloning from 5-10 seconds of reference audio, making it ideal for creating realistic conversational speech and character voices. Dia supports multi-speaker dialogue generation and voice cloning from 5-10 seconds of reference audio, making it a 100% natural

主要な特徴

ダイアログ生成

自然な多重話者会話を生成する。

非言語音声

自然なパラ言語表現のために[笑い],[息切れ],[咳],[息切れ]を追加する。

音声クローン

音声のクローン化を行う。

ナチュラル・コンバーシション

1.6Bパラメータは,自然な会話の韻律と音調を生み出す。

ユースケース

対話生成 複数のキャラクターを持つオーディオブックの製作 ゲームキャラクターの声 ポッドキャストとコンテンツ作成

使い方 ディア

  1. 1

    無料で登録するか、デモを開く

    無料のTextToSpeechAIアカウントを作成して、スタートクレジットを要求するか、登録なしのデモを開いてDia Dialogを直ちに試してみてください。

  2. 2

    Dia エンジンを選択

    TTS ダッシュボードでエンジンリストから Dia を選択します。Dia は対話型の超階層モデルで、マルチスピーカーと音声クローンサポートを備えています。

  3. 3

    タグ付きダイアログスクリプトを書く

    話し手の順番を示す [S1] と [S2] を使って会話を構成し、自然な反応を望むときは [笑い]、 [息切れ]、 [咳]、 (息切れ) のような非言語的タグを入力します。

  4. 4

    音声を生成

    Dia スクリプトをホストGPUに送信するには、 生成をクリックしてください。Dia はターンタイムを含む二人のスピーカーの対話と、あなたの非言語的タグを一つのオーディオファイルにレンダリングします。

  5. 5

    API をダウンロードまたは呼び出す

    完成したダイアログを選択したフォーマットでダウンロードするか、同じ [S1]/[S2]スクリプトをTextToSpeechAI APIにアカウントトークンで投稿して自動化します。

ディア API

Generate speech programmatically using the TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "こんにちは 今日はどうですか? 素晴らしいです 聞いてくれてありがとう",
    "voice": "en_US-lessac-medium"
  }'

よくある質問

Diaは1.6Bパラメータの対話型テキスト‐音声モデルで,複数の話者,非言語音,音声クローンをサポートする自然な会話音声を生成する。

Dia はコードとモデル重みの両方が Apache 2.0 ライセンスで完全にライセンスされています。商用アプリケーションで自由に使用できます。

Dia は現在英語のみをサポートしています。モデルは自然な英語会話音声に最適化されています。

Dia は 1.6B パラメータモデルに対して 約 10GB の VRAM を必要とします。快適な動作のためには 12GB 以上の GPU を推奨します。TextToSpeechAI では、これらすべてはホスト GPU で実行されます。自分でハードウェアを必要としません。

Dia は、スクリプトの [S1] と [S2] のターンを交互に行うことで、単一のスピーカー TTS モデルでは難しい、二人の話者が流暢に会話し、異なる声と現実的なターンを取るようにします。

スクリプトの各行に [S1] または [S2] を前置きして、誰が話しているかを示します。Dia は各タグに一貫した声を割り当て、会話が進むにつれてそれらの間を切り替えます。 [S1] と [S2] は、ダイアログの2つの文字として機能します。

Dia は 5-10 秒のクリーンな参照音声からの声のクローンをサポートしており、特定の声をスピーカーに再利用できます。クローンは [S1]/[S2] タグと組み合わせることで、対話の各文字がクローンした声のように聞こえます。

Dia は [笑い]、[息切れ]、[咳]、(息切れ) を自然な音声として表現します。例えば "[S1] それは面白い [笑い]" などの反応を表すタグを置くと、対話がより人間的に感じられます。

Dia と Bark は表現的な非言語音をサポートしますが、Dia は [S1]/[S2] ターンテイクと声のクローン化を備えた多人数の対話を目的として作られています。現実的な二人会話やキャラクター作成のために Dia を選択してください。Bark は単一声のナレーションで広い言語範囲を必要とする場合に適しています。

Diaは超階層エンジンであり、生成した音声の1000文字当たり50クレジットが必要となります。超階層はより大きな1.6Bモデルと、高品質の対話に使用する約10GBのGPUメモリを反映しています。

はい。新しい TextToSpeechAI アカウントには無料のスタートクレジットが含まれており、登録なしで実行できるデモがあります。有料プランを決定する前に [S1]/[S2] タグを含む短い Dia ダイアログを生成するのに十分です。

はい。あなたのアカウントページから API トークンを取得したら、Dia ダイアログスクリプトをTextToSpeechAI REST APIに提出して、プログラム的に音声をダウンロードできます。

Technical Specs

  • Generation Speed Medium
  • Output Quality Excellent
  • Voice Cloning Supported
  • Languages 1
  • GPU VRAM 10GB
  • Credits/1000 chars 50

Try ディア Now

Generate your first audio free. No credit card required.

Start Free