ヴィーツ

Standard

自然な音声を用いた高速なエンドツーエンドのTTS

Very Fast スピード
Good 品質
いや クローン
10 言語

情報 ヴィーツ

-efficient, and highly-efficient TTS model. It is a

主要な特徴

ファストシンセシス

音声生成のためのエンドツーエンドアーキテクチャを提案した。

バッチ処理

複数のテキストを効率的に同時に処理する。

自然言語

VAE+GAN訓練は自然な韻律とリズムを生み出す。

マルチスピーカー

単一モデルは複数のスピーカ音声をサポートする。

効率的

低メモリフリットリンクと良好な性能を持つ。

オープンソース

MITのライセンスを どんなユースケースにも

ユースケース

バッチオーディオ生成 電子学習プラットフォーム ニュースリーダー 自動告知 IVRシステム ハイボリュームコンテンツ

ヴィーツ Voices

View All 109
LJSpeech (English Female)
EN
VCTK Speaker 225 (English Female)
EN
VCTK Speaker 226 (English Male)
EN
VCTK Speaker 227 (English Male)
EN
VCTK Speaker 228 (English Female)
EN
VCTK Speaker 229
EN
VCTK Speaker 230
EN
VCTK Speaker 231
EN
VCTK Speaker 232
EN
VCTK Speaker 233
EN
VCTK Speaker 234
EN
VCTK Speaker 236
EN

使い方 ヴィーツ

  1. 1

    無料で登録するか、デモを試してみてください。

    無料のTextToSpeechAIアカウントを作成してスタートクレジットを得るか、登録する前にVITSを聴くためにページ上のデモを使用する。

  2. 2

    VITS 音声またはスピーカーを選択

    音声ライブラリをブラウズし、VITS バードでマークされた音声を選択します。VCTK スピーカーセットを含むマルチスピーカー VITS ライブラリでは、多くの異なる音声から選択できます。

  3. 3

    テキストを入力

    話すテキストをエディタに入力または貼り付けます。VITS は長い文章を扱いやすく、バッチや大容量のコンテンツに適しています。

  4. 4

    音声を生成

    VITS で音声合成を行うには、 生成をクリックしてください。VITS は非常に速く、標準的なレベル (1000 文字あたり 10 クレジット) で、結果は低コストで迅速に返されます。

  5. 5

    API をダウンロードまたは使用

    音声をMP3、WAV、OGGとしてダウンロードするか、TextToSpeechAI REST APIを通して同じVITS音声を呼び出し、自分のアプリケーションで自動生成する。

ヴィーツ API

Generate speech programmatically using the TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "VITSは,高容量アプリケーションに対して,高速で自然な音声を提供する。",
    "voice": "vits-ljspeech"
  }'

よくある質問

VITS (Variation Inference with Adversarial Learning for End-to-End Text-to-Speech) は、変数自動エンコーダと対抗的な GAN 訓練を組み合わせたエンドツーエンドの神経 TTS モデルです。一回のパスで自然に聞こえる音声を生成します。これは、速く効率的です。TextToSpeechAI 上で VITS を無料で試すことができます。

はい、VITS は MIT ライセンスの下でオープンソースであり、制限なしの完全な商用利用をサポートします。商用製品やサービスで広く使用されています。TextToSpeechAI では、VITS は標準レベルで 1000 文字あたり 10 クレジットを費やします。

TextToSpeechAIは、数十の異なる英語話者を含む VCTK 音声セットを含む、大規模なマルチスピーカー VITS ライブラリを提供します。1つの VITS モデルは、多くの話者をホストできます。それゆえ、エンジンを切り替えることなく、多くの異なる音声から選択できます。

VITSのサポートは,訓練モデルに依存する。

VITSは,GPU上でリアルタイムに音声を生成する高速なシステムであり,エンドツーエンドアーキテクチャは他のモデルの複数の処理段階を避け,バッチや大容量合成に適している。

VITS は音声クローンをサポートしません。サンプリングからターゲット音声をコピーする代わりに、予め訓練されたマルチスピーカーモデルを使用します。TextToSpeechAI 上の音声クローンは、代わりに F5-TTS または GPT-SoVITS を使用してください。

VITSは自然な韻律とリズムを持つ良質な音声を生成します。StyleTTS 2や Tortoiseのレベルではありませんが、特にバッチ処理において速度に対して優れた音質を提供します。

VITSはメモリ効率的で、通常は数GBのVRAM (約4GB) しか必要としません。消費者向けのGPUで快適に動作します。TextToSpeechAIでは、全てのレンダリングが我々のサーバで行われ、自分でハードウェアを必要としません。

VITS と Piper は TextToSpeechAI 上の MIT ライセンスの高速な Standard-tier エンジンです。Piper は最も軽量で高速なオプションで、VITS は VCTK を含む大規模なマルチスピーカーライブラリを提供し、少し自然な韻律を提供します。両方とも音声クローンをサポートしません。

VITS は 1000 文字当たり 10 クレジットで 1 つの標準階層エンジンです。VITS モデルの効率的で高速な性質により、これは最も低価格の階層です。

VITS は 22050Hz のオーディオを生成します。TextToSpeechAI を通して MP3、WAV、OGG フォーマットを要求できます。自動変換が行われます。

TextToSpeechAIに登録して無料のスタートクレジットを受け取って、VITS の音声を選び、テキストを入力してオーディオを生成します。デモを使ってアカウントを作成する前に VITS を聴くこともできます。登録したら、REST API を使って VITS にアクセスできます。

Technical Specs

  • Generation Speed Very Fast
  • Output Quality Good
  • Voice Cloning Not Supported
  • Languages 10
  • GPU VRAM 1-2GB
  • Credits/1000 chars 10

Try ヴィーツ Now

Generate your first audio free. No credit card required.

Start Free