VITS

Standard

TTS Petang-ke-Petang Cepat dengan Percakapan Semulajadi

Very Fast Kelajuan

Good Kualiti

Tidak Klon

10 Bahasa

Tentang VITS

-efficient, and low-cost TTS model that generates natural-sounding speech. It combines variational autoencoders with adversarial learning for

Ciri-ciri Utama

Sintesis Cepat

Arkitektur akhir-ke-akhir untuk penjanaan percakapan pantas.

Pemprosesan Batch

Proseskan teks berbilang secara serentak dengan berkesan.

Perkataan semulajadi

Latihan VAE+GAN menghasilkan prosody dan irama semulajadi.

Penutur Berbilang

Model tunggal menyokong suara pembicara berbilang.

Efisien

Kesan memori rendah dengan prestasi yang baik.

Sumber Terbuka

MIT dilesenkan untuk sebarang kes penggunaan.

Gunakan Kes

Penjanaan Audio Batch Platform E-Belajar Pembaca Berita Pengumuman Automatik Sistem IVR Kandungan Volum Tinggi

VITS Voices

View All 109

LJSpeech (English Female)

VCTK Speaker 225 (English Female)

VCTK Speaker 226 (English Male)

VCTK Speaker 227 (English Male)

VCTK Speaker 228 (English Female)

VCTK Speaker 229

VCTK Speaker 230

VCTK Speaker 231

VCTK Speaker 232

VCTK Speaker 233

VCTK Speaker 234

VCTK Speaker 236

Bagaimana untuk Guna VITS

1

Daftar secara percuma atau cuba demo

Cipta akaun percuma TextToSpeechAI untuk mendapatkan kredit pelancaran, atau gunakan demo pada halaman untuk mendengar VITS sebelum mendaftar masuk.
2

Pilih suara atau pengerusi VITS

Layari pustaka suara dan pilih suara yang ditandakan dengan lencana VITS. Pustaka VITS multi-penyiar, termasuk set pembesar suara VCTK, membolehkan anda memilih dari banyak suara yang berbeza.
3

Masukkan teks anda

Taip atau tampal teks yang anda mahukan diucapkan ke editor. VITS mengendalikan laluan panjang dengan baik dan sesuai untuk kandungan berbilang dan bervolum tinggi.
4

Janakan audio

Klik cipta untuk sintesis percakapan dengan VITS. Kerana VITS sangat pantas dan aras piawai (10 kredit per 1000 aksara), hasil kembali dengan cepat dengan kos rendah.
5

Muat turun atau guna API

Muat turun audio yang siap sebagai MP3, WAV, atau OGG, atau panggil suara VITS yang sama melalui API REST TextToSpeechAI untuk meautomatkan penjanaan dalam aplikasi anda sendiri.

VITS API

Janakan ucapan secara program menggunakan API REST TextToSpeechAI.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "VITS memberikan ucapan yang cepat dan semulajadi untuk aplikasi bervolum tinggi.",
    "voice": "vits-ljspeech"
  }'

Baca Dokumen API Dapatkan Kekunci API Anda

Soalan Lazim

VITS (Kesimpulan Variasi dengan pembelajaran lawan untuk Teks-ke-Percakapan hujung-ke-hujung) adalah model TTS saraf hujung-ke-hujung yang menggabungkan pengekod autovariasi dengan latihan GAN lawan. Ia menghasilkan percakapan berbunyi semulajadi dalam laluan tunggal, yang menjadikannya pantas dan efisien. Anda boleh cuba VITS percuma pada TextToSpeechAI.

Ya, VITS adalah sumber terbuka di bawah lesen MIT, jadi ia menyokong penggunaan komersial penuh tanpa sekatan. Ia digunakan secara meluas dalam produk dan perkhidmatan komersial. Pada TextToSpeechAI, VITS kos 10 kredit per 1000 aksara pada aras Piawai.

TextToSpeechAI menawarkan pustaka VITS multi-pemerhati yang besar, termasuk set suara VCTK dengan puluhan pemerhati Bahasa Inggeris yang berbeza. Model VITS tunggal boleh memuatkan banyak pemerhati, jadi anda boleh pilih dari banyak suara yang berbeza tanpa menukar enjin.

Sokongan VITS bergantung pada model yang dilatih. Model VITS biasa meliputi Bahasa Inggeris, Cina, Jepun, Korea, Jerman, Perancis, dan bahasa utama lain, dengan liputan Bahasa Inggeris multi-pengucap dari set data VCTK.

VITS sangat pantas, menghasilkan percakapan dalam masa nyata atau lebih pantas pada GPU. Arkitekturnya dari hujung ke hujung mengelakkan tahap pemprosesan berbilang model lain, yang merupakan sebab VITS sesuai untuk sintesis batch dan tinggi-volume.

Tidak, VITS tidak menyokong klon suara. Ia menggunakan model multi-penyiar pra-latihan berbanding menyalin suara sasaran dari sampel. Untuk klon suara pada TextToSpeechAI, gunakan F5-TTS atau GPT-SoVITS sebaliknya.

VITS menghasilkan audio kualiti baik dengan prosodi dan irama semulajadi. Walaupun ia tidak pada tahap StyleTTS 2 atau Tortoise, ia menawarkan kualiti yang baik untuk kelajuan, terutamanya untuk pemprosesan berbilang.

VITS efisien memori, biasanya memerlukan hanya beberapa GB VRAM (sekitar 4GB). Ia berjalan dengan selesa pada GPU pengguna, dan pada TextToSpeechAI semua render berlaku pada pelayan kami jadi anda tidak perlukan sebarang perkakasan sendiri.

VITS dan Piper adalah enjin tingkat- piawai yang pantas, dilesenkan MIT pada TextToSpeechAI. Piper adalah pilihan paling ringan dan pantas, manakala VITS menawarkan pustaka multi- pengerusi yang besar (termasuk VCTK) dengan prosodi yang sedikit lebih semulajadi. Tiada yang menyokong kloning suara.

VITS adalah enjin Aras-Piawai, kos 10 kredit per 1000 aksara. Ini adalah aras harga terendah kami terima kasih kepada sifat model VITS yang efisien dan pantas.

VITS menghasilkan audio pada 22050Hz secara asal. Melalui TextToSpeechAI anda boleh meminta format MP3, WAV, atau OGG, dengan penukaran automatik ditangani untuk anda.

Daftar pada TextToSpeechAI untuk menerima kredit permulaan percuma, kemudian pilih suara VITS, masukkan teks anda, dan cipta audio. Anda juga boleh gunakan demo untuk mendengar VITS sebelum mencipta akaun, dan akses VITS melalui API REST kami selepas anda mendaftar.

Technical Specs

Generation Speed Very Fast
Output Quality Good
Voice Cloning Not Supported
Languages 10
GPU VRAM 1-2GB
Credits/1000 chars 10

Try VITS Now

Generate your first audio free. No credit card required.

Start Free

Other TTS Engines

VITS

Tentang VITS

Ciri-ciri Utama

Sintesis Cepat

Pemprosesan Batch

Perkataan semulajadi

Penutur Berbilang

Efisien

Sumber Terbuka

Gunakan Kes

VITS Voices

LJSpeech (English Female)

VCTK Speaker 225 (English Female)

VCTK Speaker 226 (English Male)

VCTK Speaker 227 (English Male)

VCTK Speaker 228 (English Female)

VCTK Speaker 229

VCTK Speaker 230

VCTK Speaker 231

VCTK Speaker 232

VCTK Speaker 233

VCTK Speaker 234

VCTK Speaker 236

Bagaimana untuk Guna VITS

Daftar secara percuma atau cuba demo

Pilih suara atau pengerusi VITS

Masukkan teks anda

Janakan audio

Muat turun atau guna API

VITS API

Soalan Lazim

Apa itu VITS TTS?

Adakah VITS percuma untuk kegunaan komersial?

Berapa banyak suara VITS ada?

Bahasa apa yang disokong VITS?

Berapa cepat VITS?

Adakah VITS menyokong klon suara?

Apakah kualiti audio VITS?

Berapa banyak memori GPU yang VITS perlukan?

VITS vs Piper: yang mana satu patut saya gunakan?

Berapa banyak kredit VITS kos pada TextToSpeechAI?

Format audio apa yang VITS output?

Bagaimana saya boleh cuba VITS secara percuma?

Technical Specs

Try VITS Now

Other TTS Engines

Bark

Chatterbox

CosyVoice2