VITS

Standard

TTS Petang-ke-Petang Cepat dengan Percakapan Semulajadi

Very Fast Kelajuan
Good Kualiti
Tidak Klon
10 Bahasa

Tentang VITS

-efficient, and low-cost TTS model that generates natural-sounding speech. It combines variational autoencoders with adversarial learning for

Ciri-ciri Utama

Sintesis Cepat

Arkitektur akhir-ke-akhir untuk penjanaan percakapan pantas.

Pemprosesan Batch

Proseskan teks berbilang secara serentak dengan berkesan.

Perkataan semulajadi

Latihan VAE+GAN menghasilkan prosody dan irama semulajadi.

Penutur Berbilang

Model tunggal menyokong suara pembicara berbilang.

Efisien

Kesan memori rendah dengan prestasi yang baik.

Sumber Terbuka

MIT dilesenkan untuk sebarang kes penggunaan.

Gunakan Kes

Penjanaan Audio Batch Platform E-Belajar Pembaca Berita Pengumuman Automatik Sistem IVR Kandungan Volum Tinggi

VITS Voices

View All 109
LJSpeech (English Female)
EN
VCTK Speaker 225 (English Female)
EN
VCTK Speaker 226 (English Male)
EN
VCTK Speaker 227 (English Male)
EN
VCTK Speaker 228 (English Female)
EN
VCTK Speaker 229
EN
VCTK Speaker 230
EN
VCTK Speaker 231
EN
VCTK Speaker 232
EN
VCTK Speaker 233
EN
VCTK Speaker 234
EN
VCTK Speaker 236
EN

Bagaimana untuk Guna VITS

  1. 1

    Daftar secara percuma atau cuba demo

    Cipta akaun percuma TextToSpeechAI untuk mendapatkan kredit pelancaran, atau gunakan demo pada halaman untuk mendengar VITS sebelum mendaftar masuk.

  2. 2

    Pilih suara atau pengerusi VITS

    Layari pustaka suara dan pilih suara yang ditandakan dengan lencana VITS. Pustaka VITS multi-penyiar, termasuk set pembesar suara VCTK, membolehkan anda memilih dari banyak suara yang berbeza.

  3. 3

    Masukkan teks anda

    Taip atau tampal teks yang anda mahukan diucapkan ke editor. VITS mengendalikan laluan panjang dengan baik dan sesuai untuk kandungan berbilang dan bervolum tinggi.

  4. 4

    Janakan audio

    Klik cipta untuk sintesis percakapan dengan VITS. Kerana VITS sangat pantas dan aras piawai (10 kredit per 1000 aksara), hasil kembali dengan cepat dengan kos rendah.

  5. 5

    Muat turun atau guna API

    Muat turun audio yang siap sebagai MP3, WAV, atau OGG, atau panggil suara VITS yang sama melalui API REST TextToSpeechAI untuk meautomatkan penjanaan dalam aplikasi anda sendiri.

VITS API

Janakan ucapan secara program menggunakan API REST TextToSpeechAI.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "VITS memberikan ucapan yang cepat dan semulajadi untuk aplikasi bervolum tinggi.",
    "voice": "vits-ljspeech"
  }'

Soalan Lazim

VITS (Kesimpulan Variasi dengan pembelajaran lawan untuk Teks-ke-Percakapan hujung-ke-hujung) adalah model TTS saraf hujung-ke-hujung yang menggabungkan pengekod autovariasi dengan latihan GAN lawan. Ia menghasilkan percakapan berbunyi semulajadi dalam laluan tunggal, yang menjadikannya pantas dan efisien. Anda boleh cuba VITS percuma pada TextToSpeechAI.

Ya, VITS adalah sumber terbuka di bawah lesen MIT, jadi ia menyokong penggunaan komersial penuh tanpa sekatan. Ia digunakan secara meluas dalam produk dan perkhidmatan komersial. Pada TextToSpeechAI, VITS kos 10 kredit per 1000 aksara pada aras Piawai.

TextToSpeechAI menawarkan pustaka VITS multi-pemerhati yang besar, termasuk set suara VCTK dengan puluhan pemerhati Bahasa Inggeris yang berbeza. Model VITS tunggal boleh memuatkan banyak pemerhati, jadi anda boleh pilih dari banyak suara yang berbeza tanpa menukar enjin.

Sokongan VITS bergantung pada model yang dilatih. Model VITS biasa meliputi Bahasa Inggeris, Cina, Jepun, Korea, Jerman, Perancis, dan bahasa utama lain, dengan liputan Bahasa Inggeris multi-pengucap dari set data VCTK.

VITS sangat pantas, menghasilkan percakapan dalam masa nyata atau lebih pantas pada GPU. Arkitekturnya dari hujung ke hujung mengelakkan tahap pemprosesan berbilang model lain, yang merupakan sebab VITS sesuai untuk sintesis batch dan tinggi-volume.

Tidak, VITS tidak menyokong klon suara. Ia menggunakan model multi-penyiar pra-latihan berbanding menyalin suara sasaran dari sampel. Untuk klon suara pada TextToSpeechAI, gunakan F5-TTS atau GPT-SoVITS sebaliknya.

VITS menghasilkan audio kualiti baik dengan prosodi dan irama semulajadi. Walaupun ia tidak pada tahap StyleTTS 2 atau Tortoise, ia menawarkan kualiti yang baik untuk kelajuan, terutamanya untuk pemprosesan berbilang.

VITS efisien memori, biasanya memerlukan hanya beberapa GB VRAM (sekitar 4GB). Ia berjalan dengan selesa pada GPU pengguna, dan pada TextToSpeechAI semua render berlaku pada pelayan kami jadi anda tidak perlukan sebarang perkakasan sendiri.

VITS dan Piper adalah enjin tingkat- piawai yang pantas, dilesenkan MIT pada TextToSpeechAI. Piper adalah pilihan paling ringan dan pantas, manakala VITS menawarkan pustaka multi- pengerusi yang besar (termasuk VCTK) dengan prosodi yang sedikit lebih semulajadi. Tiada yang menyokong kloning suara.

VITS adalah enjin Aras-Piawai, kos 10 kredit per 1000 aksara. Ini adalah aras harga terendah kami terima kasih kepada sifat model VITS yang efisien dan pantas.

VITS menghasilkan audio pada 22050Hz secara asal. Melalui TextToSpeechAI anda boleh meminta format MP3, WAV, atau OGG, dengan penukaran automatik ditangani untuk anda.

Daftar pada TextToSpeechAI untuk menerima kredit permulaan percuma, kemudian pilih suara VITS, masukkan teks anda, dan cipta audio. Anda juga boleh gunakan demo untuk mendengar VITS sebelum mencipta akaun, dan akses VITS melalui API REST kami selepas anda mendaftar.

Technical Specs

  • Generation Speed Very Fast
  • Output Quality Good
  • Voice Cloning Not Supported
  • Languages 10
  • GPU VRAM 1-2GB
  • Credits/1000 chars 10

Try VITS Now

Generate your first audio free. No credit card required.

Start Free