VITS

Standard

Doğal Konuşma ile Hızlı Sondan Sona TTS

Very Fast Hız
Good Kalite
Hayır. Klonlama
10 Dilleri

Hakkında VITS

-to-end neural TTS model that generates natural-sounding speech. It combines variational autoencoders with adversarial learning for efficient synthesis. VITS is excellent for batch processing and applications requiring high-to-end neural TTS model that generates natural-sounding speech. It combines variational autoencoders with adversarial learning for

Ana Özellikler

Hızlı sentez

Hızlı konuşma üretimi için son-son mimari.

Grup İşlemci

Çok sayıda metni aynı anda verimli bir şekilde işleme.

Doğal Konuşma

VAE + GAN eğitimi doğal prosodi ve ritim üretir.

Çok Sesli

Tek model birden fazla konuşmacı sesi destekler.

Verimli

Düşük hafıza ayak izi iyi performansla.

Açık kaynak

Herhangi bir kullanım için MIT lisansı.

Kullanım durumları

Grup Ses Üretimi E-Öğrenme Platformları Haberler Okuyucuları Otomatik Duyurular IVR Sistemleri Yüksek-Voltajlı İçerik

VITS Voices

View All 109
LJSpeech (English Female)
EN
VCTK Speaker 225 (English Female)
EN
VCTK Speaker 226 (English Male)
EN
VCTK Speaker 227 (English Male)
EN
VCTK Speaker 228 (English Female)
EN
VCTK Speaker 229
EN
VCTK Speaker 230
EN
VCTK Speaker 231
EN
VCTK Speaker 232
EN
VCTK Speaker 233
EN
VCTK Speaker 234
EN
VCTK Speaker 236
EN

Nasıl Kullanılır VITS

  1. 1

    Ücretsiz kayıt olun veya demoyu deneyin

    Başlangıç kredileri almak için ücretsiz bir TextToSpeechAI hesabı oluşturun veya VITS'i kaydolmadan önce dinlemek için sayfadaki demoyu kullanın.

  2. 2

    VITS sesi veya hoparlörünü seç

    Ses kütüphanesini incele ve VITS simgesi ile işaretlenen bir ses seçin. VCTK hoparlör seti dahil olmak üzere çoklu hoparlörlü VITS kütüphanesi, size birçok farklı ses arasından seçmenizi sağlar.

  3. 3

    Metininizi girin

    Konuşmasını istediğiniz metni yazın veya düzenleyiciye yapıştırın. VITS uzun bölümleri iyi yönetir ve grup ve yüksek hacimli içerikler için idealdir.

  4. 4

    Ses oluştur

    VITS ile konuşma sentezlemek için üret' e basın. VITS çok hızlı ve Standart- seviye (1000 karakter başına 10 kredi) olduğu için, sonuçlar düşük maliyetle hızlı geri döner.

  5. 5

    API'yi indirin veya kullanın

    Sonuç ses MP3, WAV veya OGG olarak indir, veya aynı VITS sesi TextToSpeechAI REST API aracılığıyla kendi uygulamanızda üretimi otomatikleştirmek için çağırın.

VITS API

TextToSpeechAI REST API'sini kullanarak programlı olarak konuşma oluşturun.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "VITS yüksek hacimli uygulamalar için hızlı, doğal bir konuşma sağlar.",
    "voice": "vits-ljspeech"
  }'

Sık Sorulan Sorular

VITS (Varyasyonel Sonuçlama ve Karşıt Öğrenme için Sondan Sona Metin- Konuşmaya), bir varyasyonel otokodlayıcı ile karşıt GAN eğitimini birleştiren sondan sona nöral TTS modelidir. Tek bir geçişte doğal sesli konuşma üretir, bu da onu hızlı ve verimli yapar. VITS' i TextToSpeechAI üzerinde ücretsiz olarak deneyebilirsiniz.

Evet, VITS MIT lisansı altında açık kaynaktır, bu yüzden kısıtlamasız ticari kullanımı destekler. Ticari ürünler ve hizmetlerde yaygın olarak kullanılır. TextToSpeechAI üzerinde, VITS Standart seviye için 1000 karakter başına 10 krediye mal olur.

TextToSpeechAI, VCTK ses seti ve düzinelerce farklı İngilizce seslendirici dahil olmak üzere büyük bir çoklu seslendirici VITS kütüphanesi sunar. Tek bir VITS modeli birçok seslendiriciye ev sahipliği yapabilir, böylece motorları değiştirmeden birçok farklı ses arasından seçim yapabilirsiniz.

VITS desteği eğitimli modelde bağlıdır.Ortak VITS modelleri İngilizce, Çince, Japonca, Korece, Almanca, Fransızca ve diğer önemli dilleri kapsar, VCTK veri kümesinden çoklu-sözlü İngilizce kapsama ile.

VITS çok hızlıdır, gerçek zamanlı veya GPU üzerinde daha hızlı konuşma üretir. Sondan sona mimarisi diğer modellerin çoklu işlem aşamalarını önler, bu nedenle VITS parti ve yüksek hacimli senteze uygundur.

Hayır, VITS ses klonlamasını desteklemez. Bir örnekten hedef sesi kopyalamak yerine önceden eğitilmiş çoklu hoparlör modellerini kullanır. TextToSpeechAI üzerinde ses klonlaması için, bunun yerine F5- TTS veya GPT- SoVITS kullanın.

VITS doğal bir prozodi ve ritimle iyi kalitede ses üretir. StyleTTS 2 veya Tortoise' nin seviyesinde olmasa da, özellikle de grup işlemleri için hızı için mükemmel kalite sunuyor.

VITS hafıza verimli, genellikle sadece birkaç GB VRAM (yaklaşık 4GB) gerektirir. Tüketici GPU' larda rahatça çalışır ve TextToSpeechAI' de tüm renderleme sunucularımızda olur, bu yüzden kendi donanımınıza ihtiyacınız yoktur.

VITS ve Piper TextToSpeechAI üzerinde hem hızlı, hem de MIT lisanslı Standart- katman motorlarıdır. Piper en hafif ve hızlı seçenek, VITS ise biraz daha doğal bir prozodiye sahip büyük bir çoklu- hoparlör kütüphanesi (VCTK dahil) sunmaktadır. Hiçbiri ses klonlamasını desteklemez.

VITS, 1000 karakter başına 10 krediye mal olan Standart- seviye bir motordur. Bu, VITS modelinin verimli ve hızlı doğasına bağlı olarak en düşük fiyatlı seviyemizdir.

VITS 22050Hz ses üretmektedir. TextToSpeechAI üzerinden MP3, WAV veya OGG formatlarını isteyebiliyorsunuz ve otomatik dönüşüm sizin için yapılmaktadır.

Ücretsiz başlangıç kredileri almak için TextToSpeechAI'e kayıt olun, sonra VITS sesini seçin, metninizi girin ve ses oluşturun. Hesap oluşturmadan önce VITS'i dinlemek için demoyu da kullanabilirsiniz ve kayıt olduktan sonra REST API'miz aracılığıyla VITS'e erişebiliyorsunuz.

Technical Specs

  • Generation Speed Very Fast
  • Output Quality Good
  • Voice Cloning Not Supported
  • Languages 10
  • GPU VRAM 1-2GB
  • Credits/1000 chars 10

Try VITS Now

Generate your first audio free. No credit card required.

Start Free