Very Fast
ፍጥነት
Good
ጥራት
አዎ
መተላለፊያ
10
ቋንቋዎች
ስለ ቪቲኤስ
-to-end neural TTS model that generates natural-sounding speech. It combines variational autoencoders with adversarial learning for efficient synthesis. VITS is excellent for batch processing and applications requiring efficient synthesis. It combines variational autoencoders with adversarial learning for
የቁልፍ ባህሪያት
ፈጣን ማቀናጀት
የመጨረሻ-ወደ-መጨረሻ አርክቴክቸር ለፍጥነት ንግግር ማምረት.
ፋይል አጥፉ
በአንድ ጊዜ ብዙ ጽሑፎችን በፍጥነት ይፍጠሩ
የቋንቋ ምርጫዎች
VAE+GAN ስልጠና ተፈጥሯዊ የድምፅ ቅርፅና ሪትምን ያመነጫል።
ብዙ-ተናጋሪ
አንድ ሞዴል ብዙ ተናጋሪ ድምጾችን ይደግፋል
ፋይዳ ያለው
ጥሩ ውጤት ያለው ዝቅተኛ የማስታወሻ ቦታ
የክፍል ፋይል
MIT ለየትኛውም የጠቀሙበት ሁኔታ ፈቃድ
ጥቅም
የድምፅ ማውጫ
የኤሌክትሮኒክ መማር መድረኮች
ዜና አንባቢዎች
አውቶማቲክ ማስታወቂያዎች
የIVR ስርዓቶች
የከፍተኛ መጠን ይዘት
ቪቲኤስ Voices
View All 109LJSpeech (English Female)
ENVCTK Speaker 225 (English Female)
ENVCTK Speaker 226 (English Male)
ENVCTK Speaker 227 (English Male)
ENVCTK Speaker 228 (English Female)
ENVCTK Speaker 229
ENVCTK Speaker 230
ENVCTK Speaker 231
ENVCTK Speaker 232
ENVCTK Speaker 233
ENVCTK Speaker 234
ENVCTK Speaker 236
ENብዙ ጊዜ የሚጠየቁ ጥያቄዎች
VITS (የጽሑፍ-ወደ-ንግግር ልዩነት ማወቅ ጋር ተቃራኒ መማር) VAE እና GAN ስልጠና ያቀላቅላል የመጨረሻ-ወደ-መጨረሻ ነርቭ TTS ሞዴል ነው. እርሱ ፈጣን እና ውጤታማ የሆነ ተፈጥሯዊ ንግግር ያመነጫል.
አዎ, VITS MIT ፈቃድ ስር የክፍል ነው. በ TextToSpeechAI, እኛ ብቻ 10 ክሬዲቶች በ 1000 አንቀጾች (Standard ደረጃ) ምክንያት ውጤታማ የኃይል ጥቅም ይከፈልባቸዋል.
VITS በተለያዩ ቋንቋዎች ላይ የተመሠረተ የሞዴል ትምህርቶች ይደግፋል. የተለመዱ ስሪቶች እንግሊዝኛ, ቻይንኛ, ጃፓንኛ, ኮሪያኛ, ጀርመን, ፈረንሳይኛ, እና ሌሎች ዋና ዋና ቋንቋዎች ጋር የተሰጠ ሞዴሎችን ይደግፋሉ.
VITS በጣም ፈጣን ነው፣ በወቅቱ ወይም በ GPU ላይ ፈጣን የሆነ ንግግርን ያመነጫል። የመጨረሻው-ወደ-መጨረሻው አርክቴክቸር የሌሎች ሞዴሎችን ብዙ የሂደት ደረጃዎችን ይከላከላል፣ ፈጣን ማቀነባበሪያን ያመቻቻል ፡፡
ስታንዳርድ VITS የድምፅ ክሎኒንግ አይደግፍም - ከፊት ለፊት የተሠሩ የድምፅ ሞዴሎችን ይጠቀማል. የድምፅ ክሎኒንግ፣ StyleTTS2, F5-TTS, OpenVoice, ወይም Tortoise በመጠቀም ይልቅ.
VITS በጥሩ ጥራት ያለው ድምፅ በነፃነት ይሰማል. የ StyleTTS 2 ወይም Tortoise ደረጃ ላይ ባለመሆኑም ለፍጥነቱ ጥሩ ጥራት ያለው ድምፅ ይሰጣል፣ በተለይም ለባች ፕሮሰሲንግ ሲኒማቶግራፎች።
VITS በጣም የማስታወስ-ተሻሻለ ነው፣ የ VRAM 1-2GB ብቻ ያስፈልጋል. በደንበኛ GPUs ላይም በደንብ ይሠራል እንዲሁም በ CPU ላይም በደንብ ሊሠራ ይችላል።
አዎ፣ VITS MIT ፈቃድ ያለው እና ያለማቋረጥ የሙሉ ንግድ ጥቅም ያበረታታል. በስፋት በኮሜርሺያል ምርቶች እና በድርጅቶች ውስጥ ይጠቀማል.
VITS ድምፅን ከድምፅ መዝገብ ቤት (በ VITS ባጅ ምልክት) ይምረጡ እና በ API ጥያቄዎችዎ ውስጥ ይጠቀሙት. VITS ለብዙ ጥያቄዎች ፈጣን ምላሽ የሚያስፈልጋቸው ፕሮግራሞች ትልቅ ነው.
VITS በ 22050Hz የራሱ የ WAV ድምፅ ያወጣል. በ TextToSpeechAI, MP3, WAV ወይም OGG ቅርጸቶች ራስ-ሰር ለውጥ ጋር መጠየቅ ይችላሉ.
አዎ፣ VITS የፍጥነት ማስተካከያዎችን ይደግፋል እናም አንዳንድ ሞዴሎች የፒት ለውጥን ይደግፋሉ፡፡ እነዚህ ለተለያዩ የጠቀሙባቸው ሁኔታዎች የድምፅ ውጤትን ማስተካከልን ያስችላሉ፡፡
VITS ለተለመደው TTS ፍላጎቶች ጥሩ የፍጥነት-ጥራት ሚዛን ይሰጣል. በፍጥነት እንደ ፓይፐር ነው ግን በጥሩ ጥራት. ለድምፅ ክሎኒንግ ሌሎች ሞዴሎችን ይጠቀሙ. ለከፍተኛ ጥራት StyleTTS 2 ይጠቀሙ
Technical Specs
- Generation Speed Very Fast
- Output Quality Good
- Voice Cloning Not Supported
- Languages 10
- GPU VRAM 1-2GB
- Credits/1000 chars 10