Fast
ፍጥነት
Very Good
ጥራት
አዎ
መተላለፊያ
5
ቋንቋዎች
ስለ የድምፅ መጠን፦
CosyVoice2 is a next-generation speech synthesis model from FunAudioLLM (Alibaba). It delivers natural-sounding zero-shot voice cloning across multiple languages with streaming capability for low-latency applications. Built on a finite scalar quantization approach, it achieves excellent voice similarity with just a few seconds of reference audio.
የቁልፍ ባህሪያት
የድምፅ ቅጂ
ከ3-10 ሰከንዶች የመዝገብ ቤት ድምፅ በከፍተኛ ፍጥነት ክሎን
ብዙ ቋንቋዎች
ቻይንኛ, እንግሊዝኛ, ጃፓንኛ, ኮሪያኛ, እና የካቶንጎ ቋንቋዎች ጋር ተቀላቅሏል.
የቀጥታ ድጋፍ
ለጊዜው ፕሮግራሞችና ለተገናኝ ስርዓቶች ዝቅተኛ-ለታክሲው-የሚፈስ አማራጭ
የቋንቋ ችሎታ
የቀደመ ፕሮሶዲ ሞዴሊንግ በተመጣጣኝ ድምፅ የተፈጥሮ-ድምፅ ንግግርን ያመነጫል።
ጥቅም
የብዙ ቋንቋዎች ይዘት መፍጠር
የድምፅ ረዳቶች
ቋንቋ
የድምፅ ፕሮግራሞች
ብዙ ጊዜ የሚጠየቁ ጥያቄዎች
የኮሲ ድምፅ2 ከ ፉንኦዲዮ ኤል ኤል ኤም (አሊባባ) የቀጣይ ትውልድ ጽሑፍ-ወደ-ንግግር ሞዴል ነው. ከጥቂት ሰከንዶች ብቻ የመዝገብ ቤት ድምፅ ፎቶግራፍ ድምፅን ይደግፋል እና በቻይንኛ, አማርኛ, ጃፓንኛ, ኮሪያኛ, እና ካቶንጎ ውስጥ ተፈጥሯዊ ንግግርን ማቀናጀት ይችላል.
አዎ, CosyVoice2 በሙሉ Apache 2.0 ፈቃድ - ኮድ እና ሞዴል ክብደት. በነጻ በኮሜርሺያል ፕሮግራሞች ውስጥ ሊጠቀም ይችላል.
የኮሲድምፅ2 ቻይንኛ (ማንዳሪን), እንግሊዝኛ, ጃፓንኛ, ኮሪያኛ, እና ካቶንጎን ይደግፋል. ይህም cross-language የድምፅ ክሎኒንግ ይደግፋል - በአንድ ቋንቋ ድምፅን ክሎኒንግ እና በሌላ ቋንቋ ንግግርን ይፈጥራል.
3-10 ሰከንዶች የመዝገብ ቤት ድምፅ ይሰጣል. CosyVoice2 የድምፅ አሰጣጥ ባህሪያትን በፍጻሜ ስካላር ኩዌንቲዜሽን በመጠቀም ያወጣል ከዚያም በሁሉም የተደገፉ ቋንቋዎች ውስጥ አዲስ ንግግርን በድምፅ ውስጥ ማምረት ይችላል።
ሁለቱም ተመሳሳይ ጥራት ያለው የድምፅ ክሎኒንግ ይሰጣሉ. CosiVoice2 ብዙ ቋንቋዎችን (5 vs 2) ይደግፋል እናም የስትሪም አቅም አለው. F5-TTS ለእንግሊዝኛ ብቻ ፕሮግራሞች ትንሽ ፈጣን ሊሆን ይችላል።
ኮሲቮይሲ2 ለ0.5B ፓራሜትር ሞዴል 4-6GB የቪሬም ያስፈልጋል። ለተሻለ ውጤት 6GB ወይም ከዚያ በላይ ያለው ጂፒዩ ያስፈልጋል።
Technical Specs
- Generation Speed Fast
- Output Quality Very Good
- Voice Cloning Supported
- Languages 5
- GPU VRAM 4-6GB
- Credits/1000 chars 25