કોસીવૉઇસ૨

Premium

સ્ટ્રીમિંગ આધાર સાથે ઝીરો-શૉટ બહુભાષી અવાજ ક્લોનીંગ

Fast ઝડપ
Very Good ગુણવત્તા
હા ક્લોન કરી રહ્યા છે
5 ભાષાઓ

વિશે કોસીવૉઇસ૨

-to-voice cloning across multiple languages with streaming capability for low-latency voice cloning. CosyVoice2 is the first speech synthesis model to be built with the

મુખ્ય લાક્ષણિકતાઓ

ઝીરો-શોટ અવાજ ક્લોનીંગ

ઉચ્ચ વિશ્વસનીયતા સાથે સંદર્ભ ઓડિયોનાં ૩-૧૦ સેકન્ડોમાંથી કોઇપણ અવાજ ક્લોન કરો.

બહુભાષી

ચાઇનીઝ, અંગ્રેજી, જાપાનીઝ, કોરીઅન અને કનટન ક્રોસ-ભાષા સંયોજન સાથે આધાર આપે છે.

સ્ટ્રીમિંગ આધાર

વાસ્તવિક સમય કાર્યક્રમો અને ઇન્ટરેક્ટિવ સિસ્ટમો માટે નીચું-લેટન્સી સ્ટ્રીમિંગ સ્થિતિ.

કુદરતી પ્રોસોડી

અદ્યતન પ્રોસોડી મોડેલિંગ યોગ્ય અવાજો સાથે કુદરતી રીતે સંભળાતા ભાષણનું ઉત્પાદન કરે છે.

કેસ વાપરો

બહુભાષી સમાવિષ્ટોનું સર્જન વાસ્તવિક સમય વાદ્ય સહાયક ક્રોસ-ભાષા ડબિંગ વૈવિધ્યપૂર્ણ વાદ્ય કાર્યક્રમો

કેવી રીતે વાપરવું કોસીવૉઇસ૨

  1. 1

    નોંધણી કરો અને મુક્ત ક્રેડિટ્સની માંગણી કરો

    તમારા શરૂઆતના ક્રેડિટની માંગણી કરવા માટે મફત TextToSpeechAI ખાતું બનાવો, અથવા પહેલા ડેમોનો પ્રયત્ન કરો. કોઈ GPU અથવા સ્થાનિક CosyVoice2 સ્થાપન જરૂરી નથી - બધું અમારા ઇન્ફ્રાસ્ટ્રક્ચર પર ચાલે છે.

  2. 2

    CosyVoice2 પસંદ કરો અને સંદર્ભ ક્લિપને ઉમેરો

    તમારા એન્જિન તરીકે CosyVoice2 પસંદ કરો, પછી તમે ક્લોન કરવા માંગતા હોવ તે અવાજના સાફ ૩-૧૦ સેકન્ડ સંદર્ભ રેકોર્ડને અપલોડ કરો. CosyVoice2 શૂન્ય-શૉટ બહુભાષી ક્લોનિંગ માટે બોલક ગુણધર્મો કાઢી કાઢશે.

  3. 3

    કોઇપણ આધારભૂત ભાષામાં તમારુ લખાણ દાખલ કરો

    ચાઇનીઝ, અંગ્રેજી, જાપાનીઝ, કોરીયન, અથવા કનટોનન્ટોમાં તમારી સ્ક્રિપ્ટને લખો અથવા ચોંટાડો. CosyVoice2 ક્રોસ-ભાષા સંયોજનને આધાર આપે છે, તેથી ક્લોન થયેલ અવાજ સંદર્ભ ક્લિપથી અલગ ભાષા બોલી શકે છે.

  4. 4

    ભાષણને બનાવો

    ક્લિક બનાવો અને CosyVoice2 ક્લોન થયેલ અવાજમાં કુદરતી, બહુભાષી ભાષા સંયોજિત કરે છે, સામાન્ય રીતે ટૂંકા લખાણ માટે સેકન્ડોમાં. પ્રીમિયમ-સ્તર વપરાશ ૧,૦૦૦ અક્ષરો માટે ૨૫ ક્રેડિટ્સ ખર્ચ કરે છે.

  5. 5

    API ડાઉનલોડ કરો અથવા વાપરો

    MP3 અથવા WAV તરીકે સમાપ્ત ઓડિયો તમારા ઇતિહાસમાંથી ડાઉનલોડ કરો, અથવા TextToSpeechAI REST API દ્દારા સ્તરે CosyVoice2 અવાજ ક્લોનિંગને આપોઆપ કરો.

કોસીવૉઇસ૨ API

TextToSpeechAI REST API ની મદદથી પ્રોગ્રામિક રીતે ભાષા બનાવો.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "CosyVoice2 શૂન્ય\u002Dશૂટ અવાજ ક્લોનિંગ ક્ષમતા સાથે કુદરતી બહુભાષી ભાષા પૂરી પાડે છે.",
    "voice": "en_US-lessac-medium"
  }'

વારંવાર પૂછાતા પ્રશ્નો

CosyVoice2 એ FunAudioLLM (અલીબાબા) માંથી આગળની પેઢીનું લખાણ-થી-ભાષા અને અવાજ ક્લોન મોડેલ છે. તે સંદર્ભ ઓડિયોનાં થોડા સેકન્ડોથી શૂન્ય-શૉટ અવાજ ક્લોનને આધાર આપે છે અને ચાઇનીઝ, અંગ્રેજી, જાપાની, કોરીયન, અને કેન્ટોનિયન માં કુદરતી ભાષાને સંયોજિત કરી શકે છે. TextToSpeechAI પર તમે કોઇપણ સ્થાનિક સુયોજન વગર બ્રાઉઝરમાં CosyVoice2 ચલાવી શકો છો.

હા, CosyVoice2 એ સંપૂર્ણપણે Apache 2.0 લાઇસન્સ થયેલ છે - બંને કોડ અને મોડેલ વજન. આ તેને વાણિજ્યિક ઉત્પાદનો, ચૂકવેલ સમાવિષ્ટો, અને ક્લાયન્ટ કામમાં લાઇસન્સ ફી અથવા બિન-વાણિજ્યિક પ્રતિબંધો વગર વાપરવા માટે સુરક્ષિત બનાવે છે.

CosyVoice2 પાંચ ભાષાઓને આધાર આપે છે: ચીની (મેન્ડરિન), અંગ્રેજી, જાપાની, કોરીયન, અને કનટોન. તે ક્રોસ-ભાષા સંયોજનને પણ સંભાળે છે, તેથી તમે એક ભાષામાં રેકોર્ડિંગમાંથી અવાજ ક્લોન કરી શકો છો અને બીજી ભાષામાં બોલવાનું ઉત્પન્ન કરી શકો છો.

લક્ષ્ય સ્પીકરનાં સાફ સંદર્ભ ઓડિયોનાં ૩-૧૦ સેકન્ડો પૂરા પાડો. CosyVoice૨ સ્પીકર ગુણધર્મોને અંતિમ સ્કેલાર ક્વોન્ટાઇઝેશન અભિગમ વાપરીને કાઢે છે, પછી તેની આધારભૂત ભાષાઓમાંથી કોઈપણ પર ક્લોન થયેલ અવાજમાં નવો ભાષણ ઉત્પન્ન કરે છે. કોઈ મોડેલ તાલીમ અથવા સુધારવાની જરૂર નથી.

CosyVoice2 એ મજબૂત બહુભાષી ક્લોન મોડેલોમાંનું એક છે, સ્પીકર ઓળખને સંભાળતી વખતે સંદર્ભ ક્લિપથી અલગ ભાષામાં બોલવાનું ઉત્પન્ન કરે છે. તે કુદરતી પ્રોસોડી અને અવાજો ઉત્પન્ન કરે છે, જે તેને ક્રોસ-ભાષા ડબિંગ અને સ્થાનિક થયેલ સમાવિષ્ટો માટે યોગ્ય બનાવે છે.

હા. CosyVoice2 ઝડપી મોડેલ છે અને સ્ટ્રીમિંગ સ્થિતિ સમાવે છે કે જે ઓછા લેટેન્સી સાથે ઓડિયો ઉત્પન્ન કરે છે, અવાજ સહાયકો અને ઇન્ટરેક્ટિવ કાર્યક્રમો માટે તેને યોગ્ય બનાવે છે. TextToSpeechAI પર પેઢીઓ સામાન્ય રીતે ટૂંકા લખાણ માટે સેકન્ડોમાં સમાપ્ત થાય છે.

CosyVoice2 ને 0.5B પરિમાણ મોડેલ માટે VRAM ની 4-6GB ની જરૂર છે, તેથી 6GB અથવા વધુ સાથે GPU ની ભલામણ કરવામાં આવે છે જ્યારે સ્વયં-હોસ્ટિંગ થાય છે. TextToSpeechAI પર મોડેલ અમારા GPU ઇન્ફ્રાસ્ટ્રક્ચર પર ચાલે છે, તેથી તમારે તમારા પોતાના કોઈપણ હાર્ડવેર ની જરૂર નથી.

CosyVoice2 એ પ્રીમિયમ-સ્તર મોડેલ છે અને લખાણના 1,000 અક્ષરો માટે 25 ક્રેડિટની કિંમત છે. દરેક નવું ખાતું મુક્ત શરુઆતના ક્રેડિટ મેળવે છે, તેથી તમે CosyVoice2 અવાજ ક્લોનિંગનો પ્રયત્ન કરી શકો છો ચૂકવણી યોજના પર નિર્ણય લેતા પહેલા.

બંને પ્રીમિયમ અવાજ ક્લોનિંગ એન્જિનો છે. GPT-SoVITS ઘણીવાર એક જ લક્ષ્ય અવાજ માટે ઊંચી કાચી સમાનતાને પહોંચે છે, જ્યારે CosyVoice2 બહુભાષી અને ક્રોસ-ભાષા ક્લોનિંગ માટે મજબૂત છે અને નીચું-લેટન્સી સ્ટ્રીમિંગ સ્થિતિ ઉમેરે છે. CosyVoice2 પસંદ કરો જ્યારે તમને ઘણી ભાષાઓ બોલવા માટે એક ક્લોન થયેલ અવાજની જરૂર હોય.

બંને ઉચ્ચ ગુણવત્તા શૂન્ય-શટ અવાજ ક્લોનિંગ પ્રદાન કરે છે. CosyVoice2 વધુ ભાષાઓને આધાર આપે છે (5 વિરુદ્ધ 2) અને વાસ્તવિક સમય વપરાશ માટે સ્ટ્રીમિંગ ઉમેરે છે, જ્યારે F5-TTS માત્ર અંગ્રેજી કામના ભાર માટે થોડું ઝડપી હોઈ શકે છે. બહુભાષીય પ્રોજેક્ટ્સ માટે CosyVoice2 સામાન્ય રીતે વધુ સારી રીતે બંધબેસે છે.

TextToSpeechAI તમને MP3 અને WAV જેવા સામાન્ય બંધારણોમાં CosyVoice2 પેઢીઓ નિકાસ કરવા દે છે. તમે ફાઇલને તમારા ઇતિહાસ પાનામાંથી સીધા ડાઉનલોડ કરી શકો છો અથવા TextToSpeechAI API દ્દારા તેને પ્રોગ્રામેટિકલી મેળવી શકો છો.

હા. તમે CosyVoice2 ને મફત ડેમો અને તમારા મફત શરૂઆત ક્રેડિટ સાથે TextToSpeechAI પર કંઇપણ સ્થાપિત કર્યા વગર ચકાસી શકો છો. ફક્ત નોંધણી કરો, ટૂંકો સંદર્ભ ક્લિપ અપલોડ કરો, કોઈપણ આધારભૂત ભાષામાં તમારા લખાણને લખો, અને ઉત્પન્ન કરો.

Technical Specs

  • Generation Speed Fast
  • Output Quality Very Good
  • Voice Cloning Supported
  • Languages 5
  • GPU VRAM 4-6GB
  • Credits/1000 chars 25

Try કોસીવૉઇસ૨ Now

Generate your first audio free. No credit card required.

Start Free