विट्स

Standard

नैसर्गिक वक्तव्य सह जलद अंत- ते- अंत TTSName

Very Fast वेग
Good गुणवत्ता
नाही क्लोन
10 भाषाName

विषयी विट्स

-to-end neural TTS model that generates natural-sounding speech. It combines variational autoencoders with adversarial learning for

मुख्य वैशिष्ट्ये

जलद संश्लेषण

नंतरच्या काळात लिंगभावाच्या संकल्पनेला नवे अर्थ प्राप्त झाले.

बॅच प्रक्रिया

अनेक प्रकारच्या शस्त्रक्रिया एकाच वेळी करता येतात.

नैसर्गिक वक्तव्यName

गूगल+या ॲपचा वापर करून आपण गूगल+चा वापर करून गूगल+चा वापर करू शकतो.

बहु- स्पीकर

अनेक भाषांत अनेक प्रकारचे शब्द आहेत.

प्रभावी

याची चव चविष्ट असून त्याचे गुणधर्म उत्तम आहेत.

ओपन सोर्स

या सर्व प्रकारच्या शस्त्रक्रियांसाठी वापरण्यात येणारे इंजेक्शन.

वापरा प्रकरणे

ऑडिओ बॅच निर्मिती ई-शिक्षण मंचName बातमी वाचकName स्वचालित सूचना IVR प्रणालीName उच्च- आवाज समाविष्टीत आहे

विट्स Voices

View All 109
LJSpeech (English Female)
EN
VCTK Speaker 225 (English Female)
EN
VCTK Speaker 226 (English Male)
EN
VCTK Speaker 227 (English Male)
EN
VCTK Speaker 228 (English Female)
EN
VCTK Speaker 229
EN
VCTK Speaker 230
EN
VCTK Speaker 231
EN
VCTK Speaker 232
EN
VCTK Speaker 233
EN
VCTK Speaker 234
EN
VCTK Speaker 236
EN

वापर कसे कराल विट्स

  1. 1

    मोफत नोंदणी करा किंवा डेमोचा वापर करा

    Create a free TextToSpeechAI account to get starter credits, or use the on-page demo to hear VITS before signing up.

  2. 2

    VITS आवाज किंवा स्पीकर निवडा

    आवाज लायब्ररीचे संचारन करा व VITS बॅज सह चिन्हांकीत आवाज निवडा. VCTK स्पीकर सेट सह बहु- स्पीकर VITS लायब्ररी, तुम्हाला अनेक वेगळ्या आवाजांमधून निवडण्यास परवानगी देतो.

  3. 3

    पाठ्य प्रविष्ट करा

    संपादक अंतर्गत वाचन करीता पाठ्य टाइप करा किंवा चिकटवा. VITS लांब खंड चांगल्या प्रकारे हाताळते व बॅच व मोठ्या संख्येने समाविष्टीत करीता आदर्श आहे.

  4. 4

    ऑडिओ बनवा

    VITS सह संवाद संश्लेषण करीता निर्माण करा वर क्लिक करा. VITS अतिशय जलद व मानक स्तर (10 credits per 1000 characters) आहे, परिणाम कमी खर्चात लवकर परत येतो.

  5. 5

    API डाउनलोड करा किंवा वापरा

    Download the finished audio as MP3, WAV, or OGG, or call the same VITS voice through the TextToSpeechAI REST API to automate generation in your own application.

विट्स API

Generate speech programmatically using the TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "गूगलने या संकल्पनेला वेगवेगळे शब्द, उच्चार, उच्चार पद्धती इत्यादींचा वापर करून अधिकाधिक लोकप्रिय केले आहे.",
    "voice": "vits-ljspeech"
  }'

वारंवार विचारले जाणारे प्रश्न

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is an end-to-end neural TTS model that combines a variational autoencoder with adversarial GAN training. It generates natural-sounding speech in a single pass, which makes it fast and efficient. You can try VITS free on TextToSpeechAI.

होय, VITS MIT परवाना अंतर्गत ओपन सोर्स आहे, म्हणून ते पूर्णपणे व्यावसायिक वापरास प्रतिबंध न करता समर्थन देते. व्यावसायिक उत्पादने आणि सेवांमध्ये ते मोठ्या प्रमाणावर वापरले जाते. TextToSpeechAI वर, VITS मानक स्तरावर 1000 अक्षरांमागे 10 क्रेडिट खर्च करते.

TextToSpeechAI एक मोठे बहु- स्पीकर VITS लायब्ररी प्रदान करते, VCTK आवाज सेटसह, डझनभर वेगळ्या इंग्रजी स्पीकरसह. एकमेव VITS मॉडेल अनेक स्पीकरचे यजमान असू शकते, म्हणून तुम्ही इंजिन बदलविण्याशिवाय अनेक भिन्न आवाजांमधून निवडू शकता.

VITS समर्थन प्रशिक्षण मॉडेलवर अवलंबून आहे. सामान्य VITS मॉडेल इंग्रजी, चिनी, जपानी, कोरियाई, जर्मन, फ्रेंच, व इतर प्रमुख भाषा, VCTK माहितीसंच पासून बहु- वक्ता इंग्रजी कव्हरेज सह समाविष्टीत आहे.

व्हीआयटीएस अतिशय जलद आहे, जीपीयूवर वास्तविक वेळेत किंवा जलद आवाज निर्माण करते. त्याचे अंत-ते-अंत आर्किटेक्चर इतर मॉडेलच्या अनेक प्रक्रियेतील चरण टाळते, म्हणूनच व्हीआयटीएस बॅच आणि उच्च-अवधी संश्लेषणासाठी योग्य आहे.

नाही, VITS आवाज क्लोन करीता समर्थन पुरवत नाही. हे नमुन्यांपासून लक्ष्य आवाज प्रतिकृत करण्याऐवजी पूर्व- प्रशिक्षण बहु- स्पीकर मॉडेलचा वापर करते. TextToSpeechAI वर आवाज क्लोन करीता, F5- TTS किंवा GPT- SoVITS चा वापर करा.

VITS नैसर्गिक प्रोसोडी व लयबद्धतेसह चांगल्या दर्जाचे ऑडिओ बनवितो. हे StyleTTS2किंवा Tortoise च्या स्तरावर नसले तरी, ते वेगासाठी उत्कृष्ट दर्जा पुरविते, विशेषतः बॅच प्रक्रिया करीता.

VITS स्मृती-कुशल आहे, साधारणपणे फक्त काही GB VRAM ची गरज असते (4GB पर्यंत). ते ग्राहक GPU वर सहज चालते, आणि TextToSpeechAI वर सर्व रेंडरिंग आमच्या सर्वर वर होते म्हणून तुम्हाला स्वतःचे कोणत्याही हार्डवेअरची गरज नाही.

VITS व Piper हे दोन्ही TextToSpeechAI वरील MIT- परवानाकृत मानक- स्तर इंजिन आहेत. Piper हे सर्वात हलके व जलद पर्याय आहे, तर VITS एक मोठे बहु- स्पीकर लायब्ररी (VCTK सह) पुरविते जे थोडे अधिक नैसर्गिक प्रोसोडीसह आहे. दोन्ही आवाज क्लोन करीता समर्थन पुरविले जात नाही.

VITS हे एक मानक स्तर इंजिन आहे, 1000 अक्षरांसाठी 10 क्रेडिट लागते. VITS मॉडेलच्या कार्यक्षम, जलद स्वभावामुळे हे आमचे सर्वात कमी किंमत स्तर आहे.

VITS 22050Hz वर मूळ ऑडिओ तयार करते. TextToSpeechAI द्वारे तुम्ही MP3, WAV किंवा OGG स्वरूपाची विनंती करू शकता, ज्यात स्वचालित रूपांतरण तुमच्यासाठी हाताळले जाते.

TextToSpeechAI वर नोंदणी करा मोफत स्टार्टअप क्रेडिट मिळविण्यासाठी, मग VITS आवाज निवडा, आपल्या पाठ्य प्रविष्ट करा आणि ऑडिओ तयार करा. तुम्ही खाते तयार करण्यापूर्वी VITS ऐकण्यासाठी डेमोचा वापर करू शकता, आणि आपण नोंदणी केल्यानंतर VITS वर आमच्या REST API द्वारे प्रवेश करू शकता.

Technical Specs

  • Generation Speed Very Fast
  • Output Quality Good
  • Voice Cloning Not Supported
  • Languages 10
  • GPU VRAM 1-2GB
  • Credits/1000 chars 10

Try विट्स Now

Generate your first audio free. No credit card required.

Start Free