ভিটিএস

Standard

প্রাকৃতিক বক্তৃতার সাথে দ্রুত শেষ-থেকে-শেষ TTS

Very Fast গতি
Good গুণমান
না ক্লোনিং
10 ভাষা

পরিচিতি ভিটিএস

-to-end neural TTS model that generates natural-sounding speech. It combines variational autoencoders with adversarial learning for

প্রধান বৈশিষ্ট্য

দ্রুত সংশ্লেষণ

দ্রুত বক্তব্য উৎপাদনের জন্য শেষ-থেকে-শেষ স্থাপত্য।

ব্যাচ প্রসেসিং

একই সাথে একাধিক টেক্সট কার্যকরভাবে প্রক্রিয়াকরণ করুন।

প্রাকৃতিক বক্তৃতা

ভ্যাই+গান প্রশিক্ষণ প্রাকৃতিক সুর ও রীতি তৈরি করে।

মাল্টি স্পিকার

একক মডেল একাধিক স্পিকারের কন্ঠ সমর্থন করে।

দক্ষ

ভাল পারফরম্যান্সের সাথে কম মেমরি ব্যবহার।

ওপেন সোর্স

MIT লাইসেন্সকৃত যে কোন ব্যবহারের জন্য।

ব্যবহারের ক্ষেত্রে

ব্যাচ অডিও উৎপাদন ই-লর্নিং প্ল্যাটফর্ম নিউজ রিডারName স্বয়ংক্রিয় ঘোষনা আইভিআর সিস্টেম উচ্চ- ভলিউম বিষয়বস্তু

ভিটিএস Voices

View All 109
LJSpeech (English Female)
EN
VCTK Speaker 225 (English Female)
EN
VCTK Speaker 226 (English Male)
EN
VCTK Speaker 227 (English Male)
EN
VCTK Speaker 228 (English Female)
EN
VCTK Speaker 229
EN
VCTK Speaker 230
EN
VCTK Speaker 231
EN
VCTK Speaker 232
EN
VCTK Speaker 233
EN
VCTK Speaker 234
EN
VCTK Speaker 236
EN

ব্যবহারের নিয়ম ভিটিএস

  1. 1

    বিনামূল্যে নিবন্ধন করুন অথবা ডেমো চেষ্টা করুন

    Create a free TextToSpeechAI account to get starter credits, or use the on-page demo to hear VITS before signing up.

  2. 2

    VITS শব্দ বা স্পিকার নির্বাচন করুন

    ভয়েস লাইব্রেরী ব্রাউজ করুন এবং VITS ব্যাজ দ্বারা চিহ্নিত একটি ভয়েস বেছে নিন। VCTK স্পিকার সেট সহ বহু-স্পিকার VITS লাইব্রেরী আপনাকে অনেকগুলি ভিন্ন ভয়েস বেছে নিতে দেয়।

  3. 3

    আপনার লেখা লিখুন

    আপনি যে লেখাটি লিখতে চান তা টাইপ করুন অথবা এডিটর- এ সাঁটান। VITS দীর্ঘ অংশ ভালোভাবে পরিচালনা করে এবং ব্যাচ এবং উচ্চ পরিমাণের বিষয়বস্তুর জন্য উপযুক্ত।

  4. 4

    অডিও তৈরি করুন

    VITS ব্যবহার করে শব্দ সংশ্লেষণ করতে ক্লিক করুন। VITS খুব দ্রুত এবং স্ট্যান্ডার্ড- স্তর (প্রতি ১০০০ অক্ষর ১০ ক্রেডিট) হওয়ায়, ফলাফল দ্রুত এবং কম খরচে পাওয়া যায়।

  5. 5

    API ডাউনলোড অথবা ব্যবহার করুন

    Download the finished audio as MP3, WAV, or OGG, or call the same VITS voice through the TextToSpeechAI REST API to automate generation in your own application.

ভিটিএস অ্যাপলিকেশন প্রযুক্তিগত উপযোগিতা (API)

TextToSpeechAI REST API ব্যবহার করে প্রোগ্রামিং দ্বারা বাক্যের উৎপাদন করুন।

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "VITS দ্রুত, উচ্চ পরিমাণ অ্যাপ্লিকেশনের জন্য প্রাকৃতিক কথা প্রদান করে।",
    "voice": "vits-ljspeech"
  }'

প্রায়শই জিজ্ঞাসিত প্রশ্ন

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is an end-to-end neural TTS model that combines a variational autoencoder with adversarial GAN training. It generates natural-sounding speech in a single pass, which makes it fast and efficient. You can try VITS free on TextToSpeechAI.

Yes, VITS is open-source under the MIT license, so it supports full commercial use without restrictions. It is widely used in commercial products and services. On TextToSpeechAI, VITS costs 10 credits per 1000 characters on the Standard tier.

TextToSpeechAI একটি বড় মাল্টি- স্পিকার VITS লাইব্রেরী প্রদান করে, যার মধ্যে VCTK শব্দ সেট সহ ডজনেরও বেশি আলাদা ইংরেজি স্পিকার রয়েছে । একটি VITS মডেল অনেক স্পিকার হোস্ট করতে পারে, তাই আপনি ইঞ্জিন পরিবর্তন না করে অনেক ভিন্ন শব্দ থেকে বেছে নিতে পারেন ।

VITS সমর্থন প্রশিক্ষিত মডেলের উপর নির্ভর করে। সাধারণ VITS মডেলগুলি ইংরেজি, চীনা, জাপানি, কোরীয়, জার্মান, ফরাসি এবং অন্যান্য প্রধান ভাষাগুলিকে অন্তর্ভুক্ত করে, VCTK ডেটাসেট থেকে বহুভাষী ইংরেজি কভারেজ সহ।

VITS খুব দ্রুত, বাস্তব সময়ে বা GPU-এর উপর আরও দ্রুত শব্দ তৈরি করে। এর শেষ-থেকে-শেষ স্থাপত্য অন্যান্য মডেলের একাধিক প্রসেসিং ধাপ এড়িয়ে যায়, যে কারণে VITS ব্যাচ এবং উচ্চ পরিমাণ সংশ্লেষণের জন্য উপযুক্ত।

না, VITS ভয়েস ক্লোনিং সমর্থন করে না। এটি একটি নমুনা থেকে একটি লক্ষ্য ভয়েস অনুলিপি করার পরিবর্তে পূর্বে প্রশিক্ষিত মাল্টি-স্পিকার মডেল ব্যবহার করে। TextToSpeechAI-এ ভয়েস ক্লোনিং-এর জন্য, এর পরিবর্তে F5-TTS বা GPT-SoVITS ব্যবহার করুন।

VITS প্রাকৃতিক প্রসোডি এবং রীতির সাথে ভাল মানের অডিও উৎপাদন করে। যদিও এটি স্টাইল- টিটিএস ২ বা টর্টোইজ- এর মানের নয়, তবে এটি তার গতি, বিশেষ করে ব্যাচ প্রসেসিংয়ের জন্য অসাধারণ মানের অফার করে।

VITS is memory-efficient, typically needing only a few GB of VRAM (around 4GB). It runs comfortably on consumer GPUs, and on TextToSpeechAI all rendering happens on our servers so you do not need any hardware of your own.

VITS and Piper are both fast, MIT-licensed Standard-tier engines on TextToSpeechAI. Piper is the lightest and fastest option, while VITS offers a large multi-speaker library (including VCTK) with slightly more natural prosody. Neither supports voice cloning.

VITS একটি স্ট্যান্ডার্ড- স্তর ইঞ্জিন, প্রতি ১০০০ অক্ষরের জন্য ১০ ক্রেডিট খরচ হয়। VITS মডেলের কার্যকর, দ্রুত প্রকৃতির কারণে এটি আমাদের সবচেয়ে কম মূল্যের স্তর।

VITS generates audio at 22050Hz natively. Through TextToSpeechAI you can request MP3, WAV, or OGG formats, with automatic conversion handled for you.

Sign up on TextToSpeechAI to receive free starter credits, then pick a VITS voice, enter your text, and generate audio. You can also use the demo to hear VITS before creating an account, and access VITS through our REST API once you sign up.

Technical Specs

  • Generation Speed Very Fast
  • Output Quality Good
  • Voice Cloning Not Supported
  • Languages 10
  • GPU VRAM 1-2GB
  • Credits/1000 chars 10

Try ভিটিএস Now

Generate your first audio free. No credit card required.

Start Free