ටී.

Standard

ස්වාභාවික කථාව සමග වේගවත් අවසානයේ-ඉවර TTS

Very Fast වේගය
Good ගුණාත්මකභාවය
නෑ ක්ලෝන කිරීම
10 භාෂා

ගැන ටී.

-to-end neural TTS model that generates natural-sounding speech. It combines variational autoencoders with adversarial learning for

ප්රධාන විශේෂාංග

වේගවත් සංස්ලේෂණය

ඵලදායිතාවය ඉහළ නැංවීම සඳහා ඵලදායිතාවය ඉහළ නැංවීමේ ක්‍රියාවලිය ඵලදායිතාවය ඉහළ නැංවීමේ ක්‍රියාවලිය ලෙස හැඳින්වේ.

කණ්ඩායම් සැකසීම

කාර්යක්ෂමව එකවර බහු පෙළ සැකසීම.

ස්වභාවික කථාව

ඩී.එන්.ඒ. මඟින් රසායනික හා භෞතික ක්‍රියාකාරකම් සිදු කරයි.

බහු- කථාකරන්නා

යම් යම් කාරණා සම්බන්ධයෙන් යම් යම් ස්ථාවරයන් දරයි.

කාර්යක්ෂම

හොඳ ක්රියාකාරිත්වයක් සහිත අඩු මතක අඩිසැකසුම.

විවෘත මූලාශ්‍ර

ඕනෑම අවස්ථාවකදී භාවිතා කළ හැකි ක්‍රමවේදයක් ලෙස ටෙලිග්‍රාෆ් භාවිතා වේ.

භාවිතය

ශ්‍රව්‍ය ජනනය ඊ-ඉගෙනුම් වේදිකා පුවත් කියවන්නන්Name ස්වයංක්‍රීය නිවේදන IVR පද්ධති ඉහළ- පරිමාණ අන්තර්ගතය

ටී. Voices

View All 109
LJSpeech (English Female)
EN
VCTK Speaker 225 (English Female)
EN
VCTK Speaker 226 (English Male)
EN
VCTK Speaker 227 (English Male)
EN
VCTK Speaker 228 (English Female)
EN
VCTK Speaker 229
EN
VCTK Speaker 230
EN
VCTK Speaker 231
EN
VCTK Speaker 232
EN
VCTK Speaker 233
EN
VCTK Speaker 234
EN
VCTK Speaker 236
EN

භාවිතා කරන ආකාරය ටී.

  1. 1

    නොමිලේ ලියාපදිංචි වන්න හෝ දර්ශනය උත්සාහ කරන්න

    ආරම්භක ණය ලබා ගැනීමට නොමිලේ TextToSpeechAI ගිණුමක් නිර්මාණය කරන්න, හෝ ලියාපදිංචි වීමට පෙර VITS අසන්නට පිටුව මත ඩෙමෝ භාවිතා කරන්න.

  2. 2

    VITS හඬ හෝ කථිකයෙකු තෝරන්න

    හඬ පුස්තකාලය ගවේෂණය කර VITS බැජ් සමඟ සලකුණු කරන ලද හඬක් තෝරන්න. VCTK කථික කට්ටලය ඇතුළු බහු-කථික VITS පුස්තකාලය, ඔබට විවිධ හඬවල් කිහිපයක් තෝරා ගැනීමට ඉඩ දෙයි.

  3. 3

    ඔබේ පෙළ ඇතුළත් කරන්න

    ඔබ සංස්කාරකවරයාට කතා කිරීමට අවශ්ය පෙළ ටයිප් හෝ ඇලවීම. VITS හොඳින් දිගු වාක්‍ය හැසිරවීම සහ කණ්ඩායම් හා අධික පරිමාව අන්තර්ගතය සඳහා කදිම වේ.

  4. 4

    ශ්‍රව්‍යය ජනනය කරන්න

    VITS සමග කථාව සංස්ලේෂණය කිරීමට ජනනය ක්ලික් කරන්න. VITS ඉතා වේගවත් හා සම්මත-තලය නිසා (10 1000 අක්ෂර සඳහා ණය), අඩු වියදමකින් ප්රතිඵල ඉක්මනින් ආපසු.

  5. 5

    API බාගත හෝ භාවිතා කරන්න

    MP3, WAV, හෝ OGG ලෙස අවසන් ශබ්ද බාගත, හෝ ඔබේම අයදුම්පත තුළ ජනනය ස්වයංක්රීය කිරීමට TextToSpeechAI REST API හරහා එම VITS හඬ ඇමතුම්.

ටී. API

TextToSpeechAI REST API භාවිතා කරමින් වැඩසටහන්ගතව කථාව ජනනය කරන්න.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "ටෙලිවිෂන් යනු ඉතා ඉක්මනින් හා පහසුවෙන් සන්නිවේදනය කළ හැකි සන්නිවේදන මාධ්‍යයකි.",
    "voice": "vits-ljspeech"
  }'

නිතර අසන ප්රශ්න

VITS (අවසන්-අවසන් පෙළ-කථාව සඳහා විරුද්ධ ඉගෙනීම සමග විචල්ය නිගමනය) විචල්ය autoencoder සමග විරුද්ධ GAN පුහුණුව ඒකාබද්ධ කරන අවසන්-අවසන් ස්නායු TTS ආකෘතිය වේ. එය තනි පියවරක් ස්වභාවික-සහජ්ජායනය කථාව ජනනය, එය වේගවත් හා කාර්යක්ෂම කරයි. ඔබ VITS මත නිදහස් උත්සාහ කළ හැකිය TextToSpeechAI.

ඔව්, VITS MIT බලපත්රය යටතේ විවෘත මූලාශ්රය වේ, ඒ නිසා එය සීමාවන් තොරව පූර්ණ වාණිජ භාවිතය සහාය. එය පුළුල් ලෙස වාණිජ නිෂ්පාදන හා සේවා භාවිතා වේ. මත TextToSpeechAI, VITS වියදම් 10 සම්මත තලය මත අක්ෂර 1000 ක් සඳහා ණය 10.

TextToSpeechAI විශාල බහු-කථික VITS පුස්තකාලයක් ලබා දෙයි, VCTK හඬ දස දහස් ගණනක් වෙනස් ඉංග්රීසි කථිකයන් සමග සකස් ඇතුළු. තනි VITS ආකෘතිය බොහෝ කථිකයන් සත්කාරකත්වය දැක්විය හැකි, එබැවින් ඔබ එන්ජින් මාරු නොකර විවිධ හඬවලින් තෝරා ගත හැකිය.

VITS සහාය පුහුණු ආකෘතිය මත රඳා පවතී. පොදු VITS ආකෘති ඉංග්රීසි ආවරණය, චීන, ජපන්, කොරියානු, ජර්මානු, ප්රංශ, සහ අනෙකුත් ප්රධාන භාෂා, VCTK දත්ත එකතුව සිට බහු-කථික ඉංග්රීසි ආවරණය සමග.

VITS ඉතා වේගවත් වන අතර GPU මත සැබෑ කාලයේ හෝ වේගවත්ව කථා කිරීම ජනනය කරයි. එහි අවසාන-අවසන් ගෘහ නිර්මාණ ශිල්පය වෙනත් ආකෘතිවල බහු සැකසුම් අදියර වළක්වයි. එබැවින් VITS බැච් සහ අධික පරිමාව සංස්ලේෂණයට සුදුසු වේ.

නැත, VITS හඬ ක්ලෝන සහාය නොදක්වයි. එය නියැදියක් සිට ඉලක්ක හඬ පිටපත් කිරීම වෙනුවට පෙර පුහුණු බහු-කථික ආකෘති භාවිතා කරයි. TextToSpeechAI මත හඬ ක්ලෝන සඳහා, වෙනුවට F5-TTS හෝ GPT-SoVITS භාවිතා කරන්න.

VITS ස්වභාවික prosody හා රිද්මය සමග හොඳ තත්ත්වයේ ශබ්ද නිපදවයි. එය StyleTTS2හෝ Tortoise මට්ටමේ දී නොවේ අතර, එය එහි වේගය සඳහා විශිෂ්ට ගුණාත්මක ඉදිරිපත් කරයි, විශේෂයෙන්ම කණ්ඩායම් සැකසීම සඳහා.

VITS මතකය කාර්යක්ෂම වේ, සාමාන්යයෙන් VRAM GB කිහිපයක් පමණක් අවශ්ය (4GB පමණ). එය පාරිභෝගික GPUs මත පහසුවෙන් ක්රියාත්මක වන අතර, TextToSpeechAI මත සියලුම රූපවාහිනී අපගේ සේවාදායක මත සිදු වන අතර, ඔබ ඔබේම කිසිදු දෘඩාංග අවශ්ය නැත.

VITS සහ Piper යන දෙකම වේගවත්, MIT-බලපත්ර සම්මත-තලය එන්ජින් TextToSpeechAI මත වේ. Piper සැහැල්ලු හා වේගවත්ම විකල්පය වන අතර, VITS විශාල බහු-කථික පුස්තකාලයක් ලබා දෙන අතර (VCTK ඇතුළු) තරමක් ස්වභාවික prosody සමග. දෙකම හඬ ක්ලෝන සහාය.

VITS සම්මත-පන්ති එන්ජිම වේ, වියදම් 10 ක්රොට් 1000 අක්ෂර. මෙම කාර්යක්ෂම ස්තූතිවන්ත වන අපගේ අඩුම මිල ස්ථරය, VITS ආකෘතිය වේගවත් ස්වභාවය.

VITS 22050Hz ස්වදේශිකව ශ්රව්ය ජනනය කරයි. TextToSpeechAI හරහා ඔබ MP3 ඉල්ලා කළ හැකි, WAV, හෝ OGG ආකෘති, ඔබ සඳහා ස්වයංක්රීය පරිවර්තනය හැසිරවීම සමග.

නොමිලේ ආරම්භක ණය ලබා ගැනීමට TextToSpeechAI මත ලියාපදිංචි, පසුව VITS හඬ තෝරා, ඔබේ පෙළ ඇතුලත්, සහ ශබ්ද ජනනය. ඔබ ද ගිණුමක් නිර්මාණය කිරීමට පෙර VITS ඇසීමට ඩෙමෝ භාවිතා කළ හැකි, ඔබ ලියාපදිංචි වූ පසු අපගේ REST API හරහා VITS ප්රවේශ.

Technical Specs

  • Generation Speed Very Fast
  • Output Quality Good
  • Voice Cloning Not Supported
  • Languages 10
  • GPU VRAM 1-2GB
  • Credits/1000 chars 10

Try ටී. Now

Generate your first audio free. No credit card required.

Start Free