ວີ​ທີ​ສName

Standard

ໄວ​ສຸດ​ທ້າຍ​ເຖິງ​ສຸດ​ທ້າຍ TTS ກັບ​ການ​ເວົ້າ​ທໍາມະຊາດ

Very Fast ໄວ
Good ຄຸນນະພາບ
​ບໍ່​ໄດ້​ ​ក្លូន
10 ພາສາ

ກ່ຽວ​ກັບ ວີ​ທີ​ສName

-efficient, and highly-efficient TTS model. It is designed to be used in the field of text-to-speech, and is based on the

ຄຸນ​ສົມບັດ​ຫຼັກ

ການ​ສັງເຄາະ​ໄວ

ໂຄງສ້າງພື້ນຖານ End-to-end ເພື່ອ​ສ້າງ​ການ​ເວົ້າ​ຢ່າງ​ໄວ​ວາ.

ການ​ປະມວນຜົນ​ແບດ

ຈັດການ​ຂໍ້ຄວາມ​ຫຼາຍ​ຢ່າງ​ໃນ​ເວລາ​ດຽວ​ກັນ​ຢ່າງ​ມີ​ປະສິດ​ທິ​ຜົນ.

ເວົ້າ​ແບບ​ທໍາມະຊາດ

ການຝຶກ VAE+GAN ເຮັດໃຫ້ເກີດການເວົ້າ ແລະ ຮ້ອງເພງແບບທຳມະຊາດ.

ຫຼາຍ​ໄມໂຄຣໂຟນ

ແບບ​ດຽວ​ນີ້​ຮອງ​ຮັບ​ສຽງ​ຫຼາຍ​ຄົນ​

ປະສິດທິພາບ

ໃຊ້​ພື້ນທີ່​ໃນ​ສະໝອງ​ຕ່ຳ​ກັບ​ປະສິດທິພາບ​ທີ່​ດີ.

ແຫຼ່ງ​ເປີດ

MIT ອະນຸຍາດໃຫ້ໃຊ້ໄດ້ທຸກກໍລະນີ

ກໍລະນີ​ໃຊ້

ສ້າງ​ສຽງ​ຫຼາຍ​ຄັ້ງ ເວທີການຮຽນຮູ້ທາງອີເລັກໂຕຣນິກ កម្មវិធី​ອ່ານ​ຂ່າວName ການແຈ້ງເຕືອນ​ແບບ​ອັດຕະໂນມັດ ລະບົບ IVR ເນື້ອໃນ​ທີ່ມີ​ສຽງ​ສູງ

ວີ​ທີ​ສName Voices

View All 109
LJSpeech (English Female)
EN
VCTK Speaker 225 (English Female)
EN
VCTK Speaker 226 (English Male)
EN
VCTK Speaker 227 (English Male)
EN
VCTK Speaker 228 (English Female)
EN
VCTK Speaker 229
EN
VCTK Speaker 230
EN
VCTK Speaker 231
EN
VCTK Speaker 232
EN
VCTK Speaker 233
EN
VCTK Speaker 234
EN
VCTK Speaker 236
EN

ວິທີການ​ໃຊ້ ວີ​ທີ​ສName

  1. 1

    ລົງທະບຽນຟຣີ ຫຼື ທົດລອງໃຊ້ Demo

    ສ້າງບັນຊີ TextToSpeechAI ໂດຍບໍ່ເສຍຄ່າ ເພື່ອໄດ້ຮັບເງິນກູ້ເລີ່ມຕົ້ນ, ຫຼືໃຊ້ການສະແດງໃນ ໜ້າ ເພື່ອຟັງ VITS ກ່ອນທີ່ຈະລົງທະບຽນ.

  2. 2

    ເລືອກ​ສຽງ ຫຼື ໄມໂຄຣໂຟນ VITS

    ຄົ້ນຫາ​ຫໍສະໝຸດ​ສຽງ ແລະ ເລືອກ​ສຽງ​ທີ່​ໄດ້​ສະ​ແດງ​ດ້ວຍ​ປ້າຍ​ສະ​ແດງ​ຊື່ VITS. ຫໍສະໝຸດ VITS ທີ່ມີ​ຫຼາຍ​ເຄື່ອງ​ເວົ້າ, ລວມ​ທັງ​ຊຸດ​ເຄື່ອງ​ເວົ້າ VCTK, ອະນຸຍາດ​ໃຫ້​ທ່ານ​ເລືອກ​ສຽງ​ທີ່​ແຕກ​ຕ່າງ​ກັນ​ຫຼາຍ​ຢ່າງ.

  3. 3

    បញ្ចូល​ຂໍ້ຄວາມ​ຂອງ​ທ່ານ

    ພິມ ຫຼື ບິດ​ຂໍ້ຄວາມ​ທີ່​ທ່ານ​ຕ້ອງການ​ເວົ້າ​ເຂົ້າ​ໃນ​ຕົວ​ຈັດການ​ຂໍ້ຄວາມ. VITS ຈັດການ​ກັບ​ຂໍ້ຄວາມ​ຍາວ​ໄດ້​ດີ ແລະ ດີ​ທີ່​ສຸດ​ສຳລັບ​ເນື້ອໃນ​ຫຼາຍໆ​ອັນ ແລະ ເນື້ອໃນ​ທີ່ມີ​ປະລິມານ​ສູງ.

  4. 4

    ສ້າງ​ສຽງ

    ກົດ​ເພື່ອ​ສ້າງ​ການ​ເວົ້າ​ດ້ວຍ VITS. ຍ້ອນ​ວ່າ VITS ໄວ​ຫຼາຍ ແລະ ມາດຕະຖານ​ລະດັບ (10 ຄະແນນຕໍ່ 1000 ຕົວອັກສອນ), ຜົນ​ໄດ້​ຮັບ​ກັບ​ຄືນ​ໄວ​ໃນ​ລາຄາ​ຕ່ຳ.

  5. 5

    ດາວໂຫລດ ຫຼື ໃຊ້ API

    ດາວໂຫລດສຽງທີ່ສໍາເລັດເປັນ MP3, WAV, ຫຼື OGG, ຫຼືໂທຫາສຽງ VITS ດຽວກັນຜ່ານ TextToSpeechAI REST API ເພື່ອຜະລິດອັດຕະໂນມັດໃນໂປແກຼມຂອງທ່ານເອງ.

ວີ​ທີ​ສName API

ສ້າງການເວົ້າໂດຍໃຊ້ໂປຣແກຣມໂດຍໃຊ້ TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "VITS ສົ່ງ​ໃຫ້​ໄວ, ເວົ້າ​ທໍາມະ​ຊາດ​ສໍາລັບ​ການ​ໃຊ້​ງານ​ທີ່ມີ​ປະລິມານ​ສູງ.",
    "voice": "vits-ljspeech"
  }'

ຄໍາຖາມທີ່ຖາມເລື້ອຍໆ

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) ແມ່ນແບບ ຈຳ ລອງ TTS ແບບ neural end-to-end ທີ່ປະສົມປະສານກັບ autoencoder ແບບ variational ກັບການຝຶກອົບຮົມ GAN ແບບ adversarial. ມັນຜະລິດການເວົ້າທີ່ຟັງຄືກັບທໍາມະຊາດໃນບາດກ້າວດຽວ, ເຊິ່ງເຮັດໃຫ້ມັນໄວແລະມີປະສິດຕິພາບ. ທ່ານສາມາດທົດລອງ VITS ຟຣີໃນ TextToSpeechAI.

VITS ແມ່ນ Open Source ຕາມໃບອະນຸຍາດ MIT, ສະນັ້ນມັນສະຫນັບສະຫນູນການໃຊ້ທຸລະກິດເຕັມທີ່ໂດຍບໍ່ມີຂໍ້ຈໍາກັດ. ມັນຖືກນໍາໃຊ້ຢ່າງກວ້າງຂວາງໃນຜະລິດຕະພັນແລະການບໍລິການການຄ້າ. ສໍາລັບ TextToSpeechAI, VITS ຄ່າໃຊ້ຈ່າຍ 10 ເຄດິດຕໍ່ 1000 ຕົວອັກສອນໃນລະດັບມາດຕະຖານ.

TextToSpeechAI ສະຫນອງ​ຫໍສະໝຸດ VITS ທີ່ມີຫຼາຍ​ຜູ້​ເວົ້າ, ລວມ​ທັງ​ສຽງ VCTK ທີ່ມີ​ຜູ້​ເວົ້າ​ພາສາ​ອັງກິດ​ທີ່​ແຕກ​ຕ່າງ​ກັນ​ຫຼາຍ​ສິບ​ຄົນ. ແບບ VITS ດຽວ​ສາມາດ​ຈັດການ​ກັບ​ຜູ້​ເວົ້າ​ຫຼາຍ​ຄົນ, ສະນັ້ນ​ທ່ານ​ສາມາດ​ເລືອກ​ສຽງ​ທີ່​ແຕກ​ຕ່າງ​ກັນ​ຫຼາຍ​ຢ່າງ​ໄດ້​ໂດຍບໍ່​ຕ້ອງ​ປ່ຽນ​ເຄື່ອງຈັກ​ໄດ້.

ການ​ສະໜັບສະໜູນ VITS ຂຶ້ນກັບ​ແບບ​ທີ່​ໄດ້​ຮຽນ​ຮູ້​ແລ້ວ. ແບບ VITS ທົ່ວໄປ​ປະກອບ​ດ້ວຍ​ພາສາ​ອັງກິດ, ຈີນ, ຍີ່ປຸ່ນ, ເກົາຫຼີ, ເຢຍລະມັນ, ຝຣັ່ງ ແລະ ພາສາ​ອື່ນໆ​ທີ່​ສຳຄັນ, ພ້ອມ​ດ້ວຍ​ການ​ປົກ​ຄຸມ​ພາສາ​ອັງກິດ​ທີ່​ມີ​ຫຼາຍ​ຄົນ​ເວົ້າ​ຈາກ​ຊຸດ​ຂໍ້ມູນ VCTK.

VITS ແມ່ນໄວຫຼາຍ, ສ້າງການເວົ້າໃນເວລາຈິງຫຼືໄວກວ່າໃນ GPU. ສະຖາປັດຕະຍະກໍາ end-to-end ຂອງມັນຫຼີກເວັ້ນຂັ້ນຕອນການປຸງແຕ່ງຫຼາຍຄັ້ງຂອງແບບອື່ນໆ, ເຊິ່ງແມ່ນເຫດຜົນທີ່ VITS ແມ່ນ ເໝາະ ສົມກັບການສັງເຄາະ batch ແລະ ຂະ ໜາດ ໃຫຍ່.

ບໍ່, VITS ບໍ່​ສະໜັບສະໜູນ​ການ​ກັ່ນຕອງ​ສຽງ​ແບບ​ຄລາສສິກ​ໄດ້​ເລີຍ. ມັນ​ໃຊ້​ແບບ​ຟອມ​ຜູ້​ເວົ້າ​ຫຼາຍ​ຄົນ​ທີ່​ໄດ້​ຮຽນ​ມາ​ກ່ອນ ແທນ​ທີ່​ຈະ​ຄລາສສິກ​ສຽງ​ທີ່​ໄດ້​ມາ​ຈາກ​ຕົວຢ່າງ​ທີ່​ໄດ້​ມາ​ກ່ອນ. ສຳ​ລັບ​ການ​ກັ່ນຕອງ​ສຽງ​ແບບ​ຄລາສສິກ​ໃນ TextToSpeechAI, ໃຊ້ F5- TTS ຫຼື GPT- SoVITS ແທນ​ທີ່​ຈະ​ໃຊ້​ມັນ.

VITS ຜະລິດສຽງທີ່ມີຄຸນນະພາບດີດ້ວຍສຽງທໍາມະຊາດແລະຈັງຫວະ. ໃນຂະນະທີ່ມັນບໍ່ຢູ່ໃນລະດັບຂອງ StyleTTS2ຫຼື Tortoise, ມັນສະ ເໜີ ຄຸນນະພາບທີ່ດີ ສຳ ລັບຄວາມໄວຂອງມັນ, ໂດຍສະເພາະ ສຳ ລັບການປະມວນຜົນ batch.

VITS ແມ່ນມີປະສິດທິພາບໃນຄວາມຈໍາ, ໂດຍປົກກະຕິແລ້ວຕ້ອງການພຽງແຕ່ GB ບາງ GB ຂອງ VRAM (ປະມານ 4GB). ມັນແລ່ນໄດ້ສະດວກສະບາຍໃນ GPUs ຂອງລູກຄ້າ, ແລະໃນ TextToSpeechAI ການສະແດງທັງຫມົດເກີດຂື້ນໃນເຊີບເວີຂອງພວກເຮົາດັ່ງນັ້ນທ່ານບໍ່ຕ້ອງການຮາດແວໃດໆຂອງຕົວທ່ານເອງ.

VITS ແລະ Piper ແມ່ນ​ທັງ​ສອງ​ໄວ, MIT- ໃບອະນຸຍາດ​ມາດຕະຖານ- ຊັ້ນ​ເຄື່ອງຈັກ​ໃນ TextToSpeechAI. Piper ແມ່ນ​ທາງເລືອກ​ທີ່​ເບົາ​ທີ່ສຸດ ແລະ ໄວ​ທີ່ສຸດ, ໃນຂະນະທີ່ VITS ສະຫນອງ​ໄອຄອນ​ຫຼາຍ​ໂຕ​ທີ່​ໃຫຍ່ (ລວມທັງ VCTK) ທີ່ມີ​ການ​ເວົ້າ​ທີ່​ເປັນ​ທໍາມະຊາດ​ຫຼາຍ​ກວ່າ​ເລັກນ້ອຍ. ບໍ່ມີ​ການ​ສະໜັບສະໜູນ​ການ​ກັ່ນຕອງ​ສຽງ​ໃດໆ.

VITS ແມ່ນເຄື່ອງຈັກມາດຕະຖານ-ຊັ້ນ, ຄ່າໃຊ້ຈ່າຍ 10 ເຄຣດິດຕໍ່ 1000 ຕົວອັກສອນ. ນີ້ແມ່ນຊັ້ນລາຄາຕ່ໍາທີ່ສຸດຂອງພວກເຮົາຂໍຂອບໃຈກັບປະສິດທິພາບ, ໄວທໍາມະຊາດຂອງແບບ VITS.

VITS ສ້າງສຽງທີ່ 22050Hz ທໍາມະຊາດ. ຜ່ານ TextToSpeechAI ທ່ານສາມາດຮ້ອງຂໍ MP3, WAV, ຫຼື OGG ຮູບແບບ, ກັບການປ່ຽນແປງອັດຕະໂນມັດຈັດການສໍາລັບທ່ານ.

ລົງທະບຽນໃນ TextToSpeechAI ເພື່ອໄດ້ຮັບເງິນຝາກເລີ່ມຕົ້ນຟຣີ, ຫຼັງຈາກນັ້ນເລືອກສຽງ VITS, ເຂົ້າສູ່ລະບົບຂໍ້ຄວາມຂອງທ່ານ, ແລະສ້າງສຽງ. ທ່ານຍັງສາມາດໃຊ້ການສະແດງເພື່ອຟັງ VITS ກ່ອນທີ່ຈະສ້າງບັນຊີ, ແລະເຂົ້າເຖິງ VITS ຜ່ານ REST API ຂອງພວກເຮົາເມື່ອທ່ານລົງທະບຽນ.

Technical Specs

  • Generation Speed Very Fast
  • Output Quality Good
  • Voice Cloning Not Supported
  • Languages 10
  • GPU VRAM 1-2GB
  • Credits/1000 chars 10

Try ວີ​ທີ​ສName Now

Generate your first audio free. No credit card required.

Start Free