วิทซ์

Standard

ระบบ TTS แบบเร็วสุดถึงสุด ด้วยการพูดตามธรรมชาติ

Very Fast ความเร็ว
Good คุณภาพ
ไม่มี กำลังสร้างคอลลิน
10 ภาษา

เกี่ยวกับ วิทซ์

-efficient, and highly-efficient TTS model. It is designed to be used in the field of text-to-speech. It is based on the

ตัวเลือกหลัก

ปรับแต่งอัตโนมัติ

ระบบสถาปัตยกรรม สำหรับสร้างเสียงอย่างรวดเร็ว

ประมวลผลแบบบั๊ก

ประมวลผลข้อความหลายข้อพร้อมกันได้อย่างมีประสิทธิภาพ

เสียงธรรมชาติ

ฝึก VAE+GAN ทำให้เกิดเสียงและจังหวะตามธรรมชาติ

หลายตัว

โมเดลเดียว รองรับเสียงหลายเสียง

ประสิทธิภาพ

ใช้หน่วยความจำน้อย แต่ประสิทธิภาพดี

โอเพนซอร์ส

MIT อนุมัติให้ใช้ได้ทุกกรณี

กรณีการใช้

สร้างเสียงเป็นกลุ่ม ระบบการเรียนรู้ทางอิเล็กทรอนิกส์Name เครื่องมืออ่านข่าวName การแจ้งให้ทราบอัตโนมัติ ระบบ IVRName เนื้อหาที่มีปริมาณสูง

วิทซ์ Voices

View All 109
LJSpeech (English Female)
EN
VCTK Speaker 225 (English Female)
EN
VCTK Speaker 226 (English Male)
EN
VCTK Speaker 227 (English Male)
EN
VCTK Speaker 228 (English Female)
EN
VCTK Speaker 229
EN
VCTK Speaker 230
EN
VCTK Speaker 231
EN
VCTK Speaker 232
EN
VCTK Speaker 233
EN
VCTK Speaker 234
EN
VCTK Speaker 236
EN

วิธีการใช้ วิทซ์

  1. 1

    ลงทะเบียนฟรี หรือลองดู Demo

    สร้างบัญชีฟรี TextToSpeechAI เพื่อรับเครดิตเริ่มต้น หรือใช้หน้า demo เพื่อฟัง VITS ก่อนที่จะสมัคร

  2. 2

    เลือกเสียงหรือลำโพง VITS

    คลิกที่ลิงค์ เลือกเสียงที่ถูกระบุด้วยป้าย VITS ลิงค์ VITS สำหรับเสียงหลายตัว รวมถึงชุดเสียง VCTK ช่วยให้คุณเลือกเสียงที่แตกต่างกันได้มากมาย

  3. 3

    พิมพ์ข้อความของคุณ

    พิมพ์หรือปะข้อความที่คุณต้องการให้พูดเข้าไปในตัวแก้ไข VITS สามารถจัดการข้อความยาวๆได้ดี และเหมาะสำหรับเนื้อหาที่ใช้บ่อยๆ และมีปริมาณมาก

  4. 4

    สร้างเสียง

    คลิกที่ สร้าง เพื่อสังเคราะห์เสียงด้วย VITS เพราะ VITS ทำงานเร็วมาก และเป็นระดับมาตรฐาน (10 เครดิตต่อ 1000 อักขระ) ผลลัพธ์จะกลับมาเร็ว และมีราคาถูก

  5. 5

    ดาวน์โหลดหรือใช้ API

    ดาวน์โหลดเสียงที่ได้มาเป็น MP3, WAV, หรือ OGG หรือเรียกเสียง VITS ผ่าน API REST TextToSpeechAI เพื่อสร้างเสียงอัตโนมัติในแอพพลิเคชันของคุณเอง

วิทซ์ ตัวช่วยการใช้งาน

สร้างเสียงพูดโดยใช้โปรแกรม โดยใช้ REST API TextToSpeechAI

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "VITS ช่วยให้การพูดเป็นธรรมชาติ สำหรับแอพพลิเคชั่นที่มีปริมาณสูง",
    "voice": "vits-ljspeech"
  }'

คำถามที่ถามบ่อย

VITS (Variation Inference with Adversarial Learning for End-to-End Text-to-Speech) เป็นโมเดล TTS แบบประสาทที่รวมตัวอักษรอัตโนมัติแบบแปรผันเข้ากับการฝึก GAN แบบต่อสู้ มันสร้างเสียงพูดที่ฟังดูเป็นธรรมชาติในครั้งเดียว ซึ่งทำให้มันรวดเร็วและมีประสิทธิภาพ คุณสามารถทดลอง VITS ฟรีบน TextToSpeechAI ได้

Yes, VITS is open-source under the MIT license, so it supports full commercial use without restrictions. It is widely used in commercial products and services. On TextToSpeechAI, VITS costs 10 credits per 1000 characters on the Standard tier.

TextToSpeechAI ยังมีไลบรารี VITS ขนาดใหญ่สำหรับเสียงหลายตัว รวมถึงเสียง VCTK ที่ประกอบด้วยเสียงภาษาอังกฤษหลายสิบเสียง โมเดล VITS ตัวเดียวสามารถรองรับเสียงหลายตัวได้ ดังนั้นคุณสามารถเลือกเสียงที่แตกต่างกันได้โดยไม่ต้องเปลี่ยนกลไก

การสนับสนุน VITS ขึ้นอยู่กับโมเดลที่ถูกฝึก โมเดล VITS ทั่วไป ประกอบด้วยภาษาอังกฤษ, จีน, ญี่ปุ่น, เกาหลี, เยอรมัน, ฝรั่งเศส และภาษาหลักอื่น ๆ, ด้วยการครอบคลุมภาษาอังกฤษหลายภาษาจากชุดข้อมูล VCTK

VITS ทำงานเร็วมาก สร้างเสียงได้ทันที หรือเร็วกว่าบน GPU สถาปัตยกรรม End-to-End ของมัน ช่วยให้หลีกเลี่ยงการประมวลผลหลายขั้นตอนของโมเดลอื่น ๆ ได้ ดังนั้น VITS จึงเหมาะสมกับการสังเคราะห์เสียงแบบแบตและขนาดใหญ่

ไม่ VITS ไม่รองรับการทำโคลนเสียง มันใช้แบบจำลองของตัวบอกเสียงหลายตัวที่ฝึกมาก่อน แทนที่จะคัดลอกเสียงเป้าหมายจากตัวอย่าง สำหรับทำโคลนเสียงบน TextToSpeechAI โปรดใช้ F5- TTS หรือ GPT- SoVITS แทน

VITS ผลิตเสียงที่มีคุณภาพดี ด้วยเสียงและจังหวะตามธรรมชาติ ถึงแม้ว่ามันจะไม่อยู่ในระดับ StyleTTS 2หรือ Tortoise แต่มันก็ยังมีคุณภาพที่ดีสำหรับความเร็วของมัน โดยเฉพาะสำหรับการประมวลผลบั๊ก

VITS ใช้หน่วยความจำได้มาก โดยทั่วไปแล้ว ต้องการ VRAM เพียงไม่กี่ GB (ประมาณ 4GB) มันทำงานได้ดีบน GPU ของผู้ใช้ และบน TextToSpeechAI การแสดงผลทั้งหมดจะเกิดขึ้นบนเซิร์ฟเวอร์ของเรา ดังนั้น คุณจึงไม่ต้องใช้ฮาร์ดแวร์ของตัวเอง

VITS และ Piper ใช้เครื่องจักร Standard- Tier ที่เร็ว และได้รับใบอนุญาตจาก MIT บน TextToSpeechAI Piper เป็นตัวเลือกที่เบาที่สุดและเร็วที่สุด ในขณะที่ VITS ใช้ไลบรารีเสียงหลายตัว (รวมถึง VCTK) ที่มีเสียงที่ฟังดูธรรมชาติกว่าเล็กน้อย ไม่มีตัวเลือกใดที่รองรับการโคลนเสียง

VITS เป็นเครื่องมือระดับมาตรฐาน ใช้เงิน 10 เครดิตต่อ 1000 ตัวอักษร นี่คือระดับราคาที่ต่ำที่สุดของเรา ขอบคุณความมีประสิทธิภาพและความเร็วของโมเดล VITS

VITS สร้างเสียงที่ความถี่ 22050Hz ผ่าน TextToSpeechAI คุณสามารถขอให้ MP3, WAV หรือ OGG รูปแบบ, กับการแปลงอัตโนมัติจัดการสำหรับคุณ

ลงทะเบียนที่ TextToSpeechAI เพื่อรับเครดิตเริ่มต้นฟรี จากนั้นเลือกเสียง VITS, เติมข้อความของคุณ และสร้างเสียง คุณยังสามารถใช้ demo เพื่อฟัง VITS ก่อนที่จะสร้างบัญชี และเข้าถึง VITS ผ่าน REST API ของเราเมื่อคุณลงทะเบียน

Technical Specs

  • Generation Speed Very Fast
  • Output Quality Good
  • Voice Cloning Not Supported
  • Languages 10
  • GPU VRAM 1-2GB
  • Credits/1000 chars 10

Try วิทซ์ Now

Generate your first audio free. No credit card required.

Start Free