เขา

Ultra

TTS แบบคำพูดพร้อมการคล้ายเสียงและเสียงที่ไม่ใช้คำพูด

Medium ความเร็ว

Excellent คุณภาพ

ใช่ กำลังสร้างคอลลิน

1 ภาษา

เกี่ยวกับ เขา

ing the most accurate text-to-speech results. Dia is also capable of generating natural conversational speech with support for nonverbal sounds like laughter, sighs, and coughs. It excels at generating the most accurate text-to-speech results. Dia is also capable of generating natural conversational speech with support for nonverbal sounds like laughter, sighs, and coughs. It excels at generating the most accurate text-to-speech results.

ตัวเลือกหลัก

สร้างกล่องโต้ตอบ

สร้างการสนทนาแบบธรรมชาติ ด้วยเสียงที่แตกต่างกัน และการเปลี่ยนแปลง

เสียงที่ไม่ใช้คำพูดKCharselect unicode block name

เพิ่ม [หัวเราะ] [ถอนหายใจ] [หอบหืด] [หายใจ] สำหรับการแสดงออกทางภาษาธรรมชาติ

เสียง

โคลนเสียงใดๆ จาก 5-10 วินาทีของเสียงอ้างอิง สำหรับคำพูดที่แตกต่างกัน

คุยกันตามธรรมชาติ

1.6B พารามิเตอร์ผลิต พูดคุยอย่างเป็นธรรมชาติมาก เสียงและอินโทเนชั่น

กรณีการใช้

สร้างกล่องโต้ตอบและการสนทนา การผลิตหนังสือเสียงที่มีตัวอักษรหลายตัว เสียงตัวละครเกม สร้างพอดคาสต์และเนื้อหา

วิธีการใช้ เขา

1

ลงทะเบียนฟรีหรือเปิดตัวอย่าง

สร้างบัญชี TextToSpeechAI ฟรี เพื่อเรียกร้อง เครดิตเริ่มต้นของคุณ หรือเปิด demo ไม่สมัคร เพื่อลอง ดิอา ดิอาโกลโก
2

เลือกเครื่องมือ Dia

ในแผงควบคุม TTS เลือก Dia จากรายการกลไก Dia เป็นโมเดลที่เน้นการสนทนา แบบอัลตราเลเวล รองรับเสียงหลายตัว และเสียงคล้ายกัน
3

เขียนสคริปต์กล่องโต้ตอบด้วยแท็ก

เขียนบทสนทนาของคุณโดยใช้ [S1] และ [S2] เพื่อระบุการเปลี่ยนตัวผู้พูด และวางแท็กที่ไม่ใช้คำพูด เช่น [หัวเราะ], [ถอนหายใจ], [หอบ] หรือ (หายใจลึกๆ) ไว้ที่ที่คุณต้องการให้เกิดปฏิกิริยาตามธรรมชาติ
4

สร้างเสียง

คลิกที่ สร้าง เพื่อส่งสคริปต์ Dia ของคุณไปยัง GPU ที่เราโฮสต์ Dia จะแสดงการสนทนาระหว่างผู้พูดสองคนด้วยการเปลี่ยนตำแหน่ง และแท็กที่ไม่ใช้คำพูดของคุณ เป็นแฟ้มเสียงเดียว
5

ดาวน์โหลดหรือเรียกใช้ API

ดาวน์โหลดกล่องโต้ตอบที่เสร็จสมบูรณ์ในรูปแบบที่คุณเลือก หรืออัตโนมัติโดยการโพสต์สคริปต์ [S1] / [S2] เดียวกันไปยัง API TextToSpeechAI ด้วยตัวแทนบัญชีของคุณ

เขา ตัวช่วยการใช้งาน

สร้างเสียงพูดโดยใช้โปรแกรม โดยใช้ REST API TextToSpeechAI

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "สวัสดีค่ะ วันนี้เป็นไงบ้าง ฉันทำได้ดีมาก ขอบคุณที่ถาม",
    "voice": "en_US-lessac-medium"
  }'

อ่านเอกสาร API ดาวน์โหลดกุญแจ API ของคุณ

คำถามที่ถามบ่อย

Dia เป็นโมเดลการแปลงข้อความเป็นเสียงที่ใช้พารามิเตอร์ 1.6B สำหรับการสนทนาจาก Nari Labs มันมีคุณสมบัติในการสร้างเสียงพูดตามธรรมชาติด้วยการสนับสนุนผู้พูดหลายคน เสียงไม่พูด และโคลนเสียง

ใช่ Dia ได้รับการอนุมัติจาก Apache 2.0 อย่างเต็มที่ ทั้งโค้ดและโมเดล มันสามารถใช้ได้ฟรีในแอพพลิเคชันทางการค้า

ปัจจุบัน Dia รองรับภาษาอังกฤษเท่านั้น โมเดลนี้ถูกปรับปรุงให้เหมาะสมกับการพูดภาษาอังกฤษแบบธรรมชาติ

Dia ต้องการ VRAM ประมาณ 10GB สำหรับโมเดลพารามิเตอร์ 1.6B ของมัน แนะนำให้ใช้ GPU ที่มีอย่างน้อย 12GB เพื่อการทำงานที่สะดวกสบาย บน TextToSpeechAI ทั้งหมดนี้ทำงานบน GPU ที่เราโฮสต์ไว้ ดังนั้นคุณจึงไม่ต้องใช้ฮาร์ดแวร์ของตัวเอง

ใช่ - คำพูดคือสิ่งที่ Dia ถูกสร้างขึ้นมา โดยการเปลี่ยนแปลง [S1] และ [S2] ในสคริปต์ของคุณ Dia TTS จะผลิตการสนทนาระหว่างผู้พูดสองคนที่ลื่นไหล ด้วยเสียงที่แตกต่างกัน และการเปลี่ยนแปลงที่สมจริง ซึ่งมันยากที่จะทำได้กับโมเดล TTS ที่มีผู้พูดคนเดียว

เพิ่มตัวอักษร [S1] หรือ [S2] ไว้ก่อนทุกบรรทัดของสคริปต์ของคุณ เพื่อระบุว่าใครกำลังพูด Dia จะกำหนดเสียงที่เหมือนกันกับแท็กแต่ละตัว และเปลี่ยนระหว่างเสียงเหล่านั้น ตามที่การสนทนาเคลื่อนไหว ดังนั้น [S1] และ [S2] จะทำหน้าที่เหมือนกับตัวอักษรสองตัวในกล่องโต้ตอบของคุณ

ใช่ Dia สนับสนุนการโคลนเสียงจากเสียงที่ใช้เป็นข้อมูลมาตรฐาน ประมาณ 5- 10 วินาที ซึ่งคุณสามารถใช้เสียงที่กำหนดไว้เพื่อเป็นตัวเล่าเรื่องได้ คุณสามารถใช้การโคลนเสียงร่วมกับแท็ก [S1] / [S2] เพื่อให้ตัวอักษรในโต้ตอบทุกตัวฟังดูเหมือนเสียงที่คุณโคลนมา

Dia แสดง [หัวเราะ], [ถอนหายใจ], [หอบหืด] และ (หายใจลึก) เหมือนเสียงธรรมชาติที่ถูกผูกเข้ากับการพูด มากกว่าคำพูด วางแท็กที่คุณต้องการให้เกิดปฏิกิริยา ตัวอย่างเช่น "[S1] มันตลกดี [หัวเราะ]" - เพื่อทำให้การสนทนารู้สึกเหมือนมนุษย์มากขึ้น

Dia และ Bark รองรับเสียงที่ไม่ใช้คำพูด แต่ Dia ถูกสร้างขึ้นเพื่อการสนทนาระหว่างผู้พูดหลายคน ด้วยการเปลี่ยนตำแหน่ง [S1] / [S2] และโคลนเสียง เลือก Dia สำหรับการสนทนาระหว่างคนสองคนและงานของตัวละครที่สมจริง Bark เหมาะกว่าเมื่อคุณต้องการภาษาที่กว้างขึ้นในการเล่าเรื่องด้วยเสียงเดียว

Dia เป็นเครื่องมืออัลตร้า-เทียร์ ดังนั้นมันใช้เงิน 50 เครดิตต่อ 1,000 อักขระของการสร้างเสียง อัลตร้า-เทียร์สะท้อนให้เห็น โมเดลขนาดใหญ่กว่า 1.6B และ ~10GB ของหน่วยความจำ GPU ที่มันใช้สำหรับคำพูดที่มีคุณภาพสูง

ใช่ บัญชีใหม่ TextToSpeechAI ประกอบด้วย เครดิตเริ่มต้นฟรี และมี demo คุณสามารถทำงานโดยไม่ต้องลงทะเบียน นั่นเพียงพอที่จะสร้างกล่องโต้ตอบ Dia สัปดาห์ ด้วย [S1] / [S2] แท็กก่อนที่จะตัดสินใจเกี่ยวกับแผนการจ่าย

ใช่ เมื่อคุณมี API โต๊กเกอร์จากหน้าบัญชีของคุณ คุณสามารถส่งสคริปต์ไอคอน Dia ได้ - รวมถึงการเปลี่ยน [S1] / [S2] และแท็กเช่น [หัวเราะ] - ไปยัง TextToSpeechAI REST API และดาวน์โหลดเสียงที่ได้มาโดยโปรแกรม

Technical Specs

Generation Speed Medium
Output Quality Excellent
Voice Cloning Supported
Languages 1
GPU VRAM 10GB
Credits/1000 chars 50

Try เขา Now

Generate your first audio free. No credit card required.

Start Free

Other TTS Engines

เขา

เกี่ยวกับ เขา

ตัวเลือกหลัก

สร้างกล่องโต้ตอบ

เสียงที่ไม่ใช้คำพูดKCharselect unicode block name

เสียง

คุยกันตามธรรมชาติ

กรณีการใช้

วิธีการใช้ เขา

ลงทะเบียนฟรีหรือเปิดตัวอย่าง

เลือกเครื่องมือ Dia

เขียนสคริปต์กล่องโต้ตอบด้วยแท็ก

สร้างเสียง

ดาวน์โหลดหรือเรียกใช้ API

เขา ตัวช่วยการใช้งาน

คำถามที่ถามบ่อย

อะไรคือ Dia TTS?

ดีอาสามารถใช้ได้ฟรีในเชิงพาณิชย์ไหม

ดิอา รองรับภาษาอะไร

ดีอาต้องการหน่วยความจำ GPU เท่าไหร่

ดีอาจะสร้างการสนทนาระหว่างตัวละครหลายตัวได้ไหม

แท็ก [S1] และ [S2] ของ Dia ทำงานอย่างไร?

ดีอาโคลนเสียงรึเปล่า

คำว่า nonverbal tag อย่าง [หัวเราะ] และ [ถอนหายใจ] มันฟังดูเป็นยังไงใน Dia?

ดิอากับบาร์ค ฉันควรใช้อันไหนดี

ดีอามีค่าเท่าไหร่ บน TextToSpeechAI?

ผมลองใช้ Dia TTS ฟรีได้ไหม

ฉันใช้ไดอาผ่าน API TextToSpeechAI ได้ไหม

Technical Specs

Try เขา Now

Other TTS Engines

กระดาษ

กล่องคุยName

เสียงสะดวกสบาย2Name