เขา

Ultra

TTS แบบคำพูดพร้อมการคล้ายเสียงและเสียงที่ไม่ใช้คำพูด

Medium ความเร็ว
Excellent คุณภาพ
ใช่ กำลังสร้างคอลลิน
1 ภาษา

เกี่ยวกับ เขา

ing the most accurate text-to-speech results. Dia is also capable of generating natural conversational speech with support for nonverbal sounds like laughter, sighs, and coughs. It excels at generating the most accurate text-to-speech results. Dia is also capable of generating natural conversational speech with support for nonverbal sounds like laughter, sighs, and coughs. It excels at generating the most accurate text-to-speech results.

ตัวเลือกหลัก

สร้างกล่องโต้ตอบ

สร้างการสนทนาแบบธรรมชาติ ด้วยเสียงที่แตกต่างกัน และการเปลี่ยนแปลง

เสียงที่ไม่ใช้คำพูดKCharselect unicode block name

เพิ่ม [หัวเราะ] [ถอนหายใจ] [หอบหืด] [หายใจ] สำหรับการแสดงออกทางภาษาธรรมชาติ

เสียง

โคลนเสียงใดๆ จาก 5-10 วินาทีของเสียงอ้างอิง สำหรับคำพูดที่แตกต่างกัน

คุยกันตามธรรมชาติ

1.6B พารามิเตอร์ผลิต พูดคุยอย่างเป็นธรรมชาติมาก เสียงและอินโทเนชั่น

กรณีการใช้

สร้างกล่องโต้ตอบและการสนทนา การผลิตหนังสือเสียงที่มีตัวอักษรหลายตัว เสียงตัวละครเกม สร้างพอดคาสต์และเนื้อหา

วิธีการใช้ เขา

  1. 1

    ลงทะเบียนฟรีหรือเปิดตัวอย่าง

    สร้างบัญชี TextToSpeechAI ฟรี เพื่อเรียกร้อง เครดิตเริ่มต้นของคุณ หรือเปิด demo ไม่สมัคร เพื่อลอง ดิอา ดิอาโกลโก

  2. 2

    เลือกเครื่องมือ Dia

    ในแผงควบคุม TTS เลือก Dia จากรายการกลไก Dia เป็นโมเดลที่เน้นการสนทนา แบบอัลตราเลเวล รองรับเสียงหลายตัว และเสียงคล้ายกัน

  3. 3

    เขียนสคริปต์กล่องโต้ตอบด้วยแท็ก

    เขียนบทสนทนาของคุณโดยใช้ [S1] และ [S2] เพื่อระบุการเปลี่ยนตัวผู้พูด และวางแท็กที่ไม่ใช้คำพูด เช่น [หัวเราะ], [ถอนหายใจ], [หอบ] หรือ (หายใจลึกๆ) ไว้ที่ที่คุณต้องการให้เกิดปฏิกิริยาตามธรรมชาติ

  4. 4

    สร้างเสียง

    คลิกที่ สร้าง เพื่อส่งสคริปต์ Dia ของคุณไปยัง GPU ที่เราโฮสต์ Dia จะแสดงการสนทนาระหว่างผู้พูดสองคนด้วยการเปลี่ยนตำแหน่ง และแท็กที่ไม่ใช้คำพูดของคุณ เป็นแฟ้มเสียงเดียว

  5. 5

    ดาวน์โหลดหรือเรียกใช้ API

    ดาวน์โหลดกล่องโต้ตอบที่เสร็จสมบูรณ์ในรูปแบบที่คุณเลือก หรืออัตโนมัติโดยการโพสต์สคริปต์ [S1] / [S2] เดียวกันไปยัง API TextToSpeechAI ด้วยตัวแทนบัญชีของคุณ

เขา ตัวช่วยการใช้งาน

สร้างเสียงพูดโดยใช้โปรแกรม โดยใช้ REST API TextToSpeechAI

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "สวัสดีค่ะ วันนี้เป็นไงบ้าง ฉันทำได้ดีมาก ขอบคุณที่ถาม",
    "voice": "en_US-lessac-medium"
  }'

คำถามที่ถามบ่อย

Dia เป็นโมเดลการแปลงข้อความเป็นเสียงที่ใช้พารามิเตอร์ 1.6B สำหรับการสนทนาจาก Nari Labs มันมีคุณสมบัติในการสร้างเสียงพูดตามธรรมชาติด้วยการสนับสนุนผู้พูดหลายคน เสียงไม่พูด และโคลนเสียง

ใช่ Dia ได้รับการอนุมัติจาก Apache 2.0 อย่างเต็มที่ ทั้งโค้ดและโมเดล มันสามารถใช้ได้ฟรีในแอพพลิเคชันทางการค้า

ปัจจุบัน Dia รองรับภาษาอังกฤษเท่านั้น โมเดลนี้ถูกปรับปรุงให้เหมาะสมกับการพูดภาษาอังกฤษแบบธรรมชาติ

Dia ต้องการ VRAM ประมาณ 10GB สำหรับโมเดลพารามิเตอร์ 1.6B ของมัน แนะนำให้ใช้ GPU ที่มีอย่างน้อย 12GB เพื่อการทำงานที่สะดวกสบาย บน TextToSpeechAI ทั้งหมดนี้ทำงานบน GPU ที่เราโฮสต์ไว้ ดังนั้นคุณจึงไม่ต้องใช้ฮาร์ดแวร์ของตัวเอง

ใช่ - คำพูดคือสิ่งที่ Dia ถูกสร้างขึ้นมา โดยการเปลี่ยนแปลง [S1] และ [S2] ในสคริปต์ของคุณ Dia TTS จะผลิตการสนทนาระหว่างผู้พูดสองคนที่ลื่นไหล ด้วยเสียงที่แตกต่างกัน และการเปลี่ยนแปลงที่สมจริง ซึ่งมันยากที่จะทำได้กับโมเดล TTS ที่มีผู้พูดคนเดียว

เพิ่มตัวอักษร [S1] หรือ [S2] ไว้ก่อนทุกบรรทัดของสคริปต์ของคุณ เพื่อระบุว่าใครกำลังพูด Dia จะกำหนดเสียงที่เหมือนกันกับแท็กแต่ละตัว และเปลี่ยนระหว่างเสียงเหล่านั้น ตามที่การสนทนาเคลื่อนไหว ดังนั้น [S1] และ [S2] จะทำหน้าที่เหมือนกับตัวอักษรสองตัวในกล่องโต้ตอบของคุณ

ใช่ Dia สนับสนุนการโคลนเสียงจากเสียงที่ใช้เป็นข้อมูลมาตรฐาน ประมาณ 5- 10 วินาที ซึ่งคุณสามารถใช้เสียงที่กำหนดไว้เพื่อเป็นตัวเล่าเรื่องได้ คุณสามารถใช้การโคลนเสียงร่วมกับแท็ก [S1] / [S2] เพื่อให้ตัวอักษรในโต้ตอบทุกตัวฟังดูเหมือนเสียงที่คุณโคลนมา

Dia แสดง [หัวเราะ], [ถอนหายใจ], [หอบหืด] และ (หายใจลึก) เหมือนเสียงธรรมชาติที่ถูกผูกเข้ากับการพูด มากกว่าคำพูด วางแท็กที่คุณต้องการให้เกิดปฏิกิริยา ตัวอย่างเช่น "[S1] มันตลกดี [หัวเราะ]" - เพื่อทำให้การสนทนารู้สึกเหมือนมนุษย์มากขึ้น

Dia และ Bark รองรับเสียงที่ไม่ใช้คำพูด แต่ Dia ถูกสร้างขึ้นเพื่อการสนทนาระหว่างผู้พูดหลายคน ด้วยการเปลี่ยนตำแหน่ง [S1] / [S2] และโคลนเสียง เลือก Dia สำหรับการสนทนาระหว่างคนสองคนและงานของตัวละครที่สมจริง Bark เหมาะกว่าเมื่อคุณต้องการภาษาที่กว้างขึ้นในการเล่าเรื่องด้วยเสียงเดียว

Dia เป็นเครื่องมืออัลตร้า-เทียร์ ดังนั้นมันใช้เงิน 50 เครดิตต่อ 1,000 อักขระของการสร้างเสียง อัลตร้า-เทียร์สะท้อนให้เห็น โมเดลขนาดใหญ่กว่า 1.6B และ ~10GB ของหน่วยความจำ GPU ที่มันใช้สำหรับคำพูดที่มีคุณภาพสูง

ใช่ บัญชีใหม่ TextToSpeechAI ประกอบด้วย เครดิตเริ่มต้นฟรี และมี demo คุณสามารถทำงานโดยไม่ต้องลงทะเบียน นั่นเพียงพอที่จะสร้างกล่องโต้ตอบ Dia สัปดาห์ ด้วย [S1] / [S2] แท็กก่อนที่จะตัดสินใจเกี่ยวกับแผนการจ่าย

ใช่ เมื่อคุณมี API โต๊กเกอร์จากหน้าบัญชีของคุณ คุณสามารถส่งสคริปต์ไอคอน Dia ได้ - รวมถึงการเปลี่ยน [S1] / [S2] และแท็กเช่น [หัวเราะ] - ไปยัง TextToSpeechAI REST API และดาวน์โหลดเสียงที่ได้มาโดยโปรแกรม

Technical Specs

  • Generation Speed Medium
  • Output Quality Excellent
  • Voice Cloning Supported
  • Languages 1
  • GPU VRAM 10GB
  • Credits/1000 chars 50

Try เขา Now

Generate your first audio free. No credit card required.

Start Free