- Đúng vậy.

Ultra

TTS hướng đối thoại với sao chép giọng nói và âm thanh không nói

Thử miễn phí - Đúng vậy. Tìm kiếm âm thanh (0)

Medium Tốc độ

Excellent Chất lượng

Có chứ. Bản sao

1 Ngôn ngữ

Về - Đúng vậy.

ing the most accurate text-to-speech results. Dia is a 1.6B parameter text-to-speech model that is designed to generate natural conversational speech with support for nonverbal sounds like laughter, sighs, and coughs. It excels at generating the most accurate text-to-speech results. Dia is a 1.6B parameter text-to-speech model that is designed to generate natural conversational speech with support for nonverbal sounds

Tính năng chính

Tạo hộp thoại

Tạo các cuộc nói chuyện tự nhiên với nhiều người nói với giọng nói khác nhau và chuyển đổi.

Âm thanh không nói

Thêm [cười], [thở phào], [hó], (ngạt thở) cho biểu hiện paralinguistic tự nhiên.

Ký âm

Sao chép bất kỳ giọng nói nào từ 5-10 giây âm thanh tham chiếu cho lời nói cá nhân.

Tiếng nói tự nhiên

Các tham số 1.6B tạo ra các âm điệu và giọng điệu giao tiếp tự nhiên.

Tình huống sử dụng

Tạo hộp thoại và cuộc nói chuyện Sản xuất sách âm thanh với nhiều ký tự Giọng của nhân vật trong trò chơi Podcast và tạo nội dung

Cách sử dụng - Đúng vậy.

1

Đăng ký miễn phí hoặc mở bản demo

Tạo một tài khoản TextToSpeechAI miễn phí để nhận tiền thưởng khởi đầu, hoặc mở bản demo không đăng ký để thử Dia Dialog ngay lập tức.
2

Chọn bộ máy Dia

Trong bảng điều khiển TTS, chọn Dia từ danh sách động cơ. Dia là mô hình hướng đối thoại, cực cấp với hỗ trợ nhiều loa và sao chép giọng nói.
3

Viết một văn lệnh hộp thoại với các thẻ

Hãy viết bài nói chuyện của bạn bằng cách sử dụng [S1] và [S2] để đánh dấu mỗi lượt nói, và bỏ vào các thẻ không nói như [laughs], [sighs], [coughs], hoặc (gasps) nơi bạn muốn phản ứng tự nhiên.
4

Tạo âm thanh

Nhấn Create để gửi văn lệnh Dia của bạn đến GPU được lưu của chúng tôi. Dia sẽ hiển thị cuộc đối thoại hai người nói với lượt đi và các thẻ không nói của bạn vào một tập tin âm thanh duy nhất.
5

Tải xuống hoặc gọi API

Tải xuống hộp thoại hoàn thành theo định dạng bạn chọn, hoặc tự động hóa nó bằng cách đăng ký cùng một văn lệnh [S1]/[S2] cho API TextToSpeechAI với token tài khoản của bạn.

- Đúng vậy. API

Tạo lời nói bằng cách lập trình sử dụng TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Chào! Hôm nay các bạn thế nào? [cười] [S2] Tôi đang rất tốt, cảm ơn vì đã hỏi!",
    "voice": "en_US-lessac-medium"
  }'

Đọc tài liệu API Lấy chìa khóa API của bạn

Câu hỏi thường gặp

Dia là một mô hình văn bản-trong-tiếng nói hướng đối thoại 1.6B từ Nari Labs. Nó chuyên về việc tạo ra lời nói tự nhiên với hỗ trợ cho nhiều người nói, âm thanh không nói và sao chép giọng nói.

Vâng, Dia được cấp phép đầy đủ theo Apache 2. 0 - cả mã và trọng lượng mô hình. Nó có thể được sử dụng tự do trong các ứng dụng thương mại.

Hiện tại Dia chỉ hỗ trợ tiếng Anh. Mô hình được tối ưu hóa cho tiếng nói nói chuyện tiếng Anh tự nhiên.

Dia yêu cầu khoảng 10GB VRAM cho mô hình tham số 1. 6B của nó. Một GPU có ít nhất 12GB được khuyến cáo cho hoạt động thoải mái. Trên TextToSpeechAI tất cả những điều này chạy trên GPU của chúng tôi, vì vậy bạn không cần bất kỳ phần cứng nào của riêng mình.

Vâng - đối thoại chính xác là điều mà Dia được xây dựng. Bằng cách thay đổi [S1] và [S2] trong văn lệnh của bạn, Dia TTS tạo ra một cuộc nói chuyện hai người nói với giọng nói khác nhau và chuyển động thực tế, điều này khó hơn để đạt được với các mô hình TTS một người nói.

Đầu tên mỗi dòng của văn lệnh của bạn bằng [S1] hoặc [S2] để đánh dấu ai đang nói. Dia sẽ gán một giọng nói nhất quán cho mỗi thẻ và chuyển đổi giữa chúng khi cuộc nói chuyện chuyển động, vì vậy [S1] và [S2] sẽ hoạt động như hai nhân vật trong hộp thoại của bạn.

Có. Dia hỗ trợ sao chép giọng nói từ khoảng 5- 10 giây âm thanh tham chiếu sạch, cho phép bạn tái sử dụng một giọng nói cụ thể cho một người nói. Bạn có thể kết hợp sao chép với thẻ [S1]/ [S2] để mỗi nhân vật trong một đối thoại nghe như giọng nói bạn sao chép.

Dia tạo ra [cười], [thở phào], [hói], và (ngạt thở) như là âm thanh paralinguistic tự nhiên được đan vào lời nói thay vì từ nói. Đặt một thẻ ở nơi bạn muốn phản ứng - ví dụ "[S1] That is hilarious [cười]" - để làm cho đối thoại cảm thấy con người hơn.

Cả Dia và Bark đều hỗ trợ âm thanh không nói, nhưng Dia được thiết kế để nói với nhiều người nói với [S1]/ [S2] và nhân bản giọng nói. Chọn Dia cho các cuộc nói chuyện hai người thực tế và làm việc với nhân vật; Bark phù hợp hơn khi bạn cần ngôn ngữ rộng hơn trong lời kể một giọng.

Dia là một engine cực cấp, vì vậy nó tốn 50 credits cho mỗi 1.000 ký tự của lời nói được tạo ra. Lớp cực phản ánh mô hình 1.6B lớn hơn và ~10GB bộ nhớ GPU nó sử dụng cho đối thoại chất lượng cao.

Có. Các tài khoản TextToSpeechAI mới bao gồm tiền khởi động miễn phí, và có một bản demo mà bạn có thể chạy mà không cần đăng ký. Điều đó đủ để tạo một hộp thoại Dia ngắn với thẻ [S1] / [S2] trước khi quyết định về một kế hoạch trả tiền.

Vâng. Một khi bạn có một token API từ trang tài khoản của mình, bạn có thể gửi các văn bản đối thoại Dia - bao gồm cả [S1] / [S2] và các thẻ như [laughs] - đến API REST TextToSpeechAI và tải về âm thanh kết quả theo chương trình.

Technical Specs

Generation Speed Medium
Output Quality Excellent
Voice Cloning Supported
Languages 1
GPU VRAM 10GB
Credits/1000 chars 50

Try - Đúng vậy. Now

Generate your first audio free. No credit card required.

Start Free

Other TTS Engines

- Đúng vậy.

Về - Đúng vậy.

Tính năng chính

Tạo hộp thoại

Âm thanh không nói

Ký âm

Tiếng nói tự nhiên

Tình huống sử dụng

Cách sử dụng - Đúng vậy.

Đăng ký miễn phí hoặc mở bản demo

Chọn bộ máy Dia

Viết một văn lệnh hộp thoại với các thẻ

Tạo âm thanh

Tải xuống hoặc gọi API

- Đúng vậy. API

Câu hỏi thường gặp

Dia TTS là gì?

Dia có được sử dụng thương mại không?

Dia hỗ trợ ngôn ngữ nào?

Dia cần bao nhiêu bộ nhớ GPU?

Dia có thể tạo ra đối thoại giữa nhiều nhân vật không?

Tag loa Dia [S1] và [S2] hoạt động như thế nào?

Dia có sao chép giọng nói không?

Những từ không nói như [cười] và [thở phào] nghe ra sao trong Dia?

Dia vs Bark: tôi nên dùng cái nào?

Dia có bao nhiêu điểm trên TextToSpeechAI?

Tôi có thể thử Dia TTS miễn phí không?

Tôi có thể dùng Dia qua API TextToSpeechAI được không?

Technical Specs

Try - Đúng vậy. Now

Other TTS Engines

Vỏ cây

Chatterbox

Giọng ấm áp2