- Đúng vậy.

Ultra

TTS hướng đối thoại với sao chép giọng nói và âm thanh không nói

Medium Tốc độ
Excellent Chất lượng
Có chứ. Bản sao
1 Ngôn ngữ

Về - Đúng vậy.

ing the most accurate text-to-speech results. Dia is a 1.6B parameter text-to-speech model that is designed to generate natural conversational speech with support for nonverbal sounds like laughter, sighs, and coughs. It excels at generating the most accurate text-to-speech results. Dia is a 1.6B parameter text-to-speech model that is designed to generate natural conversational speech with support for nonverbal sounds

Tính năng chính

Tạo hộp thoại

Tạo các cuộc nói chuyện tự nhiên với nhiều người nói với giọng nói khác nhau và chuyển đổi.

Âm thanh không nói

Thêm [cười], [thở phào], [hó], (ngạt thở) cho biểu hiện paralinguistic tự nhiên.

Ký âm

Sao chép bất kỳ giọng nói nào từ 5-10 giây âm thanh tham chiếu cho lời nói cá nhân.

Tiếng nói tự nhiên

Các tham số 1.6B tạo ra các âm điệu và giọng điệu giao tiếp tự nhiên.

Tình huống sử dụng

Tạo hộp thoại và cuộc nói chuyện Sản xuất sách âm thanh với nhiều ký tự Giọng của nhân vật trong trò chơi Podcast và tạo nội dung

Cách sử dụng - Đúng vậy.

  1. 1

    Đăng ký miễn phí hoặc mở bản demo

    Tạo một tài khoản TextToSpeechAI miễn phí để nhận tiền thưởng khởi đầu, hoặc mở bản demo không đăng ký để thử Dia Dialog ngay lập tức.

  2. 2

    Chọn bộ máy Dia

    Trong bảng điều khiển TTS, chọn Dia từ danh sách động cơ. Dia là mô hình hướng đối thoại, cực cấp với hỗ trợ nhiều loa và sao chép giọng nói.

  3. 3

    Viết một văn lệnh hộp thoại với các thẻ

    Hãy viết bài nói chuyện của bạn bằng cách sử dụng [S1] và [S2] để đánh dấu mỗi lượt nói, và bỏ vào các thẻ không nói như [laughs], [sighs], [coughs], hoặc (gasps) nơi bạn muốn phản ứng tự nhiên.

  4. 4

    Tạo âm thanh

    Nhấn Create để gửi văn lệnh Dia của bạn đến GPU được lưu của chúng tôi. Dia sẽ hiển thị cuộc đối thoại hai người nói với lượt đi và các thẻ không nói của bạn vào một tập tin âm thanh duy nhất.

  5. 5

    Tải xuống hoặc gọi API

    Tải xuống hộp thoại hoàn thành theo định dạng bạn chọn, hoặc tự động hóa nó bằng cách đăng ký cùng một văn lệnh [S1]/[S2] cho API TextToSpeechAI với token tài khoản của bạn.

- Đúng vậy. API

Tạo lời nói bằng cách lập trình sử dụng TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Chào! Hôm nay các bạn thế nào? [cười] [S2] Tôi đang rất tốt, cảm ơn vì đã hỏi!",
    "voice": "en_US-lessac-medium"
  }'

Câu hỏi thường gặp

Dia là một mô hình văn bản-trong-tiếng nói hướng đối thoại 1.6B từ Nari Labs. Nó chuyên về việc tạo ra lời nói tự nhiên với hỗ trợ cho nhiều người nói, âm thanh không nói và sao chép giọng nói.

Vâng, Dia được cấp phép đầy đủ theo Apache 2. 0 - cả mã và trọng lượng mô hình. Nó có thể được sử dụng tự do trong các ứng dụng thương mại.

Hiện tại Dia chỉ hỗ trợ tiếng Anh. Mô hình được tối ưu hóa cho tiếng nói nói chuyện tiếng Anh tự nhiên.

Dia yêu cầu khoảng 10GB VRAM cho mô hình tham số 1. 6B của nó. Một GPU có ít nhất 12GB được khuyến cáo cho hoạt động thoải mái. Trên TextToSpeechAI tất cả những điều này chạy trên GPU của chúng tôi, vì vậy bạn không cần bất kỳ phần cứng nào của riêng mình.

Vâng - đối thoại chính xác là điều mà Dia được xây dựng. Bằng cách thay đổi [S1] và [S2] trong văn lệnh của bạn, Dia TTS tạo ra một cuộc nói chuyện hai người nói với giọng nói khác nhau và chuyển động thực tế, điều này khó hơn để đạt được với các mô hình TTS một người nói.

Đầu tên mỗi dòng của văn lệnh của bạn bằng [S1] hoặc [S2] để đánh dấu ai đang nói. Dia sẽ gán một giọng nói nhất quán cho mỗi thẻ và chuyển đổi giữa chúng khi cuộc nói chuyện chuyển động, vì vậy [S1] và [S2] sẽ hoạt động như hai nhân vật trong hộp thoại của bạn.

Có. Dia hỗ trợ sao chép giọng nói từ khoảng 5- 10 giây âm thanh tham chiếu sạch, cho phép bạn tái sử dụng một giọng nói cụ thể cho một người nói. Bạn có thể kết hợp sao chép với thẻ [S1]/ [S2] để mỗi nhân vật trong một đối thoại nghe như giọng nói bạn sao chép.

Dia tạo ra [cười], [thở phào], [hói], và (ngạt thở) như là âm thanh paralinguistic tự nhiên được đan vào lời nói thay vì từ nói. Đặt một thẻ ở nơi bạn muốn phản ứng - ví dụ "[S1] That is hilarious [cười]" - để làm cho đối thoại cảm thấy con người hơn.

Cả Dia và Bark đều hỗ trợ âm thanh không nói, nhưng Dia được thiết kế để nói với nhiều người nói với [S1]/ [S2] và nhân bản giọng nói. Chọn Dia cho các cuộc nói chuyện hai người thực tế và làm việc với nhân vật; Bark phù hợp hơn khi bạn cần ngôn ngữ rộng hơn trong lời kể một giọng.

Dia là một engine cực cấp, vì vậy nó tốn 50 credits cho mỗi 1.000 ký tự của lời nói được tạo ra. Lớp cực phản ánh mô hình 1.6B lớn hơn và ~10GB bộ nhớ GPU nó sử dụng cho đối thoại chất lượng cao.

Có. Các tài khoản TextToSpeechAI mới bao gồm tiền khởi động miễn phí, và có một bản demo mà bạn có thể chạy mà không cần đăng ký. Điều đó đủ để tạo một hộp thoại Dia ngắn với thẻ [S1] / [S2] trước khi quyết định về một kế hoạch trả tiền.

Vâng. Một khi bạn có một token API từ trang tài khoản của mình, bạn có thể gửi các văn bản đối thoại Dia - bao gồm cả [S1] / [S2] và các thẻ như [laughs] - đến API REST TextToSpeechAI và tải về âm thanh kết quả theo chương trình.

Technical Specs

  • Generation Speed Medium
  • Output Quality Excellent
  • Voice Cloning Supported
  • Languages 1
  • GPU VRAM 10GB
  • Credits/1000 chars 50

Try - Đúng vậy. Now

Generate your first audio free. No credit card required.

Start Free