Khu vực

Ultra

Ký âm thanh biểu cảm với cảm xúc và kiểm soát phong cách

Medium Tốc độ
Excellent Chất lượng
Có chứ. Bản sao
5 Ngôn ngữ

Về Khu vực

s. It is a 1.6B parameter text-to-speech model that can be used to clone text from reference audio and to create a 1.6B parameter text-to-speech model. It is a 1.6B parameter text-to-speech model that can be used to clone text from reference audio and to create a 1.6B parameter text-to-speech model. It is a 1.6B parameter text-to-

Tính năng chính

Kiểm soát cảm xúc

Kiểm soát các cảm xúc nói: hạnh phúc, buồn bã, tức giận, sợ hãi, ngạc nhiên, ghê tởm và trung lập.

Ký âm

Sao chép bất kỳ giọng nói nào từ 5-30 giây âm thanh tham chiếu với độ chính xác cao.

Tiếng nói biểu cảm

Các tham số 1.6B tạo ra giọng nói biểu cảm cao với sự truyền đạt cảm xúc sắc nét.

Nhiều ngôn ngữ

Hỗ trợ tiếng Anh, Nhật Bản, Trung Quốc, Pháp, và Đức.

Tình huống sử dụng

Tạo nội dung biểu hiện cảm xúc Giọng nói nhân vật trò chơi với cảm xúc Lời kể sách âm thanh với cảm xúc Trải nghiệm giọng nói tương tác

Cách sử dụng Khu vực

  1. 1

    Đăng ký hoặc mở bản thử nghiệm

    Tạo một tài khoản TextToSpeechAI miễn phí để nhận tiền thưởng khởi đầu, hoặc sử dụng bản demo không đăng ký để thử Zonos ngay lập tức.

  2. 2

    Chọn bộ máy Zonos

    Chọn Zonos từ bộ chọn giọng nói và mô hình. Để sao chép giọng nói, tải lên 5- 30 giây âm thanh tham chiếu sạch để Zonos có thể tương ứng với loa.

  3. 3

    Nhập văn bản

    Nhập hoặc dán văn bản bạn muốn nói. Zonos hoạt động trên tiếng Anh, Nhật, Trung Quốc, Pháp và Đức.

  4. 4

    Chọn một cảm xúc và tạo ra

    Chọn một trong bảy cảm xúc Zonos - trung tính, hạnh phúc, buồn bã, tức giận, sợ hãi, ngạc nhiên, hoặc ghê tởm - sau đó nhấn Generate để tạo ra lời nói biểu cảm trong tâm trạng đó.

  5. 5

    Tải xuống hoặc sử dụng API

    Chơi lại và tải về âm thanh hoàn thành, hoặc gọi cùng một động cơ Zonos theo chương trình thông qua TextToSpeechAI REST API cho các luồng công việc tự động.

Khu vực API

Tạo lời nói bằng cách lập trình sử dụng TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Zonos tạo ra những lời nói biểu cảm đáng kinh ngạc với sự kiểm soát cảm xúc tinh tế.",
    "voice": "en_US-lessac-medium"
  }'

Câu hỏi thường gặp

Zonos là một mô hình chuyển văn bản sang nói có tham số 1. 6B từ Zyphra. Nó chuyên về việc tạo ra giọng nói biểu cảm với điều khiển cảm xúc tinh tế và sao chép giọng nói chính xác cao. Trên TextToSpeechAI nó chạy như một bộ máy siêu cấp cho âm thanh giàu cảm xúc và sắc nét nhất.

Zonos được phát hành dưới giấy phép Apache 2.0 cho cả mã và trọng lượng mô hình, vì vậy nó có thể được sử dụng tự do trong các sản phẩm thương mại mà không có sự ghi nhận hoặc hạn chế không thương mại. Điều đó làm cho nó an toàn cho các ứng dụng trả tiền, công việc khách hàng, và nội dung kiếm tiền.

Zonos cho thấy bảy trạng thái cảm xúc - trung tính, hạnh phúc, buồn, tức giận, sợ hãi, ngạc nhiên và ghê tởm - mà bạn chọn trước khi tạo ra. Mô hình điều kiện việc truyền tải của nó trên cảm xúc chọn, thay đổi giọng, nhịp điệu và ngữ điệu để cùng một câu có thể nghe vui vẻ hoặc tức giận. Điều này làm Zonos lý tưởng cho giọng nói nhân vật và đối thoại cần một tâm trạng cụ thể.

Zonos hỗ trợ bảy tùy chọn cảm xúc: trung tính, hạnh phúc, buồn bã, tức giận, sợ hãi, ngạc nhiên và ghê tởm. Bạn chọn một trong mỗi thế hệ để đặt âm điệu cảm xúc của toàn bộ đoạn phim.

Zonos sao chép giọng nói từ 5-30 giây âm thanh tham chiếu, trích xuất đặc điểm của người nói và tái tạo chúng thành giọng nói mới. Bạn có thể kết hợp sao chép với bất kỳ một trong bảy cảm xúc để tạo ra giọng nói sao chép có âm thanh vui, tức giận, hay sợ hãi.

Zonos có thể xử lý năm ngôn ngữ: tiếng Anh, tiếng Nhật, tiếng Trung, tiếng Pháp và tiếng Đức.

Zonos chạy ở tốc độ trung bình vì kích thước tham số 1. 6B, trao đổi lưu lượng nguyên bản cho kết quả xuất sắc, biểu cảm cao. Chất lượng là trong số tốt nhất cho cảm xúc và nói chuyện nhân bản, vì vậy nó phù hợp với âm thanh sản xuất cuối cùng hơn là sản xuất thời gian thực.

Zonos yêu cầu 8GB hoặc nhiều hơn VRAM cho mô hình tham số 1. 6B của nó. Một GPU với ít nhất 10GB được khuyến cáo cho hoạt động thoải mái khi kết hợp nhân bản giọng nói với điều khiển cảm xúc. Trên TextToSpeechAI tất cả những điều này chạy trên phần mềm sau GPU của chúng tôi, vì vậy bạn không cần phần cứng riêng.

Zonos là một engine cực cấp, tính phí là 50 credit cho mỗi 1000 ký tự. cấp độ cực phản ánh mô hình lớn của nó và cảm xúc tiên tiến và khả năng nhân bản, cùng cấp với StyleTTS2, Tortoise, và OpenVoice.

Cả hai đều cung cấp kiểu dáng và điều khiển cảm xúc với bản sao giọng nói. Zonos cung cấp bảy trạng thái cảm xúc riêng biệt và kiến trúc 1. 6B hiện đại, trong khi OpenVoice cung cấp kiểu dáng âm thanh như thân thiện, vui vẻ, và thì thầm với bản sao rất nhanh. Chọn Zonos khi bạn muốn chọn cảm xúc rõ ràng và biểu cảm tối đa; chọn OpenVoice để chuyển đổi âm thanh nhẹ hơn, nhanh hơn.

Bark thêm các dấu hiệu biểu cảm như [cười] và [thở phào] nhưng cung cấp bản sao hạn chế, và Dia tập trung vào đối thoại đa người nói với âm thanh không nói. Zonos tập trung vào chọn cảm xúc rõ ràng cộng với bản sao giọng nói mạnh, cho bạn kiểm soát chính xác về tâm trạng của mỗi đoạn phim. Chọn động cơ phù hợp nếu bạn cần thẻ cảm xúc, chuyển động đối thoại, hoặc cảm xúc có thể chọn.

Có. Các tài khoản mới TextToSpeechAI sẽ nhận được tiền khởi động miễn phí, và bản demo cho phép bạn tạo mẫu âm thanh mà không cần đăng ký. Đó là đủ để thử nghiệm điều khiển cảm xúc và sao chép giọng nói của Zonos trước khi mua thêm tiền.

Technical Specs

  • Generation Speed Medium
  • Output Quality Excellent
  • Voice Cloning Supported
  • Languages 5
  • GPU VRAM 8GB+
  • Credits/1000 chars 50

Try Khu vực Now

Generate your first audio free. No credit card required.

Start Free