Chatterbox

Premium

Bản sao giọng nói Zero-shot với giọng nói biểu cảm trong 23 ngôn ngữ

Fast Tốc độ
Very Good Chất lượng
Có chứ. Bản sao
23 Ngôn ngữ

Về Chatterbox

[Translation temporarily unavailable. Please try again.]

Tính năng chính

Kiểu giọng Zero- Shot

Sao chép bất kỳ giọng nói nào từ vài giây âm thanh - không cần đào tạo.

23 ngôn ngữ

Từ Ả Rập đến Trung Quốc, bao gồm hầu hết các ngôn ngữ lớn trên thế giới.

Thẻ biểu cảm

Thêm [laugh], [cough], [chuckle] cho âm thanh tự nhiên.

Suy luận nhanh

Tốc độ chậm dưới 200ms với biến thể Turbo cho các ứng dụng thời gian thực.

Tình huống sử dụng

Bản sao giọng nói để tạo nội dung Ứng dụng giọng nói đa ngôn ngữName Thiết kế giọng nói nhân vật cho trò chơi Trợ lý giọng nói cá nhân

Cách sử dụng Chatterbox

  1. 1

    Đăng ký hoặc mở bản thử nghiệm

    Tạo một tài khoản TextToSpeechAI miễn phí để nhận 200 tín dụng khởi động, hoặc sử dụng bản demo trên trang để thử Chatterbox mà không cần đăng nhập.

  2. 2

    Chọn Chatterbox và thêm đoạn phim tham khảo

    Chọn bộ vi xử lý Chatterbox, sau đó tải lên một đoạn nhạc ngắn (vài giây) của giọng nói bạn muốn nhân bản. Chatterbox Zero- Shot nhân bản nó ngay lập tức - không cần đào tạo.

  3. 3

    Nhập văn bản với các thẻ tùy chọn

    Nhập hoặc dán văn bản để nói trong bất kỳ ngôn ngữ nào trong 23 ngôn ngữ được hỗ trợ, và thả vào [laugh], [cough], hoặc [chuckle] tag ở bất kỳ nơi nào bạn muốn âm thanh paralinguistic tự nhiên.

  4. 4

    Tạo lời nói

    Click generate và TextToSpeechAI sẽ hiển thị văn bản của bạn trong giọng nói Chatterbox nhân bản trên cơ sở hạ tầng GPU lưu trữ, tiêu tốn 25 credits cho mỗi 1000 ký tự.

  5. 5

    Tải xuống hoặc sử dụng API

    Tải xuống tập tin âm thanh hoàn thành, hoặc tự động tạo thông qua TextToSpeechAI REST API tại api.texttospeechai.com sử dụng token tài khoản của bạn.

Chatterbox API

Tạo lời nói bằng cách lập trình sử dụng TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Chatterbox có thể nhân bản giọng nói của bạn chỉ từ vài giây âm thanh và nói trong 23 ngôn ngữ.",
    "voice": "en_US-lessac-medium"
  }'

Câu hỏi thường gặp

Chatterbox là một mô hình text-to-speech nhân bản giọng nói không bắn từ Resemble AI. Nó có thể tái tạo bất kỳ giọng nói nào chỉ từ vài giây âm thanh tham khảo và tạo ra giọng nói tự nhiên, biểu cảm trong 23 ngôn ngữ, tất cả không cần đào tạo giọng nói.

Vâng, Chatterbox được cấp phép hoàn toàn bởi MIT - cả mã và trọng lượng mô hình - vì vậy bạn có thể sử dụng nó tự do trong các sản phẩm thương mại. Âm thanh được tạo ra bao gồm một dấu nước thần kinh tùy chọn có thể bị tắt, và không có bản quyền sử dụng.

Bạn cung cấp một đoạn ghi chú ngắn của bất kỳ giọng nào (vài giây là đủ) và Chatterbox trích xuất giọng và phong cách của giọng đó vào một loa nhúng. Sau đó nó tạo ra một giọng nói mới trong giọng đó mà không cần điều chỉnh hay đào tạo, đó là nghĩa của "zero-shot".

Chatterbox đọc các thẻ đặc biệt trong dòng trong văn bản của bạn để thêm âm thanh không nói tự nhiên: [laugh] nhấn vào tiếng cười, [cough] nhấn vào tiếng ho, và [chuckle] nhấn vào tiếng cười nhẹ. Chỉ cần đặt thẻ ở nơi bạn muốn âm thanh, ví dụ "Đó là vui vẻ [laugh] nhưng nghiêm túc...".

Nhập thẻ trực tiếp vào văn bản nhập vào ở vị trí âm thanh nên xuất hiện, bao quanh bởi phần còn lại của câu. Chatterbox sẽ hiển thị âm thanh paralinguistic trong giọng nói nhân bản, trộn nó vào giọng nói xung quanh để nó nghe tự nhiên hơn là bị ghép vào.

Chatterbox hỗ trợ 23 ngôn ngữ, bao gồm Ả Rập, Đan Mạch, Đức, Hy Lạp, Anh, Tây Ban Nha, Phần Lan, Pháp, Hebrew, Hindi, Ý, Nhật Bản, Hàn Quốc, Malay, Hà Lan, Na Uy, Ba Lan, Bồ Đào Nha, Nga, Thụy Điển, Swahili, Thổ Nhĩ Kỳ, và Trung Quốc.

Chatterbox tạo ra giọng nói nhanh chóng trên GPU, và biến thể Turbo đạt đến độ trễ dưới 200ms cho việc sử dụng nói chuyện thời gian thực. Chất lượng rất tốt, với giọng nói tự nhiên và sự tái tạo giọng nói trung thực từ ngay cả các đoạn phim tham khảo ngắn.

Chatterbox cần khoảng 4-8GB VRAM tùy theo biến thể, với mô hình Turbo chạy thoải mái trong khoảng 4GB. Trên TextToSpeechAI bạn không cần bất kỳ GPU cục bộ nào - thế hệ chạy trên cơ sở hạ tầng được lưu trữ của chúng tôi.

Chatterbox là một công cụ cấp cao có giá 25 credit cho mỗi 1000 ký tự. Tài khoản mới có 200 credit miễn phí để thử việc sao chép giọng nói, và bạn chỉ tiêu tiền credit cho văn bản mà bạn thực sự tạo ra.

Cả hai đều hỗ trợ nhân bản giọng nói zero-shot, nhưng Chatterbox bao gồm nhiều ngôn ngữ hơn (23 vs 2) và thêm các thẻ paralinguistic biểu cảm. F5-TTS có thể hơi hơi tự nhiên hơn tiếng Anh, vì vậy chọn Chatterbox cho nhân bản đa ngôn ngữ và âm thanh biểu cảm, và F5-TTS cho sự trung thực chỉ tiếng Anh.

Cả hai đều cung cấp việc sao chép giọng nói chất lượng cao. Chatterbox hỗ trợ 23 ngôn ngữ và các thẻ biểu cảm trong dòng, trong khi OpenVoice thêm các điều khiển kiểu giọng (tình cảm, buồn, tức giận, và nhiều hơn nữa) mà Chatterbox thiếu. Chọn Chatterbox để có thể bao phủ nhiều ngôn ngữ và OpenVoice khi cần kiểu giọng cảm xúc rõ ràng.

Đúng. Đăng ký một tài khoản TextToSpeechAI miễn phí để nhận 200 tín hiệu khởi động, hoặc sử dụng bản demo trên trang để nghe Chatterbox mà không cần đăng nhập. Tải lên một đoạn trích dẫn ngắn, gõ văn bản của bạn, và tạo ra một giọng nói nhân bản trong vài giây.

Technical Specs

  • Generation Speed Fast
  • Output Quality Very Good
  • Voice Cloning Supported
  • Languages 23
  • GPU VRAM 4-8GB
  • Credits/1000 chars 25

Try Chatterbox Now

Generate your first audio free. No credit card required.

Start Free