Giọng ấm áp2

Premium

Bản sao giọng nói đa ngôn ngữ Zero-shot với hỗ trợ stream

Fast Tốc độ
Very Good Chất lượng
Có chứ. Bản sao
5 Ngôn ngữ

Về Giọng ấm áp2

[Translation temporarily unavailable. Please try again.]

Tính năng chính

Kiểu giọng Zero- Shot

Sao chép bất kỳ giọng nói nào từ 3-10 giây âm thanh tham chiếu với độ chính xác cao.

Nhiều ngôn ngữ

Hỗ trợ tiếng Trung, tiếng Anh, tiếng Nhật, tiếng Hàn, và tiếng Quảng Đông với tổng hợp đa ngôn ngữ.

Hỗ trợ truyền tải

Chế độ truyền tải chậm thấp cho các ứng dụng thời gian thực và hệ thống tương tác.

Tự nhiên

Mô hình prosody tiên tiến tạo ra giọng nói âm thanh tự nhiên với giọng điệu phù hợp.

Tình huống sử dụng

Tạo nội dung đa ngôn ngữ Trợ lý giọng nói thời gian thực Lồng tiếng đa ngôn ngữ Ứng dụng giọng nói cá nhânName

Cách sử dụng Giọng ấm áp2

  1. 1

    Đăng ký và nhận tiền thưởng miễn phí

    Tạo một tài khoản TextToSpeechAI miễn phí để nhận tiền thưởng, hoặc thử bản demo trước. Không cần thiết cài đặt GPU hay CosyVoice2 địa phương - mọi thứ chạy trên cơ sở hạ tầng của chúng tôi.

  2. 2

    Chọn CosyVoice2 và thêm đoạn trích tham chiếu

    Chọn CosyVoice2 làm động cơ, sau đó tải lên một bản ghi tham khảo sạch 3- 10 giây của giọng nói bạn muốn nhân bản. CosyVoice2 sẽ trích xuất đặc điểm của người nói cho việc nhân bản đa ngôn ngữ không cần chụp ảnh.

  3. 3

    Nhập văn bản bằng bất kỳ ngôn ngữ nào được hỗ trợ

    Nhập hoặc dán văn bản bằng tiếng Trung, Anh, Nhật, Hàn, hoặc Quảng Đông. CosyVoice2 hỗ trợ tổng hợp đa ngôn ngữ, vì vậy giọng nói nhân bản có thể nói một ngôn ngữ khác với đoạn phim tham chiếu.

  4. 4

    Tạo lời nói

    Click generate và CosyVoice2 tổng hợp lời nói tự nhiên, đa ngôn ngữ trong giọng nói nhân bản, thường trong vòng vài giây cho văn bản ngắn.

  5. 5

    Tải xuống hoặc sử dụng API

    Tải xuống âm thanh hoàn thành như MP3 hoặc WAV từ lịch sử của bạn, hoặc tự động hóa CosyVoice2 voice clone trên quy mô thông qua TextToSpeechAI REST API.

Giọng ấm áp2 API

Tạo lời nói bằng cách lập trình sử dụng TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "CosyVoice2 cung cấp lời nói đa ngôn ngữ tự nhiên với khả năng sao chép giọng nói zero\u002Dshot.",
    "voice": "en_US-lessac-medium"
  }'

Câu hỏi thường gặp

CosyVoice2 là mô hình sao chép giọng nói và văn bản- sang- nói thế hệ tiếp theo từ FunAudioLLM (Alibaba). Nó hỗ trợ sao chép giọng nói không chụp từ chỉ vài giây âm thanh tham chiếu và có thể tổng hợp giọng nói tự nhiên bằng tiếng Trung, tiếng Anh, tiếng Nhật, tiếng Hàn và tiếng Quan Thoại. Trên TextToSpeechAI, bạn có thể chạy CosyVoice2 trong trình duyệt mà không cần cài đặt địa phương.

Có, CosyVoice2 được cấp phép đầy đủ Apache 2. 0 - cả mã và trọng lượng mô hình. Điều này làm cho nó an toàn để sử dụng trong các sản phẩm thương mại, nội dung trả tiền, và công việc khách hàng mà không có phí cấp phép hay hạn chế phi thương mại.

CosyVoice2 hỗ trợ năm ngôn ngữ: Trung Quốc (Mandarin), Anh, Nhật, Hàn Quốc, và Quảng Đông. Nó cũng xử lý tổng hợp đa ngôn ngữ, vì vậy bạn có thể nhân bản giọng nói từ một bản ghi trong một ngôn ngữ và tạo ra giọng nói trong một ngôn ngữ khác.

Cho 3- 10 giây âm thanh tham chiếu sạch của loa mục tiêu. CosyVoice2 trích xuất đặc điểm loa bằng cách sử dụng phương pháp lượng tử hóa scalar hữu hạn, sau đó tạo ra giọng nói mới trong giọng nói nhân bản trên bất kỳ ngôn ngữ nào được hỗ trợ. Không cần đào tạo mô hình hay điều chỉnh chi tiết.

CosyVoice2 là một trong những mô hình nhân bản đa ngôn ngữ mạnh mẽ hơn, bảo tồn bản sắc người nói ngay cả khi tạo ra lời nói trong một ngôn ngữ khác với đoạn phim tham chiếu. Nó tạo ra âm điệu và giọng nói tự nhiên, làm cho nó phù hợp cho lồng tiếng đa ngôn ngữ và nội dung địa phương.

Có. CosyVoice2 là một mô hình nhanh và bao gồm một chế độ truyền tải tạo ra âm thanh với độ trễ thấp, làm cho nó phù hợp cho trợ lý giọng nói và ứng dụng tương tác. Trên TextToSpeechAI, các thế hệ thường hoàn thành trong vài giây cho văn bản ngắn.

CosyVoice2 yêu cầu khoảng 4- 6GB VRAM cho mô hình tham số 0. 5B, vì vậy một GPU với 6GB hoặc nhiều hơn được khuyến cáo khi tự chủ. Trên TextToSpeechAI mô hình chạy trên cơ sở hạ tầng GPU của chúng tôi, vì vậy bạn không cần bất kỳ phần cứng nào của riêng mình.

CosyVoice2 là một mô hình cấp cao và có giá 25 tín dụng cho mỗi 1.000 ký tự văn bản. Mỗi tài khoản mới sẽ nhận được tín dụng khởi đầu miễn phí, vì vậy bạn có thể thử sao chép giọng nói CosyVoice2 trước khi quyết định về một kế hoạch trả tiền.

Cả hai đều là những máy sao chép giọng nói cao cấp. GPT- SoVITS thường đạt đến sự tương đồng nguyên bản cao nhất cho giọng nói mục tiêu đơn, trong khi CosyVoice2 mạnh hơn cho sao chép đa ngôn ngữ và đa ngôn ngữ và thêm một chế độ truyền tải thời gian chậm. Chọn CosyVoice2 khi bạn cần một giọng nói sao chép để nói nhiều ngôn ngữ.

Cả hai đều cung cấp việc nhân bản giọng nói chất lượng cao. CosyVoice2 hỗ trợ nhiều ngôn ngữ hơn (5 so với 2) và thêm truyền tải cho sử dụng thời gian thực, trong khi F5- TTS có thể nhanh hơn một chút cho các công việc chỉ tiếng Anh. Cho các dự án đa ngôn ngữ, CosyVoice2 thường là lựa chọn tốt hơn.

TextToSpeechAI cho phép bạn xuất các thế hệ CosyVoice2 theo định dạng phổ biến như MP3 và WAV. Bạn có thể tải tập tin trực tiếp từ trang lịch sử của bạn hoặc lấy nó bằng lập trình thông qua API TextToSpeechAI.

Có. Bạn có thể thử CosyVoice2 với bản demo miễn phí và tiền khởi động miễn phí trên TextToSpeechAI mà không cần cài đặt gì cả. Chỉ cần đăng ký, tải lên một đoạn phim tham khảo ngắn, gõ văn bản của bạn bằng bất kỳ ngôn ngữ nào được hỗ trợ, và tạo ra.

Technical Specs

  • Generation Speed Fast
  • Output Quality Very Good
  • Voice Cloning Supported
  • Languages 5
  • GPU VRAM 4-6GB
  • Credits/1000 chars 25

Try Giọng ấm áp2 Now

Generate your first audio free. No credit card required.

Start Free