VITS

Standard

TTS nhanh từ đầu đến cuối với giọng nói tự nhiên

Very Fast Tốc độ
Good Chất lượng
Không Bản sao
10 Ngôn ngữ

Về VITS

-efficient, and highly-efficient neural TTS model that generates natural-sounding speech. It combines variational autoencoders with adversarial learning for

Tính năng chính

Tổng hợp nhanh

Kiến trúc từ đầu đến cuối cho sự sinh ra giọng nói nhanh chóng.

Xử lý hàng loạt

Xử lý nhiều văn bản cùng lúc một cách hiệu quả.

Tiếng nói tự nhiên

Huấn luyện VAE + GAN tạo ra giai điệu và nhịp điệu tự nhiên.

Nhiều loa

Mô hình đơn hỗ trợ nhiều giọng nói loa.

Hiệu quả

Bộ nhớ thấp với hiệu suất tốt.

Mã nguồn mở

MIT cấp phép cho bất kỳ trường hợp sử dụng nào.

Tình huống sử dụng

Tạo âm thanh theo lô Nền tảng học tập điện tử Bộ đọc tin tứcName Thông báo tự động Hệ thống IVR Nội dung âm lượng cao

VITS Voices

View All 109
LJSpeech (English Female)
EN
VCTK Speaker 225 (English Female)
EN
VCTK Speaker 226 (English Male)
EN
VCTK Speaker 227 (English Male)
EN
VCTK Speaker 228 (English Female)
EN
VCTK Speaker 229
EN
VCTK Speaker 230
EN
VCTK Speaker 231
EN
VCTK Speaker 232
EN
VCTK Speaker 233
EN
VCTK Speaker 234
EN
VCTK Speaker 236
EN

Cách sử dụng VITS

  1. 1

    Đăng ký miễn phí hoặc thử bản demo

    Tạo một tài khoản TextToSpeechAI miễn phí để nhận tiền thưởng khởi đầu, hoặc sử dụng bản demo trên trang để nghe VITS trước khi đăng ký.

  2. 2

    Chọn giọng nói hay loa VITS

    Tìm kiếm thư viện giọng nói và chọn giọng nói được đánh dấu bằng huy hiệu VITS. Thư viện VITS đa loa, bao gồm bộ loa VCTK, cho phép bạn chọn từ nhiều giọng nói khác nhau.

  3. 3

    Nhập văn bản

    Nhập hoặc dán văn bản bạn muốn nói vào trình biên tập. VITS xử lý tốt các đoạn dài và thích hợp cho nội dung nhiều và nhiều tập.

  4. 4

    Tạo âm thanh

    Nhấn vào tạo để tổng hợp lời nói bằng VITS. Vì VITS rất nhanh và cấp chuẩn (10 tín hiệu trên 1000 ký tự), kết quả sẽ trở lại nhanh chóng với chi phí thấp.

  5. 5

    Tải xuống hoặc sử dụng API

    Tải xuống âm thanh hoàn thành như MP3, WAV, hoặc OGG, hoặc gọi cùng một giọng nói VITS thông qua TextToSpeechAI REST API để tự động tạo ra trong ứng dụng của riêng bạn.

VITS API

Tạo lời nói bằng cách lập trình sử dụng TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "VITS cung cấp giọng nói nhanh, tự nhiên cho các ứng dụng có số lượng lớn.",
    "voice": "vits-ljspeech"
  }'

Câu hỏi thường gặp

VITS (Thuyết luận biến đổi với học tập đối lập cho văn bản- thành- lời nói từ đầu đến cuối) là một mô hình TTS thần kinh từ đầu đến cuối kết hợp một bộ mã hóa tự động biến đổi với huấn luyện GAN đối lập. Nó tạo ra lời nói có âm thanh tự nhiên trong một lần chạy duy nhất, làm cho nó nhanh và hiệu quả. Bạn có thể thử VITS miễn phí trên TextToSpeechAI.

Vâng, VITS là mã nguồn mở theo giấy phép MIT, vì vậy nó hỗ trợ sử dụng thương mại đầy đủ không giới hạn. Nó được sử dụng rộng rãi trong các sản phẩm và dịch vụ thương mại. Trên TextToSpeechAI, VITS có giá 10 tín dụng cho mỗi 1000 ký tự ở cấp Tiêu chuẩn.

TextToSpeechAI cung cấp một thư viện VITS đa loa lớn, bao gồm cả bộ giọng nói VCTK với hàng chục loa tiếng Anh khác nhau. Một mô hình VITS đơn có thể chứa nhiều loa, vì vậy bạn có thể chọn từ nhiều giọng nói khác nhau mà không cần thay đổi động cơ.

Các mô hình VITS phổ biến bao gồm tiếng Anh, Trung Quốc, Nhật Bản, Hàn Quốc, Đức, Pháp, và các ngôn ngữ chính khác, với việc bao phủ tiếng Anh đa người nói từ tập dữ liệu VCTK.

VITS rất nhanh, tạo ra giọng nói trong thời gian thực hoặc nhanh hơn trên GPU. Kiến trúc từ đầu đến cuối của nó tránh được nhiều giai đoạn xử lý của các mô hình khác, đó là lý do tại sao VITS phù hợp với tổng hợp hàng loạt và số lượng lớn.

Không, VITS không hỗ trợ sao chép giọng nói. Nó dùng các mô hình nhiều loa được huấn luyện trước thay vì sao chép giọng nói mục tiêu từ mẫu. Đối với sao chép giọng nói trên TextToSpeechAI, hãy dùng F5- TTS hoặc GPT- SoVITS thay thế.

VITS tạo ra âm thanh chất lượng tốt với giai điệu và nhịp điệu tự nhiên. Mặc dù nó không ở mức độ của StyleTTS 2 hay Tortoise, nó cung cấp chất lượng tuyệt vời cho tốc độ của nó, đặc biệt là cho xử lý hàng loạt.

VITS tiết kiệm bộ nhớ, thường chỉ cần vài GB VRAM (khoảng 4GB). Nó chạy thoải mái trên GPU tiêu dùng, và trên TextToSpeechAI tất cả các phép vẽ diễn ra trên máy chủ của chúng tôi vì vậy bạn không cần bất kỳ phần cứng nào của riêng mình.

VITS và Piper đều là những máy tính nhanh, được cấp phép bởi MIT, trên TextToSpeechAI. Piper là lựa chọn nhẹ và nhanh nhất, trong khi VITS cung cấp một thư viện lớn nhiều loa (bao gồm VCTK) với âm điệu tự nhiên hơn một chút. Không hỗ trợ sao chép giọng nói.

VITS là một máy tính cấp Tiêu chuẩn, giá 10 tín dụng cho mỗi 1000 ký tự. Đây là mức giá thấp nhất của chúng tôi nhờ tính hiệu quả và nhanh chóng của mô hình VITS.

VITS tạo âm thanh ở 22050Hz bản địa. Thông qua TextToSpeechAI bạn có thể yêu cầu định dạng MP3, WAV, hoặc OGG, với việc chuyển đổi tự động được xử lý cho bạn.

Đăng ký trên TextToSpeechAI để nhận tiền khởi động miễn phí, sau đó chọn một giọng nói VITS, nhập văn bản của bạn, và tạo âm thanh. Bạn cũng có thể sử dụng bản demo để nghe VITS trước khi tạo tài khoản, và truy cập VITS thông qua API REST của chúng tôi khi bạn đăng ký.

Technical Specs

  • Generation Speed Very Fast
  • Output Quality Good
  • Voice Cloning Not Supported
  • Languages 10
  • GPU VRAM 1-2GB
  • Credits/1000 chars 10

Try VITS Now

Generate your first audio free. No credit card required.

Start Free