Tortoise TTS

Ultra

Tiếng nói chất lượng cao với sự tự nhiên không thể sánh được

Very Slow Tốc độ
Exceptional Chất lượng
Có chứ. Bản sao
1 Ngôn ngữ

Về Tortoise TTS

s available. Tortoise TTS is a

Tính năng chính

Chất lượng cực cao

TTS output có âm thanh tự nhiên nhất.

Ký âm

Giọng nói sao chép với độ chính xác và sắc thái đặc biệt.

Tự nhiên

Chụp các mẫu nói chuyện tinh vi và biểu hiện vi mô.

Đặt sẵn chất lượng

Chọn từ xử lý cực nhanh đến xử lý chất lượng cao.

Độ sâu cảm xúc

Tạo ra lời nói với cộng hưởng cảm xúc thật sự.

Mã nguồn mở

Apache 2.0 được cấp phép với quyền sử dụng thương mại.

Tình huống sử dụng

Sách âm thanh Premium Sản xuất phim Thuyết minh tài liệu Lồng tiếng chuyên nghiệp Dự án lưu trữ Nội dung cao cấp

Tortoise TTS Voices

View All 18
Tortoise Angie
EN
Tortoise Deniro
EN
Tortoise Freeman
EN
Tortoise Geralt
EN
Tortoise Halle
EN
Tortoise Jlaw
EN
Tortoise Lj
EN
Tortoise Mol
EN
Tortoise Myself
EN
Tortoise Pat
EN
Tortoise Pat2
EN
Tortoise Snakes
EN

Cách sử dụng Tortoise TTS

  1. 1

    Đăng ký hoặc thử nghiệm bản demo miễn phí

    Tạo một tài khoản TextToSpeechAI miễn phí để nhận được tín dụng khởi động, hoặc sử dụng bản demo trang chủ để thử Tortoise mà không cần đăng nhập. Tortoise là một động cơ Ultra-tier (50 tín dụng cho 1000 ký tự), vì vậy tín dụng miễn phí hoàn hảo cho một thử nghiệm ngắn đầu tiên.

  2. 2

    Chọn Tortoise và tùy chọn thêm giọng nói để sao chép

    Chọn giọng nói Tortoise từ trình duyệt giọng nói. Để sao chép một người cụ thể, tải lên một đoạn phim tham khảo (tốt nhất là một vài mẫu 5- 10 giây sạch) và Tortoise sẽ tái tạo giọng nói đó với độ chính xác cao. Nếu không, chọn một trong những giọng nói Tortoise có sẵn.

  3. 3

    Nhập văn bản

    Nhập hoặc dán văn bản muốn nói. Vì Tortoise chậm, hãy bắt đầu với một đoạn ngắn để xác nhận giọng nói và âm điệu trước khi gửi một chương sách âm thanh đầy đủ hoặc văn bản dài.

  4. 4

    Chọn và tạo định sẵn chất lượng

    Chọn một mặc định chất lượng Tortoise: cực nhanh cho thử nghiệm nhanh, nhanh cho cân bằng tốc độ/ chất lượng tốt (mặc định được khuyến nghị), tiêu chuẩn, hoặc chất lượng cao cho tính thực tế tối đa. Sau đó nhấn tạo và kiên nhẫn - Tortoise có thể mất từ 30 giây đến vài phút cho mỗi đoạn phim, đặc biệt là với mặc định cao hơn.

  5. 5

    Tải xuống hoặc sử dụng API

    Khi tạo xong, tải về âm thanh của bạn dạng MP3, WAV, hay OGG, hoặc lấy nó từ lịch sử của bạn. Để tự động hóa công việc Tortoise, gọi API TextToSpeechAI và truyền mặc định chất lượng của bạn - nhớ để cho phép thời gian quá thời hạn dài hơn vì Tortoise vẽ chậm.

Tortoise TTS API

Tạo lời nói bằng cách lập trình sử dụng TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Rùa cần thời gian, nhưng kết quả đáng để chờ đợi.",
    "voice": "tortoise-angie"
  }'

Câu hỏi thường gặp

Tortoise TTS là mô hình văn bản- thành- lời tự hồi phục được tạo bởi James Betker, ưu tiên chất lượng âm thanh hơn tất cả những thứ khác. Nó kết hợp mô hình ngôn ngữ dựa trên biến đổi với giải mã phân tán để tạo ra lời nói với sự tự nhiên, sâu sắc cảm xúc và giọng nói giống người. Nó được coi là một trong những động cơ TTS mã nguồn mở thực tế nhất có sẵn.

Có. Tortoise TTS là mã nguồn mở theo giấy phép Apache 2. 0, cho phép sử dụng thương mại, sửa đổi và phân phối lại. Trên TextToSpeechAI, Tortoise nằm trong tầng Ultra với 50 tín hiệu trên 1000 ký tự vì yêu cầu tính toán nặng và chất lượng xuất xuất đặc biệt.

Tortoise được thiết kế chậm: nó tạo ra một số đoạn phim ứng cử tự hồi quy và sau đó tinh chỉnh đoạn phim tốt nhất với mô hình phân tán và bước xếp hạng CLVP. Đường ống chất lượng đầu tiên này có nghĩa là một đoạn phim đơn có thể mất từ 30 giây đến vài phút tùy thuộc vào độ dài văn bản và chất lượng mặc định. Điều này có nghĩa là Tortoise tạo ra một số lời nói tự nhiên nhất của bất kỳ máy TTS nào.

Tortoise cung cấp bốn định dạng sẵn có trao đổi tốc độ với chất lượng: ultra_ fast (nhanh hơn ~10 lần, tốt cho thử nghiệm), fast (nhanh hơn ~4 lần, mặc định sản xuất), standard (cân bằng), và high_ quality (chất lượng cao nhất, chậm nhất). Định dạng sẵn có cao hơn lấy mẫu nhiều ứng cử viên hơn và chạy nhiều bước phân tán hơn trước khi chọn kết quả tốt nhất. Trên TextToSpeechAI, bạn có thể chọn một định dạng sẵn có trước khi tạo.

Có, Tortoise TTS hỗ trợ sao chép giọng nói với độ chính xác tuyệt vời. Cho một vài đoạn tham khảo ngắn của giọng nói mục tiêu (tốt nhất là 3- 10 mẫu mỗi mẫu 5- 10 giây), và Tortoise sẽ thu được âm sắc, giọng nói, nhịp điệu và biểu cảm nhỏ bé của người nói. Đây là một trong những động cơ sao chép không bắn chính xác nhất, mặc dù sao chép sẽ tăng thời gian tạo ra đã lâu.

Tortoise được huấn luyện chủ yếu trên các tập dữ liệu nói tiếng Anh, vì vậy tiếng Anh là nơi chất lượng của nó mạnh nhất. Đối với các dự án đa ngôn ngữ cần sự thực tế tương tự, hãy xem xét F5-TTS hoặc CosyVoice2 trên TextToSpeechAI, hỗ trợ nhiều ngôn ngữ hơn trong khi vẫn cung cấp nhân bản giọng nói.

Tortoise tạo ra âm thanh đặc biệt, thường không thể phân biệt được với âm thanh của con người. Nó ghi lại hơi thở, sự ngại ngùng, giọng nói và cộng hưởng cảm xúc thực sự mà các mẫu nhẹ hơn bỏ lỡ. Đó là lý do tại sao nó vẫn là một lựa chọn ưa thích cho sách âm thanh cao cấp, kể chuyện phim, và công việc lồng tiếng cao cấp nơi sự thực tế là tối quan trọng.

Tortoise thường yêu cầu 12-24GB VRAM tùy thuộc vào mặc định chất lượng và kích thước gói, vì vậy các GPU cao cấp như RTX 3090, 4090, hoặc A100 được khuyến cáo dùng trong cục bộ. CPU suy luận là có thể về mặt kỹ thuật nhưng cực kỳ chậm. Trên TextToSpeechAI mô hình chạy trên cơ sở hạ tầng GPU của chúng tôi, vì vậy bạn không cần bất kỳ phần cứng nào của riêng mình.

Tortoise tự động tạo âm thanh WAV chất lượng cao 24kHz. Thông qua TextToSpeechAI bạn có thể yêu cầu MP3, WAV, hoặc OGG, và chúng tôi chuyển mã với mã hóa bảo tồn chất lượng để bạn giữ chi tiết của mô hình trong bất kỳ định dạng nào dự án của bạn cần.

Tortoise nằm trong mức giá Ultra với 50 credit cho mỗi 1000 ký tự, phản ánh thời gian GPU tiêu thụ bởi ống dẫn chất lượng đầu tiên. Tài khoản mới nhận được credit khởi động miễn phí, vì vậy bạn có thể thử nghiệm Tortoise trước khi thực hiện. Tầm Ultra cũng bao gồm StyleTTS2, OpenVoice, Dia, và Zonos.

Cả hai đều là máy Ultra- Tier, nhưng chúng hoạt động khác nhau. Tortoise TTS đạt đến đỉnh tuyệt đối của sự tự nhiên và độ sâu cảm xúc nhưng là máy chậm nhất. StyleTTS2 cung cấp chất lượng gần giống Tortoise với sự tạo nhanh hơn nhiều, làm cho nó là lựa chọn tốt hơn khi bạn cần nhiều đoạn phim hoặc thời gian chuyển đổi nhanh hơn. Chọn Tortoise khi chất lượng không thể thương lượng và thời gian không phải là một ràng buộc.

Đúng. Đăng ký trên TextToSpeechAI để nhận tiền khởi động miễn phí, hoặc sử dụng bản thử nghiệm trên trang chủ, và chọn một giọng nói Tortoise để tạo một đoạn phim mà không cài đặt gì cả. Vì Tortoise chậm, hãy bắt đầu với một câu ngắn và mặc định "nhanh" để xem chất lượng trước khi chạy các công việc dài hơn.

Technical Specs

  • Generation Speed Very Slow
  • Output Quality Exceptional
  • Voice Cloning Supported
  • Languages 1
  • GPU VRAM 12-24GB
  • Credits/1000 chars 50

Try Tortoise TTS Now

Generate your first audio free. No credit card required.

Start Free