CosyVoice2

Premium

Zero-shot πολύγλωσση κλωνοποίηση φωνής με υποστήριξη ροής

Fast Ταχύτητα
Very Good Ποιότητα
Ναι. Κλωνοποίηση
5 Γλώσσες

Σχετικά CosyVoice2

Το CosyVoice2 είναι ένα μοντέλο σύνθεσης ομιλίας επόμενης γενιάς από το FunAudioLLM (Alibaba). Προσφέρει φυσική ήχο μηδενικής φωνής κλωνοποίησης σε πολλές γλώσσες με δυνατότητα ροής για εφαρμογές χαμηλής βαρύτητας.

Βασικά χαρακτηριστικά

Zero-Shot Voice Cloning

Κλώνε οποιαδήποτε φωνή από 3-10 δευτερόλεπτα ήχου αναφοράς με υψηλή πιστότητα.

Πολύγλωσσο

Υποστηρίζει Κινέζικα, Αγγλικά, Ιαπωνικά, Κορεάτικα και Καντονέζικα με διαγλωσσική σύνθεση.

Streaming Support

Λειτουργία ροής χαμηλής βαρύτητας για εφαρμογές σε πραγματικό χρόνο και διαδραστικά συστήματα.

Φυσική ΠροσωδίαCity name (optional, prosody)

Προχωρημένη μοντελοποίηση προσθετικότητας παράγει φυσικό-ηχητικό λόγο με κατάλληλο τονισμό.

Υpiοθέσει χρήση

Πολυγλωσσική δημιουργία περιεχομένου Βοηθοί φωνής σε πραγματικό χρόνο Διγλωσσική μετουσίωση Εξατομικευμένες φωνητικές εφαρμογές

Πώς να χρησιμοποιήσετε το φάρμακο CosyVoice2

  1. 1

    Εγγραφείτε και διεκδικήστε δωρεάν πιστώσεις

    Δημιουργήστε ένα δωρεάν λογαριασμό TextToSpeechAI για να διεκδικήσετε τις μονάδες εκκίνησης σας, ή δοκιμάστε πρώτα το demo. Δεν GPU ή τοπική εγκατάσταση CosyVoice2 είναι απαραίτητη - όλα τρέχουν στην υποδομή μας.

  2. 2

    Επιλέξτε CosyVoice2 και προσθέστε ένα κλιπ αναφοράς

    Επιλέξτε CosyVoice2 ως κινητήρα σας, στη συνέχεια, ανεβάστε μια καθαρή 3-10 δεύτερη εγγραφή αναφοράς της φωνής που θέλετε να κλωνοποιήσετε. CosyVoice2 θα εξαγάγει τα χαρακτηριστικά ηχείων για μηδέν-shot πολύγλωσση κλωνοποίηση.

  3. 3

    Εισάγετε το κείμενο σας σε οποιαδήποτε υποστηριζόμενη γλώσσα

    Πληκτρολογήστε ή επικολλήστε το σενάριό σας σε κινέζικα, αγγλικά, ιαπωνικά, κορεάτικα ή καντονέζικα. Η CosyVoice2 υποστηρίζει τη διαγλωσσική σύνθεση, ώστε η κλωνοποιημένη φωνή να μπορεί να μιλήσει μια γλώσσα διαφορετική από το κλιπ αναφοράς.

  4. 4

    Δημιουργήστε την ομιλία

    Κάντε κλικ στην παραγωγή και η CosyVoice2 συνθέτει φυσική, πολύγλωσση ομιλία στην κλωνοποιημένη φωνή, συνήθως μέσα σε δευτερόλεπτα για σύντομο κείμενο. Premium-tier χρήση κοστίζει 25 μονάδες ανά 1.000 χαρακτήρες.

  5. 5

    Κατεβάστε ή χρησιμοποιήστε το API

    Κατεβάστε τον τελικό ήχο ως MP3 ή WAV από την ιστορία σας, ή αυτοματοποιήστε CosyVoice2 φωνητική κλωνοποίηση σε κλίμακα μέσω του TextToSpeechAI REST API.

CosyVoice2 API

Δημιουργήστε την ομιλία προγραμματικά χρησιμοποιώντας το TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Η CosyVoice2 παρέχει φυσική πολύγλωσση ομιλία με μηδενική ικανότητα κλωνοποίησης φωνής.",
    "voice": "en_US-lessac-medium"
  }'

Συχνές Ερωτήσεις

Το CosyVoice2 είναι ένα μοντέλο κλωνοποίησης κειμένου σε γλώσσα επόμενης γενιάς και φωνής από το FunAudioLLM (Alibaba). Υποστηρίζει την κλωνοποίηση φωνής μηδενός από λίγα δευτερόλεπτα ήχου αναφοράς και μπορεί να συνθέσει φυσική ομιλία σε κινέζικα, αγγλικά, ιαπωνικά, κορεάτικα και καντονέζικα. Στις TextToSpeechAI μπορείτε να τρέξετε CosyVoice2 στο πρόγραμμα περιήγησης χωρίς καμία τοπική ρύθμιση.

Ναι, CosyVoice2 είναι πλήρως Apache 2.0 άδεια - τόσο ο κώδικας όσο και το πρότυπο βάρη. Αυτό καθιστά ασφαλή τη χρήση σε εμπορικά προϊόντα, πληρωμένο περιεχόμενο, και την εργασία των πελατών χωρίς τέλη αδειοδότησης ή μη εμπορικούς περιορισμούς.

Η CosyVoice2 υποστηρίζει πέντε γλώσσες: Κινέζικα (Mandarin), Αγγλικά, Ιαπωνικά, Κορεάτικα και Καντονέζικα. Χειρίζεται επίσης τη διαγλωσσική σύνθεση, ώστε να μπορείτε να κλωνοποιήσετε μια φωνή από μια ηχογράφηση σε μια γλώσσα και να δημιουργήσετε ομιλία σε μια άλλη.

Παρέχετε 3-10 δευτερόλεπτα καθαρού ήχου αναφοράς του ηχείου-στόχου. Η CosyVoice2 εξάγει τα χαρακτηριστικά του ηχείου χρησιμοποιώντας μια πεπερασμένη προσέγγιση βαθμολόγησης βαθμολόγησης, στη συνέχεια δημιουργεί νέα ομιλία σε αυτή την κλωνοποιημένη φωνή σε οποιαδήποτε από τις υποστηριζόμενες γλώσσες της.

Το CosyVoice2 είναι ένα από τα ισχυρότερα πολύγλωσσα μοντέλα κλωνοποίησης, διατηρώντας την ταυτότητα του ηχείου ακόμη και όταν δημιουργεί ομιλία σε μια γλώσσα διαφορετική από το κλιπ αναφοράς.

Yes. CosyVoice2 is a fast model and includes a streaming mode that produces audio with low latency, making it suitable for voice assistants and interactive applications. On TextToSpeechAI generations typically complete in seconds for short text.

Η CosyVoice2 απαιτεί περίπου 4-6GB VRAM για το μοντέλο παραμέτρου 0.5B, έτσι ώστε μια GPU με 6GB ή περισσότερο συνιστάται κατά την αυτο-φιλοξενία. Στις TextToSpeechAI το μοντέλο λειτουργεί με την υποδομή GPU μας, έτσι δεν χρειάζεστε οποιοδήποτε υλικό της δικής σας.

CosyVoice2 είναι ένα premium-tier μοντέλο και κοστίζει 25 μονάδες ανά 1.000 χαρακτήρες του κειμένου. Κάθε νέος λογαριασμός παίρνει δωρεάν μονάδες εκκίνησης, ώστε να μπορείτε να δοκιμάσετε CosyVoice2 κλωνοποίηση φωνής πριν αποφασίσετε για ένα πληρωμένο σχέδιο.

Και οι δύο είναι υψηλής ποιότητας μηχανές κλωνοποίησης φωνής. GPT-SoVITS συχνά φτάνει την υψηλότερη ακατέργαστη ομοιότητα για μια ενιαία φωνή στόχο, ενώ η CosyVoice2 είναι ισχυρότερη για την πολύγλωσση και διαγλωσσική κλωνοποίηση και προσθέτει μια χαμηλή αργή λειτουργία ροής. Επιλέξτε CosyVoice2 όταν χρειάζεστε μια κλωνοποιημένη φωνή για να μιλήσετε πολλές γλώσσες.

Η CosyVoice2 υποστηρίζει περισσότερες γλώσσες (5 έναντι 2) και προσθέτει streaming για χρήση σε πραγματικό χρόνο, ενώ F5-TTS μπορεί να είναι ελαφρώς ταχύτερη για Αγγλικά μόνο φόρτο εργασίας. Για πολύγλωσσα έργα CosyVoice2 είναι συνήθως η καλύτερη εφαρμογή.

TextToSpeechAI σας επιτρέπει να εξάγετε γενιές CosyVoice2 σε κοινές μορφές, όπως MP3 και WAV. Μπορείτε να κατεβάσετε το αρχείο απευθείας από τη σελίδα ιστορία σας ή να το ανακτήσετε προγραμματισμένα μέσω του TextToSpeechAI API.

Ναι. Μπορείτε να δοκιμάσετε την CosyVoice2 με το δωρεάν demo και τις δωρεάν μονάδες εκκίνησης σας σε TextToSpeechAI χωρίς να εγκαταστήσετε τίποτα. Απλά εγγραφείτε, ανεβάστε ένα σύντομο κλιπ αναφοράς, πληκτρολογήστε το κείμενο σας σε οποιαδήποτε υποστηριζόμενη γλώσσα, και δημιουργήστε.

Technical Specs

  • Generation Speed Fast
  • Output Quality Very Good
  • Voice Cloning Supported
  • Languages 5
  • GPU VRAM 4-6GB
  • Credits/1000 chars 25

Try CosyVoice2 Now

Generate your first audio free. No credit card required.

Start Free