ΝτίαCity name (optional, probably does not need a translation)

Ultra

TTS προσανατολισμένη στο διάλογο με κλωνοποίηση φωνής και μη λεκτική ήχους

Medium Ταχύτητα
Excellent Ποιότητα
Ναι. Κλωνοποίηση
1 Γλώσσες

Σχετικά ΝτίαCity name (optional, probably does not need a translation)

Το Dia by Nari Labs είναι ένα μοντέλο διαλόγου 1.6B παραμέτρων που επικεντρώνεται σε κείμενο προς ομιλία. Υπερέχει στη δημιουργία φυσικής ομιλίας συνομιλίας με υποστήριξη για μη ομιλητικούς ήχους όπως γέλιο, αναστεναγμούς και βήχα.

Βασικά χαρακτηριστικά

Γενιά διαλόγου

Δημιουργήστε φυσικές πολυ-συνομιλίες με διακριτές φωνές και turn-taking.

Μη Διαλεκτική Ήχοι

Προσθέστε [γέλια], [αναστενάζει], [βήχας], (λαχανιάζει) για φυσική παράγλωσση έκφραση.

Κλωνοποίηση φωνής

Κλώνε οποιαδήποτε φωνή από 5-10 δευτερόλεπτα ήχου αναφοράς για εξατομικευμένη ομιλία.

Φυσική Συνομιλία

1.6B παράμετροι παράγουν εξαιρετικά φυσική συνομιλία προσθετικότητα και τονισμό.

Υpiοθέσει χρήση

Γενιά διαλόγου και συζητήσεων Παραγωγή ακουστικών βιβλίων με πολλαπλούς χαρακτήρες Φωνές χαρακτήρων παιχνιδιού Podcast και δημιουργία περιεχομένου

Πώς να χρησιμοποιήσετε το φάρμακο ΝτίαCity name (optional, probably does not need a translation)

  1. 1

    Εγγραφείτε δωρεάν ή ανοίξτε το demo

    Δημιουργήστε έναν δωρεάν λογαριασμό TextToSpeechAI για να διεκδικήσετε τις μονάδες εκκίνησης σας, ή ανοίξτε το demo χωρίς υπογραφή για να δοκιμάσετε τον διάλογο Dia αμέσως.

  2. 2

    Επιλέξτε τον κινητήρα Dia

    Στο ταμπλό TTS επιλέξτε Dia από τη λίστα μηχανών. Dia είναι το προσανατολισμένο στο διάλογο, εξαιρετικά-tier μοντέλο με πολυ-επεξεργαστή και φωνητική υποστήριξη.

  3. 3

    Γράψτε ένα σενάριο διαλόγου με ετικέτες

    Συγκρίνετε τη συνομιλία σας χρησιμοποιώντας [S1] και [S2] για να σημαδέψετε κάθε ομιλητή, και να ρίξετε σε μη ομιλητικές ετικέτες όπως [γέλια], [αναστενάζει], [βήχας], ή (λαχανιάζει) όπου θέλετε φυσικές αντιδράσεις.

  4. 4

    Δημιουργία ήχου

    Κάντε κλικ στη δημιουργία για να στείλετε το σενάριό σας Dia σε φιλοξενούμενους GPUs μας. Dia καθιστά το διάλογο δύο ηχείων με τη λήψη στροφής και μη λεκτική ετικέτες σας σε ένα ενιαίο αρχείο ήχου.

  5. 5

    Κατεβάστε ή καλέστε το API

    Κατεβάστε τον τελικό διάλογο στην επιλεγμένη μορφή σας, ή αυτοματοποιήστε τον με την ανάρτηση του ίδιου σεναρίου [S1]/[S2] στο TextToSpeechAI API με το σήμα του λογαριασμού σας.

ΝτίαCity name (optional, probably does not need a translation) API

Δημιουργήστε την ομιλία προγραμματικά χρησιμοποιώντας το TextToSpeechAI REST API.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Τα πάω μια χαρά, ευχαριστώ που ρωτάς!",
    "voice": "en_US-lessac-medium"
  }'

Συχνές Ερωτήσεις

Η Dia είναι ένα μοντέλο διαλόγου 1.6B με γνώμονα το κείμενο προς την ομιλία από τα εργαστήρια Nari. Ειδικεύεται στη δημιουργία φυσικών συνομιλίας με υποστήριξη για πολλούς ομιλητές, μη ομιλητικούς ήχους και κλωνοποίηση φωνής.

Ναι, Dia είναι πλήρως Apache 2.0 άδεια - τόσο κώδικα και πρότυπα βάρη. Μπορεί να χρησιμοποιηθεί ελεύθερα σε εμπορικές εφαρμογές.

Επί του παρόντος Dia υποστηρίζει μόνο αγγλικά. Το μοντέλο είναι βελτιστοποιημένο για φυσικό αγγλικό λόγο συζήτησης.

Η Dia απαιτεί περίπου 10GB VRAM για το μοντέλο παραμέτρου 1.6B της. Συνιστάται GPU με τουλάχιστον 12GB για άνετη λειτουργία. Στις TextToSpeechAI όλα αυτά τρέχει σε φιλοξενούμενους GPUs μας, έτσι δεν χρειάζεστε οποιοδήποτε υλικό της δικής σας.

Με την εναλλαγή [S1] και [S2] γυρίζει στο σενάριο σας, Dia TTS παράγει μια ρέουσα συνομιλία δύο ηχείων με διακριτές φωνές και ρεαλιστική λήψη στροφής, η οποία είναι πιο δύσκολο να επιτευχθεί με μοντέλα ενός ηχείου TTS.

Προθέστε κάθε γραμμή του σεναρίου σας με [S1] ή [S2] για να σημειώσετε ποιος μιλάει. Dia εκχωρεί μια συνεπή φωνή σε κάθε ετικέτα και διακόπτες μεταξύ τους καθώς η συνομιλία κινείται, έτσι [S1] και [S2] ενεργεί ως οι δύο χαρακτήρες στο διάλογό σας.

Ναι. Η Dia υποστηρίζει την κλωνοποίηση φωνής από περίπου 5-10 δευτερόλεπτα καθαρού ήχου αναφοράς, επιτρέποντάς σας να επαναλάβετε μια συγκεκριμένη φωνή για ένα ομιλητή. Μπορείτε να συνδυάσετε την κλωνοποίηση με τις ετικέτες [S1]/[S2] έτσι ώστε κάθε χαρακτήρας σε έναν διάλογο να ακούγεται σαν τη φωνή που κλωνοποιήσατε.

Η Dia αποδίδει [γέλια], [αναστενάζει], [βήχας], και (λαχανιάζει) ως φυσικούς παραγλωσσολόγους ήχους που πλένονται στην ομιλία αντί για λόγια. Τοποθετήστε μια ετικέτα όπου θέλετε την αντίδραση - για παράδειγμα "[S1] Αυτό είναι ξεκαρδιστικό [γέλια]" - για να κάνει τον διάλογο να αισθάνεται πιο ανθρώπινος.

Τόσο η Dia όσο και ο Bark υποστηρίζουν εκφραστικούς μη λεκτικούς ήχους, αλλά η Dia είναι χτισμένος σκοπός για διάλογο πολλών ηχείων με [S1]/[S2] κλωνοποίηση turn-taking και φωνή. Επιλέξτε Dia για ρεαλιστικές συζητήσεις δύο ατόμων και εργασία χαρακτήρα; Bark είναι μια καλύτερη εφαρμογή όταν χρειάζεστε ευρύτερη γλωσσική κάλυψη σε μονόφωνη αφήγηση.

Η Dia είναι ένας υπερ-βαθμός κινητήρας, έτσι κοστίζει 50 μονάδες ανά 1.000 χαρακτήρες της δημιουργημένης ομιλίας. Η υπερβαθμίδα αντανακλά το μεγαλύτερο 1,6B μοντέλο και το ~10GB της μνήμης GPU που χρησιμοποιεί για διάλογο υψηλής ποιότητας.

Ναι. Οι νέοι TextToSpeechAI λογαριασμοί περιλαμβάνουν δωρεάν μονάδες εκκίνησης, και υπάρχει ένα demo που μπορείτε να τρέξετε χωρίς να εγγραφείτε. Αυτό αρκεί για να δημιουργήσετε ένα σύντομο διάλογο Dia με [S1]/[S2] ετικέτες πριν αποφασίσετε για ένα πληρωμένο σχέδιο.

Ναι. Μόλις έχετε ένα σύμβολο API από τη σελίδα του λογαριασμού σας μπορείτε να υποβάλετε τα σενάρια διαλόγου Dia - συμπεριλαμβανομένων [S1]/[S2] στροφές και ετικέτες όπως [γέλια] - στο TextToSpeechAI REST API και να κατεβάσετε τα προκύπτοντα προγράμματα ήχου.

Technical Specs

  • Generation Speed Medium
  • Output Quality Excellent
  • Voice Cloning Supported
  • Languages 1
  • GPU VRAM 10GB
  • Credits/1000 chars 50

Try ΝτίαCity name (optional, probably does not need a translation) Now

Generate your first audio free. No credit card required.

Start Free