OpenVoice

Ultra

Clonazione della voce istantanea con controllo granulare del tono

Moderate Velocità
Very Good Qualità
Clonazione
10 Lingue

Informazioni OpenVoice

OpenVoice è un versatile modello di clonazione vocale istantanea che permette un controllo finemente deciso sullo stile parlante. A differenza di altri modelli di clonazione, OpenVoice separa l'identità vocale dallo stile parlante, permettendovi di prendere una voce clonata e applicare toni diversi - allegri, tristi, arrabbiati, eccitati o bisbiglianti - senza un nuovo audio di riferimento.

Caratteristiche chiave

Clonazione istantanea

Clona qualsiasi voce da pochi secondi di audio.

Controllo tono

Applicare toni allegri, tristi, arrabbiati, eccitati o sussurri.

Trasferimento stile

Identità vocale separata dallo stile parlante per flessibilità.

Traslitterazione

Usa voci clonate in diverse lingue.

Elaborazione rapida

Inferenza efficiente per una rapida generazione di voce.

Open Source

MIT autorizzato per applicazioni commerciali.

Casi di utilizzo

Contenuto emotivo Animazione del carattere Giochi interattivi Narrazione audiolibro Video di marketing Assistenti virtuali

Come usare OpenVoice

  1. 1

    Iscriviti gratis o prova la demo

    Crea un account gratuito di TextToSpeechAI per ottenere crediti di avviamento, o utilizzare la demo on-page per ascoltare OpenVoice prima di commettere. Non è necessaria GPU locale o installazione - tutto funziona sui nostri server.

  2. 2

    Scegliere OpenVoice e caricare un clip di riferimento

    Selezionare il motore OpenVoice, quindi caricare alcuni secondi di audio di riferimento pulito per clonare istantaneamente la voce di destinazione. OpenVoice cattura l'identità dell'altoparlante in modo da poterlo riutilizzare su qualsiasi testo e tono.

  3. 3

    Inserisci il tuo testo

    Digitare o incollare lo script che si desidera parlare nella voce clonata. OpenVoice supporta circa 10 lingue e la consegna in lingua trasversale, in modo da poter scrivere in una lingua diversa rispetto al clip di riferimento.

  4. 4

    Scegli uno stile tono e genera

    Scegli uno dei nove stili di tono OpenVoice - default, amichevole, allegro, eccitato, triste, arrabbiato, terrorizzato, gridando, o sussurrando - poi generare. La stessa voce clonata parlerà con quella consegna emotiva.

  5. 5

    Scarica o utilizza l'API

    Scarica il tuo audio come MP3, WAV, o OGG, o automatizzare la generazione attraverso le TextToSpeechAI API passando la vostra voce clonata e stile tono in ogni richiesta.

OpenVoice API

Generare la parola programmaticamente usando l'API TextToSpeechAI REST.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "OpenVoice può parlare in qualsiasi tono \u002D allegro, triste, o anche sussurrando.",
    "voice": "en_US-lessac-medium"
  }'

Domande frequenti

OpenVoice è un modello avanzato di clonazione vocale e testuale che separa in modo univoco l'identità vocale dallo stile parlante. Questo consente di clonare una voce e poi applicare diversi toni emotivi senza bisogno di nuovi audio di riferimento per ogni emozione. È costruito per una generazione espressiva e controllabile del linguaggio.

Sì, OpenVoice esegue la clonazione istantanea della voce da pochi secondi di audio di riferimento - nessuna esecuzione di allenamento richiesto. Una volta che una voce è catturata, OpenVoice può riutilizzare tale identità in qualsiasi testo e qualsiasi stile tono si seleziona.

OpenVoice utilizza un'architettura a due stadi che divide la sintesi vocale base dalla conversione del tono. Dopo aver clonato una voce, è possibile applicare uno qualsiasi dei 9 stili di tono - default, amichevole, allegro, eccitato, triste, arrabbiato, terrorizzato, gridando, o sussurrando - e la stessa voce clonata parla in modo diverso in base al tono scelto senza riregistrare.

OpenVoice supporta nove stili di conversazione: default, amichevole, allegro, emozionato, triste, arrabbiato, terrorizzato, gridando e sussurrando. Ogni stile rimodella la consegna emotiva pur preservando l'identità del diffusore clonato, dandovi un controllo finemente deciso su come si legge una linea.

OpenVoice è open-source sotto la licenza MIT permissiva, quindi è gratuito per uso commerciale. Come per qualsiasi modello di clonazione, assicurati di avere diritti adeguati a qualsiasi voce clonate per progetti commerciali.

OpenVoice supporta circa 10 lingue tra cui inglese, cinese, giapponese, coreano e diverse lingue europee. Offre anche clonazione multilingue, in modo da poter clonare una voce in una lingua e farlo parlare naturalmente in un'altra.

OpenVoice ha una velocità di generazione moderata, tipicamente rendendo una frase in 2-4 secondi su una GPU. La qualità di uscita è molto buona, con una riproduzione chiara della voce e il trasferimento del tono che mantiene l'identità dell'altoparlante intatto, cambiando in modo convincente la consegna emotiva.

OpenVoice richiede tipicamente 6-8GB di VRAM a seconda delle dimensioni del batch e del carico di conversione del tono. E' comodamente eseguito su GPU di fascia media o media superiore, e su TextToSpeechAI tutto questo viene gestito sui nostri server in modo da non aver bisogno di hardware locale.

OpenVoice è un motore Ultra-tier, con un prezzo di 50 crediti per 1000 caratteri. Il livello Ultra riflette il suo controllo tonico avanzato e il calcolo extra necessario per la clonazione più stile-conversione pipeline.

OpenVoice è unica per il suo controllo del tono e dello stile: puoi prendere una voce clonata e ri-consegnarla come allegra, triste, arrabbiata o sussurrante. F5-TTS è più veloce ed è il nostro motore di clonazione predefinito per la parola naturale e neutra. Scegli OpenVoice quando hai bisogno di controllo dello stile emotivo e F5-TTS quando vuoi il clone naturale più veloce.

Creare una voce clonata caricando audio di riferimento, quindi specificare uno stile di tono nella richiesta API. L'API applica automaticamente il tono emotivo scelto alla voce clonata e restituisce l'audio in formato MP3, WAV o OGG.

Sì. Iscriviti per un account gratuito TextToSpeechAI per ricevere crediti di avvio e provare OpenVoice cloning e controllo del tono, o utilizzare la demo di pagina prima. Non c'è alcuna configurazione locale - caricare un clip di riferimento, scegliere un tono, e generare nel browser.

Technical Specs

  • Generation Speed Moderate
  • Output Quality Very Good
  • Voice Cloning Supported
  • Languages 10
  • GPU VRAM 3-6GB
  • Credits/1000 chars 50

Try OpenVoice Now

Generate your first audio free. No credit card required.

Start Free