VITS

Standard

TTS veloce end-to-end con discorso naturale

Very Fast Velocità
Good Qualità
No. Clonazione
10 Lingue

Informazioni VITS

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) è un modello TTS neurale veloce ed end-to-end che genera un linguaggio naturale. Combina autoencoder varianti con un addestramento adversarial per una sintesi efficiente. VITS è eccellente per l'elaborazione in batch e applicazioni che richiedono sia qualità che velocità.

Caratteristiche chiave

Sintesi rapida

Architettura end-to-end per la generazione rapida del discorso.

Elaborazione lotti

Elaborare efficacemente più testi contemporaneamente.

Discorso naturale

L'allenamento VAE+GAN produce prosodia e ritmo naturali.

Multi-speaker

Il modello singolo supporta più voci di altoparlanti.

Efficiente

Basso ingombro di memoria con buone prestazioni.

Open Source

MIT autorizzato per qualsiasi caso d'uso.

Casi di utilizzo

Generazione audio batch Piattaforme di apprendimento elettronico Lettori di notizie Avvisi automatizzati Sistemi IVR Contenuto ad alto volume

VITS Voices

View All 109
LJSpeech (English Female)
EN
VCTK Speaker 225 (English Female)
EN
VCTK Speaker 226 (English Male)
EN
VCTK Speaker 227 (English Male)
EN
VCTK Speaker 228 (English Female)
EN
VCTK Speaker 229
EN
VCTK Speaker 230
EN
VCTK Speaker 231
EN
VCTK Speaker 232
EN
VCTK Speaker 233
EN
VCTK Speaker 234
EN
VCTK Speaker 236
EN

Come usare VITS

  1. 1

    Iscriviti gratis o prova la demo

    Crea un account gratuito TextToSpeechAI per ottenere crediti di avviamento, o usa la demo in-page per ascoltare VITS prima di iscriversi.

  2. 2

    Scegli una voce o un altoparlante VITS

    Sfoglia la libreria vocale e scegli una voce contrassegnata con il badge VITS. La libreria VITS multi-altoparlante, incluso il set di altoparlanti VCTK, consente di selezionare tra molte voci distinte.

  3. 3

    Inserisci il tuo testo

    Digitare o incollare il testo che si desidera parlato nell'editor. VITS gestisce passaggi lunghi bene ed è ideale per i contenuti batch e ad alto volume.

  4. 4

    Genera l'audio

    Cliccare su generare per sintetizzare il discorso con VITS. Poiché VITS è molto veloce e Standard-tier (10 crediti per 1000 caratteri), i risultati ritornano rapidamente a basso costo.

  5. 5

    Scarica o utilizza l'API

    Scarica l'audio finito come MP3, WAV, o OGG, o chiama la stessa voce VITS attraverso l'API TextToSpeechAI REST per automatizzare la generazione nella propria applicazione.

VITS API

Generare la parola programmaticamente usando l'API TextToSpeechAI REST.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "VITS offre un discorso veloce e naturale per applicazioni ad alto volume.",
    "voice": "vits-ljspeech"
  }'

Domande frequenti

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) è un modello TTS neurale end-to-end che combina un autoencoder variantele con un'allenamento GAN adversarial. Genera un discorso naturale in un unico passaggio, che lo rende veloce ed efficiente. È possibile provare VITS gratuitamente su TextToSpeechAI.

Sì, VITS è open-source sotto la licenza MIT, quindi supporta l'uso commerciale completo senza restrizioni. È ampiamente utilizzato in prodotti e servizi commerciali. Su TextToSpeechAI, VITS costa 10 crediti per 1000 caratteri sul livello Standard.

TextToSpeechAI offre una grande libreria VITS multi-altoparlante, tra cui il VCTK voice set con decine di diffusori distinti in inglese. Un singolo modello VITS può ospitare molti altoparlanti, in modo da poter scegliere tra molte voci diverse senza cambiare motore.

Il supporto VITS dipende dal modello formato. I modelli VITS comuni coprono l'inglese, il cinese, il giapponese, il coreano, il tedesco, il francese e altre lingue importanti, con copertura multi-altoparlante dell'inglese dal set di dati VCTK.

VITS è molto veloce, generando discorsi in tempo reale o più velocemente su una GPU. La sua architettura end-to-end evita le fasi di elaborazione multiple di altri modelli, motivo per cui VITS è adatto alla sintesi batch e ad alto volume.

No, VITS non supporta la clonazione vocale. Usa modelli multi-altoparlanti pre-allenati piuttosto che copiare una voce target da un campione. Per la clonazione vocale su TextToSpeechAI, usa invece F5-TTS o GPT-SoVITS.

VITS produce audio di buona qualità con prosodia e ritmo naturali. Pur non essendo al livello di StyleTTS 2 o Tortoise, offre un'eccellente qualità per la sua velocità, soprattutto per l'elaborazione in batch.

VITS è efficiente in memoria, richiedendo in genere solo pochi GB di VRAM (circa 4GB). E' gestito comodamente sulle GPU di consumo, e su TextToSpeechAI tutti i rendering avviene sui nostri server in modo da non aver bisogno di hardware propri.

VITS e Piper sono entrambi veloci, MIT-licensed Standard-tier motori TextToSpeechAI. Piper è l'opzione più leggera e veloce, mentre VITS offre una grande libreria multi-altoparlanti (incluso VCTK) con prosodia leggermente più naturale. Né supporta la clonazione vocale.

VITS è un motore standard, che costa 10 crediti per 1000 caratteri. Questo è il nostro livello di prezzo più basso grazie alla natura efficiente e veloce del modello VITS.

VITS genera audio a 22050Hz nativamente. Attraverso TextToSpeechAI è possibile richiedere formati MP3, WAV o OGG, con conversione automatica gestita per voi.

Iscriviti a TextToSpeechAI per ricevere crediti di avviamento gratuiti, poi scegli una voce VITS, inserisci il tuo testo e genera audio. Puoi anche usare la demo per ascoltare VITS prima di creare un account e accedere a VITS tramite la nostra API REST una volta che ti iscrivi.

Technical Specs

  • Generation Speed Very Fast
  • Output Quality Good
  • Voice Cloning Not Supported
  • Languages 10
  • GPU VRAM 1-2GB
  • Credits/1000 chars 10

Try VITS Now

Generate your first audio free. No credit card required.

Start Free