TTS tascabile

Standard

Clonazione vocale ultraleggera che gira in tempo reale sulla CPU

Very Fast Velocità
Good Qualità
Clonazione
2 Lingue

Informazioni TTS tascabile

Pocket TTS di Kyutai è un modello ultraleggero da 100M con parametro testo a bocca che gira in tempo reale sulla CPU. Nonostante le sue dimensioni ridotte, supporta la clonazione vocale da soli 5 secondi di audio di riferimento. Perfetto per la distribuzione di bordo, applicazioni mobili e scenari in cui le risorse della GPU sono limitate. Attualmente supporta l'inglese e il francese.

Caratteristiche chiave

Ultra-Lightweight

100M parametri - esegue in tempo reale sulla CPU con risorse minime.

Clonazione vocale

Clona qualsiasi voce da soli 5 secondi di audio di riferimento, anche sulla CPU.

Tempo reale sulla CPU

Non è richiesta alcuna GPU. Genera la parola alla velocità in tempo reale sull'hardware standard.

Pronti per il bordo

Abbastanza piccolo per i dispositivi mobili, Raspberry Pi, e sistemi incorporati.

Casi di utilizzo

Implementazione di bordi e dispositivi mobili Assistenti vocali in tempo reale sulla CPU IoT e dispositivi incorporati Clonazione vocale a bassa risorsa

Come usare TTS tascabile

  1. 1

    Iscriviti gratis o prova la demo

    Crea un account gratuito TextToSpeechAI per ricevere crediti di avviamento, o utilizzare la demo in loco per ascoltare Pocket TTS prima di iscriversi. Non è necessaria alcuna GPU o installazione locale.

  2. 2

    Selezionare Pocket TTS e aggiungere una voce al clone

    Scegliere Pocket TTS come motore, quindi caricare un breve clip di riferimento di circa 5-10 secondi per clonare quella voce. Pocket TTS funziona interamente su CPU, quindi la clonazione è veloce e leggera.

  3. 3

    Inserisci il tuo testo

    Digitare o incollare il testo inglese o francese che si desidera parlare. Tenere d'occhio il conteggio dei caratteri, dal Pocket TTS bollette al tasso standard di 10 crediti per 1.000 caratteri.

  4. 4

    Genera l'audio

    Cliccare su genera e Pocket TTS sintetizza il testo nella voce clonata a velocità in tempo reale. La maggior parte dei clip sono pronti in pochi secondi perché il modello è così piccolo ed efficiente.

  5. 5

    Scarica o utilizza l'API

    Scarica l'audio finito o automatizza la generazione tramite le TextToSpeechAI API REST su api.textospeechai.com utilizzando il token del tuo account. L'API espone la stessa clonazione e sintesi Pocket TTS per le tue applicazioni.

TTS tascabile API

Generare la parola programmaticamente usando l'API TextToSpeechAI REST.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Pocket TTS offre la clonazione vocale che funziona in tempo reale, anche sulla CPU.",
    "voice": "en_US-lessac-medium"
  }'

Domande frequenti

Pocket TTS è un modello ultraleggero da testo a parola di Kyutai con solo 100 milioni di parametri. E' eseguito in tempo reale sulla CPU e supporta la clonazione vocale da 5 secondi di audio.

Il TTS tascabile è concesso in licenza sotto CC-BY-4.0, che permette l'uso commerciale con attribuzione. È necessario accreditare Kyutai quando lo si utilizza in applicazioni commerciali.

Attualmente Pocket TTS supporta l'inglese e il francese. Altre lingue possono essere aggiunte nelle versioni future.

Sì! Con solo 100M parametri, Pocket TTS funziona a velocità in tempo reale sull'hardware standard della CPU. Non è necessaria alcuna GPU, che lo rende ideale per applicazioni edge e mobile.

Entrambi sono leggeri e funzionano bene sulla CPU. Pocket TTS supporta in modo univoco la clonazione vocale (Kokoro non). Kokoro supporta più lingue (9 vs 2). Scegli Pocket TTS se hai bisogno di clonazione vocale leggera, Kokoro se hai bisogno di più copertura linguistica.

Fornisce 5 secondi di audio di riferimento. Il Tasca TTS estrae le caratteristiche dell'altoparlante e può generare nuovi discorsi in quella voce. La qualità migliora con riferimenti più lunghi (fino a 10 secondi).

Sì. A differenza della maggior parte dei modelli di clonazione che richiedono una GPU, Pocket TTS esegue la clonazione vocale a zero colpi interamente sulla CPU grazie alla sua minuscola impronta di 100M-parametro. È possibile clonare una voce da un breve clip anche su un computer portatile o un singolo computer.

Pocket TTS è rilasciato sotto CC-BY-4.0, quindi è necessario accreditare Kyutai come creatore originale quando si utilizza o ridistribuire. Una semplice attribuzione come "Voice generato con Pocket TTS da Kyutai" soddisfa la licenza per uso commerciale e non commerciale.

Pocket TTS genera discorso in tempo reale o più veloce su una CPU standard, senza bisogno di GPU. Questo lo rende uno dei motori più reattivi per casi di utilizzo a bassa latenza come assistenti vocali dal vivo e generazione di dispositivi.

Il TTS tascabile è nella fascia di prezzo standard, costa 10 crediti per 1.000 caratteri. Questo lo rende una delle opzioni di chiusura vocale più economiche disponibili su TextToSpeechAI.

Entrambi sono leggeri, CPU-friendly, standard-tier motori. Scegli Pocket TTS quando avete bisogno di clonazione vocale, dal momento che Kokoro non lo supporta. Scegli Kokoro quando avete bisogno di una copertura più ampia lingua e non è necessario clonare una voce specifica.

Sì. I nuovi TextToSpeechAI account ricevono crediti di avviamento gratuiti e la demo in loco ti permette di ascoltare Pocket TTS prima di commit. Iscriviti gratis, carica un breve clip di riferimento e genera parole clonate in pochi secondi.

Technical Specs

  • Generation Speed Very Fast
  • Output Quality Good
  • Voice Cloning Supported
  • Languages 2
  • GPU VRAM CPU OK
  • Credits/1000 chars 10

Try TTS tascabile Now

Generate your first audio free. No credit card required.

Start Free