Pocket TTS

Standard

clonagem de voz ultra-peso leve que funciona em tempo real na CPU

Very Fast Velocidade
Good Qualidade
Sim Enchimento
2 Línguas

Sobre Pocket TTS

Pocket TTS by Kyutai é um modelo de texto a voz de 100M ultra-luz que funciona em tempo real na CPU. Apesar do seu pequeno tamanho, suporta a clonagem de voz a partir de apenas 5 segundos de áudio de referência. Perfeito para a implantação de bordas, aplicações móveis e cenários onde os recursos da GPU são limitados. Atualmente suporta inglês e francês.

Características-chave

Peso ultra-luz

Parâmetros 100M - executa em tempo real na CPU com recursos mínimos.

Clonagem Voz

Clone qualquer voz a partir de apenas 5 segundos de áudio de referência, mesmo na CPU.

Tempo real na CPU

Não é necessário GPU. Gera fala em tempo real em hardware padrão.

Edge- Ready

Pequeno o suficiente para dispositivos móveis, Raspberry Pi e sistemas incorporados.

Casos de utilização

Eixo e implantação móvel Assistentes de voz em tempo real na CPU Dispositivos de iotização e dispositivos incorporados Clonagem de voz de baixa fonte

Como Utilizar Pocket TTS

  1. 1

    Inscreva-se gratuitamente ou tente a demo

    Crie uma conta TextToSpeechAI gratuita para receber créditos de arranque, ou use a demo no local para ouvir o Pocket TTS antes de se inscrever. Não é necessário instalar GPU ou local.

  2. 2

    Selecione Pocket TTS e adicione uma voz ao clone

    Escolha Pocket TTS como seu motor, então carregue um pequeno clipe de referência de cerca de 5 a 10 segundos para clonar essa voz. Pocket TTS funciona inteiramente na CPU, então clonar é rápido e leve.

  3. 3

    Insira o seu texto

    Digite ou cole o texto inglês ou francês que você deseja falar. Mantenha um olho na contagem de caracteres, já que Bills de TTS Pocket à taxa padrão de 10 créditos por 1.000 caracteres.

  4. 4

    Gerar o áudio

    Clique em gerar e Pocket TTS sintetizar o seu texto na voz clonada à velocidade em tempo real. A maioria dos clipes estão prontos em segundos porque o modelo é tão pequeno e eficiente em CPU.

  5. 5

    Baixe ou use a API

    Baixe a geração de áudio finalizada ou automatize através da API TextToSpeechAI REST em api.texttospeechai.com usando o token da sua conta. A API expõe a mesma clonagem e síntese do Pocket TTS para seus próprios aplicativos.

Pocket TTS API

Gerar a fala programática usando a API TextToSpeechAI REST.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Pocket TTS oferece clonagem de voz que funciona em tempo real, mesmo na CPU.",
    "voice": "en_US-lessac-medium"
  }'

Perguntas Frequentes

Pocket TTS é um modelo de texto ultra-luz para espeech de Kyutai com apenas 100 milhões de parâmetros. Ele funciona em tempo real na CPU e suporta clonagem de voz a partir de 5 segundos de áudio.

O Pocket TTS está licenciado sob CC-BY-4.0, que permite o uso comercial com atribuição. Você deve acreditar Kyutai quando o utiliza em aplicações comerciais.

Atualmente, Pocket TTS suporta inglês e francês. Mais idiomas podem ser adicionados em futuros lançamentos.

Sim! Com apenas os parâmetros de 100M, o Pocket TTS funciona em tempo real no hardware da CPU padrão. Não é necessário GPU, tornando-o ideal para a implantação de bordas e aplicações móveis.

Ambos são leves e correm bem na CPU. Pocket TTS suporta únicamente clonagem de voz (Kokoro não). Kokoro suporta mais idiomas (9 vs 2). Escolha Pocket TTS se você precisar clonagem de voz leve, Kokoro se você precisar mais cobertura de idioma.

Forneça 5 segundos de áudio de referência. Extrai extraições de TTS de botão características de alto-falante e pode gerar nova fala nessa voz. A qualidade melhora com referências mais longas (até 10 segundos).

Sim. Ao contrário da maioria dos modelos de clonagem que requerem uma GPU, o Pocket TTS realiza clonagem de voz zero-hot inteiramente na CPU graças à sua pequena pegada de 100M-parametro. Você pode clonar uma voz a partir de um clipe curto mesmo em um computador portátil ou de uma única placa.

Pocket TTS é lançado sob CC-BY-4.0, por isso você deve acreditar Kyutai como o criador original quando você o usa ou redistribui. Uma simples atribuição como "Voice gerado com Pocket TTS por Kyutai" satisfaz a licença para uso comercial e não comercial.

O Pocket TTS gera fala em tempo real ou mais rápido em uma CPU padrão, sem necessidade de GPU. Isso torna-o um dos motores mais responsivos para casos de uso de baixa latência como assistentes de voz ao vivo e geração de dispositivos.

Pocket TTS está na nível de preços padrão, custou 10 créditos por 1.000 caracteres. Isso torna-o uma das opções de fechamento vocal mais econômicas disponíveis em TextToSpeechAI.

Ambos são motores leves, de fácil CPU, de nível padrão. Escolha Pocket TTS quando você precisa clonar voz, já que Kokoro não o suporta. Escolha Kokoro quando você precisa de uma cobertura mais ampla da linguagem e não precisa clonar uma voz específica.

Sim. Novas contas TextToSpeechAI recebem créditos de início gratuito, e a demo no local permite que você ouça o Pocket TTS antes de cometer. Cadastre-se gratuitamente, carregue um curto clipe de referência e genere a fala clonada em segundos.

Technical Specs

  • Generation Speed Very Fast
  • Output Quality Good
  • Voice Cloning Supported
  • Languages 2
  • GPU VRAM CPU OK
  • Credits/1000 chars 10

Try Pocket TTS Now

Generate your first audio free. No credit card required.

Start Free