Kokoro

Standard

Fálger-rápido, TTS leve com qualidade natural

Very Fast Velocidade
Good Qualidade
Não Enchimento
9 Línguas

Sobre Kokoro

Kokoro é um parâmetro de peso ultra leve modelo TTS 82M que oferece fala natural a uma velocidade incrível. Ele funciona quase em tempo real mesmo na CPU, tornando-o ideal para aplicações onde a latência baixa é crítica. Kokoro suporta múltiplos idiomas e oferece capacidades de mistura de voz.

Características-chave

Peso ultra-luz

Parâmetros 82M, tamanho do modelo ~300MB. Execução na CPU com recursos mínimos.

Perto do tempo real

Gera a fala mais rápido do que a velocidade de reprodução, mesmo sem aceleração GPU.

Multi-Língua

Apoia inglês, francês, espanhol, hindi, japonês, chinês, italiano, português e coreano.

Mistura de voz

Misture duas vozes para criar combinações de voz únicas.

Casos de utilização

Chatbots em tempo real e assistentes virtuais Transmissão ao vivo de texto para voz Implementação de bordas e aplicações móveis Processamento de lotes de alto volume

Como Utilizar Kokoro

  1. 1

    Inscreva-se gratuitamente ou tente a demo

    Crie uma conta TextToSpeechAI gratuita para obter 200 créditos de início, ou use a demo de não assinatura para ouvir Kokoro instantaneamente. A camada padrão significa que Kokoro custa apenas 10 créditos por 1000 caracteres.

  2. 2

    Escolha uma voz de Kokoro

    Abra o navegador de voz e selecione uma voz Kokoro na sua língua-alvo (9 suportadas, do inglês ao japonês e ao coreano). Você também pode usar a mistura de voz Kokoro para misturar duas vozes numa combinação personalizada.

  3. 3

    Insira o seu texto

    Digite ou cole o texto que você quer falar no editor. Kokoro maneja passagens longas eficientemente graças ao seu leve parametro 82M, quase em tempo real.

  4. 4

    Ajustar a velocidade e gerar

    Definir a velocidade de reprodução para se ajustar ao seu caso de uso, e então clique em Gerar. Kokoro rende áudio mais rápido do que em tempo real, por isso sua fala está pronta quase imediatamente.

  5. 5

    Baixe ou use a API

    Baixe o áudio acabado como MP3 ou WAV, ou automatize a geração através da TextToSpeechAI REST API em api.texttospeechai.com para cargas de trabalho em lote e em tempo real.

Kokoro API

Gerar a fala programática usando a API TextToSpeechAI REST.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Kokoro oferece fala natural com velocidade e eficiência incríveis.",
    "voice": "en_US-lessac-medium"
  }'

Perguntas Frequentes

O Kokoro é um modelo de texto-a-speech ultra-luz com apenas 82 milhões de parâmetros. Apesar de seu pequeno tamanho, produz fala natural-sonante em várias línguas em quase velocidade em tempo real, mesmo na CPU.

Sim, o Kokoro é totalmente licenciado Apache 2.0 - tanto código como modelos de pesos. Pode ser utilizado livremente em aplicações comerciais sem restrições.

Kokoro suporta inglês (EUA e inglês), francês, espanhol, hindi, japonês, chinês, italiano, português e coreano.

O Kokoro é um dos modelos TTS mais rápidos disponíveis. Ele gera voz mais rápida do que a velocidade de reprodução em tempo real mesmo na CPU, tornando-a ideal para aplicações interativas.

Não, Kokoro não suporta clonagem de voz. Usa uma biblioteca de voz curada com capacidades de mistura de voz. Para clonagem de voz, use F5-TTS, Chatterbox, StyleTTS2, OpenVoice ou Tortoise.

O Kokoro pode misturar duas vozes para criar combinações únicas. Isso permite criar características de voz personalizadas sem clonagem de voz tradicional.

Ambos são modelos rápidos e leves. Kokoro tem uma arquitetura mais moderna e suporta a mistura de voz, enquanto Piper tem uma biblioteca de voz maior. Ambos são excelentes para aplicações em tempo real.

O Kokoro é projetado para funcionar na CPU e requer recursos mínimos - aproximadamente 300MB. Não é necessário GPU, embora a aceleração GPU seja suportada para processamento ainda mais rápido.

Sim. Kokoro gera fala mais rápido do que a reprodução mesmo na CPU, com muito baixa latência, por isso é um excelente ajuste para chatbots, assistentes de voz e streaming ao vivo. Seu tamanho de 82M-parametro mantém a memória uso minúsculo, tornando-o prático para implantações de alto volume e borda.

A mistura de voz permite que você misture duas vozes Kokoro juntas para criar uma combinação única com características personalizadas. Não é clonagem de voz tradicional - você não pode reproduzir uma pessoa específica de uma amostra - mas dá mais variedade do que uma biblioteca de voz fixa. Você pode experimentar com misturas diretamente no editor TextToSpeechAI.

Ambos são motores rápidos e de nível padrão de CPU sem clonagem de voz. Kokoro é o mais leve (cerca de 300MB) e suporta a mistura de voz em 9 idiomas, enquanto MeloTTS se concentra em múltiplos acentos ingleses e saída multilingue em tempo real. Escolha Kokoro para a menor pegada e mistura; escolha MeloTTS quando você precisa de acentos específicos.

Kokoro é um motor de nível padrão, custando 10 créditos por 1000 caracteres - a menor nível em TextToSpeechAI. Novas contas recebem 200 créditos gratuitos, para que você possa tentar Kokoro sem pagar. Isto torna-o uma das maneiras mais econômicas de gerar fala de alta qualidade em escala.

Technical Specs

  • Generation Speed Very Fast
  • Output Quality Good
  • Voice Cloning Not Supported
  • Languages 9
  • GPU VRAM CPU OK
  • Credits/1000 chars 10

Try Kokoro Now

Generate your first audio free. No credit card required.

Start Free