OpenVoice

Ultra

Clonagem instantânea de voz com controle de tons granulares

Moderate Velocidade
Very Good Qualidade
Sim Enchimento
10 Línguas

Sobre OpenVoice

O OpenVoice é um modelo de clonagem instantânea versátil que permite o controle de brilho fino sobre o estilo de fala. Ao contrário de outros modelos de clonagem, o OpenVoice separa a identidade de voz do estilo de fala, permitindo que você tome uma voz clonada e aplique diferentes tons - alegres, tristes, zangados, excitados ou sussurros - sem novo áudio de referência.

Características-chave

Enchimento Instantâneo

Clone qualquer voz de apenas alguns segundos de áudio.

Controlo de tons

Aplicar tons alegres, tristes, zangados, animados ou sussurros.

Transferência de Estilo

Identidade de voz separada do estilo de fala para flexibilidade.

Lingüais cruzados

Use vozes clonadas em diferentes idiomas.

Processamento Rápido

Inferência eficiente para a geração rápida de voz.

Fonte Aberta

MIT licenciado para aplicações comerciais.

Casos de utilização

Conteúdo emocional Animação de Personagens Jogos Interativos Narração de Áudiobook Vídeos de Marketing Assistentes Virtuais

Como Utilizar OpenVoice

  1. 1

    Inscreva-se gratuitamente ou tente a demo

    Crie uma conta TextToSpeechAI gratuita para obter créditos de arranque, ou use a demo na página para ouvir OpenVoice antes de cometer. Não é necessário GPU local ou instalação - tudo funciona em nossos servidores.

  2. 2

    Escolha OpenVoice e upload um clipe de referência

    Selecione o motor OpenVoice, então envie alguns segundos de áudio de referência limpo para clonar instantaneamente a voz alvo. OpenVoice captura a identidade do alto-falante para que você possa reutiliza-lo em qualquer texto e tom.

  3. 3

    Insira o seu texto

    Digite ou cole o script que você quer falado na voz clonada. OpenVoice suporta cerca de 10 idiomas e entregas translingües, para que você possa escrever em uma língua diferente do clipe de referência.

  4. 4

    Escolha um estilo de tom e gerar

    Escolha um dos nove estilos de tom OpenVoice - padrão, amigável, alegre, excitado, triste, zangado, aterrorizado, gritando ou sussurro - então gerar. A mesma voz clonada falará com essa entrega emocional.

  5. 5

    Baixe ou use a API

    Baixe o seu áudio como MP3, WAV, ou OGG, ou automatize a geração através da API TextToSpeechAI passando seu estilo de voz e tom clonado em cada pedido.

OpenVoice API

Gerar a fala programática usando a API TextToSpeechAI REST.

curl -X POST "https://api.texttospeechai.com/v1/generate/" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "OpenVoice pode falar em qualquer tom \u002D alegre, triste, ou até mesmo sussurro.",
    "voice": "en_US-lessac-medium"
  }'

Perguntas Frequentes

O OpenVoice é um modelo avançado de clonagem de texto a voz que separa de modo único a identidade de voz do estilo de fala. Isso permite que você clone uma voz e depois aplique diferentes tons emocionais sem precisar de novo áudio de referência para cada emoção. É construído para geração expressiva e controlada de fala.

Sim, OpenVoice executa clonagem de voz instantânea a partir de apenas alguns segundos de áudio de referência - nenhum treino necessário. Uma vez capturada uma voz, OpenVoice pode reutilizar essa identidade em qualquer texto e qualquer estilo de tom que você selecione.

O OpenVoice usa uma arquitetura de dois estágios que divide a síntese de fala base da conversão de tom. Depois de clonar uma voz, você pode aplicar qualquer um dos 9 estilos de tom - padrão, amigável, alegre, excitado, triste, zangado, aterrorizado, gritando ou sussurro - e a mesma voz clonada fala diferentemente com base no seu tom escolhido sem re-gravar.

O OpenVoice suporta nove estilos de fala: padrão, amigável, alegre, excitado, triste, zangado, aterrorizado, gritando e sussurro. Cada estilo remodela a entrega emocional ao preservar a identidade clonada de alto-falante, dando-lhe um controle fino sobre como uma linha é lida.

O OpenVoice é open-source sob a licença permissiva MIT, por isso é gratuito para uso comercial. Como com qualquer modelo de clonagem, certifique-se de que você tem direitos a qualquer voz que você clone para projetos comerciais.

O OpenVoice suporta cerca de 10 idiomas, incluindo inglês, chinês, japonês, coreano e várias línguas europeias. Também oferece clonagem translingüe, para que você possa clonar uma voz em uma língua e que ele fale naturalmente em outra.

A OpenVoice tem velocidade moderada de geração, tipicamente tornando uma frase em 2-4 segundos em uma GPU. Qualidade de saída é muito boa, com reprodução de voz clara e transferência de tom que mantém a identidade do alto-falante intacta, ao mesmo tempo que altera convincentemente a entrega emocional.

O OpenVoice geralmente requer 6-8GB de VRAM dependendo do tamanho do lote e da carga de conversão do tom. Ele funciona confortavelmente em intervalo médio a alto GPUs de alcance médio, e em TextToSpeechAI tudo isso é manuseado em nossos servidores, de modo que você não precisa de hardware local.

O OpenVoice é um motor ultra-tíner, preço a 50 créditos por 1000 caracteres. O nível Ultra reflete o seu controle de tom avançado e o cálculo extra necessário para o pipeline de clonagem mais estilo-conversão.

O OpenVoice é único para o seu tom e controle de estilo: você pode tomar uma voz clonada e re-entregá-la como alegre, triste, zangado ou sussurro. F5-TTS é mais rápido e é o nosso motor de clonagem padrão para a fala natural e neutra. Escolha OpenVoice quando você precisa de controle de estilo emocional e F5-TTS quando você quer o clone natural mais rápido.

Crie uma voz clonada uploading de áudio de referência, em seguida, especifique um estilo de tom no seu pedido API. A API aplica o tom emocional escolhido à voz clonada automaticamente e retorna o áudio em formato MP3, WAV, ou OGG.

Sim. Inscreva-se para uma conta TextToSpeechAI gratuita para receber créditos de início e tente a clonagem OpenVoice e controle de tom, ou use a demo na página primeiro. Não há configuração local - upload de um clipe de referência, escolha um tom e gera no navegador.

Technical Specs

  • Generation Speed Moderate
  • Output Quality Very Good
  • Voice Cloning Supported
  • Languages 10
  • GPU VRAM 3-6GB
  • Credits/1000 chars 50

Try OpenVoice Now

Generate your first audio free. No credit card required.

Start Free