Os criadores do ChatGPT têm outra ferramenta que visa tirar o peso de seus dedos.
As mesmas pessoas por trás do ChatGPT criaram outra ferramenta baseada em IA que você pode usar hoje para aumentar sua produtividade. Estamos nos referindo ao Whisper, uma solução de voz para texto que eclipsou todas as soluções semelhantes anteriores.
Você pode usar o Whisper em seus programas ou na linha de comando. E, no entanto, isso anula seu próprio propósito: digitar sem teclado. Se você precisa digitar para usá-lo, por que usá-lo para evitar a digitação? Felizmente, agora você pode usar o Whisper por meio de uma GUI de desktop. Melhor ainda, ele também pode transcrever sua voz quase em tempo real. Vamos ver como você pode digitar com sua voz usando o Whisper Desktop.
O que é o Whisper da OpenAI?
O Whisper da OpenAI é um sistema de Reconhecimento Automático de Fala (ASR para abreviar) ou, para simplificar, é uma solução para converter a linguagem falada em texto.
No entanto, ao contrário dos sistemas de ditado e transcrição mais antigos, o Whisper é uma solução de IA treinada em mais de 680.000 horas de fala em vários idiomas. O Whisper oferece precisão inigualável e, de forma bastante impressionante, não só é multilíngue, mas também pode traduzir entre idiomas.
Mais importante, é gratuito e está disponível como código aberto. Graças a isso, muitos desenvolvedores inseriram seu código em seus próprios projetos ou criaram aplicativos que dependem dele, como o Whisper Desktop.
Se você preferir a versão "vanilla" do Whisper e a versatilidade do terminal em vez de GUIs desajeitadas, consulte nosso artigo sobre como transformar sua voz em texto com o Whisper da OpenAI para Windows.
O Whisper e o Whisper Desktop são iguais?
Apesar de seu nome oficial, o Whisper Desktop é uma GUI de terceiros para o Whisper, feita para todos que preferem clicar em botões em vez de digitar comandos.
O Whisper Desktop é uma solução autônoma que não depende de uma instalação existente do Whisper. Como bônus, ele usa uma versão alternativa e otimizada do Whisper, portanto, deve ter um desempenho melhor do que a versão autônoma.
Você está do outro lado do espectro e, em vez de buscar uma maneira mais fácil de usar o Whisper do que o terminal, está procurando maneiras de implementá-lo em suas próprias soluções? Alegrem-se, pois OpenAI abriu acesso às APIs ChatGPT e Whisper.
Baixe e instale o Whisper Desktop
Embora o Whisper Desktop seja mais fácil de usar do que o Whisper autônomo, sua instalação é mais complicada do que clicar repetidamente em Avançar em um assistente.
- Visita Página oficial do Github do Whisper Desktop. Olhe à direita e clique na versão mais recente em Lançamentos.
- Sob Ativos, clique WhisperDesktop.zip e faça o download para o seu PC.
- Extraia o arquivo baixado para uma pasta e use seu gerenciador de arquivos para visitá-lo. Dentro você encontrará o aplicativo Whisper Desktop. Clique duas vezes nele para executá-lo.
- Você também precisa de um modelo de linguagem Whisper em GCML formato binário. O Whisper Desktop fornecerá dois links para adquirir um. Pule o segundo link para gerar seu próprio modelo, pois é um processo mais complicado. Clique em rosto abraçado para abrir essa página em seu navegador padrão, de onde você pode baixar um arquivo pronto para uso.
- A versão do Whisper Desktop que usamos ao escrever este artigo forneceu um link para um repositório obsoleto em Hugging Face. Se você encontrar o mesmo problema, observe um link para um nova localização. Clique nele para visitar o novo repositório.
- Clique no link que o levará aos disponíveis modelos.
- Nessa lista, clique em qualquer um dos ggml-medium.bin ou ggml-medium.en.bin, dependendo se você deseja suporte multilíngue ou somente em inglês no Whisper.
- Finalmente, você deve ter chegado ao seu destino. Observe a linha informando que este arquivo está armazenado com o Git LFS e é muito grande para ser exibido, mas você ainda pode baixá-lo. Clique em download para fazer exatamente isso.
- Quando o download do arquivo for concluído, use seu gerenciador de arquivos favorito (o File Explorer serve) para mover o arquivo de modelo de idioma baixado para a mesma pasta do Whisper Desktop.
Transcrevendo com o Whisper Desktop
Transcrever com o Whisper Desktop é fácil, mas você ainda pode precisar de um ou dois cliques para usar o aplicativo.
Execute novamente o Whisper Desktop. Ele (ainda) perde o caminho correto para o modelo de idioma baixado? Clique no botão com os três pontos à direita do campo e selecione manualmente o arquivo que você baixou do Hugging Face.
A partir deste ponto, você também pode usar o menu suspenso ao lado de Implementação do modelo para escolher se deseja executar o Whisper em sua GPU (GPU), tanto na CPU quanto na GPU (Híbrido) ou apenas na CPU (Referência).
O Avançado O botão leva a mais opções que afetam como o Whisper será executado em seu hardware. No entanto, como o botão indica claramente que eles são avançados, sugerimos que você os ajuste apenas se estiver solucionando problemas ou souber o que está fazendo. Definir os valores de opções errados aqui pode impor uma penalidade de desempenho ou tornar o aplicativo inutilizável.
Clique em OK para ir para a interface principal do aplicativo.
Se você já possui uma gravação de sua voz que deseja transformar em texto escrito, clique em Transcrever arquivo e selecione-o. Ainda assim, usaremos o Whisper Desktop para a transcrição ao vivo deste artigo.
As opções oferecidas são simples. Você pode selecionar o linguagem Whisper vai usar, escolha se quer traduzir entre idiomas e habilite o aplicativo Console de depuração.
A maioria dos usuários que falam inglês pode pular essas opções com segurança e apenas garantir que a entrada de áudio correta seja selecionada no menu suspenso ao lado de Dispositivo de captura.
Certificar-se Salvar em arquivo de texto e Anexar a esse arquivo estão habilitados para que o Whisper Desktop salve sua saída em um arquivo sem sobrescrever seu conteúdo. Use o botão com os três pontos à direita do campo de caminho do arquivo para definir o referido arquivo de texto.
Clique em Capturar para começar a transcrever sua fala para o texto.
O Whisper Desktop mostrará três indicadores para quando detectar atividade de voz, quando estiver transcrevendo ativamente e quando o processo estiver parado.
Você pode continuar falando o tempo que quiser e, ocasionalmente, verá os dois primeiros indicadores piscando enquanto o aplicativo transforma sua voz em texto. Clique Parar quando terminar.
O arquivo de texto que você selecionou deve abrir em seu editor de texto padrão, contendo por escrito tudo o que você disse até clicar Parar.
Devemos observar que você também pode fazer o contrário do que vimos aqui: converter qualquer texto em fala. Dessa forma, você pode ouvir qualquer coisa como se fosse um podcast, em vez de cansar os olhos olhando para as telas. Para mais informações sobre isso, confira nosso artigo sobre algumas das melhores ferramentas on-line gratuitas para baixar conversão de texto em fala como áudio MP3.
Sussurro Dicas de digitação por voz na área de trabalho
Embora o Whisper Desktop possa ser um salva-vidas, permitindo que você escreva com sua voz muito mais rápido do que você poderia digitar, está longe de ser perfeito.
Durante nossos testes, descobrimos que ocasionalmente pode gaguejar, pular algumas palavras, falhar na transcrição até que você pare e reinicie manualmente o processo ou fique preso em um loop e continue retranscrevendo a mesma frase repetidamente.
Acreditamos que essas são falhas temporárias que serão corrigidas, pois o Whisper autônomo não exibe os mesmos problemas.
Além desses pequenos solavancos, transformar sua voz em texto deve ser fácil com o Whisper Desktop. Ainda assim, durante nossos testes, descobrimos que ele pode ter um desempenho ainda melhor se...
- Em vez de pronunciar apenas duas ou três palavras e depois fazer uma pausa, o Whisper pode entendê-lo melhor se você for mais longo. Tente pelo menos dar uma frase inteira de cada vez.
- Pelo mesmo motivo, evite iniciar e parar repetidamente o processo de transcrição.
- Sempre que perceber que cometeu um erro, ignore e continue. Carregar e descarregar o modelo de linguagem parece ser a parte mais demorada do processo com o estado atual do Whisper e nosso hardware disponível. Portanto, é mais rápido continuar falando e corrigir seus erros depois.
- Assim como na versão independente do Whisper, é melhor usar o modelo de idioma ideal para o hardware disponível. Você pode usar até o médio modelo se sua GPU tiver 8 GB de VRAM. Para menos VRAM, escolha os modelos menores. Escolha apenas o ligeiramente mais preciso, mas também muito mais exigente grande modelo se você usar uma GPU com 16 GB de VRAM ou mais.
- Lembre-se de que quanto maior o modelo de idioma, mais lento será o processo de transcrição. Não escolha um modelo maior do que o necessário. Você provavelmente descobrirá que o Whisper Desktop já pode "entender você" na maioria das vezes com os modelos médios ou menores, com apenas um ou dois erros por parágrafo.
Você ainda está digitando? Use sua voz com sussurro
Apesar de exigir algum tempo para configurar, como você verá ao experimentá-lo, o Whisper Desktop tem um desempenho muito melhor do que a maioria das alternativas, com muito mais precisão e velocidade.
Depois de começar a usá-lo para digitar com sua voz, seu teclado pode parecer uma relíquia dos tempos antigos.