Propaganda
Se você deseja converter qualquer texto impresso em texto digital que possa copiar, colar, editar e pesquisar, será necessário usar os scanners de reconhecimento óptico de caracteres (OCR).
Quando você escolhe digitalizar ou tirar uma foto de um documento, ele será salvo em um formato como JPEG ou PDF. Software OCR pode reconhecer as letras e os números desses documentos e convertê-los em um PDF pesquisável 4 métodos para criar e editar arquivos PDF de graçaDe todos os tipos de arquivos comuns encontrados em nosso mundo da computação, o PDF é provavelmente um dos mais restritivos, ao mesmo tempo em que está disponível para uso de todos (principalmente para leitura) ... consulte Mais informação ou em um arquivo que você pode editar em programas como o Microsoft Word.
O problema é que alguns scanners de OCR funcionam muito melhor do que outros, com o melhor sendo bastante pesado na carteira.
O Omnipage18, por exemplo, custa US $ 150, mas é especialmente bom em reconhecer idiomas diferentes.
Adobe Acrobat Pro DC custa US $ 400, mas tem uma precisão incrível. ABBYY FineReader custa US $ 150, mas é fantástico na conversão de documentos como revistas e folhetos em texto pesquisável. Testaremos a oferta on-line da ABBYY posteriormente neste artigo.No entanto, se você procura alternativas gratuitas, pode baixar e usar no Windows ou OS X, você deve experimente essas ferramentas de OCR As 5 melhores ferramentas de OCR para extrair texto de imagensQuando você tem resmas de papel, como você converte todo o texto impresso em algo que um programa digital poderá reconhecer e indexar? Mantenha um bom software de OCR por perto. consulte Mais informação . Mas se você preferir usar um grátis, conectados Ferramenta de OCR, continue lendo, como experimentamos as primeiras, com os resultados abaixo.
O teste
Parece que a maioria das pessoas agora usa seus smartphones para fazer a digitalização para eles Digitalize e gerencie seus recibos, economize espaço, papel e tempoOs recibos de papel são facilmente perdidos e difíceis de encontrar quando você mais precisa deles. Felizmente, a digitalização resolve esses dois problemas. consulte Mais informação , Eu decidi usar Aplicativo Scannable do Evernote (Grátis no iOS e Android). Digitalizei a primeira página da página de Richard Dawkin Montanhismo improvável, para ver quais resultados poderíamos obter com formatação muito básica. Também digitalizei uma página de Tim Ferriss ' O Chef de 4 Horas para experimentar os scanners com uma formatação um pouco mais complicada. Salvei cada um desses arquivos como um PDF.
Esses documentos foram executados em algumas das supostamente melhores ferramentas online de OCR para ver o desempenho delas.
OCR on-line gratuito [não está mais disponível]
Felizmente, não há registro necessário para usar o OCR online gratuito. E fiquei duplamente impressionado ao ver a reivindicação deles de manter a formatação e o layout do meu documento.
O site afirma poder oferecer suporte a PDF, GIF, BMP, JPEG, TIFF e PNG como entrada. As saídas podem ser DOC, um documento de texto em PDF, RTF e TXT. Infelizmente, não consegui descobrir se eles tinham um limite de tamanho de arquivo.
Documento básico para PDF
Convertido absolutamente perfeitamente. Não há muito mais a dizer! Estamos indo para um muito bom começo.
Documento básico para DOC
As palavras reais parecem ter se convertido na perfeição, além do "não" do "Monte Rushmore" de alguma forma indo para AWOL. A formatação é uma história diferente, no entanto. Muitas vírgulas foram substituídas por sublinhados e espaços aleatórios foram inseridos em pontos ao longo do documento. Mais tarde, quando você ver como o software premium se saiu neste teste, isso não é um esforço ruim. em absoluto.
Documento complexo para PDF
A conversão do documento levou 120 segundos! Depois de concluído, todo o texto foi convertido com cerca de 95% de precisão, embora o texto na caixa separada no canto superior direito da página não tenha sido pesquisável. Alguns outros caracteres ao longo do PDF também estavam incorretos.
Documento complexo para DOC
Desta vez, a conversão levou apenas 10 segundos, com o texto novamente convertido com cerca de 95% de precisão. Houve alguns problemas de espaçamento estranho, e o software teve problemas para converter a fonte no canto superior direito do documento e perdeu alguns caracteres aqui e ali.
Veredito
Se você deseja converter documentos de formato simples para PDF, esta é uma ferramenta fantástica. Em termos de conversão para o DOC, os resultados não foram nada sobre o que escrever.
O i2OCR faz algumas alegações impressionantes. A ferramenta reconhece mais de 60 idiomas, pode lidar com layouts de várias colunas (removendo a formatação), não possui limites de tamanho de arquivo, pode converter arquivos enviados e de URLs. E você também não precisa se registrar para usar esta ferramenta.
O serviço funciona simplesmente extraindo o texto da sua imagem e depois produzindo texto não formatado. Você pode corrigir rapidamente quaisquer erros na exibição lado a lado, antes de copiar o texto para outros programas ou fazer o download como DOC, PDF ou HTML.
Nota: quando tentei fazer upload dos meus documentos em PDF, eles foram rejeitados pelo i2OCR; portanto, precisei convertê-los para JPEG (tirando uma captura de tela deles e fazendo o upload dos arquivos).
Documento básico para texto sem formatação
Devido ao modo como esta ferramenta funciona, toda a formatação é perdida, embora a conversão de imagem para texto tenha sido quase perfeita. Houve alguns pequenos erros, como espaçamento entre parágrafos, e algumas vírgulas foram substituídas por pontos, mas essas são pequenas imperfeições.
Documento complexo para texto sem formatação
A maior parte do texto foi convertida sem muitos erros, além do título e da receita no canto superior direito, o que era ilegível para esta ferramenta. A maneira como as colunas foram convertidas em texto sem formatação estava longe de ser ideal. Se você deseja tornar essa conversão viável, seria necessário muito tempo para reorganizar as linhas em frases coerentes.
Veredito
Para documentos básicos, o i2OCR funciona muito bem. A capacidade de editar o texto antes do download também é um toque muito agradável. No entanto, para documentos mais complexos, a conversão ainda é bastante precisa, mas a maneira como o texto é produzido não facilitará sua vida.
Atualmente, o OCR on-line suporta 46 idiomas diferentes e pode converter PDF, JPG, BMP, TIFF e GIF no formato Word, Excel ou Texto Simples. O site afirma que "documentos convertidos se parecem exatamente com o original - tabelas, colunas e gráficos".
A versão que você pode usar sem registrar permite converter até 15 imagens por hora (limite de 5 MB). Se você se inscrever em uma conta, poderá adquirir mais páginas além desse limite, além de poder converter documentos de várias páginas e arquivos ZIP também.
Documento básico para DOC
O documento básico converteu perfeitamente o número romano Eu não sendo pego. Como o site prometeu, a formatação foi exatamente como no livro. Parabéns a esta ferramenta.
Documento complexo para DOC
Depois de me decepcionar com as ferramentas anteriores de OCR na conversão de documentos complexos, fiquei impressionado com o Online OCR. O layout estava quase perfeito, como você pode ver acima. Mais uma vez, porém, a receita não foi muito boa, mas quaisquer outros pequenos erros foram insignificantes.
Veredito
Resultados absolutamente fantásticos do Online OCR. A única desvantagem que vejo é que não há como baixar os documentos convertidos como PDFs, pois os formatos de saída mencionados incluem apenas DOCX, XLSX e TXT.
Como mencionado anteriormente, a ABBYY é uma das líderes de mercado em software de OCR, custando cerca de US $ 150 pelo seu programa completo para download. Eles oferecem uma Avaliação gratuita de 10 páginas para a ferramenta on-line, no entanto (é necessário registro). Para uma assinatura de US $ 5, a ferramenta on-line permitirá converter 200 páginas por mês.
Os arquivos aceitos podem ter até 100 MB, em qualquer um destes formatos: PDF, JPG, JPEG, TIF, TIFF, PCX, DCX, BMP e PNG. A ABBYY também reconhece quase 200 idiomas. As saídas são especialmente impressionantes, com uma escolha entre DOCX, XLSX, RTF, TXT, PPTX, ODT, PDF, FB2 e EPUB.
Você pode experimentar alguns recursos BETA durante o teste. A primeira é a opção de traduzir seu documento para outro idioma. O outro é exportar o documento convertido para sua conta de armazenamento na nuvem, seja Dropbox, Google Drive, Evernote, Microsoft OneDrive ou Box.
Documento básico para DOCX
Os resultados gerais foram bons, mas não surpreendentes, considerando que este é um produto premium. Várias vírgulas e períodos foram trocados, várias vírgulas invertidas foram substituídas por um asterisco, duas letras maiúsculas estavam faltando e uma palavra (literalista) foi escrita incorretamente.
Documento complexo para DOCX
Uma vez convertido, havia muito poucas falhas no texto no documento (além do OCR lutando com a fonte da receita novamente!), Mas a formatação deixou muito a desejar.
As três colunas de alguma forma ocuparam duas páginas, com a coluna central só aparecendo na segunda página. Se você realmente quisesse Faz qualquer coisa com este documento convertido, você acabará arrancando os cabelos.
Documento básico para PDF
Ao analisar o PDF convertido, não encontrei nenhuma falha. Talvez tenhamos encontrado onde a ABBYY se destaca. Resultados fantásticos.
Documento complexo para PDF
Mais uma vez, não foi possível encontrar erros neste arquivo convertido. A ABBYY obviamente sabe como converter para PDF excepcionalmente bem.
Veredito
Se você está satisfeito em pagar alguns dólares, a conversão para PDF parece funcionar fenomenalmente bem com este serviço e A sincronização de arquivos convertidos para o armazenamento na nuvem é especialmente útil se você estiver digitalizando um grande volume de documentos. Assim como nas outras opções, a ABBYY ainda não descobriu como converter documentos sem falhas em DOC para facilitar a edição.
O resultado final
Se, como a maioria das pessoas, você apenas procura digitalizar alguns artigos de revistas e algumas contas domésticas, não precisa editar esses documentos. Portanto, a conversão direta em PDF será adequada para você, porque você ainda poderá pesquisar esses documentos. Para isso, o OCR on-line gratuito foi definitivamente a melhor ferramenta gratuita que testamos. Dito isto, se você estiver disposto a pagar US $ 5 por mês por quase perfeição, FineReader Online da ABBYY foi um pouco mais preciso.
Quando se trata de converter documentos para DOC, não conseguimos encontrar nenhuma solução que fosse perfeita, mas, de longe, os melhores resultados vieram de OCR online. A conversão não foi perfeita, mas a integridade da formatação foi mantida em grande parte intacta e os erros foram insignificantes. Quando comparamos esses resultados com a oferta "premium" da ABBYY, você não pode deixar de ficar impressionado.
Nós não incluímos Recursos de OCR do Google Drive neste post; um pouco da integridade do Google, mas mais pelo fato de querermos testar alguns outros serviços gratuitos de OCR on-line por aí.
Sobre você: que outras ferramentas de OCR online você recomendaria aos nossos leitores? E quais você já tentou e nunca mais usou?
Rob Nightingale é graduado em Filosofia pela Universidade de York, Reino Unido. Ele trabalha como gerente de mídia social e consultor há mais de cinco anos, enquanto ministra workshops em vários países. Nos últimos dois anos, Rob também foi escritor de tecnologia e é o Gerente de mídia social da MakeUseOf e Editor de boletins. Você geralmente o encontrará viajando pela…