Uma visão geral do reconhecimento óptico de caracteres (OCR) em 2021

November 5, 2021

O reconhecimento óptico de caracteres (OCR) é uma inovação incrível que se mostrou um componente crítico para muitas organizações. Na verdade, o progresso da transição digital requer a transformação de algumas imagens contendo ocorrências de texto em relatórios de texto. Desta forma, claramente ter uma ferramenta de OCR sólida é essencial para a recuperação e comunicação de dados.

As inovações atuais de OCR são frequentemente muito incríveis no que diz respeito a registros que vêm em ótimas condições (todos situados com luz e contraste suficientes, sem falhas87 na imagem, estilo de escrita fácil de usar e entender, e assim por diante) Em qualquer caso, o fato da questão está longe de ser incrível. Com certeza, muitas dificuldades enfrentadas pelo OCR surgem quando essas condições não fazem diferença. Consequentemente, há uma necessidade de instrumentos robustos e de bom desempenho em toda a gama de resultados concebíveis.

O que é OCR e como pode funcionar?

OCR é o ponto em que uma máquina converte uma imagem contendo texto (composta ou escrita manualmente) em um documento de texto. Em geral, dá pouca atenção à linguagem ou à organização. Este empreendimento é realizado em um processo de duas etapas: distinguir o texto e perceber o referido texto. No entanto, apesar das dificuldades (as dificuldades que esclarecemos acima), podemos realizar algumas atividades iniciais para mitigá-las. Os mais conhecidos são:

Skewing: reajustar e dinamizar o registro para uma análise mais padronizada
Despeckle: para eliminar manchas de parasita concebíveis
Converter para tons de cinza ou binarização
Removendo e aplicando filtros
Exclusão de linha para caixas e elementos que não estabelecem caracteres (por exemplo: tabelas, imagens, linhas isoladas e assim por diante)
Localização da linha
Pré-segregando a caixa de texto (ou edição)

Para começar, aplicamos esse pré-processamento e o resultado é uma imagem mais simples de digitalizar. Em segundo lugar, a localização da mensagem acontece, configurando caixas de salto nas frases ou palavras. Então, nesse ponto, vem o ID do texto real, que pode acontecer caractere por caractere ou por palavras inteiras (o que tornaria o cálculo específico do idioma e, portanto, seria útil para casos de uso específicos).

Por último, outra progressão pode vir mais tarde para pós-processar o rendimento do algoritmo OCR para lidar com falhas críticas. Por exemplo: se uma palavra não tiver um lugar na palavra de referência, podemos substituí-la por uma palavra próxima que requer a alteração de alguns caracteres.

Quais são as ferramentas de OCR disponíveis e como escolheríamos a mais adequada?

Algumas soluções de OCR são acessíveis, cada uma com suas qualidades e especificidades. Basicamente, existem APIs e programação para download. Que tal examinarmos alguns deles aqui:

APIs baseadas em nuvem

Ao desbastar uma tarefa, o custo acaba sendo essencial para a situação e pode controlar a oportunidade de decisão. Como resultado, é fundamental considerar esse fator, uma vez que as APIs que apresentaremos neste segmento não são de código aberto. Isso é particularmente significativo quando o caso de utilização não precisa de habilidades / exibições explícitas que não são abertamente acessíveis.

Google Cloud Vision

Sendo um bundle acabado e viável com outros serviços Google, esta API oferece uma administração OCR, entre outros. Ele retorna naturalmente as caixas de salto que abrangem o texto e o texto antecipado sempre que recebe uma imagem.

Observação: o Google Docs também oferece uma ferramenta de OCR gratuita para transformar relatórios em PDF em texto. Seja como for, não muda nas tabelas e notas de rodapé.

Prós:

A configuração é fácil
Desempenho geralmente melhor do que outras APIs

Contras:

Documentação desatualizada
É necessário instalar vários pacotes na máquina local do usuário
Recursos não personalizáveis

Preços:

1 $ 50/1000 páginas para 5 milhões de páginas ou menos
0 $ 60/1000 páginas para mais de 5 milhões de páginas

AWS Textract

A interface do console (com base em um algoritmo de aprendizado de máquina) aqui também retorna as caixas delimitadoras e o texto fornecido com uma imagem.

Prós:

Preços flexíveis
Fácil de usar após a configuração

Contras:

Relativamente entediante de configurar
Requer várias etapas (download de pacotes e vários arquivos essencialmente)
Não é adequado para documentos manuscritos

Preços:

1 $ 50/1000 páginas para 1 milhão de páginas ou menos
0 $ 60/1000 páginas para mais de 1 milhão de páginas.

Serviços Cognitivos do Microsoft Azure

Para usar esta API, é necessário criar uma conta na ferramenta de inteligência artificial do Azure: Serviços Cognitivos. Felizmente, a parte de implementação que vem a seguir para incluir o uso da API no código é bastante fácil. A saída resultante dessa implementação e a imagem de entrada também são caixas delimitadoras e o texto contido.

Prós:

Fácil implementação após configuração
Mais de 100 idiomas estão disponíveis
Compatível com o uso do Docker

Contras:

Requer a adição de um cartão de crédito para o teste gratuito (problema de privacidade)

Preços:

1 $ / transação para 1 a 1 milhão de transações
0 $ 65 / transação para 1 milhão a 10 milhões de transações
0 $ 60 / transação para 10 a 100 milhões de transações
0 $ 40 / transação para mais de 100 milhões de transações

IBM Datacap

Esta API possui alguns componentes estranhamente atraentes. Especificamente, o sistema de verificação e as etapas de manuseio são bastante simples. Da mesma forma, oferece vários elementos ajustáveis, uma sólida capacidade de OCR e semelhanças com vários estágios e dispositivos. Porém, vale a pena focar que ele é lento e a ajuda na IU não é adequada em comparação com seus rivais.

Prós:

Mecanismos simples de digitalização e processamento
Recursos personalizáveis
Função de OCR forte
Compatibilidade com diferentes plataformas e dispositivos

Contras:

Processamento lento
Suporte insuficiente na IU

Preços: variável, depende do caso de uso (número de solicitações, largura de banda, etc.)
Para outras comparações personalizadas das ferramentas mencionadas acima, você pode tentar alguns documentos nesta plataforma de comparação.

ABBYY Finereader

A ABBYY fornece às empresas ferramentas de OCR há muito tempo. Embora tenha apresentado várias soluções de software para lidar com isso, vamos nos concentrar apenas no Finereader aqui (os outros podem ser versões anteriores ou oferecer recursos diferentes).

Prós:

Interface ergonômica
Recurso de correção amigável do teclado
Software de compra apenas uma vez
Precisão decente

Contras:

Sem fusão de vários documentos
As saídas podem exigir algum pós-processamento.

Preços: 199 $ para a versão padrão para Windows e 129 $ para MacOS.

Adobe Acrobat Pro DC

Adobe Acrobat tem oferecido um serviço de OCR sem saber por algum tempo. É um dos melhores em geral para soluções PDF. No entanto, ele está disponível apenas como um recurso adicional para o leitor Adobe Acrobat PDF.

Prós:

Suporta vários formatos (entradas e saídas)
Fácil de usar
Compatível com os recursos de manipulação de PDF do Acrobat

Contras:

Pesado no sistema e no armazenamento
Não vem separado do leitor Acrobat PDF

Preços: 15 $ / mês para o plano padrão

Tesseract

É de longe a biblioteca OCR de código aberto mais popular. Desenvolvido pela Hewlett-Packard, foi posteriormente (e até hoje) mantido pelo Google

Prós:

Um grande painel de idiomas
Vários formatos de saída
Modelos baseados em Long-Shot-Term-Memory
Treinável

Contras:

Pode não ser adequado para casos de uso de clientes específicos

Preços: Sem custos

SimpleOCR

SimpleOCR é um freeware destinado a uso individual que oferece um SDK para engenheiros apenas como uma ampla referência de palavras à qual palavras personalizadas podem ser adicionadas. Além disso, oferece a oportunidade de lidar com alguns arquivos simultaneamente, apenas como verificação ortográfica.

Prós:

Amplo dicionário atualizável (mais de 120 mil palavras)
Capacidade de processar muitos documentos simultaneamente

Contras:

Não oferece (na versão gratuita) uma interface de linha de comando
Não pode ser implantado em vários servidores (para a versão gratuita)

Preços: Grátis (versões pagas também existem como pagamento único, a partir de $ 25)

Existem no mercado várias outras ferramentas que vale a pena mencionar, cada uma com seus pontos fortes e fracos, como Rossum, OmniPage, Klippa, Readiris, Docparser, Veryfi e Hypatos.

Conclusão

Resumindo, é muito simples hoje em dia rastrear um arranjo OCR decente que possa atender aos requisitos de um projeto. Alguns arranjos podem ser mais importantes do que outros, dependendo do caso de utilização. Lembre-se do objetivo genuíno de utilizar OCR em um determinado projeto e obtenha avaliações e métricas derivadas dele.

source – www.analyticsinsight.net

O que é OCR e como pode funcionar?

Quais são as ferramentas de OCR disponíveis e como escolheríamos a mais adequada?

APIs baseadas em nuvem

Google Cloud Vision

AWS Textract

Serviços Cognitivos do Microsoft Azure

IBM Datacap

ABBYY Finereader

Adobe Acrobat Pro DC

Tesseract

SimpleOCR

Conclusão

RELATED ARTICLESMORE FROM AUTHOR

Arthur Hayes adora tarifas, pois a dor de dinheiro impressa é boa para o Bitcoin

Perdeu seu telefone ou celular foi roubado no trem? Saiba como o Rail Madad App e o portal Sanchar Saathi o ajudarão

Nintendo Switch 2 para vender mais de 14 milhões de unidades em 2025, dizem analistas

RELATED ARTICLES MORE FROM AUTHOR