Quando um humano olha para uma cena ou imagem, ele entende - quais objetos estão nela e o que está acontecendo se a ação estiver ocorrendo. Um computador, por outro lado, processa apenas dados digitais que descrevem o valor da cor de cada pixel. Para um humano, reconhecer uma pizza em uma mesa bagunçada é fácil. Mas, até recentemente, os computadores eram incapazes de realizar a mesma tarefa.
A visão computacional, ou CV, permite que um computador seja capaz de selecionar informações importantes de entradas visuais e fazer previsões e recomendações precisas com base nessas informações.
Como funciona a visão computacional?
Antes da visão computacional, para criar um programa que reconhecesse uma imagem específica, uma pessoa teria de fazer horas de trabalho manual com as pernas. Em primeiro lugar, um banco de dados de imagens semelhantes teria que ser agrupado.
Então, essas imagens teriam que ser manualmente analisadas, medidas e anotadas com dados relevantes que o pesquisador achou que poderia identificar o objeto em questão (como cor, medidas e forma). Só então o software poderia ser usado para fazer previsões.
Por outro lado, a visão computacional automatiza todo esse processo usando uma abordagem de aprendizado de máquina conhecida como aprendizado profundo. O aprendizado profundo usa uma rede neural de várias camadas com centenas de camadas potenciais. No caso de imagens, geralmente é uma rede neural convolucional (CNN).
Explicar em detalhes como o aprendizado profundo e as redes neurais funcionam está muito além do escopo deste artigo. Basicamente, grandes quantidades de dados são alimentadas na rede neural. A rede neural analisa os dados repetidamente até que possa formar previsões precisas sobre eles.
No caso de uma CNN usada para uma tarefa de visão computacional, a rede neural leva os dados por várias etapas. Em primeiro lugar, ele reduz a imagem em várias partes (pixels individuais ou grupos de pixels previamente marcados).
Em seguida, ele faz previsões sobre o que está em diferentes partes da imagem (como bordas rígidas ou objetos específicos). Ele verifica a precisão dessas previsões repetidamente e altera ligeiramente partes do algoritmo a cada vez até que se torne muito preciso.
Os computadores agora são tão poderosos que podem analisar uma imagem muito mais rápido do que o cérebro humano, especialmente depois que aprenderam a reconhecer certos padrões. Dessa forma, é fácil ver como um algoritmo de aprendizado profundo pode superar as capacidades humanas.
Quais são os tipos de visão computacional?
A visão computacional envolve a análise e compreensão das imagens e a saída de previsões ou decisões relevantes sobre as imagens. Existem várias tarefas que a visão computacional usará para atingir esses objetivos. Alguns deles incluem:
- Classificação de imagens: O tipo de imagem é reconhecido. Por exemplo, se é o rosto, paisagem ou objeto de uma pessoa. Esse tipo de tarefa pode ser usado para identificar e classificar imagens rapidamente. Um uso para isso é reconhecer e bloquear automaticamente conteúdo impróprio nas redes sociais.
- Reconhecimento de objeto: Semelhante à classificação de imagem, o reconhecimento de objeto pode identificar um objeto específico dentro de uma cena - como uma pizza em uma mesa bagunçada.
- Detecção de Borda: Um uso comum da visão computacional, e geralmente a primeira etapa na detecção de objetos, é identificar as arestas de uma imagem.
- Identificação do objeto: É o reconhecimento de exemplos individuais de um objeto ou imagem, como a identificação de uma determinada pessoa, impressões digitais ou veículo.
- Detecção de objetos: A detecção é a identificação de um traço específico dentro de uma imagem, como um osso fraturado em um raio-X.
- Segmentação de objetos: É a identificação de quais pixels da imagem pertencem ao objeto em questão.
- Rastreamento de objeto: Em uma sequência de vídeo, uma vez que um objeto tenha sido reconhecido, ele pode ser facilmente rastreado ao longo do vídeo.
- Restauração de imagem: Desfoque, ruído e outros artefatos de imagem podem ser removidos identificando com precisão onde o objeto em relação ao fundo está na imagem.
Exemplos de visão computacional
Inteligência artificial é já utilizado em diversos setores com um efeito surpreendente, o que é verdade para a visão computacional. Aqui estão alguns exemplos de CV já usados hoje.
Reconhecimento Facial
O reconhecimento facial é uma das principais formas que a visão computacional é usada hoje. Quando comparados com bancos de dados de rostos conhecidos, os algoritmos de visão computacional podem identificar pessoas individualmente com muita precisão.
- A mídia social analisa as imagens e marca automaticamente os usuários para os quais possui uma boa seleção de imagens.
- Laptops, telefones e dispositivos de segurança podem identificar as pessoas para permitir o acesso.
- A polícia usa o reconhecimento facial em sistemas de CFTV para identificar suspeitos.
Medicamento
A visão computacional é atualmente usada na área da saúde para fornecer diagnósticos mais rápidos e precisos do que os especialistas podem fazer. Muitos aplicativos envolvem a análise de imagens de raios-X, TC ou ressonância magnética para condições específicas, incluindo doenças neurológicas, tumores e ossos quebrados ou fraturados.
Carros autônomos
Veículos autônomos precisam entender seus arredores para dirigir com segurança. Isso significa reconhecer estradas, faixas, semáforos, outros veículos, pedestres e muito mais. Todas essas tarefas utilizam sistemas de visão computacional em tempo real para evitar colisões e dirigir com segurança.
A visão computacional é desafiadora
As aplicações atuais da visão computacional já estão começando a mudar a maneira como trabalhamos em vários setores. Desde a capacidade de detectar equipamentos defeituosos ou quebrados até o diagnóstico preciso do câncer, a visão computacional tem a capacidade de melhorar os sistemas e salvar vidas.
Mas não é sem desafios. A visão computacional ainda está longe do que é a visão humana. Temos milhares de anos de evolução que nos permitem reconhecer e compreender quase tudo o que acontece ao nosso redor em tempo real. Mas não temos ideia de como o cérebro humano executa essas tarefas.
O aprendizado profundo é um grande passo na direção certa, mas ainda requer uma quantidade incrível de trabalho para criar um sistema que pode realizar uma tarefa que os humanos podem fazer com muita facilidade, como identificar um carro no estrada. Isso ocorre porque os computadores executam tarefas restritas com muita eficácia. Desenvolver um computador que possa entender a complexidade total do mundo visual é um jogo completamente diferente.
À medida que mais pesquisas vão para aplicações de IA e biologia humana, é provável que vejamos uma explosão de possíveis usos para a visão computacional em um futuro próximo.
Os algoritmos de aprendizado de máquina são projetados para tornar a vida mais fácil e melhorar os sistemas, mas podem dar errado, com consequências ruins.
Leia a seguir
- Tecnologia Explicada
- Programação
- Inteligência artificial
- Redes neurais
Jake Harfield é um escritor freelance que mora em Perth, Austrália. Quando não está escrevendo, geralmente está no mato fotografando a vida selvagem local. Você pode visitá-lo em www.jakeharfield.com
Assine a nossa newsletter
Junte-se ao nosso boletim informativo para dicas de tecnologia, análises, e-books grátis e ofertas exclusivas!
Mais um passo…!
Confirme seu endereço de e-mail no e-mail que acabamos de enviar.