Web scraping envolve a coleta de informações na forma de dados de sites ou páginas. Embora o seu possa não ser um ato consciente, você também vasculhou a web de uma forma ou de outra enquanto reunia informações. Mas isso geralmente é sutil.
Web scraping ou screen scraping é geralmente um ato proposital, e os profissionais automatizam o projeto para obter dados enormes. Seja copiando textos em um site manualmente, usando ferramentas dedicadas ou escrevendo scripts de web scraping, os web scrapers às vezes atingem fortemente um site, fazendo várias solicitações ao mesmo tempo.
Mas, embora muitas empresas agora aproveitem a web scraping para gerar vantagem competitiva, isso é realmente legal?
Quais sites você deve e não deve raspar?
A Internet é um pool de informações que dá às pessoas acesso a dados antigos e em tempo real. Web scraping ou screen scraping já existe há algum tempo. Mas quanto você deve usar e quais sites você pode acessar?
Alguns sites são rigorosos com rastreadores da web ou raspadores de tela e os bloqueiam completamente. Portanto, é extremamente óbvio que você não deve raspar esses sites. Mas as pessoas ainda fazem isso.
Infelizmente, não há quase nada que esses sites possam fazer para impedi-lo além de corrigir suas brechas.
Antes de raspar um site, o ideal é verificar se ele permite o rastreamento ou não. Normalmente, você pode descobrir isso verificando o arquivo robots.txt do site. Você pode fazer isso digitando "[URL do site] /robots.txt".
Um robots.txt normalmente define regras para vários rastreadores ou agentes de usuário. No entanto, essas regras variam, dependendo do site envolvido. Embora alguns sites permitam o rastreamento em todas as páginas, alguns especificam as páginas que um bot pode rastrear e alguns bloqueiam os rastreadores completamente.
Um site que impede que todos os agentes de usuário rastreiem todas as páginas normalmente define as seguintes regras:
agente de usuário: *
Disallow: /
Um arquivo robots.txt que bloqueia todos os bots de rastrear determinados diretórios ou páginas normalmente tem a seguinte aparência:
agente de usuário: *
Disallow: / URL para a página 1
Disallow: / URL para a página 2
Se o robots.txt não desabilitar a página que você deseja rastrear, provavelmente você poderá copiá-la. Caso contrário, você deve recuar ou buscar o consentimento do administrador. Eles podem conceder acesso a você.
Além disso, alguns sites declaram explicitamente se permitem o rastreamento ou não em seus termos de uso. Alguns até afirmam isso no início de seus arquivos robots.txt também. Sempre verifique isso também para ter certeza de que está fazendo a coisa certa.
Como o Web Scraping está sendo usado
Portanto, se você recebeu e-mails de spam ou SMS de sites ou pessoas que nunca forneceu suas informações pessoais, provavelmente você foi roubado em algum lugar, de alguma forma. E principalmente, é por meio de um de seus identificadores de mídia social.
Dito isso, às vezes a web scraping é mais do que apenas coletar dados que são renderizados no front end. Se usado de forma maliciosa, pode resultar no vazamento de informações pessoais e classificadas.
Enquanto a maioria das plataformas de mídia social desaprova isso, os robôs de rastreamento ainda acessam os perfis das pessoas, e suas informações de contato vazam e são raspadas.
O Facebook, por exemplo, foi relatado como tendo vulnerabilidades que vazavam informações de contato dos usuários no passado, embora os usuários as mantenham privadas.
Da mesma forma, o LinkedIn sofreu recentemente uma violação de segurança que resultou no vazamento de dados pessoais pertencendo a mais de 500 milhões de contas. Consequentemente, essa vulnerabilidade resultou no compartilhamento de muitos endereços de e-mail e números de telefone sem o consentimento dos proprietários do perfil.
É ilegal raspar um site?
Nunca houve uma conclusão sobre a legalidade do web scraping. Em vez disso, o foco está em como um rastreador funciona caso a caso e o que eles usam os dados coletados para alcançar.
Portanto, em vez de concluir sobre sua legalidade, a raspagem, quando feita de forma maliciosa, é ilegal. Mas, se feito com cautela, não é ilegal.
Mas, como esperado, parece haver uma política mais rígida sobre a coleta e o uso de dados de mídia social, uma vez que a privacidade dos usuários é muito importante. No entanto, tudo ainda se resume a como as pessoas extraem os dados.
O Blog de legislação sobre Internet e mídia social analisou o caso da hiQ Labs, uma empresa de coleta de dados que venceu uma ação judicial contra o LinkedIn em 2019 depois de tentar bloquear a hiQ Labs de coletar dados de usuários do LinkedIn disponíveis publicamente.
Com a hiQ Labs alegando que a Lei de Fraude e Abuso de Computadores (CFAA) apenas proíbe o acesso não autorizado, o julgamento afirmou que os dados do LinkedIn estavam disponíveis publicamente, então qualquer um que os tenha feito o fez porque eles estão acessível.
Além disso, o hiQ Labs usou apenas os dados coletados para fornecer soluções analíticas às empresas - para que elas possam tomar melhores decisões de recrutamento.
Contrariamente, O Facebook processou recentemente desenvolvedores de extensões do Chrome que roubaram os perfis dos usuários do Facebook sem o seu consentimento.
Da mesma forma, um site copiado foi processado pelo Facebook para extrair informações de perfil de vários usuários do Instagram e, em seguida, usá-las para criar clones. De acordo com esse relatório, o Facebook foi além para obter um mandado de segurança permanente contra o infrator.
Esses são alguns casos em que as pessoas podem ter usado web scraping ilegalmente. As referidas empresas coletaram dados de usuários do Facebook de forma fraudulenta, sem o consentimento de seus usuários. Portanto, violou as políticas de privacidade.
Portanto, embora o web scraping possa frustrar o site do qual obtém os dados, nenhuma regra geral impede que as pessoas obtenham o que desejam, desde que não violem as leis da Internet de uma vez.
Web Scraping é sinônimo de hacking?
Existem alguns mitos em torno da web scraping. Uma delas é a crença de que raspar um site significa que você o hackeado. Embora o hacking possa levar à extração de dados, a alegação de que o próprio termo significa hackear um site não é verdadeira.
Web scraping pode envolver o uso de ferramentas de rastreamento ou raspagem dedicadas, Application Programming Interfaces (APIs) ou scripts de web scraping para obter dados renderizados de um site. Ao contrário do hacking, ele não compromete o site que raspa nem interrompe a experiência de seus usuários.
Relacionado: O que é Web Scraping? Como coletar dados de sites
Portanto, embora o hacking envolva acesso não autorizado, geralmente ao banco de dados de um site, o web scraping visa apenas os dados já visíveis no front end. Embora as pessoas possam usar web scraping de forma maliciosa, ainda não é sinônimo de hacking.
Além disso, ao contrário do web scraping, o hacking deliberado e antiético é ilegal.
Quais são os pontos positivos da Web Scraping?
O web scraping tem muitos aspectos positivos, e até mesmo algumas empresas de tecnologia agora oferecem seus dados gratuitamente por meio de APIs. Essas informações geralmente não são suficientes para avaliar as tendências de negócios e tomar decisões.
Portanto, as empresas agora obtêm mais dados vasculhando a web para melhorar as práticas e impulsionar as vendas. Além disso, os cientistas de dados alimentam algoritmos de aprendizado de máquina com dados coletados por meio de captura de tela.
Esses dados podem ser imagens usadas no reconhecimento de imagem, textos simples para análise de sentimento ou dados diretos do produto para inteligência de mercado e análise do comportamento do consumidor.
Relacionado: Maneiras exclusivas de obter conjuntos de dados para seu projeto de aprendizado de máquina
Portanto, o web scraping é ainda mais útil porque, se você tiver acesso às informações que seu concorrente não tem, poderá vencê-lo.
Enquanto alguns sites desaprovam web scrapers, alguns, até mesmo serviços de comércio eletrônico, não se importam se você raspa seus dados ou não. Gigantes da web como eBay e Salesforce lançaram sua API em 2000, oferecendo aos programadores acesso a dados públicos pela primeira vez.
Você deve realmente raspar a Web?
Estabelecemos que web scraping não é ilegal quando feito da maneira certa. Mas o que você faz com os dados que coleta também é uma preocupação. Portanto, em vez de abusar disso, use-o para obter mais percepções que ajudem você e outras pessoas a tomar decisões informadas.
No entanto, a web scraping como uma habilidade fornece acesso a grandes blocos de dados da Internet, o que pode ajudar você ou sua empresa a se manter acima do nicho de negócios. Como cientista de dados, ele até amplia seu escopo e melhora suas habilidades técnicas e de codificação.
Por exemplo, Python é uma das linguagens de programação que ajuda a criar facilmente um site com sua biblioteca Beautiful Soup ou estrutura Scrapy.
Interessado em web scraping? Veja como criar conteúdo em um site e muito mais com a biblioteca Beautiful Soup Python.
Leia a seguir
- Segurança
- Programação
- Segurança Online
- Raspagem da web
Idowu é apaixonado por qualquer tecnologia inteligente e produtividade. Em seu tempo livre, ele brinca com programação e muda para o tabuleiro de xadrez quando está entediado, mas também adora quebrar a rotina de vez em quando. Sua paixão por mostrar às pessoas o caminho da tecnologia moderna o motiva a escrever mais.
Assine a nossa newsletter
Junte-se ao nosso boletim informativo para dicas de tecnologia, análises, e-books grátis e ofertas exclusivas!
Mais um passo…!
Confirme o seu endereço de e-mail no e-mail que acabamos de enviar.