Propaganda

importar dados para planilha do googleQuando se trata de bancos de dados online e informações que podem ser encontradas dentro do que é comumente conhecido como “teia invisível Os 12 melhores motores de busca para explorar a web invisívelO Google ou o Bing não podem pesquisar tudo. Para explorar a web invisível, você precisa usar esses mecanismos de pesquisa especiais. consulte Mais informação “, Eu não sou seu usuário típico. Claro, eu gasto um pouco mais do meu tempo vasculhando bancos de dados online em lugares como os Arquivos Nacionais e a CIA FOIA lendo sala, mas não tenho que dizer que nada me deixa mais animado do que quando eu encontro uma tabela baseada em HTML cheia de volumes de aparentemente complexos e desconexos dados.

O fato é que as tabelas de dados são uma mina de ouro de verdades importantes. Os dados geralmente são coletados por exércitos de grunhidos de coleta de dados com botas no chão. Você tem pessoas do Censo dos EUA viajando por todo o país para obter informações sobre a família e a casa. Você tem grupos ambientais sem fins lucrativos que coletam todos os tipos de informações interessantes sobre o meio ambiente, poluição, aquecimento global e muito mais. E se você gosta do paranormal ou da Ufologia, também existem tabelas de informações constantemente atualizadas sobre avistamentos de objetos estranhos no céu acima de nós.

instagram viewer

Ironicamente, você pensaria que qualquer governo do mundo estaria interessado em saber que tipo de embarcações estrangeiras estão sendo avistadas nos céus de qualquer país, mas aparentemente não - pelo menos não nos EUA. qualquer forma. Na América, a coleção de avistamentos incomuns de artesanato foi relegada a equipes de amadores que se aglomeram em novos avistamentos de OVNIs como mariposas em chamas. Meu interesse por esses avistamentos, na verdade, não vem de um fascínio por alienígenas ou naves de outros planetas, mas de um fascínio científico por padrões - onde e por que mais pessoas estão vendo coisas no céu, e se esses avistamentos podem refletir algo muito real e muito mais realista sobre.

Para explorar os volumes de dados coletados por equipes de amadores de OVNIs, eu realmente desenvolvi uma maneira de importar grandes tabelas HTML de dados em uma planilha do Google e, em seguida, manipule e analise esses dados para extrair e descobrir em formação. Neste artigo, pretendo mostrar a você como fazer o mesmo.

Dados HTML importantes para a planilha do Google

Neste exemplo, vou mostrar a você como importar quaisquer dados que possam estar armazenados em uma tabela em qualquer site da Internet, para sua planilha do Google. Pense no enorme volume de dados que está disponível na Internet hoje na forma de tabelas HTML. A Wikipedia sozinha tem dados em tabelas para tópicos como aquecimento global, o U.S. Census Bureau tem toneladas de conjuntos de dados de população, e um pouco de Googling vai levar você muito mais além disso.

No meu exemplo, estou começando com um banco de dados no National UFO Reporting Center que realmente parece que pode ser um banco de dados da web profunda do tipo consulta, mas se você observar o Estruturação de URL, é na verdade um sistema de relatório semi-complexo baseado na web que consiste em páginas da web estáticas e tabelas HTML estáticas - exatamente o que queremos quando procuramos dados para importar.
importar dados para planilha do google
NUForc.org é uma daquelas organizações que serve como um dos maiores centros de relatos de avistamentos de OVNIs. Não é o único, mas é grande o suficiente para encontrar novos conjuntos de dados com avistamentos atuais para cada mês. Você opta por visualizar os dados classificados por critérios como Estado ou Data, e cada um deles é fornecido na forma de uma página estática. Se você classificar por data e clicar na data mais recente, verá que a tabela listada é uma página da web estática nomeada de acordo com o formato de data.
importar dados para o Google Docs
Portanto, agora temos um padrão para extrair regularmente as informações mais recentes sobre os avistamentos desse banco de dados baseado em HTML. Tudo que você precisa fazer é importar a primeira tabela, usar a entrada mais recente (a de cima) para identificar o atualização mais recente e, em seguida, use a data dessa postagem para construir o link de URL onde a tabela de dados HTML mais recente existe. Fazer isso simplesmente exigirá algumas instâncias da função ImportHTML e, em seguida, alguns usos criativos das funções de manipulação de texto. Quando terminar, você terá uma das mais legais planilhas de relatórios autoatualizáveis ​​para você. Vamos começar.

Importando tabelas e manipulando dados

A primeira etapa, é claro, é criar a nova planilha.
importar dados para o Google Docs
Então, como você importa tabelas HTML? Tudo que você precisa é o URL onde a tabela está armazenada e o número da tabela na página - geralmente, o primeiro listado é 1, o segundo é 2 e assim por diante. Como eu sei o URL da primeira tabela que lista as datas e contagens de avistamentos listados, é possível importar digitando a seguinte função na célula A1.

= importhtml (“ http://www.nuforc.org/webreports/ndxpost.html?”&H2,”table”,1)

H2 detém a função “= hora (agora ())“, Então a tabela será atualizada a cada hora. Provavelmente, isso é extremo para dados que não são atualizados com frequência, portanto, provavelmente, poderia me safar fazendo isso diariamente. De qualquer forma, a função ImportHTML acima traz a tabela conforme mostrado abaixo.
UFOReport4
Você precisará fazer um pouco de manipulação de dados nesta página antes de juntar a URL para a segunda tabela com todos os avistamentos de OVNIs. Mas vá em frente e crie a segunda planilha na pasta de trabalho.
importar dados para o Google Docs
Antes de tentar construir a segunda planilha, é hora de extrair a data de postagem desta primeira tabela, a fim de construir o link para a segunda tabela. O problema é que a data é inserida em um formato de data, não em uma string. Portanto, primeiro você precisa usar a função TEXT para converter a data de publicação do relatório em uma string:

= texto (A2, ”mm / dd / aa”)

Na próxima célula à direita, você precisa usar a função SPLIT com o delimitador “/” para dividir a data em mês, dia e ano.

= divisão (D2, ”/”)
importar para a planilha do google
Parece bom! No entanto, cada número deve ser forçado a dois dígitos. Você faz isso nas células logo abaixo delas usando o comando TEXT novamente.

= texto (E2, ”00 ″)

Um formato de “00” (esses são zeros) força dois dígitos, ou um “0” como espaço reservado.
importar para a planilha do google
Agora você está pronto para reconstruir todo o URL para a tabela HTML mais recente de novos avistamentos. Você pode fazer isso usando a função CONCATENAR e juntando todos os bits de informação que você acabou de extrair da primeira tabela.

= concatenar (“ http://www.nuforc.org/webreports/ndxp”,G3,E3,F3,”.html”)
importar para a planilha do google
Agora, na nova planilha que você criou acima (a planilha em branco), você fará uma nova função “importhtml”, mas desta vez para a primeira Parâmetro de link de URL, então você vai navegar de volta para a primeira planilha e clicar na célula com o link de URL que você acabou de criar.
UFOReport9
O segundo parâmetro é “tabela” e o último é “1” (porque a tabela de avistamentos é a primeira e única na página). Pressione Enter e agora você acabou de importar todo o volume de avistamentos que foram postados naquela data específica.
UFOReport10
Então, você provavelmente está pensando que esta é uma boa novidade e tudo - quero dizer, afinal, o que você fez foi extraído informações existentes de uma mesa na Internet e migrou para outra mesa, embora privada em seu Google Docs conta. Sim, é verdade. No entanto, agora que está em sua conta particular do Google Docs, você tem ao seu alcance as ferramentas e funções para analisar melhor esses dados e começar a descobrir conexões incríveis.

Usando relatórios dinâmicos para analisar dados importados

Recentemente, escrevi um artigo sobre como usar Relatórios dinâmicos na planilha do Google Torne-se um analista de dados especialista durante a noite usando as ferramentas de relatório de planilhas do GoogleVocê sabia que uma das melhores ferramentas de todas para conduzir a análise de dados é, na verdade, o Google Spreadsheet? A razão para isso não é apenas porque ele pode fazer quase tudo que você deseja ... consulte Mais informação para realizar todos os tipos de feitos interessantes de análise de dados. Bem, você pode fazer as mesmas acrobacias incríveis de análise de dados nos dados que importou da Internet - dando a você a capacidade de descobrir conexões interessantes que possivelmente ninguém mais descobriu antes tu.

Por exemplo, na tabela de avistamentos finais, posso decidir usar um relatório de pivô para dar uma olhada no número de diferentes formas únicas relatadas em cada estado, em comparação com o número geral de avistamentos naquele Estado. Finalmente, também filtrei qualquer coisa que mencione “alienígenas” na seção de comentários, para, com sorte, eliminar algumas das entradas mais complicadas.
UFOReport11
Na verdade, isso revela algumas coisas muito interessantes logo de cara, como o fato de que a Califórnia claramente tem o maior número de avistamentos relatados de qualquer outro estado, juntamente com a distinção de relatar o maior número de formas de embarcações no país. Também mostra que Massachusetts, Flórida e Illinois também são grandes rebatedores no departamento de avistamentos de OVNIs (pelo menos nos dados mais recentes).

Outra coisa legal sobre o Google Spreadsheet é a grande variedade de gráficos disponíveis para você, incluindo um Geo-Map que permite que você elabore os "pontos principais" de dados em um formato gráfico que realmente se destaque e faça essas conexões dentro dos dados bastante óbvio.
importar dados para planilha do google
Se você pensar bem, esta é apenas a ponta do iceberg. Se agora você pode importar dados de tabelas de dados em qualquer página da Internet, pense nas possibilidades. Obtenha os números de estoque mais recentes, ou os 10 livros e autores mais recentes na lista dos mais vendidos do New York Times, ou os carros mais vendidos do mundo. Existem tabelas HTML sobre quase todos os tópicos que você possa imaginar e, em muitos casos, essas tabelas são atualizadas com frequência.

ImportHtml oferece a capacidade de conectar sua planilha do Google à Internet e alimentar os dados existentes. Ele pode se tornar seu próprio centro pessoal de informações que você pode usar para manipular e transformar em um formato com o qual você pode realmente trabalhar. É apenas mais uma coisa muito legal de amar no Google Spreadsheet.

Você já importou dados para suas planilhas? Que tipo de coisas interessantes você descobriu nesses dados? Como você usou os dados? Compartilhe suas experiências e ideias na seção de comentários abaixo!

Créditos de imagem: Gráfico de Negócios

Ryan é bacharel em Engenharia Elétrica. Ele trabalhou 13 anos em engenharia de automação, 5 anos em TI e agora é engenheiro de aplicativos. Ex-editor-chefe da MakeUseOf, ele palestrou em conferências nacionais sobre visualização de dados e foi apresentado na TV e no rádio nacionais.