Se você usa Python, mesmo para as tarefas mais simples, provavelmente está ciente da importância de suas bibliotecas de terceiros. A biblioteca Pandas, com seu excelente suporte para DataFrames, é uma dessas bibliotecas.
Você pode importar vários tipos de arquivo para Python DataFrames e criar várias versões para armazenar diferentes conjuntos de dados. Depois de importar seus dados usando DataFrames, você pode mesclá-los para realizar uma análise detalhada.
Abordando o básico
Antes de começar a mesclar, você precisa ter DataFrames para mesclar. Para fins de desenvolvimento, você pode criar alguns dados fictícios para experimentar.
Crie os DataFrames em Python
Como primeiro passo, importe a biblioteca Pandas para o seu arquivo Python. Pandas é uma biblioteca de terceiros que lida com DataFrames em Python. Você pode usar o importar instrução para usar a biblioteca, como segue:
importar pandas Como pd
Você pode atribuir um alias ao nome da biblioteca para encurtar suas referências de código.
Você precisa criar dicionários, que podem ser convertidos em DataFrames. Para melhores resultados, crie duas variáveis de dicionário—
dict1 e dict2—para armazenar informações específicas:dict1 = {"ID do usuário": ["001", "002", "003", "004", "005"],
"FNome": ["John", "Brad", "Rony", "Roald", "Chris"],
"LNome": ["Harley", "Cohen", "Dahl", "Harrington", "Kerr-Hislop"]}
dict2 = {"ID do usuário": ["001", "002", "003", "004"], "Era": [15, 28, 34, 24]}
Lembre-se, você precisa ter um elemento comum em ambos os valores do dicionário, para atuar como a chave primária para combinar seus DataFrames posteriormente.
Converta seus dicionários em dataframes
Para converter seus valores de dicionário em DataFrames, você pode usar o seguinte método:
df1 = pd. DataFrame (dict1)
df2 = pd. DataFrame (dict2)
Alguns IDEs permitem que você verifique os valores dentro do DataFrame referenciando a função DataFrame e pressionando Executar/Executar. Existem muitos IDEs compatíveis com Python, para que você possa escolher o que for mais fácil para você aprender.
Quando estiver satisfeito com o conteúdo de seus DataFrames, você pode passar para a etapa de mesclagem.
Combinando quadros com a função de mesclagem
A função de mesclagem é a primeira função do Python que você pode usar para combinar dois DataFrames. Esta função recebe os seguintes argumentos padrão:
pd.merge (DataFrame1, DataFrame2, how= modelodomesclar)
Onde:
- pd é um alias para a biblioteca Pandas.
- mesclar é a função que mescla DataFrames.
- DataFrame1 e DataFrame2 são os dois DataFrames a serem mesclados.
- Como as define o tipo de mesclagem.
Alguns argumentos opcionais extras estão disponíveis, que você pode usar quando tiver uma estrutura de dados complexa.
Você pode usar valores diferentes para o parâmetro como para definir o tipo de mesclagem a ser realizada. Esses tipos de mesclagem serão familiares se você usou SQL para juntar tabelas de banco de dados.
Mesclar à esquerda
O tipo de mesclagem à esquerda mantém os valores do primeiro DataFrame intactos e extrai os valores correspondentes do segundo DataFrame.
Mesclar à direita
O tipo de mesclagem correto mantém os valores do segundo DataFrame intactos e extrai os valores correspondentes do primeiro DataFrame.
Mesclagem interna
O tipo de mesclagem interna retém os valores correspondentes de ambos os DataFrames e remove os valores não correspondentes.
Mesclagem Externa
O tipo de mesclagem externa retém todos os valores correspondentes e não correspondentes e consolida os DataFrames juntos.
Como usar a função Concat
o concatenar function é uma opção flexível em comparação com algumas das outras funções de mesclagem do Python. Com a função concat, você pode combinar DataFrames verticalmente e horizontalmente.
No entanto, a desvantagem de usar essa função é que ela descarta quaisquer valores não correspondentes por padrão. Como algumas outras funções relacionadas, esta função tem alguns argumentos, dos quais apenas alguns são essenciais para uma concatenação bem-sucedida.
concat (dataframes, axis=0, join='exterior'/’interno’)
Onde:
- concatenar é a função que une DataFrames.
- quadros de dados é uma sequência de DataFrames para concatenar.
- eixo representa a direção da concatenação, sendo 0 horizontal e 1 vertical.
- Junte especifica uma junção externa ou interna.
Usando os dois DataFrames acima, você pode experimentar a função concat da seguinte forma:
# define os dataframes em formato de lista
df_merged_concat = pd.concat([df1, df2])
# imprime os resultados da função Concat
imprimir(df_merged_concat)
A ausência dos argumentos de eixo e junção no código acima combina os dois conjuntos de dados. A saída resultante tem todas as entradas, independentemente do status de correspondência.
Da mesma forma, você pode usar argumentos adicionais para controlar a direção e a saída da função concat.
Para controlar a saída com todas as entradas correspondentes:
# Concatenando todos os valores correspondentes entre os dois dataframes com base em suas colunas
df_merged_concat = pd.concat([df1, df2], axis=1, join = 'interno')
imprimir(df_merged_concat)
O resultado contém todos os valores correspondentes apenas entre os dois DataFrames.
Mesclando DataFrames com Python
Os DataFrames são parte integrante do Python, considerando sua flexibilidade e funcionalidade. Devido aos seus usos multifacetados, você pode usá-los extensivamente para executar uma variedade de tarefas com a maior facilidade.
Se você ainda está aprendendo sobre Python DataFrames, tente importar alguns arquivos do Excel e combine-os com diferentes abordagens.