A biblioteca pandas torna a ciência de dados baseada em python um passeio fácil. É uma biblioteca Python popular para leitura, mesclagem, classificação, limpeza de dados e muito mais. Embora o pandas seja fácil de usar e aplicar em conjuntos de dados, ele tem muitas funções de manipulação de dados para aprender.

Você pode usar pandas, mas há uma boa chance de estar subutilizando-o para resolver problemas relacionados a dados. Aqui está nossa lista de funções valiosas de manipulação de dados de pandas que todo cientista de dados deve conhecer.

Instale pandas em seu ambiente virtual

Antes de prosseguirmos, certifique-se de instalar os pandas em seu ambiente virtual usando pip:

pip instalar pandas

Após instalá-lo, importe pandas no topo do seu script e vamos prosseguir.

1. pandas. Quadro de dados

Você usa pandas. Quadro de dados() para criar um DataFrame em pandas. Há duas maneiras de usar esta função.

Você pode formar um DataFrame em colunas passando um dicionário para o pandas. Quadro de dados() função. Aqui, cada chave é uma coluna, enquanto os valores são as linhas:

instagram viewer
importar pandas
DataFrame = pandas. DataFrame({"A": [1, 3, 4], "B": [5, 9, 12]})
imprimir (DataFrame)

O outro método é formar o DataFrame entre linhas. Mas aqui, você separará os valores (itens de linha) das colunas. O número de dados em cada lista (dados de linha) também deve corresponder ao número de colunas.

importar pandas
DataFrame = pandas. DataFrame([[1, 4, 5], [7, 19, 13]], colunas= ["J", "K", "L"])
imprimir (DataFrame)

2. Ler e gravar no Excel ou CSV em pandas

Você pode ler ou gravar em arquivos Excel ou CSV com pandas.

Lendo arquivos Excel ou CSV

Para ler um arquivo do Excel:

#Substitua example.xlsx pelo caminho do arquivo do Excel
DataFrame = DataFrame.read_excel("example.xlsx")

Veja como ler um arquivo CSV:

#Substitua example.csv pelo caminho do arquivo CSV
DataFrame = DataFrame.read_csv("example.csv")

Escrevendo para Excel ou CSV

Escrever para Excel ou CSV é uma operação de pandas bem conhecida. E é útil para salvar tabelas recém-computadas em folhas de dados separadas.

Para escrever em uma planilha do Excel:

DataFrame.to_excel("full_path_of_the_destination_folder/filename.xlsx")

Se você quiser gravar em CSV:

DataFrame.to_csv("full_path_of_the_destination_folder/filename.csv")

Você também pode calcular as tendências centrais de cada coluna em um DataFrame usando pandas.

Veja como obter o valor médio de cada coluna:

DataFrame.mean()

Para o valor da mediana ou moda, substitua significar() com mediana() ou modo().

4. DataFrame.transform

pandas' DataFrame.transform() modifica os valores de um DataFrame. Ele aceita uma função como um argumento.

Por exemplo, o código abaixo multiplica cada valor em um DataFrame por três usando Função lambda do Python:

DataFrame = DataFrame.transform (lambda y: y*3)
imprimir (DataFrame)

5. DataFrame.isnull

Esta função retorna um valor booleano e sinaliza todas as linhas contendo valores nulos como Verdadeiro:

DataFrame.isnull()

O resultado do código acima pode ser difícil de ler para conjuntos de dados maiores. Então você pode usar o isnull().sum() função em vez disso. Isso retorna um resumo de todos os valores ausentes para cada coluna:

DataFrame.isnull().sum()

6. Dataframe.info

O info() função é um operação essencial de pandas. Em vez disso, ele retorna o resumo dos valores não ausentes para cada coluna:

DataFrame.info()

7. DataFrame.describe

O descrever() A função fornece a estatística de resumo de um DataFrame:

DataFrame.describe()

8. DataFrame.replace

Usando o DataFrame.replace() método em pandas, você pode substituir as linhas selecionadas por outros valores.

Por exemplo, para trocar linhas inválidas por Nan:

# Certifique-se de instalar pip numpy para que isso funcione
importar numpy
importar pandas
# Adicionar uma palavra-chave inplace e defini-la como True torna as alterações permanentes:
DataFrame.replace([invalid_1, invalid_2], numpy.nan, inplace=True)
imprimir (DataFrame)

9. DataFrame.fillna

Esta função permite preencher linhas vazias com um valor específico. Você pode preencher todos Nan linhas em um conjunto de dados com o valor médio, por exemplo:

DataFrame.fillna (df.mean(), inplace = True)
imprimir (DataFrame)

Você também pode ser específico da coluna:

DataFrame['column_name'].fillna (df[column_name].mean(), inplace = True)
imprimir (DataFrame)

10. DataFrame.dropna

O dropna() O método remove todas as linhas que contêm valores nulos:

DataFrame.dropna (inplace = True)
imprimir (DataFrame)

11. DataFrame.insert

Você pode usar pandas ' inserir() função para adicionar uma nova coluna a um DataFrame. Ele aceita três palavras-chave, o nome da coluna, uma lista de seus dados e sua localização, que é um índice de coluna.

Veja como isso funciona:

DataFrame.insert (coluna = 'C', valor = [3, 4, 6, 7], loc=0)
imprimir (DataFrame)

O código acima insere a nova coluna no índice de coluna zero (torna-se a primeira coluna).

12. DataFrame.loc

Você pode usar local para encontrar os elementos em um índice específico. Para visualizar todos os itens na terceira linha, por exemplo:

DataFrame.loc[2]

13. DataFrame.pop

Esta função permite remover uma coluna especificada de um DataFrame pandas.

Ele aceita um item palavra-chave, retorna a coluna exibida e a separa do restante do DataFrame:

DataFrame.pop (item = 'column_name')
imprimir (DataFrame)

14. DataFrame.max, min

Obter os valores máximos e mínimos usando pandas é fácil:

DataFrame.min()

O código acima retorna o valor mínimo para cada coluna. Para obter o máximo, substitua min com máximo.

15. DataFrame.join

O Junte() A função de pandas permite mesclar DataFrames com nomes de colunas diferentes. Você pode usar a junção esquerda, direita, interna ou externa. Para unir um DataFrame à esquerda com dois outros:

#Junte à esquerda colunas mais longas com as mais curtas
newDataFrame = df1.join([df_shorter2, df_shorter3], how='left')
imprimir (novoDataFrame)

Para unir DataFrames com nomes de coluna semelhantes, você pode diferenciá-los incluindo um sufixo à esquerda ou à direita. Faça isso incluindo o lssufixo ou sufixo palavra-chave:

newDataFrame = df1.join([df2, rsuffix='_', how='externa') 
imprimir (novoDataFrame)

16. DataFrame.combine

O combinar() A função é útil para mesclar dois DataFrames contendo nomes de colunas semelhantes com base em critérios definidos. Ele aceita um função palavra-chave.

Por exemplo, para mesclar dois DataFrames com nomes de coluna semelhantes com base apenas nos valores máximos:

newDataFrame = df.combine (df2, numpy.minimum)
imprimir (novoDataFrame)

Observação: Você também pode definir uma função de seleção personalizada e inserir numpy.mínimo.

17. DataFrame.astype

O astype() A função altera o tipo de dados de uma determinada coluna ou DataFrame.

Para alterar todos os valores em um DataFrame para string, por exemplo:

DataFrame.astype (str)

18. DataFrame.sum

O soma() função em pandas retorna a soma dos valores em cada coluna:

DataFrame.sum()

Você também pode encontrar a soma acumulada de todos os itens usando cumsum():

DataFrame.cumsum()

19. DataFrame.drop

pandas' derrubar() A função exclui linhas ou colunas específicas em um DataFrame. Você precisa fornecer os nomes das colunas ou o índice da linha e um eixo para usá-lo.

Para remover colunas específicas, por exemplo:

df.drop (colunas=['coluna1', 'coluna2'], eixo=0)

Para descartar linhas nos índices 1, 3 e 4, por exemplo:

df.drop([1, 3, 4], eixo=0)

20. DataFrame.corr

Quer encontrar a correlação entre colunas inteiras ou flutuantes? pandas pode ajudá-lo a conseguir isso usando o corr() função:

DataFrame.corr()

O código acima retorna um novo DataFrame contendo a sequência de correlação entre todas as colunas inteiras ou flutuantes.

21. DataFrame.add

O adicionar() A função permite adicionar um número específico a cada valor no DataFrame. Ele funciona iterando por meio de um DataFrame e operando em cada item.

Relacionado:Como usar para loops em Python

Para adicionar 20 a cada um dos valores em uma coluna específica contendo números inteiros ou flutuantes, por exemplo:

DataFrame['interger_column'].add (20)

22. DataFrame.sub

Assim como a função de adição, você também pode subtrair um número de cada valor em um DataFrame ou coluna específica:

DataFrame['interger_column'].sub (10)

23. DataFrame.mul

Esta é uma versão de multiplicação da função de adição de pandas:

DataFrame['interger_column'].mul (20)

24. DataFrame.div

Da mesma forma, você pode dividir cada ponto de dados em uma coluna ou DataFrame por um número específico:

DataFrame['interger_column'].div (20)

25. DataFrame.std

Usando o std() função, pandas também permite calcular o desvio padrão para cada coluna em um DataFrame. Ele funciona iterando em cada coluna em um conjunto de dados e calculando o desvio padrão para cada:

DataFrame.std()

26. DataFrame.sort_values

Você também pode classificar os valores de forma crescente ou decrescente com base em uma coluna específica. Para classificar um DataFrame em ordem decrescente, por exemplo:

newDataFrame = DataFrame.sort_values ​​(by = "colmun_name", descendente = True)

27. DataFrame.melt

O fundição() função em pandas inverte as colunas em um DataFrame para linhas individuais. É como expor a anatomia de um DataFrame. Assim, permite visualizar explicitamente o valor atribuído a cada coluna.

newDataFrame = DataFrame.melt()

28. DataFrame.count

Esta função retorna o número total de itens em cada coluna:

DataFrame.count()

29. DataFrame.query

pandas' inquerir() permite chamar itens usando seu número de índice. Para obter os itens da terceira linha, por exemplo:

DataFrame.query('4') # Chama a consulta no quarto índice

30. DataFrame.where

O Onde() function é uma consulta pandas que aceita uma condição para obter valores específicos em uma coluna. Por exemplo, para obter todas as idades inferiores a 30 de um Era coluna:

DataFrame.where (DataFrame['Idade'] < 30)

O código acima gera um DataFrame contendo todas as idades inferiores a 30 anos, mas atribui Nan para linhas que não atendem à condição.

Lide com dados como um profissional com pandas

pandas é um tesouro de funções e métodos para lidar com conjuntos de dados de pequena a grande escala com Python. A biblioteca também é útil para limpar, validar e preparar dados para análise ou aprendizado de máquina.

Dedicar um tempo para dominá-lo definitivamente facilita sua vida como cientista de dados e vale a pena o esforço. Portanto, sinta-se à vontade para pegar todas as funções que você pode manipular.

20 funções do Python que você deve conhecer

A Python Standard Library contém muitas funções para ajudar em suas tarefas de programação. Conheça os mais úteis e crie um código mais robusto.

Leia a seguir

CompartilhadoTweetE-mail
Tópicos relacionados
  • Programação
  • Pitão
  • Programação
  • base de dados
Sobre o autor
Idowu Omisola (123 Artigos Publicados)

Idowu é apaixonado por qualquer tecnologia inteligente e produtividade. Em seu tempo livre, ele brinca com a codificação e muda para o tabuleiro de xadrez quando está entediado, mas também adora romper com a rotina de vez em quando. Sua paixão por mostrar às pessoas o caminho da tecnologia moderna o motiva a escrever mais.

Mais de Idowu Omisola

Assine a nossa newsletter

Junte-se à nossa newsletter para dicas de tecnologia, análises, e-books gratuitos e ofertas exclusivas!

Clique aqui para assinar