Grandes ativos de dados são confusos, especialmente quando você precisa extraí-los de sites, servidores ou outras fontes de dados.

Aplicativos baseados em interface do usuário, como o MS Excel, são bons para lidar com conjuntos de dados simples, mas podem ter dificuldades quando os dados ficam maiores. Esta é uma boa razão para você migrar para o Python para realizar operações baseadas em dados mais complexas.

A biblioteca de terceiros do Python, Pandas, ajuda você a classificar seus conjuntos de dados existentes rapidamente. Se você deseja classificar seus dados em Python, este artigo analisa algumas maneiras de realizar essa tarefa.

Pré-requisitos para usar o Python para classificar dados

Antes de classificar seus dados em Python, você precisa cuidar de alguns pré-requisitos:

  • Baixe um IDE Python. Você pode usar um IDE compatível com Python, como Jupyter Notebook, PyCharm e Spyder, entre outros. Cada um deles é compatível com todas as versões do Python.
  • Instalar pandas. Você precisará do pacote pandas que você pode instalar usando PIP ou seu método preferido.
  • Conjunto de dados de amostra. Baixe um conjunto de dados de amostra para praticar os códigos listados. Alternativamente, você pode usar esses procedimentos em seus dados exclusivos.

Importando a biblioteca Pandas em Python

Pandas é uma biblioteca Python de terceiros que você pode usar para lidar com Excel, CSV e outros formatos de dados.

Para trabalhar com um arquivo do Excel de exemplo, comece importando a biblioteca pandas. Depois disso, você usará o procedimento de importação para ler os dados do Excel em Python.

Para importar a biblioteca

importar pandas Como pd

Criar um novo DataFrame para carregar os dados do Excel

arquivo = "Amostra - Superstore.xls"
df = pd.read_excel (arquivo)
df.cabeça()

Onde:

  • df é um objeto DataFrame que armazena os dados importados.
  • pd é um alias para a biblioteca Pandas.
  • leia_excel é um método para ler o arquivo do Excel em Python.
  • Arquivo é um caminho para o arquivo do Excel.
  • cabeça é um método que retorna as primeiras cinco linhas do DataFrame.

Depois que seu programa tiver carregado os dados, você poderá usar os vários métodos DataFrame disponíveis para classificá-los de várias maneiras.

1. Classificando por uma única coluna em um DataFrame

Como seus dados terão muitas linhas e colunas, muitas vezes você desejará classificar os dados com base em uma ou mais colunas específicas.

O Python classifica os dados em ordem crescente por padrão. Se você deseja alterar a ordem de classificação, deve mencioná-la explicitamente em seu código.

Classificar por uma única coluna (ordem crescente)

df.sort_values ​​(por = "Identificação do Cliente")

Classificar por uma única coluna (ordem decrescente)

Colocou o ascendente parâmetro para Falso para classificar sua coluna em ordem decrescente.

df.sort_values ​​(por = "Identificação do Cliente", ascendente=Falso)

Onde:

  • df é um objeto DataFrame que contém os dados.
  • sort_values é um método para classificar por valores de dados.
  • por é um parâmetro para definir o nome da coluna.
  • ascendente é um parâmetro para definir a ordem de classificação.

2. Classificando várias colunas em um DataFrame

Se seus requisitos exigirem, você também poderá classificar seus DataFrame(s) com base em várias colunas de uma só vez. Nesse cenário, você deve definir as referências de coluna em uma lista.

Classificar por várias colunas em ordem crescente

df.sort_values ​​(por = ["Identificação do Cliente", "Cidade"])

Classificar por várias colunas decrescente

Use a função ascendente = falso para classificar suas colunas em ordem decrescente. Lembre-se de que você precisa especificar os nomes das colunas em uma lista para classificá-las simultaneamente.

df.sort_values ​​(por = ["Identificação do Cliente", "Cidade"], ascendente = Falso)

Classificando por várias colunas em diferentes ordens de classificação

Com os conceitos básicos de classificação fora do caminho, o que acontece quando você deseja classificar uma coluna em ordem decrescente e outra em ordem crescente? Você precisa ajustar seu código um pouco para incorporar esses requisitos.

Por exemplo, para classificar o Região e Cidade colunas em ordem decrescente e ascendente, respectivamente:

df.sort_values ​​(por = ["Região", "Cidade"], ascendente = [Falso, Verdadeiro])

A explicação deste código é simples; você define o nome do DataFrame e passa o sort_values função junto com os nomes das colunas em uma lista. Você deveria usar boleano valores para especificar a ordem de classificação.

Chamar a função assim significa que o Python classificará primeiro pela coluna Region do DataFrame em ordem decrescente. Em seguida, as linhas com uma região idêntica serão classificadas pela coluna Cidade, em ordem crescente.

3. Como classificar colunas em um DataFrame por índice

A variável de índice é o valor padrão atribuído a cada linha em um Dataframe Python. Você pode definir os valores de índice ou deixar o Python definir um valor de índice por conta própria.

Para classificar os dados por seu valor de índice, você pode usar o sort_index função. Essa função classifica com base no índice e não em qualquer valor contido no conjunto de dados original.

df.sort_index()

Assim como sort_values, você pode passar um ascendente parâmetro para especificar a direção da classificação. Por exemplo, passe um valor de Falso para classificar os dados em ordem decrescente:

df.sort_index (ascendente = Falso)

4. Classificando colunas em um DataFrame em vez de linhas

Em vez de classificar as linhas em um DataFrame, você pode classificar suas colunas. Você pode fazer isso chamando o método sort_index e passando um eixo parâmetro com um valor de 1:

df.sort_index (eixo=1)

Esta etapa classifica o DataFrame, por suas colunas, em ordem crescente. Para classificar as colunas do DataFrame em ordem decrescente, você pode especificar a ordem de classificação em sua etapa de classificação.

df.sort_index (eixo=1, ascendente = Falso)

5. Modificando o DataFrame enquanto o classifica

Os dois métodos de classificação funcionam retornando uma cópia dos dados originais, em seu estado recém-ordenado. Para economizar espaço de armazenamento ou simplesmente escrever um código mais conciso, você pode modificar os dados originais do DataFrame. Cada método aceita um no lugar parâmetro booleano que modifica os dados em vez de retornar uma cópia modificada.

df.sort_values ​​(por = ["Identificação do Cliente", "Cidade"], ascendente = False, inplace = True)

Aprendendo a classificar dados em Python

O Python replica muitas das funções internas do Excel com algumas linhas de código. De procedimentos de classificação à criação de tabelas dinâmicas elaboradas em seus dados, você nomeia e pode fazê-lo em Python.

Se você ainda é novo no Python e está aprendendo as regras, essas etapas melhorarão suas habilidades de codificação com relativa facilidade.