Faça uso da biblioteca PandasAI Python para aproveitar o poder da inteligência artificial e grandes modelos de linguagem para realizar tarefas de análise de dados.
Pandas é a biblioteca mais predominante para manipular conjuntos de dados e quadros de dados. Esta tem sido a norma há muito tempo. Mas com o avanço da inteligência artificial, uma nova biblioteca de código aberto chamada PandasAI é desenvolvida, adicionando recursos generativos de IA aos Pandas.
O PandasAI não substitui o Pandas. Em vez disso, fornece seus recursos de IA generativos. Dessa forma, você pode realizar análises de dados conversando com o PandasAI. Em seguida, ele abstrai o que está acontecendo em segundo plano e fornece a saída de sua consulta.
Instalando o PandasAI
Pandas AI está disponível via PyPI (Python Package Index). Crie um novo ambiente virtual se você estiver usando um IDE local. Então use o gerenciador de pacotes pip para instalá-lo.
pip instalar pandasai
Você pode encontrar um erro de conflito de dependência semelhante ao mostrado abaixo se estiver usando o Google Colab.
Não faça downgrade da versão do IPython. Basta reiniciar o tempo de execução e executar o bloco de código novamente. Isso resolverá o problema.
O código-fonte completo está disponível em um Repositório GitHub.
Compreendendo o conjunto de dados de amostra
O conjunto de dados de amostra que você manipulará com o PandasAI é o conjunto de dados de Preços de Habitação da Califórnia do Kaggle. Este conjunto de dados contém informações sobre habitação do censo da Califórnia de 1990. Possui dez colunas que fornecem estatísticas sobre essas casas. O cartão de dados para ajudá-lo a aprender mais sobre este conjunto de dados está disponível em Kaggle. Abaixo estão as cinco primeiras linhas do conjunto de dados.
Cada coluna representa uma única estatística de uma casa.
Conectando o PandasAI ao modelo de linguagem grande
Para conectar o PandasAI a um modelo de linguagem grande (LLM) como o do OpenAI, você precisa acessar sua chave de API. Para obter um, prossiga para o Plataforma OpenAI. Em seguida, faça login na sua conta. Selecione API na página de opções que aparece a seguir.
Depois disso, clique no seu perfil e selecione o Ver chaves de API opção. Na página que aparece clique em seguida Criar nova chave secreta botão. Por fim, nomeie sua chave de API.
OpenAI irá gerar sua chave de API. Copie-o conforme necessário ao conectar o PandasAI com o OpenAI. Certifique-se de manter a chave em segredo, pois qualquer pessoa com acesso a ela pode fazer chamadas para o OpenAI em seu nome. A OpenAI cobrará as chamadas em sua conta.
Agora que você tem a chave da API, crie um novo script Python e cole o código abaixo. Você não precisará alterar este código, pois na maioria das vezes você estará construindo sobre ele.
importar pandas como pd
de pandasai importar Pandas AI# Substitua pelo seu conjunto de dados ou dataframe
df = pd.read_csv("/content/housing.csv")# Instanciar um LLM
de pandasai.llm.openai importar OpenAI
llm = OpenAI(api_token="seu token de API")
pandas_ai = PandasAI(llm)
O código acima importa PandasAI e Pandas. Em seguida, ele lê um conjunto de dados. Por fim, instancia o OpenAI LLM.
Agora você está pronto para conversar com seus dados.
Executando Tarefas Simples Usando o PandasAI
Para consultar seus dados, passe seu dataframe e seu prompt para a instância da classe PandasAI. Comece imprimindo as primeiras cinco linhas do seu conjunto de dados.
pandas_ai (df, prompt='Quais são as cinco primeiras linhas do conjunto de dados?')
A saída do prompt acima é a seguinte:
Essa saída é idêntica àquela da visão geral do conjunto de dados anterior. Isso mostra que o PandasAI produz resultados corretos e é confiável.
Em seguida, verifique o número de colunas presentes em seu conjunto de dados.
pandas_ai (df, prompt='Quantas colunas existem no conjunto de dados? ')
Ele retorna 10, que é o número correto de colunas no conjunto de dados Habitação da Califórnia.
Verificando se há valores ausentes no conjunto de dados.
pandas_ai (df, prompt='Existem valores ausentes no conjunto de dados?')
PandasAI retorna que o total_quartos coluna tem 207 valores ausentes, o que novamente está correto.
Existem muitas tarefas simples que você pode realizar usando o PandasAI, você não está limitado às acima.
Executando consultas complexas usando o PandasAI
O PandasAI não suporta apenas tarefas simples. Você também pode usá-lo para realizar consultas complexas no conjunto de dados. Por exemplo, no conjunto de dados de habitação, se você quiser determinar o número de casas localizadas em um ilha, tem um valor de mais de 100.000 dólares e tem mais de 10 quartos, você pode usar o prompt abaixo.
pandas_ai (df, prompt= "Quantas casas têm um valor superior a 100000,"
"estão em uma ilha e o total de quartos é superior a 10?")
A saída correta é cinco. Este é o mesmo resultado que o PandasAI gera.
Consultas complexas podem levar algum tempo para um analista de dados escrever e depurar. O prompt acima leva apenas duas linhas de linguagem natural para realizar a mesma tarefa. Você só precisa ter em mente exatamente o que deseja realizar e o PandasAI cuidará do resto.
Desenhar gráficos usando o PandasAI
Os gráficos são uma parte vital de qualquer processo de análise de dados. Ele ajuda os analistas de dados a visualizar os dados de maneira amigável. O PandasAI também possui um recurso de desenho de gráfico. Você só precisa passar o dataframe e a instrução.
Comece criando um histograma para cada coluna no conjunto de dados. Isso o ajudará a visualizar a distribuição das variáveis.
pandas_ai (df, prompt= "Trace um histograma para cada coluna no conjunto de dados")
A saída é a seguinte:
O PandasAI conseguiu desenhar o histograma de todas as colunas sem precisar passar seus nomes no prompt.
O PandasAI também pode traçar gráficos sem que você diga explicitamente qual gráfico usar. Por exemplo, você pode querer descobrir a correlação dos dados no conjunto de dados de habitação. Para conseguir isso, você pode passar um prompt da seguinte forma:
pandas_ai (df, prompt= "Traçar a correlação no conjunto de dados")
O PandasAI plota uma matriz de correlação conforme mostrado abaixo:
A biblioteca escolhe um mapa de calor e plota uma matriz de correlação.
Passando em Múltiplos Dataframes para a Instância PandasAI
Trabalhar com vários dataframes pode ser complicado. Especialmente para uma pessoa que é nova na análise de dados. O PandasAI preenche essa lacuna, pois tudo o que você precisa fazer é passar os dois quadros de dados e começar a usar prompts para manipular os dados.
Crie dois dataframes usando Pandas.
dados_empregados = {
'ID do Empregado': [1, 2, 3, 4, 5],
'Nome': ['John', 'Emma', 'Liam', 'Olívia', 'William'],
'Departamento': ['RH', 'Vendas', 'ISTO', 'Marketing', 'Finança']
}salarios_dados = {
'ID do Empregado': [1, 2, 3, 4, 5],
'Salário': [5000, 6000, 4500, 7000, 5500]
}
empregados_df = pd. DataFrame (funcionários_dados)
salários_df = pd. DataFrame (salaries_data)
Você pode fazer uma pergunta ao PandasAI que atravesse ambos os quadros de dados. Você só precisa passar os dois quadros de dados para a instância do PandasAI.
pandas_ai([empregados_df, salarios_df], "Qual funcionário tem o maior salário?")
Ele retorna olívia que é novamente a resposta correta.
Realizar a análise de dados nunca foi tão fácil, o PandasAI permite que você converse com seus dados e os analise com facilidade.
Compreendendo a tecnologia que alimenta o PandasAI
O PandasAI simplifica o processo de análise de dados, economizando muito tempo para os analistas de dados. Mas abstrai o que está acontecendo em segundo plano. Você precisa se familiarizar com a IA generativa para ter uma visão geral de como o PandasAI está operando sob o capô. Isso também ajudará você a acompanhar as inovações mais recentes no domínio de IA generativa.