O maravilhoso Pandas Profiling, a melhor e mais prática Análise Exploratória de Dados.

Uma linha de código com a biblioteca Pandas Profiling resolve todos os nossos problemas para explorar os dados

Existem inúmeras maneiras de realizar a análise exploratória de dados (EDA) em Python (e em R). Assim que percebi que havia uma biblioteca que poderia resumir meu conjunto de dados com apenas uma linha de código, fiz questão de utilizá-lo para cada projeto, colhendo inúmeros benefícios da facilidade desta ferramenta EDA.

A etapa do EDA deve ser realizada antes do desenvolvimento de quaisquer modelos de Machine Learning, portanto, Pandas Profiling torna mais fácil visualizar nosso conjunto de dados em um belo e prática formato, ao mesmo tempo em que descrevem bem as informações do nosso conjunto de dados.

O relatório Pandas Profiling oferece os seguintes benefícios: visão geral, variáveis, interações, correlações, valores ausentes e uma amostra de seus dados. Usaremos dados gerados aleatoriamente para servir como exemplo desta ferramenta útil.

Conteúdo abordado:

Gerando dados com Numpy, formatando com Pandas e Analisando com Pandas Profiling

!pip install pandas_profilingimport pandas_profiling
import pandas as pd
import numpy as np
df = pd.DataFrame(
np.random.randint(0, 200, size = (15, 6)), columns=list('ABCDEF')
)
df.profile_report()

1. Visão Geral

A guia de visão geral do relatório fornece uma rápida olhada em quantas variáveis e observações temos, em outra palavras, o número de linhas e colunas.

Tavela Overview (visão geral)

Pandas Profiling também realizará um cálculo de quantas células ausentes existem em comparação com toda a coluna dataframe.

Além disso, apontará linhas duplicadas também e calculará essa porcentagem. Esta guia é mais semelhante à parte da função de .describe() do Pandas, ao mesmo tempo em que oferece uma melhor experiência de interface de usuário (UI).

A visão geral é dividida em estatísticas de conjunto de dados e tipos variáveis. Você também pode consultar avisos e reprodução para obter informações mais específicas sobre os dados.

2. Variáveis

Vou discutir variáveis, que também são referidas como colunas ou recursos do seu dataframe

Exemplo de Variáveis

Para obter mais granularidade nas estatísticas descritivas, a guia “variables” é o melhor caminho a percorrer. Podemos facilimente detectar variáveis distintas, observações ausentes, estatatística básica, e uso de memória.

Podemos ver o tipo de dados com as quais trabalhamos (ou seja, NUM). Ao cliclar em Toogle details (alternar detalhes). Esta alternância leva a uma infinidade de estatísticas mais utilizáveis no dia a dia. Os detalhes incluem:

Quantis e intervalos:

Estatística Descritiva:

Histogramas
Os histogramas fornecem uma representação prática das variáveis. Podemos esperar ver a frequência daa variável nas caixas de eixo y e tamanho fixo(bins=15 é o padrão) no eixo x.

Valores Comuns
Os valores comuns fornecerão o valor, a contagem e a frequência mais comuns para a variável.

Valores Extremos
Os valores extremos fornecerão o valor, a contagem e a frequência que estão nos valores mínimos e máximos do DataFrame

3. Interações

O recurso de interações do Pandas Profiling permite escolher entre a lista de colunas para estar no eixo x ou y-xis fornecidos. Por exemplo, na foto acima está a variável A contra a variável A, e é por isso que vemos uma sobreposição perfeita dos valores. Podemos facilmente mudar para outras variáveis ou colunas para alcançar um enredo diferente e uma excelente representação de nossos pontos de dados.

4. Correlações

Às vezes, fazer um gráfico de correlação mais extravagants ou colorido pode ser demorado se fizê-los a partir do código Python linha por linha.

No entanto, com esse plot de correlação, podemos visualizar facilmente as relações entre variáveis dos dados, que também são bem codificadas por cores. Existem quatro plots principais para exibição:

O gráfico de correlação também vem com um alternador de detalhes sobre cada correlação que podemos aplicar para visualização — esse recurso realmente ajuda quando precisamos de maiores esclarecimentos sobre a correlação aplicada, bem como qual decidir.

5. Valores perdidos

Como podemos ver área de “Missing Values”, a ferramenta de relatório retorna valores faltantes. Podemos visualizar quanto de cada variável está faltando, incluindo a contagem, e matriz.

É uma boa maneira de visualizar os dados antes de executar qualquer modelo com ele. O exemplo que vemos abaixo retrata que não há valores ausentes.

6. Amostra

A amostra age de forma semelhante à função head e tail, onde retorna as primeiras linhas ou as últimas linhas do DataFrame. Neste exemplo, podemos ver as primeiras linhas e as últimas linhas também.

Eu uso dessa guia é útil para termos uma noção de onde os dados começam e onde terminam — recomendo ordernar os dados para tirar melhor proveito desta guia, pois podemos ver o intervalo de dados, com uma representação visual respectiva desse extrato.

Conclusão

Ser um Cientista de Dados pode ser avassalador e o EDA é muitas vezes esquecido ou não praticado tanto quanto a construção de modelos de Machine Learning. Com o relatório Pandas Profiling, podemos executar EDA com código mínimo, fornecendo estatísticas úteis e visualizações também. Dessa forma, podemos nos concentrar na parte mais divertida de Data Science e Machine Learning, o processo de modelagem.

Para resumir, as principais características do relatório Pandas Profiling incluem visão geral, variáveis, interações, correlações, valores ausentes e uma amostra de seus dados.

Aqui está o código usado para instalar e importar bibliotecas, bem como para gerar alguns dados falsos para o exemplo, e finalmente, a única linha de código usada para gerar o relatório Pandas Profiling baseado no seu dataframe

Obrigado.

Composing a repository of books (i bought), authors (i follow) & blogs (direct ones) for my own understanding.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store