Análise de Dados com Pandas

Um manual rápido para Análise de dados com Pandas

Pandas usa uma estrutura de dados rápidas e eficaz projetada para tornar o trabalho com dados relacionais ou rotulados, fácil e intuitivo. Neste artigo, veremos algumas definições e exemplos codificados com Pandas.

É impossível falar sobre Pandas sem Ciência de Dados. A ciência de dados começa com o processamento dos dados, e esses processos são as partes mais demoradas dos projetos. Portanto, uma série de bibliotecas são necessárias para facilitar o trabalho durante a detecção e limpeza de dados.

Como já sabemos, Numpy torna a manipulação de dados muito mais fácil se trabalhar. Nas partes onde Numpy se torna mais ausente, Pandas facilita nossa vida. No entanto, deve ser considerado como um complemento do Pandas Numpy, não uma alternativa.

Hoje, a biblioteca Pandas é um dos instrumentos mais preferidos para os cientistas de dados fazerem manipulação e análise de dados.

Pandas é um divisor de águas para ciência de dados e análises, especialmente se você veio para Python porque estava procurando por algo mais poderoso do que o Excel e outros softwares similares.

Destaques da Biblioteca Pandas

Exemplos de código

As principais estruturas de dados em Pandas são implementadas com classes Series e DataFrame.

Series:

A série foi criada baseada em sequências numpy. Então eles são muito semelhantes a matrizes numpy unidimensionais. Por essa razão, muitas funções e métodos de matrizes Numpy também são válidos para séries.

Exemplo geral do tipo de série:

Operações Matemáticas:

Trabalhando com expressões condicionais:

Podemos pensar em DataFrames como uma tabela SQL com diferentes tipos de colunas e linhas. DataFrames nos permitem processar dados com mais facilidade.

Análise exploratória de dados (EDA) com Pandas:

1- Você pode encontrar milhares de conjuntos de dados para praticar na seção Datasets do Kaggle.

import numpy as np
import pandas as pd
df = pd.read_csv("dataset.csv")

2- Nosso arquivo agora se transformou em um objeto DataFrame chamado df. Agora podemos usar os recursos que mencionamos na parte anterior do artigo e muito mais.

print(df.shape)
output:
(2514, 10)

3-Identificar quais são as colunas e tipos de dados do DF:

#Column name
print(df.columns)
output:
Index(['Name', 'Twitter_username', 'Account_start_time', 'Account_ID', 'Sex','Birthplace', 'Birthday', 'Age', 'Instagram_username','Political_party'],dtype='object')
#Type
print(df.dtypes)
output:
Name object
Twitter_username object
Account_start_time object
Account_ID object
Sex object
Birthplace object
Birthday object
Age float64
Instagram_username object
Political_party object
dtype: object

4-Visualizar para as primeiras linhas do DF:

df.head()

Da mesma forma, podemos examinar as últimas linhas com o método tail().

5-Informações gerais sobre nosso quadro de dados:

df.info()output:
RangeIndex: 2514 entries, 0 to 2513
Data columns (total 10 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 Name 2514 non-null object
1 Twitter_username 2514 non-null object
2 Account_start_time 2123 non-null object
3 Account_ID 2183 non-null object
4 Sex 2514 non-null object
5 Birthplace 2513 non-null object
6 Birthday 2491 non-null object
7 Age 2491 non-null float64
8 Instagram_username 1167 non-null object
9 Political_party 2514 non-null object
dtypes: float64(1), object(9)
memory usage: 196.5+ KB

Com o método de info() aprendemos sobre as colunas com dados faltantes, agora vamos obter informações sobre os dados faltantes com mais clareza

6-Informações estatísticas sobre colunas:

print(df.describe())output:
Age
count 2491.000000
mean 58.737455
std 12.589284
min 18.000000
25% 49.000000
50% 59.000000
75% 68.000000
max 119.000000

7-Resumo estatístico de todas as colunas não numéricas, devemos usar o parâmetro include = [‘O’]:

df.describe(include=['O'])

8-Número de vezes que cada valor está na coluna:

df["Name"].value_counts()output:
Christy Smith 12
Ben Carson 12
Joni Ernst 8
Susan Bysiewicz 8
Lina Hidalgo 8
..
Joaquín Castro 1
Tom Udall 1
Raul Ruiz 1
Jared Golden 1
Hillary Clinton 1
Name: Name, Length: 1806, dtype: int64

value_counts é um método muito útil usado durante a exploração de dados.

Retorna uma série mostrando quantas vezes cada valor único não-NaN na coluna foi usado.

9-Classificaçao de dados:

Digamos que queremos ver 10 pessoas com a maior idade. Neste caso, basta classificar os aplicativos de acordo com a coluna “Age” e imprimir os primeiros 10 aplicativos na tela. Vamos ver como fazer isso:

df.sort_values(by='Age', ascending=False).head(10)

10-Excluir dados de um DataFrame

A função drop () é usada para excluir linhas ou colunas em pandas. Seu uso geral é o seguinte:

df.drop(2370, inplace = True)
df.sort_values(by='Age', ascending=False).head(10)

Como você pode ver, não há mais linha 2370.

df= df.drop("Instagram_username", axis=1)
df.sort_values(by='Age', ascending=False).head(10)

Como você pode ver, não há Instagram_username coluna.

Conclusão:

Neste artigo, aprendemos como usar Pandas durante a análise e exploração de dados em geral. Você pode dar uma olhada no site oficial da Pandas ou conferir os depoimentos que inspirei.

Obrigado.

Composing a repository of books (i bought), authors (i follow) & blogs (direct ones) for my own understanding.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store