6 Truques em Pandas para Análise de Dados

Fonte: B. Chen, Github Chen

Neste artigo, você aprenderá alguns dos truques pandas mais úteis para acelerar sua análise de dados.

  1. Selecione colunas por tipos de dados
  2. Converter strings em números
  3. Detectar e manusear valores perdidos
  4. Converta um recurso numérico contínuo em uma característica categórica
  5. Crie um DataFrame a partir da área de transferência
  6. Construa um DataFrame a partir de vários arquivos

1. Selecionar colunas por tipos de dados

Primeiramente, carregar o dataset Titanic:

Verificar os tipos de dados para cada varável do Titanic DataFrame:

Digamos que você precisa selecionar somente as colunas numéricas.

Isso inclui colunas int e float. Você também pode usar este método para

  • selecionar apenas colunas de objeto
  • selecionar vários tipos de dados
  • excluir certos tipos de dados inteiros

2.Convert strings to numbers

Existem dois métodos para converter uma sequência em números em Pandas:

  • o métodoastype()
  • o métodoto_numeric()

Vamos criar um exemplo do DataFrame para dar uma olhada na diferença.

As colunas de preço e venda são armazenadas como strings e, portanto, resultam em colunas de objetos:

Podemos usar o primeiro método para realizar a conversão na coluna de preços como segue: astype()

No entanto, isso teria resultado em um erro se tentássemos usá-lo na coluna de vendas. Para corrigir isso, podemos usar com argumento: to_numeric()errors='coerce'

3. Detectar e manusear valores perdidos

Uma maneira de detectar valores perdidos é usando o método e dar uma olhada na coluna Contagem Não Nula.info()

Quando o conjunto de dados é grande, podemos contar o número de valores faltantes em vez disso. retorna o número de valores faltantes para cada colunadf.isnull().sum()

Quando o conjunto de dados é grande, podemos contar o número de valores faltantes em vez disso. retorna o número de valores faltantes para cada colunadf.isnull().sum()

Além disso, também podemos descobrir a porcentagem de valores ausentes:df.isna().mean()

4. Dropar valores ausentes

Dropar linhas se algum valor de NaN estiver presente:

Dropar colunas se algum valor naN estiver presente:

Dropar colunas em que faltam mais de 10% dos valores:

5. Substituindo valores perdidos

Para substituir todos os valores de NaN por um valor escalar:

Para substituir os valores naN pelos valores da linha anterior:

Para substituir os valores naN pelos valores da coluna anterior:

Mesmo assim, é possível e substituir os valores NaN pelos valores na próxima linha ou coluna.

A outra substituição comum é substituir os valores de NaN pela média. Por exemplo, substituir os valores de NaN na coluna Idade pela média.

4. Converter um recurso numérico contínuo em uma característica categórica (categorias e intervalos)

Na etapa de preparação de dados, é bastante comum combinar ou transformar recursos existentes para criar um mais útil. Uma das formas mais populares é criar um recurso categórico a partir de um recurso numérico contínuo.

df['Age'].head(8)

A idade é um atributo numérico contínuo, mas e se você quiser convertê-lo em um atributo categórico, por exemplo, converter idades em faixas etárias: ≤12, Teen (≤18), Adulto (≤60) e Older (>60)

A melhor maneira de fazer isso é usando a função Pandas:cut()

E chamar a coluna ageGroup também deve exibir as informações da coluna.head()

5. Crie um DataFrame a partir da área de transferência

A função Pandas é uma maneira muito útil de colocar dados em um DataFrame o mais rápido possível.read_clipboard()

Suponha que tenhamos os seguintes dados e queremos criar um quadro de dados a partir dele:

Só precisamos selecionar os dados e copiá-los para a área de transferência. Em seguida, podemos usar a função para lê-la em um DataFrame.

6. Construir um DataFrame a partir de vários arquivos: .glob()

Um conjunto de dados pode ser composto de vários arquivos.

Uma maneira de fazer isso é ler cada arquivo em seu próprio DataFrame, combiná-los e, em seguida, excluir o DataFrame original, mas isso seria ineficiente em questão de memória.

Uma solução melhor é usar o módulo embutido .glob

Neste caso, está procurando no diretório de dados todos os arquivos CSV que começam com a palavra “data_row_”.

Unindo conjuntos em linha

Digamos que nosso conjunto de dados está espalhado por 2 arquivos, data_row_1.csv e data_row_2.csv:

Para criar um DataFrame a partir dos 2 arquivos:

Depois disso, lemos cada um dos arquivos usando e passamos os resultados para a função, que irá concatenar as linhas em um único DataFrame. Além disso, para evitar o valor duplicado no índice, dizemos para ignorar o índice () e, em vez disso, usar o índice inteiro.

Unindo conjunto em termos de coluna

Digamos que nosso conjunto de dados está espalhado por 2 arquivos, data_col_1.csv e data_col_2.csv,em termos de coluna.

Para criar um DataFrame a partir dos 2 arquivos.

Desta vez, dizemos à função para concatenar ao longo do eixo colunas.concat()

Composing a repository of books (i bought), authors (i follow) & blogs (direct ones) for my own understanding.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store