Pandas Cheat Sheet direto ao Ponto.

Livro de apoio: Pandas 1.x Cookbook: Practical recipes for scientific computing, time series analysis, and exploratory data analysis using Python

Pandas é uma biblioteca grande com muito potencial e flexibilidade. Ao começar a usá-la, eu imediatamente me apaixonei por ela.

Aqui estão alguns dos principais métodos de trabalho dos Pandas que venho aprendendo e que irão impulsionar o desempenho nas nossas análises.

Abordaremos diretamente funções para:

  • Carregar de dados
  • Obter informações sobre o DataFrame
  • Obter informações sobre colunas (atributos)
  • Alterar valores do DataFrame
  • Extrair valores do DataFrame
  • Lidar com duplicatas e valores ausentes
  • Plotagem rápida de Dados

De praxe…

Em Python, tudo é um objeto. Lemos nossos dados em um objeto de dataframe. Cada coluna deste objeto dataframe é um objeto Série. Algumas funções de pandas se aplicam a objetos de dataframe e algumas se aplicam a objetos series.

Da mesma forma, alguns retornam objetos DataFrame e alguns retornam objetos Series. Quando uma função retorna um objeto Series, você pode atribuí-lo diretamente a uma nova coluna ao DataFrame para criar uma nova coluna:

Obtendo informações sobre colunas

  1. Retorna a contagem de quantas vezes cada valor único ocorre nesta coluna

2. Retorna a média de todos os valores da coluna. Só se aplica a colunas numéricas. As alternativas são min(), max(), dst() e median().

3. Retorna todo o dataframe onde todas as linhas são classificadas com base nos valores da determinada coluna. O padrão é ascendente, mas pode ser alterado adicionando “ascendente=False” como parâmetro.

Se você der uma lista de nomes de colunas, ele classificará o dataframe com todas as colunas em ordem.

Lendo e carregando os dados

  1. Lê o arquivo do sistema de arquivos local e grava-o em uma variável chamada df.

Obtendo informações sobre o dataframe

  1. Retorna as cinco primeiras linhas do dataframe. É possível especificar o número de colunas a serem devolvidas como parâmetro dentro dos suportes.

2. Não precisa de parênteses. Retorna uma tupla com número de linhas e colunas, respectivamente.

3. Retorna estatísticas comuns como média, desvio padrão etc em cada coluna.

4. Retorna o nome de todas as colunas em uma lista.

5. Retorna o índice do dataframe

6. Retorna os tipos de cada coluna. Os tipos comuns são: inteiro, flutuante, string (listado como Objeto), datatime.

7. Mostra quantos valores ausentes em cada coluna.

Dica

Uma maneira conveniente de encontrar mais informações sobre certas funções de pandas é simplesmente Googlar: pandas < nome da função>

“Pandas transformar colunas em fileiras”

“Pandas remover segundo nível de colunas após a fusão”

“Pandas receber contagem de valores únicos de colunas”

99,9% das vezes eu encontro exatamente o que eu estava procurando. Então não tenha medo de ir procurar respostas online. Espero que este documento ajude você a ter uma vantagem sem ter que passar por horas de Googling.

Retornando às funções….

Alterando valores do DataFrame

  1. Retorna um objeto série onde os valores da coluna dada são lançados em objetos datatempos. Dessa forma, fica mais fácil extrair data, ano, mês, dia, hora e minutos de informações desses valores. Exemplo:

2. Isso retornará um objeto série com valores ano. Você pode atribuí-lo a uma nova coluna no seu dataframe.

3. Retorna um objeto Série com o tipo de coluna transformado em inteiro. Você também pode lançar colunas para flutuar ou string com esta função.

4. Retorna um objeto série. Cada valor na coluna dada é executado através da função e os valores são devolvidos em conformidade. Neste exemplo, o resultado será um objeto série onde os valores serão Verdadeiros ou Falsos, dependendo se o valor na coluna for maior ou menor que 5.

5. A ocorrência do primeiro valor dado é substituída pelo segundo valor dado. Retorna um objeto série.

6. Retorna um objeto série preenchido com True ou False verificando se os valores da coluna existem na lista dada.

7. Agrupa todo o dataframe em grupos com base nos valores da coluna dada. Em seguida, você pode adicionar .mean(), .min(), .count() e funções semelhantes para calcular estatísticas extras nesses grupos.

Um exemplo é se você tem um dataframe com alturas de alunos em uma classe, fazendo.

você terá a altura média de cada gênero.

Extraindo valores do DataFrame

  1. Retornar a linha ou coluna do dataframe que é fisicamente a nª linha.

2. Retorna a linha ou coluna do dataframe de acordo com a sua nomeação

3. Retorna as colunas selecionadas em um objeto de dataframe. Você pode obter quantas colunas quiser.

4. Retorna a coluna selecionada em um objeto Série. Você só pode especificar um nome de coluna nesta versão.

Lidar com duplicatas e valores ausentes

  1. Retorna um dataframe onde a linha com o valor atribuído é removida.

2. O mesmo que a função anterior, mas remove a coluna.

3. Retorna um dataframe onde todas as linhas que incluem um valor faltante são removidas.

4. Retorna um dataframe onde linhas com valores duplicados são removidas para deixar apenas uma cópia.

5. O mesmo de antes, mas só leva a coluna dada para verificar se há valores duplicados. Você pode dar-lhe mais de um nome de coluna.

6. Retorna um dataframe onde todos os valores faltantes são substituídos pelo valor dado.

7. O mesmo que a função anterior, mas retorna apenas a coluna dada com os valores faltantes preenchidos com o valor.

O mesmo que a função anterior, mas retorna apenas a coluna dada com os valores faltantes preenchidos com o valor.

Filtrar por valor

1. Só retorna as linhas onde o valor da coluna dada satisfaz a condição. Você pode ter qualquer condição dentro dos suportes, desde que ele retorne True e False em um objeto série e ele funcione.

2. Se você quiser filtrar com várias condições, você pode concatená-las embrulhando cada uma em parênteses e mesclando-as com o símbolo “e” (&) e/ou “ou” (|). Se você quiser negar uma das condições, adicione um tilde antes da condição.

Funções envolvendo dois dataframes e funções de suporte

  1. Concatenar dois DataFrames de ponta a ponta. Uma maneira de pensar nisso é adicionar linhas. Retorna um dataframe.

2. Mescle dois dataframes em um. Você pode pensar nisso como adicionar colunas. Retorna um dataframe.

É possível especificar o tipo de fusão (interna, externa, esquerda, direita). Você também precisa especificar qual coluna deve ser tomada como referência ao mesclar.

3. Retorna uma cópia do dataframe. Essas funções são usadas quando você não quer alterar acidentalmente o dataframe original enquanto faz ações nele…

4. Redefine o índice a ser ordenado. Retorna um dataframe. Isso é necessário quando o índice é embaralhado devido à fusão de dois dataframes ou à classificação de um dataframe.

Visualização rápida

  1. Plota um histograma para a coluna especificada

2. Plota um histograma para todas as colunas númericas do DataFrame.

3. Retora um gráfico de linhas com valores numéricos do DataFrame no eixo y e o índice no eixo x.

Obrigado.

Composing a repository of books (i bought), authors (i follow) & blogs (direct ones) for my own understanding.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store