Usando as ferramentas certas para visualização de dados

plots — seaborn

Quando se trata de visualizar dados, a maioria das pessoas tem uma ideia simples e preliminar sobre o que fazer e por onde começar. Usando:

  • Gráficos de dispersão para exibir as relações entre duas variáveis;
  • Boxplots são usados para comparar a dispersão de elementos distintos em uma variável em si;
  • Gráficos de pizza podem ser usados para retratar como diferentes classes contribuem como um todo em uma variável;
  • Gráficos de séries temporais para exibir o progresso feito ao longo do tempo por alguém ou uma organização.

plataformas de plotagem

  • ggplot2 — R;
  • seaborn e matplotlib — P ython;
  • Tableau PowerBI, MS Excel estão entre al

Este artigo será focado no processo necessário para construir gráficos em três pacotes/plataformas: Tableau, seaborn e ggplot2. O conjunto de dados utilizado é o conjunto de dados de íris amplamente utilizado. O conjunto de dados da íris tem cinco variáveis, sendo quatro delas variáveis contínuas: comprimento de pétala, largura pétala, comprimento do sepala e largura do sepala. A última é uma variável categórica chamada espécie. Possui três classes: setosa, virginica e versicolor.

qualidade dos gráficos

  • Uma dispersão que compara a relação entre largura do sepala e comprimento do sepala.
  • Um gráfico de barras que compara os valores médios das quatro variáveis entre as diferentes espécies.

O conjunto de dados iris está pronto tanto no R-studio quanto no Jupyter Notebooks, e pode ser facilmente exportado para uso no Tableau.

Tableau

ótimo exemplo do Tableau em ação. O gráfico foi construído e projetado em menos de um minuto e meio!

A capacidade de usar facilmente o Tableau pode ser testemunhada no vídeo acima. Um livro que pode atuar como um guia para iniciantes sobre como dominar a arte de usar o Tableau é o Dados Comunicativos de Ben Jones com o Tableau: Projetando, Desenvolvendo e Fornecendo Visualizações de Dados. Outros gráficos que foram construídos usando o Tableau podem ser vistos abaixo.

gráfico de dispersão — tableau
gráfico de barras — tableau

ggplot2 — R

O primeiro passo é carregar o pacote de tidyverse. O pacote ggplot2 é um dos muitos pacotes fornecidos pelo tidyverse. Ao carregar o pacote tidyverse, os usuários também teriam acesso à funcionalidade de outros pacotes ao projetar gráficos. O código para instalar e carregar:

install.packages("tidyverse")
library(tidyverse)

sintaxe de plotagem

  • ggplot() invoca o pacote ggplot2 e identifica os dados a serem usados para plotagem
  • .geom_point() significa que os dados de dispersão serão plotados em forma de pontos.
  • aes() dentro do geom_point(), para sinalizar quais variáveis devem aparecer no eixo x e y, bem como agrupá-las de acordo com suas características.
  • labs() podem ser usados para adicionar título para o gráfico e rotular o eixo x e y.
  • theme_classic() permite que o usuário controle a configuração do tema.

Se um usuário estiver interessado em traçar um gráfico diferente do criado acima via ggplot2, este link pode atuar como um guia para o usuário.

ggplot(data = df_iris) +
geom_point(
aes(x = sepal_width, y = sepal_length, color = species)) +

labs(title = "Sepal length vs Sepal width",
x = "Sepal width",
y = "Sepal length") +

theme_classic()
gráfico de dispersão — ggplot2
gráfico de barras — ggplot2

seaborn — Python

O Seaborn funciona como ggplot2 no sentido de que exige que seus usuários carreguem um pacote e usa uma sintaxe de codificação para obter o plot desejado. Abaixo está o código para carregar o pacote seaborn e outros pacotes úteis que facilitarão o design do gráfico.

import seaborn as sns #importando
sns.set_theme(style = "dark") #definindo tema
%matplotlib inline #habilitando plotagem
import matplotlib.pyplot as plt #importando

Depois de carregar os pacotes, o próximo passo é usar as funcionalidades certas para traçar um gráfico.

  • plt.figure() pode ser usado para decidir o tamanho da plotagem.
  • sns.barplot() leva as variáveis a serem colocadas no eixo x e y, bem como o conjunto de dados a ser utilizado.

Como ggplot2, outras alterações na aparência da trama são feitas dentro da função sns.barplot(). plt.title(), plt.xlabel() e plt.ylabel() são usados para rotular o enredo.

Se um usuário estiver interessado em traçar um gráfico diferente do acima através do seaborn, este link para acompanhar o guia.

plt.figure(figsize = (20,12))sns.barplot(
x = "species",
y = "number",
data = n_iris2,
hue = "feature",
palette = "deep")
plt.title("Bar chart of the average values of the features across species", fontsize = 20)plt.xlabel("Species", fontsize = 12)
plt.ylabel("Average value", fontsize = 12)
gráfico de dispersão — seaborn
gráfico de barras — seaborn

conclusão

Obrigado.

Composing a repository of books (i bought), authors (i follow) & blogs (direct ones) for my own understanding.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store