5 conceitos estatísticos que todo cientista de dados deve saber

Pilares essenciais da estatística e da ciência de dados

Qualquer cientista de dados pode obter informações de um conjunto de dados qualquer bom cientista de dados saberá que é preciso uma base estatística sólida para obter informações úteis e confiáveis. É impossível realizar ciência de dados de qualidade sem ela.

Mas a estatística é um campo enorme! Por onde começo?

Aqui estão os cinco principais conceitos estatísticos que todo cientista de dados deve saber: estatísticas descritivas, distribuições de probabilidades, redução de dimensionalidade, amostragem e estatísticas bayesianas.

1. Estatísticas descritivas

Estes identificarão rapidamente os principais recursos do seu conjunto de dados e informarão sua abordagem, não importa a tarefa. Vamos dar uma olhada em algumas das estatísticas descritivas mais comuns.

Média

A média é calculada da seguinte forma:

Mediana

A mediana é de 4,5.

Moda

Variância

Desvio padrão

Outras estatísticas descritivas incluem distorção, kurtose e quartis.

2. Distribuições de probabilidades

Distribuições Discretas

Que X seja nossa variável aleatória, o número de vezes que Johna acerta no experimento de três arremessos. A probabilidade de John obter n hits é representada por P(X= n).

Então, X pode ser:

  • P(0 = n)
  • P(1 = n)
  • P(2 = n)
  • P(3 = n)

Se todos os oito resultados acima forem igualmente prováveis, temos:

Substitua P por f e temos nossa função de probabilidade! Vamos fazer um gráfico.

A partir do gráfico, vemos que é mais provável que John obtenha 1 ou 2 acertos do que é para ele obter 0 ou 3, porque o gráfico é mais alto para esses valores de X. Distribuições discretas comuns incluem Bernoulli, binômioe Poisson.

Distribuições Contínuas

Estamos falando de um conjunto de infinitas possibilidades. Outros exemplos de variáveis contínuas são altura, tempo e temperatura. As distribuições contínuas comuns incluem:

  • distribuição normal,
  • distribuição exponencial
  • chi-quadrado.

3. Redução de Dimensionalidade

Este é o processo de projetar dados de alta dimensão em um espaço de menor dimensão, mas é importante estar atento para não perder características importantes do conjunto de dados original.

Por exemplo, suponha que estamos tentando determinar quais fatores melhor prever se seu time de basquete favorito vai ganhar ou não o seu jogo hoje à noite. Podemos coletar dados como sua: porcentagem de vitória, contra quem estão jogando, onde estão jogando, quem é o seu atacante titular, o que ele comeu para o jantar, e que sapato de cor o treinador está usando.

Você pode suspeitar que algumas dessas características estão mais correlacionadas com a vitória do que outras.

A redução da dimensionalidade pode nos permitir dropar informações que não contribuam tão significativamente para a previsão, mantendo recursos com o valor mais preditivo.

Análise de Componentes Principais

A ideia geral é que desses novos componentes, aqueles com menor variação podem ser mais seguros.

Se você quiser ler mais, aqui está um artigo inteiro dedicado ao PCA:

4. Under-sampling s Over-sampling em Amostragens

A super amostragem aleatória envolve selecionar aleatoriamente e duplicar observações na classe minoritária (ou selecionar aleatoriamente e excluir observações na classe majoritária).

Isso é fácil de implementar, mas você deve proceder com cautela: a super amostragem pesa as observações que são duplicadas, o que pode influenciar fortemente os resultados se não forem imparciais, para começar. Da mesma forma, a sub-amostragem corre o risco de excluir observações-chave.

Técnica de Super amostragem da Minoria Sintética

Para cada observação na classe minoritária, a SMOTE calcula seus vizinhos k mais próximos; ou seja, encontra as observações da classe k minoritária que são mais parecidas com a observação.

Vendo observações como vetores, cria combinações lineares aleatórias ponderando quaisquer vizinhos mais próximos por um número aleatório entre 0 e 1 e adicionando-o ao vetor original.

Uma maneira de sub-amostrar classe majoritária é com centroides. Semelhante em teoria ao SMOTE, substitui grupos de vetores pelo centroide de seu aglomerado k-vizinhos mais próximo.

5. Estatísticas bayesianas

As estatísticas bayesianas fazem sentido quando temos algum fundamento para crer que os dados podem não ser uma boa representação do que esperar do futuro.

Isso permite incorporar conhecimento e percepção aos cálculos, em vez de depender apenas de uma amostra. Ele também permite atualizar as crenças sobre futuro depois que novos dados forem coletados

Considere um exemplo: O time A e o Time B já jogaram 10 vezes, e o Time A venceu 9 dessas vezes. Se as equipes estão jogando entre si esta noite, e eu pergunto quem você acha que vai ganhar, você provavelmente diria Time A! E se eu também lhe dissesse que o Time B subornou os árbitros desta noite? Bem, então você pode adivinhar que o time B vai ganhar.

As estatísticas bayesianas permitem incorporar essas informações extras aos cálculos, enquanto as estatísticas frequentes se concentram apenas na porcentagem de 9 de 10 vitórias, meramente 90%.

O teorema de Bayes é a chave:

A probabilidade condicional de H dado E, escrito P( H| E), representa a probabilidade de H ocorrer dado que E também ocorre (ou já ocorreu).

No nosso exemplo:

  • H é a hipótese de quem ganhará é o time B,
  • E é a evidência de suborno do Time B.

P(H)é a probabilidade frequente, 10%. P. H) é a probabilidade de que o que eu lhe disse sobre o suborno é verdade, dado que o Time B ganha. (Se o Time B vencer esta noite, você acreditaria no que eu disse?)

Finalmente, P(E)é a probabilidade de que o Time B de fato subornou os árbitros. Sou uma fonte confiável de informação? Você pode ver que essa abordagem incorpora mais informações do que apenas os resultados dos 10 confrontos anteriores das duas equipes.

Obrigado.

Composing a repository of books (i bought), authors (i follow) & blogs (direct ones) for my own understanding.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store