10 Conceitos Estatísticos em Ciência de Dados para Entrevistas

Estude o que importa.

Estatística Prática Para Cientistas de Dados: 50 Conceitos Essenciais

As estatísticas podem parecer realmente esmagadoras às vezes, e não é surpresa, já que a aplicação das estatísticas existe há milhares de anos.

Quando se trata de entrevistas de ciência de dados, no entanto, há diversos conceitos que os entrevistadores testam. Aqui foram compilados 10 conceitos estatísticos mais frequentes.

1) Valor P

Ao realizarmos um teste de hipóteses, partimos de um dado valor de alfa (nível de significância), pré-fixado, para construir a regra de decisão, comumente sendo de 5%. Uma alternativa é deixar a cargo de quem vai utilizar as conclusões do teste a escolha do valor para a probabilidade de alfa, que não precisaraser fixado à priori.

A idéia consiste em calcular, supondo que a hipótese nula seja verdadeira, a probabilidade de se obter estimativas mais desfavoráveis ou extremas (à luz da hipótese alternativa) do que a que está sendo fornecida pela amostra. Esta probabilidade será o nível descritivo, denotado por valor-p.

Valor pequenodo valor-p evidenciam: H0 nula é falsa

Valores pequenos do valor-p evidenciam que a hipótese nula é falsa pois, sendo a amostra nossa ferramenta de inferência sobre a população, ela fornece uma estimativa que teria probabilidade muito pequena de acontecer, se H0 fosse verdadeira.

O conceito do que é “pequeno” fia a cargo do usuário, que assim decide qual a usar para comparar com o valor obtido do valor-P.

Quanto menor o valor-P do teste, mais evidência há para se rejeitar a hipótese nula.

Um valor-P muito pequeno indica um evento, incomum.

Entretanto, um valor-P muito baixo não constitui prova de que a hipótese nula é falsa, somente que esta hipótese nula é provavelmente falsa.

Para usar o Valor-P na descisão de um teste de hipóteses, basta compararmos o valor-P com:

Rejeitamos H0 por ser um evento raro

Embora este seja um método para decidirmos sobre qual hipótese devemos aceitar, não trabalharemos com ele aqui. Usar o valor-P é muito comum quando estamos lidando com um software que nos fornece, nos resultados, o valor-P.

2) Intervalos de confiança e testes de hipóteses

Aplicamos um teste de Hipóteses quando queremos testar um determinado valor para um parâmetro populacional theta (uma média, proporção, desvio-padrão) com base em uma amostra, ou seja, pegaremos uma amostra e a partir desta vamos fazer algum tipo de suposição para verificar se através de um teste estatístico, se é possível que a população tenha aquele valor, daquele parâmetro da amostra testado.

Iremos admitir um valor hipótetico para um parâmetro populacional, e com base informações da amostra realizaremos um teste estatístico, para aceitar ou rejeitar o valor hipótetico.

Como a decisão para aceitar ou rejeitar a hipótese será tomada de acordo com elementos de uma amostra, fica evidente que a decisão estará sujeita a erros. Tomaremos decisões em condições de incerteza e, portanto, sujeitas a erro. Com base nos resultados obtidos em uma amostra, não é possível tomar decisões que sejam definitivamente corretas.

Intervalos de confiança e testes de hipóteses compartilham uma relação muito próxima. O intervalo de confiança sugere uma gama de valores para um parâmetro desconhecido e é então associado a um nível de confiança que o parâmetro verdadeiro está dentro da faixa sugerida de. Os intervalos de confiança são muitas vezes muito importantes na pesquisa médica para fornecer aos pesquisadores uma base mais forte para suas estimativas.

Um intervalo de confiança pode ser mostrado como “10 +/- 0,5” ou [9.5, 10.5] para dar um exemplo.

O teste de hipóteses é a base de qualquer questão de pesquisa e muitas vezes se resume a tentar provar que algo não aconteceu por acaso. Por exemplo, você poderia tentar provar ao rolar um corante, um número era mais provável de subir do que o resto.

3) Testes Z vs T-testes

Entender as diferenças entre testes z e t-tests, bem como e quando você deve optar por usar cada um deles é inestimável em estatísticas.

O Teste Z para uma proporção é um teste estatístico para uma proporção populacional p. O teste Z pode ser usado quando uma distribuição binomial é dada como np ≥ 5 e nq ≥ 5. O teste estatístico é:

Um teste Z é um teste de hipótese com uma distribuição normal que usa uma estatística z. Um teste z é usado quando você conhece a variância populacional ou se você não conhece a variância populacional, mas tem um grande tamanho amostral.

Um Teste T é um teste de hipótese com uma distribuição t que usa uma t-estatística. Você usaria um teste t quando não conhece a variância populacional e tem um pequeno tamanho amostral.

Você pode ver a imagem abaixo como uma referência para guiar qual teste você deve usar:

4) Regressão linear e suas suposições

A Regressão Linear é um dos algoritmos mais fundamentais utilizados para modelar relações entre uma variável dependente e uma ou mais variáveis independentes. Em termos mais simples, envolve encontrar a “linha de melhor ajuste” que representa duas ou mais variáveis.

A linha de melhor ajuste é encontrada minimizando as distâncias quadradas entre os pontos e a linha de melhor ajuste — isso é conhecido como minimizar a soma dos resíduos quadrados. Um residual é simplesmente igual ao valor previsto menos o valor real.

Caso não faça sentido ainda, considere a imagem acima. Comparando a linha verde de melhor ajuste à linha vermelha, observe como as linhas verticais (os resíduos) são muito maiores para a linha verde do que a linha vermelha. Isso faz sentido porque a linha verde está tão longe dos pontos que não é uma boa representação dos dados!

Existem quatro premissas associadas a um modelo de regressão linear:

  1. Linearidade: A relação entre X e a média de Y é linear.
  2. Homoscedasticidade: A variância do residual é a mesma para qualquer valor de X.
  3. Independência: As observações são independentes umas das outras.
  4. Normalidade: Para qualquer valor fixo de X, Y é normalmente distribuído.

5) Regressão logística

A regressão logística é semelhante à regressão linear, mas é usada para modelar a probabilidade de um número discreto de desfechos, tipicamente dois. Por exemplo, você pode querer prever se uma pessoa está viva ou morta dada a sua idade.

De relance, a regressão logística soa muito mais complicada do que a regressão linear, mas na verdade só tem um passo a mais.

Primeiro, você calcula uma pontuação usando uma equação semelhante à equação para a linha de melhor ajuste para regressão linear.

O passo extra é alimentar a pontuação que você calculou anteriormente na função sigmoid abaixo para que você obtenha uma probabilidade em troca. Essa probabilidade pode então ser convertida em uma saída binária, 1 ou 0.

Para encontrar os pesos da equação inicial para calcular a pontuação, métodos como descida gradiente ou probabilidade máxima são usados. Como está além do escopo deste artigo, não vou entrar em muito mais detalhes, mas agora você sabe como funciona!

6) Técnicas de amostragem

Existem 5 maneiras principais que você pode amostrar dados: Simples Random, Systematic, Convenience, Cluster e Amostragem Estratificada:

Amostragem aleatória simples

Uma amostra aleatória simples requer o uso de números gerados aleatoriamente para escolher uma amostra. Mais especificamente, ele inicialmente requer um quadro de amostragem, uma lista ou banco de dados de todos os membros de uma população. Em seguida, você pode gerar aleatoriamente um número para cada elemento, usando o Excel, por exemplo, e pegar as primeiras n amostras que você precisa.

Amostragem Sistemática

Imagem criada pelo Autor

A amostragem sistemática pode ser ainda mais fácil de fazer, você simplesmente pega um elemento da sua amostra, pula uma quantidade predefinida (n) e, em seguida, toma o seu próximo elemento. Voltando ao nosso exemplo, você pode pegar cada quarto nome da lista.

Amostragem por conveniência

A amostragem de conveniência tira uma amostra de um grupo fácil de contatar, por exemplo, perguntando às pessoas fora de um shopping center. Você só amostra as primeiras pessoas que você encontrar. Essa técnica é muitas vezes considerada má prática para usar, pois seus dados podem ser vistos como viés.

Amostragem de cluster

A Amostragem de clusters começa dividindo uma população em grupos, ou aglomerados. O que torna isso diferente que a amostragem estratificada é que cada aglomerado deve ser representativo da população. Em seguida, você seleciona aleatoriamente clusters inteiros para amostrar.

Por exemplo, se uma escola primária tivesse cinco classes diferentes de oito anos, uma amostra aleatória de cluster poderia ser usada e apenas uma classe seria escolhida como uma amostra, por exemplo.

Amostragem estratificada

A amostragem aleatória estratificada começa dividindo uma população em grupos com atributos semelhantes. Em seguida, uma amostra aleatória é colhida de cada grupo. Este método é usado para garantir que diferentes segmentos em uma população sejam igualmente representados. Para dar um exemplo, imagine que uma pesquisa seja realizada em uma escola para determinar a satisfação geral. Pode fazer sentido aqui usar amostragem aleatória estratificada para representar igualmente as opiniões dos alunos de cada departamento.

7) Teorema do Limite Central

O teorema do limite central é muito poderoso — afirma que a distribuição da amostra significa uma distribuição normal.

Para dar um exemplo, você pegaria uma amostra de um conjunto de dados e calcularia a média dessa amostra. Uma vez repetido várias vezes, você traçaria todos os seus meios e frequências em um gráfico e veria que uma curva de sino, também conhecida como distribuição normal, foi criada.

A média dessa distribuição se assemelhará muito à dos dados originais. Você pode melhorar a precisão da média e reduzir o desvio padrão, coletando amostras maiores de dados e mais amostras no geral.

8) Combinações e Permutações

Combinações e permutações são duas maneiras ligeiramente diferentes que você pode selecionar objetos de um conjunto para formar um subconjunto. As permutações levam em consideração a ordem do subconjunto, enquanto as combinações não.

Combinações e permutações são extremamente importantes se você estiver trabalhando em segurança de rede, análise de padrões, pesquisa de operações e muito mais. Vamos rever o que cada um dos dois está em mais detalhes:

Permutações

Definição: Uma permutação de n elementos é qualquer arranjo desses n elementos em uma ordem definitiva. Existem n formas fatorais (n!) de organizar n elementos. Note o negrito: a ordem importa!

O número de permutações de n coisas tomadas r-em-um-momento é definido como o número de r-tuplas que podem ser retirados de n diferentes elementos e é igual à seguinte equação:

Pergunta de exemplo: Quantas permutações uma placa tem com 6 dígitos?

Combinações

Definição: O número de maneiras de escolher r fora de n objetos onde a ordem não importa.

O número de combinações de n coisas tomadas r-em-um-momento é definido como o número de subconjuntos com elementos r de um conjunto com elementos n e é igual à seguinte equação:

Pergunta de exemplo: De quantas maneiras você pode sacar 6 cartas de um baralho de 52 cartas?

Note que essas são perguntas muito simples e que pode ficar muito mais complicada do que isso, mas você deve ter uma boa ideia de como funciona com os exemplos acima!

9) Teorema de Bayes / Probabilidde condicional

O Teorema de Bayes é uma declaração de probabilidade condicional, essencialmente olha para a probabilidade de um evento (B) acontecer dado que outro evento (A) já aconteceu.

Um dos algoritmos de aprendizagem de máquina mais populares, Naïve Bayes, é construído sobre esses dois conceitos. Além disso, se você entrar no reino do aprendizado de máquina on-line, provavelmente estará usando métodos bayesianos.

Equação de Teorema de Bayes
Equação de Probabilidade Condicional

10) Distribuições de Probabilidades

Uma distribuição de probabilidades é uma maneira fácil de encontrar suas probabilidades de diferentes resultados possíveis em um experimento. Existem muitos tipos de distribuição diferentes que você deve aprender, mas alguns eu recomendaria são Normais, Uniformes e Poisson.

Distribuição Normal

A distribuição normal, também conhecida como distribuição gaussiana, é uma curva em forma de sino que é bastante proeminente em muitas distribuições, incluindo a altura das pessoas e escores de QI.

A média da distribuição normal é igual a μ e a variância é igual a σ.

Distribuição Poisson

A distribuição poisson é uma distribuição discreta que dá a probabilidade do número de eventos independentes ocorrerem em tempo fixo. Um exemplo de quando você usaria isso é se você quiser determinar a probabilidade de pacientes X entrarem em um hospital em uma determinada hora.

A média e a variância são ambos iguais a λ.

Distribuição Uniforme

Uma distribuição uniforme é usada quando todos os resultados são igualmente prováveis. Por exemplo, uma moeda tem uma distribuição uniforme, bem como um corante.

Obrigado

Composing a repository of books (i bought), authors (i follow) & blogs (direct ones) for my own understanding.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store