Estatística com Python: Testes de Hipóteses (Pt. I/VI)

Introdução aos Testes de Hipóteses

Calcularemos estatísticas de comparação e detalhes que envolvem testes de hipóteses, testes paramétricos e não paramétricos. Neste capítulo veremos especificamente Teste de Normalidade e Etapas de um Teste de Hipóteses.

Nos próximos capítulos de Testes de Hipóteses:

2. Teste bicaudal e compreensão do valor-p;
3. Distribuição t de student e teste unicaudal;
4. Teste para duas amostras;
5. Distribuição qui-quadrado;
6. Teste de Wilcoxon e Mann-Whitney;

Para nossas análises usamos as bibliotecas Scipy 1.2.1, Statsmodel 0.9.0, Pandas 0.24.2, Numpy 1.16.3, Seaborn 0.9.0 e o Matplotlib 3.0.3.

Link do nosso Notebook: Testes de Normalidade e Etapas de um Teste de Hipóteses (Pt. I/VI)ipynb — Colaboratory

Dataset de Análise

A Pesquisa Nacional por Amostra de Domicílios — PNAD investiga anualmente, de forma permanente, características gerais da população, de educação, trabalho, rendimento e habitação. O levantamento dessas estatísticas constitui um importante instrumento para formulação, validação e avaliação de políticas orientadas para o desenvolvimento socioeconômico e a melhoria das condições de vida no Brasil.

Verificando versões das biblioteas

Carregando dataset

O que são Testes de Hipóteses?

Testes estatísticos são regras de decisão que permitem avaliar a razoabilidade das hipóteses feitas sobre os parâmetros populacionais e aceitá-las ou rejeitá-las como provavelmente verdadeiras ou falsas tendo como base uma amostra. Em outras palavras, é uma regra de decisão que ajuda a valiar hipóteses feitas sobre os parâmetros populacionais.

Executando o Teste de Normalidade

Muito comumente declaramos uma variável sendo normal, de forma visual, baseados apenas pela curva de sino. No entanto, podemos declará-la normal, de forma mais robusta e formal. Podemoa aplicar testes estatísticos, aceitando ou rejeitando a hipótese de uma determinada distribuição ser normal ou não.

Veremos exemplos clássicos, como: diferença de renda entre sexos. Será que isso realmente é factível? Ou até mesmo Informações sobre fabricantes, onde podemos testar suas alegações de qualidade com testes de hipóteses.

Iniciando…

Importando a biblioteca para Teste de Normalidade

scipy.stats.normaltest — SciPy v1.6.0 Reference Guide

A função normaltest testa a hipótese nula 𝐻0 de que a amostra é proveniente de uma distribuição normal, através de um teste de normalidade. É isso que temos que rejeitar ou não de acordo com a resposta de normaltest.

Definindo a significância do teste ( 𝛼 )

Significância padrão, com nível de confiança de 95%:

Testando variável Renda

Aplicando um teste formal

Critério do valor-p: Rejeitar 𝐻0 se o valor 𝑝≤0,05

O output desse teste de normalidade são dois valores: estatística de teste e valor-p. Como o output é uma tupla de dois valores, desempacotaremos em duas variáveis para facilitar a compreeensão.

O H0 no nosso caso é a hipótese de que a amostra é proveniente de uma distribuição normal. A regra de rejeição é simples, o valor-p é menor ou igual a significância alfa de 5%?

Rejeitamos H0, que é a hipótese de que a amostra é proveniente de uma distribuição normal. Além do que, podemos ter mais certeza ainda averiguando o gráfico anteriormente plotado junto da estatística calculada.

Testando a variável altura

O valor-p neste teste de normalidade é de 90%, portanto, não rejeitamos H0. Essa estatística se traduz em não rejeitar a hipótese de a variável ser normalmente distribuída. Visualmente podemos confirmar isso:

Portanto, o que pudemos aprender até aqui é de que a função normaltest testa a hipótese nula de que a amostra é proveniente de uma distribuição normal.

Etapas básicas de um Teste de Hipóteses

1. Primeira Etapa — formulação das hipóteses 𝐻0 e 𝐻1;

Pontos importantes:

  • De maneira geral, o alvo do estudo deve ser formulado como a hipótese alternativa 𝐻1.
  • A hipótese nula 𝐻0 sempre afirma uma igualdade ou propriedade populacional, e 𝐻1 a desigualdade que nega 𝐻0H0.
  • No caso da hipótese nula 𝐻0 define a igualdade pode ser representada por uma igualdade simples “==” ou por “≥≥” e “≤≤”. Sempre complementar ao estabelecido pela hipótese alternativa.
  • A hipótese alternativa 𝐻1 deve definir uma desigualdade que pode ser uma diferença simples “≠≠” ou dos tipos “>>” e “<<”.

2. Segunda Etapa ****- Escolha da distribuição amostral;

Regras de decisão:

  • Quando o tamanho da amostra tiver 30 elementos ou mais, deve-se utilizar a distribuição normal, como estabelecido pelo teorema do limite central. Para um tamanho de amostra menor que 30 elementos, e se pudermos afirmar que a população se distribui aproximadamente como uma normal e o desvio padrão populacional for conhecido, deve-se utilizar a distribuição normal.
  • Para um tamanho de amostra menor que 30 elementos, e se pudermos afirmar que a população se distribui aproximadamente como uma normal e o desvio padrão populacional for desconhecido, deve-se utilizar a distribuição t de Student.

3. Terceira Etapa — Significância do teste e áreas de aceitação

Na terceira etapa fixamos a significância do teste, o Alfa, que vai determinar para a gente e as áreas de aceitação e de rejeição do teste.

Os valores mais frequentes que já vimos é de 10%, 5% e 1%, o que gera um nível de confiança de 90%, 95% e 99%, respectivamente.

  • O nível de confiança ( 1−𝛼 ) representa a probabilidade de acerto da estimativa. De forma complementar o nível de significância ( 𝛼 ) expressa a probabilidade de erro da estimativ.
  • O nível de confiança representa o grau de confiabilidade do resultado da estimativa estar dentro de determinado intervalo. Quando fixamos em uma pesquisa um nível de confiança de 95%, por exemplo, estamos assumindo que existe uma probabilidade de 95% dos resultados da pesquisa representarem bem a realidade, ou seja, estarem corretos.

4. Quarta Etapa — cálculo da estatística-teste e verificação desse valor com as áreas de aceitação e rejeição do teste;

  • Nos testes paramétricos, distância relativa entre a estatística amostral e o valor alegado como provável.
  • Neste passo são obtidas as estatísticas amostrais necessárias à execução do teste (média, desvio-padrão, graus de liberdade etc.)

Passo 5 — Aceitação ou rejeição da hipótese nula H0.

  • No caso de o intervalo de aceitação conter a estatística-teste, aceita-se 𝐻0 como estatisticamente válido e rejeita-se 𝐻1 como tal.
  • No caso de o intervalo de aceitação não conter a estatística-teste, rejeita-se 𝐻0 e aceita-se 𝐻1 como provavelmente verdadeira.
  • A aceitação também se verifica com a probabilidade de cauda (p-valor): se maior que 𝛼α, aceita-se 𝐻0.

Repassando as etapas do Teste de Hipóteses:

Todo procedimento de teste segue um conjunto de etapas, como vimos agora há pouco.

  • O passo inicial em um teste de hipóteses são a formulação das hipóteses nula e alternativa
  • O segundo passo em um procedimento de teste é a escolha da distribuição amostral adequada
  • A terceira etapa de um teste é a determinação das áreas críticas, a fixação da significância do teste (α), que define as regiões de aceitação e rejeição das hipóteses

Até aqui vimos:

  • A executar um teste de normalidade normaltest( ) com as ferramentas da biblioteca Scipy
  • As cinco principais etapas para elaboração de um teste de hipóteses

Continuaremos com Teste Bicaudal e Compreensão do Valor-P…

Obrigado.

Composing a repository of books (i bought), authors (i follow) & blogs (direct ones) for my own understanding.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store