Uma Introdução ao Teorema do Limite Central

frequência em lançamentos de dados

Em um mundo cheio de dados que raramente seguem boas distribuições teóricas, o Teorema do Limite Central é um farol de luz. Muitas vezes referido como a pedra angular das estatísticas, é um conceito importante de entender ao realizar qualquer tipo de análise de dados.

Suponha que estejamos interessados em estimar a altura média entre todas as pessoas. Coletar dados para cada pessoa no mundo é impraticável, beirando o impossível. Embora não possamos obter uma medição de altura de todos na população,ainda podemos provar algumas pessoas. A questão agora se torna, o que podemos dizer sobre a altura média de toda a população dada uma única amostra.

O Teorema do Limite Central aborda exatamente essa questão. Formalmente, afirma que se amostrarmos de uma população usando um tamanho amostral suficientemente grande, a média das amostras (também conhecida como população amostral) será normalmente distribuída (assumindo a verdadeira amostragem aleatória). O que é especialmente importante é que isso será verdade, independentemente da distribuição da população original.

Depois de visualizar alguns exemplos, fica mais fácil de se compreender. Vejamos um exemplo do Teorema do Limite Central em ação.Exemplo

Suponha que tenhamos a seguinte distribuição populacional:

distribuição da altura populacional

Aqui foi gerado manualmente a população acima escolhendo números entre 0 e 100. A altura do histograma denota a frequência do número na população. Como podemos ver, a distribuição é muito feia. Certamente não é normal, uniforme, ou qualquer outra distribuição comumente conhecida.

Para obter amostras da distribuição acima, precisamos definir um tamanho amostral, chamado N. Este é o número de observações que vamos provar de cada vez. Suponha que escolhamos N = 3. Isso significa que vamos amostrar em grupos de 3. Assim, para a população acima, podemos amostrar grupos como [5, 20, 41], [60, 17, 82], [8, 13, 61], e assim por diante.

Suponha que reúnamos 1.000 amostras de 3 da população acima. Para cada amostra, podemos calcular sua média. Se fizermos isso, teremos 1.000 médias. Este conjunto de 1.000 médias é chamado de distribuição amostral, e de acordo com o Teorema do Limite Central:

Como podemos ver, certamente parece unimodal, embora não necessariamente normal. Se repetirmos o mesmo processo com um tamanho amostral maior, devemos ver a distribuição amostral começar a se tornar mais normal. Vamos repetir o mesmo processo novamente com N = 10. Aqui está a distribuição amostral para esse tamanho amostral.

Isso certamente parece mais normal, e se repetirmos esse processo mais uma vez para N = 30 observamos este resultado.

As parcelas acima demonstram que, à medida que o tamanho da amostra N é aumentado, a distribuição média da amostra resultante torna-se mais normal. Além disso, a variância de distribuição também diminui. Tenha em mente que a população original da que estamos amostrando era aquela distribuição feia estranha acima.

Outra Intuição

A melhor intuição que encontrei envolve o exemplo de lançar uma moeda. Suponha que tenhamos uma moeda justa e a joguemos 100 vezes. Se fosse 48 caras e 52 coroas, provavelmente não estaríamos muito surpresos. Da mesma forma, se observassemos 40 cabeças e 60 caudas, provavelmente ainda não ficaríamos muito surpresos, embora possa parecer mais raro do que o cenário 48/52. No entanto, se observassemos 20 caras e 80 coroas, poderíamos começar a questionar a equidade da moeda.

Isto é essencialmente o que a normalidade da distribuição amostral representa. Para o exemplo da moeda, é provável que tenhamos cerca de metade cara e metade coroa. Resultados mais distantes do resultado esperado de 50/50 são menos prováveis e, portanto, menos esperados. A distribuição normal da distribuição amostral captura esse conceito.

Além disso, a variância da distribuição amostral é uma função tanto da variância populacional quanto do tamanho amostral utilizado. Um tamanho amostral maior produzirá uma menor variância de distribuição amostral. Isso faz sentido intuitivo, pois estamos considerando mais amostras ao usar um tamanho amostral maior, e são mais propensos a obter uma amostra representativa da população. Então, mais ou menos falando, se o tamanho da amostra usado é grande o suficiente, há uma boa chance de que ele irá estimar a população muito bem. A maioria das fontes afirma que para a maioria das aplicações N = 30 é suficiente.

No entanto, em outras situações, como o problema original que discutimos de estimar a altura humana média, não saberemos a verdadeira média populacional e variância.

Compreender as nuances das distribuições amostrais e do Teorema do Limite Central é um primeiro passo essencial para falar de muitos desses problemas estatísticos.

Obrigado .

Composing a repository of books (i bought), authors (i follow) & blogs (direct ones) for my own understanding.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store