Bayes em Ciência de Dados

Conceito importantíssimo da teoria da probabilidade

O Teorema de Bayes é um dos conceitos mais importantes da teoria da probabilidade usada em Ciência de Dados. Ele nos permite atualizar nossas crenças com base na ocorrência de novos eventos.

compreensão intuitiva

O homem estava sentado de costas para uma mesa perfeitamente plana e perfeitamente quadrada. Então ele pediu ao seu assistente para jogar a bola na mesa. Obviamente, essa bola poderia ter aterrissado e acabado em qualquer lugar da mesa. O homem queria descobrir onde é parar, mas de uma forma mais analítica.

Então, ele pediu ao seu assistente para jogar outra bola na mesa e dizer se ela caiu na esquerda ou à direita, ou na frente ou na parte de trás da primeira bola. Ele escreveu isso, e então ele pediu ao assistente para jogar mais e mais bolas sobre a mesa.

Ele sabe que com este método ele poderia atualizar sua ideia inicial de onde a primeira bola foi aterrissada. Mas, é claro, ele nunca poderia ter certeza absoluta,mas a cada nova prova, ele reduziria a incerteza e se tornaria cada vez mais preciso.

E foi assim que Thomas Bayes viu o mundo, essa é a sua experiência de pensamento. Não é que ele pensou que o mundo não está definido, que a realidade não existe, mas que não podemos conhecê-la perfeitamente, e tudo o que podemos esperar fazer é renovar nosso entendimento à medida que mais e mais evidências emergem. Acredito que é uma abordagem verdadeiramente científica do conhecimento.

explicação prática

Imagine que temos dois eventos sobrepostos A e B. Pode ser, por exemplo, A — eu me molhar hoje, B — vai chover hoje. De uma forma ou de outra, muitos eventos estão relacionados entre si, como em nosso exemplo. Vamos calcular a probabilidade de A dado que B já aconteceu.

Agora, dado que B aconteceu, a parte que agora importa para A é a parte sombreada que é curiosamente A ∩ B. Assim, a probabilidade de A dado B acaba por ser:

Portanto, podemos escrever a fórmula para o evento B dado A já ocorreu por:

Ou:

Agora, a segunda equação pode ser reescrita como:

É só isso. São todas as conclusões que devem ser tiradas para chegar ao teorema das Bases. Vamos combinar tudo em uma única imagem e renomear os membros da fórmula:

  • P(A| B) é a probabilidade posterior ou a probabilidade de A ocorrer dado o evento B já ocorrido
  • P(B| A) é a probabilidade, ou a probabilidade de B dado A
  • P(A), P(B) é a probabilidade prévia de ocorrer o evento A e B

Deve-se notar que com eventos independentes P (B | A) = P(B), o que é lógico — se a ocorrência do evento A não afetar a ocorrência do evento B.

conclusão

A ideia fundamental da inferência bayesiana é tornar-se “menos errado” com mais dados. O processo é simples: temos uma crença inicial, conhecida como anterior, que atualizamos à medida que ganhamos informações adicionais.

As conclusões extraídas da lei bayes são lógicas, mas anti-intuitivas. Quase sempre, as pessoas prestam muita atenção à probabilidade posterior, mas ignoram a probabilidade anterior.

Obrigado.

Composing a repository of books (i bought), authors (i follow) & blogs (direct ones) for my own understanding.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store