Conceito de Probabilidade em Ciência de Dados

A verdadeira lógica deste mundo está no cálculo das probabilidades

A ciência de dados frequentemente usa inferências estatísticas para prever ou analisar insights de dados, enquanto inferências estatísticas usam probabilidade e suas características. Portanto, saber a probabilidade e suas aplicações são importantes para lidar efetivamente com problemas de Ciência de Dados.

probabilidades de eventos

Um dos conceitos básicos em estatística é um evento. Eventos são simplesmente resultados de experimentos. Eventos podem ser certos, impossíveis ou aleatórios.

Um certo evento é um evento que, como resultado de um experimento (a execução de determinadas ações com um determinado conjunto de condições) ocorrerá em 100% dos casos. Por exemplo, uma moeda lançada certamente cairá (nas condições terrestres).

Um evento, como o nome indica, que não ocorrerá como resultado do experimento. Por exemplo, uma moeda lançada voará ao céu — este é um evento “impossível”.

E, finalmente, um evento é chamado de evento aleatório se o evento pode ou não ocorrer como resultado do experimento.

Deve haver critérios fundamentais de aleatoriedade em tal experimento. Um evento aleatório é uma consequência de fatores aleatórios que influenciam não podem ser previstos ou tais previsões podem ser extremamente difíceis.

Para o exemplo da moeda, fatores aleatórios são a forma e características físicas da moeda, a força/direção do lançamento, resistência ao ar, etc. São fatores extremamente difíceis de prever.

Consideremos com mais detalhes o lançamento de uma moeda (o que significa uma moeda justa — uma moeda na qual ambos os resultados (“cara e coroa”) são igualmente prováveis).

Há 2 resultados mutuamente exclusivos — cara ou coroa. O resultado da virada é aleatório, pois o observador não pode analisar e levar em conta todos os fatores que influenciam o resultado. Qual é a probabilidade de caras? A maioria responde 1/2, mas por quê?

Vamos nomear A o evento que surgiu como coroa. Que a moeda seja jogada n vezes. Em seguida, a probabilidade do evento A pode ser definida como:n

A probabilidade de um evento acontecer = n° de maneiras que pode acontecer / n° total de resultados

Isso é chamado de frequência do evento A em uma longa série de testes.

Exemplo: há 4 Reis em um baralho de 52 cartas. Qual é a probabilidade de escolher um rei?

Número de maneiras que podem acontecer: 4 (existem 4 Reis)

Número total de resultados: 52 (são 52 cartas no total)

Assim, a probabilidade = 4/52 = 1/13 = 7.7%

Acontece que em várias séries de testes a frequência correspondente para grande está flutuando em torno de um valor constante. Esse valor é chamado de probabilidade do evento A e é denotado pela letra P — uma abreviação para Probabilidade.P(A)

A probabilidade está na faixa [0 — 1], onde, em geral, 0 indica a impossibilidade do evento, e 1 indica certeza. Quanto maior a probabilidade de um evento, maior a probabilidade de um evento ocorrer.

Exemplo: Qual é a probabilidade de sacar um Valete ou uma Rainha de um baralho bem embaralhado de 52 cartas?

Se temos 4 cartas de Valetes e 4 Rainhas, a probabilidade é simplesmente a soma das probabilidades individuais.

Número de maneiras que pode acontecer: 4 (há 4 Valetes) e 4 (há 4 Rainhas) = 8

Número total de resultados: 52 (são 52 cartas no total)

Assim, o P (Jack ou Queen) = 8/52 = 15.3%

tipos de eventos

Dois eventos aleatórios A e B são chamados de independentes se a ocorrência de um deles não alterar a probabilidade da ocorrência do outro. Caso contrário, os eventos A e B são chamados de dependentes.

Contraintuitivamente, sabendo que a moeda caiu em cara no primeiro lançamento, não fornece nenhuma informação útil para determinar como a moeda vai pousar no próximo lançamento.

A probabilidade de uma cara ou uma coroa no próximo jogo ainda é de 1/2, independentemente do resultado do primeiro jogo.

As probabilidades de eventos independentes devem ser multiplicadas para obter a probabilidade total da ocorrência de todos eles.

Exemplo: Quais são as chances de obter cara 3 vezes seguidas?

Sabendo que o lançamento de uma moeda é independente, podemos multiplicar a probabilidade única até chegar à problidade total:

Por outro lado, saber que a primeira carta retirada de um baralho é um ás fornece informações úteis para calcular as probabilidades de sorteios consecutivos. Então, a probabilidade de desenhar mais um ás vai ser 3 sobre 51, ou seja, cerca de 5.8% em vez de 4 sobre 52 (7.2%) porque sabemos que já removemos um dos ases do deck. Você pode pensar sobre isso no seu próximo jogo de pôquer.

Eventos desconexos não podem acontecer ao mesmo tempo. Um sinônimo para este termo é “mutuamente exclusivo”.

Por exemplo, o resultado de um único lançamento de moeda não pode ser uma cara E coroa, pode ser cara OU coroa.

Qual é a probabilidade de sacar um valete ou uma carta vermelha de um baralho bem embaralhado de 52 cartas?

Várias maneiras que podem acontecer: 4 (há 4 vermelhas) e 26 (há 26 cartas vermelhos). Mas há 2 cartas vermelhas que se sobrepõem entre eles. Dois valetes vermelhos que se encaixam em ambos os critérios.

Número total de resultados: 52 (são 52 cartas no total)

Assim, P (J ou Vermelho) = P ( J ) + P( Vermelho ) - P(J e Vermelho) = 4/52 + 26/52–2/52 = 7/13 = 53.8%

Tipos de probabilidades

intersecção na probabilidade conjunta

Probabilidade conjunta é um tipo de probabilidade onde mais de um evento pode ocorrer simultaneamente. A probabilidade conjunta é a probabilidade de que o evento A ocorra ao mesmo tempo que o evento B.

Por exemplo, a partir de um baralho de 52 cartas, a probabilidade total de sacar um 6 vermelho é P(6 ∩ vermelho) = 2/52 = 1/26, uma vez que há dois seis vermelhos no baralho de cartas — ♦6 e ♥6.

O símbolo “∩” em probabilidade conjunta é uma intersecção. A probabilidade de ocorrência de um evento A e um evento B é a mesma da intersecção dos conjuntos A e B. Venn Diagram é talvez a melhor explicação visual para isso.

É uma probabilidade de qualquer evento único ocorrer incondicionada em qualquer outro evento.

Sempre que alguém pergunta se o tempo vai ser chuvoso ou ensolarado hoje (sem qualquer informação condicional ou prévia), você está computando uma probabilidade marginal.

a ordem importa

É uma probabilidade de um evento dado que (por suposição, presunção, afirmação ou evidência) outro evento ocorreu.

Quando pergunto qual é a probabilidade de que hoje o dia seja chuvoso ou ensolarado, dado que notei que a temperatura vai ficar acima de 30°C, você está calculando uma probabilidade condicional. Há uma notação específica para probabilidade condicional mostrada na imagem acima.

Então, queremos entender a probabilidade do evento B dado A. É definida como a probabilidade da articulação dos eventos A e B dividida pela probabilidade de B.

qual é a chance de chuva durante o dia de hoje?

Um grupo de pessoas planejando um piquenique para hoje, mas já amanheceu nublado e temos aqui algumas percepções sobre o tempo:

  • 50% de todos os dias chuvosos começam nublados.
  • Manhãs nubladas são comuns (cerca de 40% dos dias começam nublados)
  • Este é geralmente um mês seco (apenas 3 de 30 dias tendem a ser chuvosos, ou 10%)

correlacionando chuva ao tempo

Aqui, correlacionamos a chuva e as nuvens. Usando-as podemos determinar a fórmula como abaixo:

P(chuva|nuvem) = {P(chuva) * P(nuvem|chuva) / P(nuvem)}

portanto:

  • P(nuvem|chuva) a probabilidade de céu nublado e chover é de 50%
  • P(nuvem) a probabilidade de dias nublados 40%
  • P(chuva) a probabilidade de chover 10%
  • P(Chuva| Nuvem) = 0,1 * 0,5/0,4 = 0,125 = 12.5%

conclusão

Neste post, nos familiarizamos com os conceitos básicos de probabilidade e álgebra de probabilidade.

Obrigado.

Composing a repository of books (i bought), authors (i follow) & blogs (direct ones) for my own understanding.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store