Introdução à probabilidade

Prof. Letícia Raposo

UNIRIO

🗓 Nas aulas anteriores

  • Entender uma variável estudando o comportamento de um conjunto de observações (amostra).
  • Raciocínio indutivo: com base na organização e descrição dos dados observados, procuramos fazer conjecturas sobre o universo (população) em estudo.

🗓 Hoje

  • Raciocínio dedutivo: procuraremos entender como poderão ocorrer os resultados de uma variável, considerando certas suposições.

🤔 Para refletirmos

Supondo que 60% dos estudantes da universidade usam a biblioteca, o que se pode deduzir sobre a porcentagem de alunos que usam a biblioteca em uma amostra simples de 10 alunos?

  • Seis alunos usam a biblioteca? Cinco? Sete? Um?
  • A resposta não é um simples número, pois dependendo dos alunos selecionados, teremos resultados diferentes.
  • Precisamos apresentar quais são os possíveis resultados e como eles poderão ocorrer → modelos probabilísticos.

Modelos probabilísticos


Definições básicas


Os modelos probabilísticos são construídos a partir de certas hipóteses ou conjecturas sobre o problema em questão e constituem-se de duas partes:

  1. dos possíveis resultados e
  2. de uma certa lei que nos diz quão provável é cada resultado (ou grupo de resultados).

Definições básicas


  • Problema em questão: lançamento de moeda 🪙
  • Possíveis resultados: cara 🙂 ou coroa 👑
  • O quanto é provável cada resultado: probabilidade de ocorrer cara é a mesma de ocorrer coroa

Definições básicas


Seja um experimento aleatório (experiência ou situação em que deve ocorrer um, dentre vários resultados possíveis).

  • Espaço amostral S é o conjunto de TODOS os resultados possíveis do experimento.

Espaço amostral

  • Discreto:
    • 🪙 Lançar um moeda e observar a face voltada para cima: \(S = \{cara, coroa\}\).
    • ⚄ Lançar um dado e observar o número de pontos marcado no lado voltado para cima: \(S = \{1,2,3,4,5,6\}\).
    • 📕 Numa certa universidade, indagar a um aluno se ele já usou a biblioteca: \(S = \{Sim, Não\}\).


  • Contínuo:
    • 📏 Numa escola de ensino fundamental, selecionar uma criança e medir a sua altura: \(S=\{x,\ tal\ que\ x \in \mathbb{R}\ e\ 0 < x < 2,00\ m\}\).

Definições básicas


Seja um experimento aleatório (experiência ou situação em que deve ocorrer um, dentre vários resultados possíveis).

  • Espaço amostral S é o conjunto de TODOS os resultados possíveis do experimento.
  • Evento é um conjunto de resultados de um experimento. Podemos dizer que A é um evento se e somente se A é um subconjunto do espaço amostral S, pois S é o conjunto de TODOS os resultados possíveis.

Evento

No lançamento de um dado, podemos ter interesse nos seguintes eventos:

  • ⚁⚃⚅ A = ocorrer um número par - \(A=\{2,4,6\}\)
  • ⚀⚁ B = ocorrer um número menor que três - \(B=\{1,2\}\)
  • ⚅ C = ocorrer o número seis - \(C=\{6\}\)
  • D = ocorrer um número maior que seis - \(D=\{\}\) - Evento impossível

Uniões, interseções e complementos


Eventos mutuamente exclusivos


Definições básicas


Seja um experimento aleatório (experiência ou situação em que deve ocorrer um, dentre vários resultados possíveis).

  • Espaço amostral S é o conjunto de TODOS os resultados possíveis do experimento.
  • Evento é um conjunto de resultados de um experimento. Podemos dizer que A é um evento se e somente se A é um subconjunto do espaço amostral S, pois S é o conjunto de TODOS os resultados possíveis.
  • Probabilidade é um valor entre 0 e 1. A soma das probabilidades de todos os resultados possíveis do experimento deve ser igual a 1.

Probabilidade


🪙 No lançamento de um moeda, se considerarmos a moeda perfeitamente equilibrada e o lançamento imparcial, os resultados tornam-se equiprováveis. Temos o seguinte modelo probabilístico:

Resultado Probabilidade
Cara 0,5
Coroa 0,5

Probabilidade


⚅ No lançamento de um dado, se considerarmos o dado perfeitamente equilibrado e o lançamento imparcial, tem-se o seguinte modelo probabilístico:

Resultado Probabilidade
1 1/6
2 1/6
3 1/6
4 1/6
5 1/6
6 1/6

Probabilidade


🔵🔴 Na seleção de uma bola na urna, sabendo que temos 7 bolas azuis e 3 vermelhas, supondo que a bola seja extraída aleatoriamente, temos o seguinte modelo:

Resultado Probabilidade
Azul 0,7 (7/10)
Vermelha 0,3 (3/10)

Probabilidade


📚 No problema de usuários da biblioteca, vamos supor que em toda a universidade 60% dos alunos usam e 40% não. Se o aluno for selecionado aleatoriamente, o modelo probabilístico será:

Resultado Probabilidade
Sim 0,6
Não 0,4

Princípio da equiprobabilidade


Quando as características do experimento sugerem \(N\) resultados possíveis, todos com igual probabilidade de ocorrência, a probabilidade de um certo evento \(A\), contendo \(N_A\) resultados, pode ser definida por:


\[P(A)=\frac{N_A}{N}\]

Exemplo


⚪️🔴⚫️ Seja uma urna com 5 bolas brancas, 3 vermelhas e 2 pretas. Selecionar uma bola ao acaso. Qual a probabilidade da bola selecionada ser branca ou vermelha?


\(P(B\ ou\ V)=\frac{5}{10}+\frac{3}{10}=\frac{8}{10}\)

\(P(B\ ou\ V)=1-P(P)=1-\frac{2}{10}=\frac{8}{10}\)

Eventos independentes

  • Temos eventos independentes quando a ocorrência de um deles não altera a probabilidade da ocorrência do outro.
    • Ex: evento A = número par no dado e evento B = cara na moeda.
  • Quando a ocorrência de um evento puder ser interpretada como resultante da ocorrência simultânea de dois outros eventos independentes, sua probabilidade pode ser obtida pelo produto das probabilidades individuais desses eventos.

Exemplo

⚁⚁ Lançar duas vezes, de forma imparcial e independente, um dado perfeitamente equilibrado. Calcular a probabilidade de ocorrer número par em ambos os lançamentos.

\[P(No\ par\ em\ ambos\ os\ lançamentos)=\] \[=P(Par\ no\ 1o\ lanç.) \times P(Par\ no\ 2o\ lanç.)=\] \[=\frac{1}{2} \times \frac{1}{2} = \frac{1}{4}\]


E = PRODUTO!!!

📜 Regras básicas da probabilidade

  • A probabilidade de um evento A ocorrer é um número entre 0 e 1;
  • O espaço amostral S tem probabilidade igual a 1;
  • A probabilidade de um conjunto vazio \((\emptyset)\) ocorrer é nula;
  • Regra da adição: \(P(A \cup B)=P(A)+P(B)-P(A \cap B)\)
    • Eventos mutuamente excludentes: \(P(A \cup B)=P(A)+P(B)\)
  • Se \(A^C\) for o evento complementar de A: \(P(A^C)=1-P(A)\)
  • Regra da multiplicação para eventos independentes: \(P(A \cap B)=P(A) \times P(B)\)

Probabilidade condicional

Sejam A e B dois eventos de um espaço amostral \(S\), associado a um experimento, em que \(P(A)>0\). A probabilidade de B ocorrer condicionada a A ter ocorrido, será representada por \(P(B|A)\) e calculada por

Probabilidade condicional

Sejam A e B dois eventos de um espaço amostral \(S\), associado a um experimento, em que \(P(A)>0\). A probabilidade de B ocorrer condicionada a A ter ocorrido, será representada por \(P(B|A)\) e calculada por

Regra da multiplicação para probabilidades condicionais

Com o conceito de probabilidade condicional, é possível apresentar uma maneira de se calcular a probabilidade da interseção de dois eventos A e B em função destes eventos. Esta expressão é denominada de regra da multiplicação. \[P(A\cap B)=P(B|A)P(A)=P(A|B)P(B)\]

Probabilidade condicional e partições

Seja \(S\) o espaço amostral de um experimento, e considere \(k\) eventos disjuntos \(𝐵_1,𝐵_2…,𝐵_𝑘\) em \(S\) tais que \(\cup_{i=1}^{k}𝐵_𝑖=𝑆\). Dizemos que esses eventos formam uma partição de \(S\). Se \(P(B_j)>0\) para \(j=1,...,k\), então, para qualquer evento A em \(S\),

\[P(A)=\sum_{j=1}^{k}P(B_j)P(A|B_j)\]

🐐🚪 O problema de Monty Hall

🐐🚪 O problema de Monty Hall

Teorema de Bayes

  • Método para interpretar evidências no contexto de experiência ou conhecimento anterior.
  • Descoberto por Thomas Bayes e independentemente por Pierre-Simon Laplace.
  • Aplicações na área da epidemiologia, genética, processamento de imagem, aprendizado de máquina, psicologia, ciência forense, dentre outras.

Teorema de Bayes

\[P(B|A)=\frac{P(B)P(A|B)}{P(A)}\]

  • \(P(B|A)\): probabilidade a posteriori
  • \(P(B)\): probabilidade a priori
  • \(P(A|B)\): verossimilhança
  • \(P(A)\): evidência

Teorema de Bayes


\[P(B|A)=\frac{P(B)P(A|B)}{\sum_{j=1}^{n}P(B_j)P(A|B_j)}\]

\(P(A) = \sum_{j=1}^{n}P(B_j)P(A|B_j)\)

🏩 Exemplo

  • Você está caminhando na rua e nota que o posto de saúde está fornecendo um teste gratuito para uma certa doença. O teste tem a seguinte confiabilidade:
    • Sensibilidade: se uma pessoa tem a doença, o teste tem 90% de probabilidade de dar um resultado positivo.
    • Especificidade: se uma pessoa não tem a doença, o teste tem 90% de probabilidade de dar um resultado negativo. (Portanto, só 10% de probabilidade de dar resultado falso positivo).
  • Dados epidemiológicos indicam que a prevalência da doença é de apenas 1 em 10.000, mas como o teste é gratuito e não invasivo, você decide fazer.
  • Alguns dias depois você recebe uma carta informando que seu teste deu positivo. Agora, qual é a probabilidade de você ter a doença?

🏩 Exemplo

  • \(D_+\): ter a doença
  • \(T_+\): teste positivo
  • \(P(D_+)=0,0001\): prevalência (probabilidade pré-teste)
  • \(P(T_+|D_+)=0,90\)
  • \(P(T_-|D_-)=0,90\)
  • \(P(T_+|D_-)=0,10\)

🏩 Exemplo


\[P(D_+|T_+)=\frac{P(D_+)P(T_+|D_+)}{P(T_+)}\]

🏩 Exemplo


\[P(T_+)=P(T_+\cap D_+)+P(T_+\cap D_-)\] \[P(T_+)=P(T_+|D_+)P(D_+)+P(T_+|D_-)P(D_-)\] \[P(T_+)=0,90\times0,0001 + 0,10\times0,9999=0,10008\]

🏩 Exemplo


\[P(D_+|T_+)=\frac{0,0001\times0,90}{0,10008}=0,0009\]

A probabilidade pós-teste aumentou 9 vezes, mas continua baixa, aproximadamente 1 em 1000.

🌳 Diagrama em árvore

🌳 Diagrama em árvore

👩🏿‍⚕️ Testes diagnósticos

Testes diagnósticos

  • Diagnóstico: decisão clínica baseada, conscientemente ou não, em probabilidade.
  • Objetivos:
    • Triagem de pacientes;
    • Diagnóstico de doenças;
    • Acompanhamento ou prognóstico da evolução do paciente.

🤔 Testes diagnósticos

Como medir o nível de certeza de presença de uma doença após a observação de um teste positivo?

Validade de um teste diagnóstico

Sensibilidade e especificidade


A sensibilidade e a especificidade são medidas importantes pois nos dão uma ideia de quão bom é o desempenho de um teste diagnóstico em comparação com o de um teste padrão ouro existente.

Sensibilidade

Proporção de verdadeiros positivos em relação ao total de doentes.

\[S = \frac{VP}{VP+FN}\]

Especificidade

Proporção de verdadeiros negativos em relação ao total de não doentes.

\[E = \frac{VN}{VN+FP}\]

Testes sensíveis

  • Usados quando não se pode correr o risco de não detectar a doença, uma vez que os falsos negativos serão dispensados de seguimento.
  • Teste sensível (poucos falso-negativos):
    • Doença perigosa, mas tratável (sífilis, tuberculose, Hodgkin, transfusão - aids);
    • Excluir doenças;
    • Probabilidade de doença é baixa e propósito é descobrir a doença: exame periódico, banco de sangue.

Testes específicos

  • Associados com custo;
  • Rotulação de pacientes;
  • Teste específico (poucos falso positivos): quimioterapia, indicação de cirurgia, doença estigmatizante.

Sensibilidade e especificidade

  • Úteis para avaliar o desempenho de um teste diagnóstico, mas não são muito úteis para ajudar a tomar decisões clínicas personalizadas.
  • Quando um clínico tem um paciente cujo teste apresentou resultado positivo, a pergunta mais importante é a seguinte: dado que o teste é positivo, qual é a probabilidade de o paciente ter a doença?

Valores preditivos

  • Valores preditivos não são características fixas do teste e não podem ser generalizados para populações com diferentes prevalências da doença.
  • Dependem da prevalência da doença.
  • ❗️ Só podemos calcular o VPP e VPN a partir da matriz de confusão se ela traz o valor real da prevalência.

\[𝑉𝑃𝑃=\frac{𝑆×𝑃}{(𝑆×𝑃)+(1−𝐸)×(1−𝑃)}\]

\[𝑉𝑃𝑁=\frac{𝐸×(1−𝑃)}{(1−𝑆)×𝑃+𝐸×(1−𝑃)}\]

Valores preditivos

  • ⬆️ VPP alto: um paciente cujo teste apresente resultado positivo muito provavelmente tem a doença que está sendo investigada.
  • ⬆️ VPN alto: um paciente cujo teste apresente resultado negativo muito provavelmente não tem a doença que está sendo investigada.
  • Quanto ⬆️ mais sensível, melhor o ⬆️ VPN.
  • Quanto ⬆️ mais específico, melhor o ⬆️ VPP.
  • Veja mais aqui, aqui e aqui!

Pontos de corte e curva ROC

  • A curva ROC (Receiver Operating Characteristic) é uma representação gráfica usada para avaliar o desempenho de um teste diagnóstico.
  • Ela ilustra a relação entre a sensibilidade e a especificidade (1 - falsos positivos).
  • Cada ponto na curva corresponde a um possível ponto de corte utilizado para classificar o teste diagnóstico.
  • Veja mais aqui!

Teste Rápido COVID-19 Ag Bio-Manguinhos

📚 Referências bibliográficas

  • BARBETTA, Pedro Alberto. Estatística aplicada às ciências sociais. Ed. UFSC, 2008.

  • DANCEY, Christine P.; REIDY, John G.; ROWE, Richard. Estatística Sem Matemática para as Ciências da Saúde. Penso Editora, 2017.

  • HAIR, J. F. et al. Multivariate data analysis. Cengage. Hampshire, United Kingdom, 2019.