Modelos Contínuos de Probabilidade

Filipe Costa

Universidade Federal do Piauí

Revisão Rápida

Variável Aleatória

Uma variável aletória é uma função definida num espaço amostral, que assume valores reais.

Exemplos

O número de peças defeituosas entre \(n\) retiradas de um linha de produção
O número de particulas radioativas desintegradas em um intervalo de tempo
O número de veículos que passam por um posto de pedágio
Duração de um componente de um circuito
O tempo de vida até a fadiga de um cabo de aço

Distribuições de Probabilidade de Variáveis Discretas

A distribuição de probabilidade de uma variável discreta X, definida em um espaço amostral S, é uma tabela que associa a cada valor de X sua probablidade.

Exemplo

Valores de X	Pontos amostrais	Probabilidade
0	CK	0.25
1	CK, KC	0.50
2	KK	0.25

Variável Aleatória Contínua

Se a escala de medida de uma variável aleatória puder ser subdividida tanto quanto desejar, a variável será contínua. Neste tipo de variável é impossível enumerar todos os valores possíveis, assim não conseguimos montar uma tabela com X e P[X=x]. Para esses tipos de quantidades, não é possível associar frequências pontuais tais que a soma de todas seja igual a 1.

Caso Contínuo

Dizemos que \(X\) é uma variável aleatória contínua se existir uma função não negativa \(f\), definidade para todo real \(x \epsilon (- \infty, \infty)\), que tenha a propriedade de que, para qualquer conjunto B de número reais

\[P[X \epsilon B] = \int_{B} f(x)dx\]

a função \(f\) é chamada de funçao de densidade de probabilidade da V.A. de X

Caso Contínuo

Como X deve assumir algum valor, \(f\) deve satisfazer:

\[P[X \epsilon (- \infty, \infty)] = \int_{- \infty}^{+\infty} f(x)dx = 1\]

Tudo o que se deseja saber sobre X pode ser respondido em termos de f. Por exemplo, fazendo \(B = [a,b]\):

\[P[a < X \leq b] = \int_{a}^{b} f(x)d(x)\]

Caso Contínuo

Se fizermos \(a = b\), obtemos

\[P[X = a] = \int_{a}^{a} f(x)d(x) = 0\]

Dessa forma, a probabilidade que de uma variável assuma um valor especifico é zero. Portanto

\[P[X < A] = P{X \le a} = F(a) = \int_{- \infty}^{a} f(x)d(x)\]

Distribuições Contínuas: Normal, Exponencial, t-Student, F

Distribuição Exponecial

Uma variável aleatória X tem distribuição exponecial com parâmetro \(\lambda\) se sua densidade de probabilidade é da de forma:

\[f(x) = \lambda e^{- \lambda x}\]

para todo \(x > 0\) e zero no complemento, onde \(\lambda\).

Distribuição Exponecial

A função de distribuição \(F(x)\) da V.A. Exponencial é dada por:

\[\int_{0}^{+\infty} \lambda e^{- \lambda y} dy= 1 - e^{- \lambda x}\]

Notação: \(X \sim Exp(\lambda)\)

A média e a variância são dados por:

\[E(x) = \frac{1}{\lambda}\]

\[Var(x) = \frac{1}{\lambda^{2}}\]

Distribuição Exponecial

A distribuição exponencial é muito usada na área de confiabilidade de sistemas e engenharia de software/hardware porque modela perfeitamente processos com taxa de falha constante (propriedade “sem memória”).

Aplicação

Imagine um servidor (ou um componente de hardware) que falha, em média, uma vez a cada 500 horas de operação.
Taxa de falha \(\lambda = 1/500 = 0.002\) falhas por hora
Você quer saber qual a probabilidade de um SSD falhar nos primeiros 10.000 horas de uso.

Distribuição Exponecial

Aplicação

\[P(X \le x) = 1 - e^{-\lambda x}\] \[P(X \le 10.000) = 1 - e^{-(0,00002 \cdot 10.000)}\] \[P(X \le 10.000) = 1 - e^{-0,2} \approx 0,181\]

Existe aproximadamente 18,1% de chance de um drive falhar antes de atingir 10.000 horas.

Distribuição Normal

foi introduzida pelo matemático francês Abraham DeMoivre em 1733, que a utilizou para obter aproximações probabilísticas associadas a variáveis aleatórias binomiais com parâmetro n grande.
A distribuição normal ou Gaussiana é uma das mais importantes distribuições teóricas e práticas. Ela é muito utilizada na inferência estatística.

Distribuição Normal

A função de distribuição \(f(x)\) da V.A. Normal é dada por:

\[f_{x}(x) = \frac{1}{\sqrt{2 \pi \sigma^{2}}} exp \left[ - \frac{(x - \mu)^2}{2 \sigma^{2}} \right]\]

Notação: \(X \sim Normal(\mu, \sigma^{2})\)

A média e a variância são dados por:

\[E(x) = \mu\]

\[Var(x) = \sigma^2\]

Distribuição Normal

É uma ferramenta intuitiva da estatística devido à sua simetria e previsibilidade. Sua facilidade de uso reside no fato de que, ao identificar que um conjunto de dados segue esse padrão, podemos descrever todo o comportamento do grupo utilizando apenas dois parâmetros: a média (\(\mu\)) e o desvio padrão (\(\sigma\)).

Distribuição Normal

Método Z-score (Estandardização)

O Z-Score indica a quantos desvios padrão um valor está da média. É uma forma de identificar quão “extremo” um dado é.

\[Z = \frac{x - \mu}{\sigma}\]

Critérios de Decisão - “Sempre 95%?”

Depende:

Teste experimental sem riscos inerentes
Teste para Resistência das asas de um avião.

Distribuição Normal

Aplicação

Monitoramento de Bem-Estar e Pastejo

Sensores de IoT (acelerômetros em colares) monitoram o tempo que um boi passa ruminando ou se movendo.

O Cenário: Em um rebanho saudável de Nelore, a média da ruminação diária é uma curva normal.
\((\mu)\): 500 minutos/dia;
\((\sigma)\): 40 Minutos

O software de IoT usa a Distribuição Normal para identificar “anomalias”. Se um animal específico apresenta apenas \(380\) minutos de ruminação, o sistema gera um alerta automático. Estatisticamente, a chance de esse animal estar saudável é mínima, indicando uma possível doença metabólica ou estresse.

Distribuição t-Student

A distribuição t de Student é uma distribuição de probabilidade, publicada por William Sealy Gosset sob o pseudônimo Student que não podia usar seu nome verdadeiro para publicar trabalhos enquanto trabalhasse para a cervejaria Guinness.
É essencial quando precisamos fazer inferências estatísticas, mas não temos o cenário ideal da Distribuição Normal. Ela é a escolha padrão em situações práticas de pesquisa onde a precisão é limitada pelo tamanho da amostra.

Comparativo entre Distribuição Normal e t de Student
Característica	Distribuição Normal (Z)	Distribuição t de Student
Uso Principal	Grandes amostras (n >= 30)	Pequenas amostras (n < 30)
Parâmetro de Dispersão	Desvio padrão populacional (sigma)	Desvio padrão amostral (s)
Formato da Curva	Fixo e esguio	Variável (caudas mais largas)

Distribuição t-Student

A função de distribuição \(f(x)\) da V.A. T é dada por:

\[f(t) = \frac{\Gamma\left(\frac{\nu+1}{2}\right)}{\sqrt{\nu\pi}\,\Gamma\left(\frac{\nu}{2}\right)} \left(1+\frac{t^2}{\nu}\right)^{-\frac{\nu+1}{2}}, \quad - \infty < x< \infty\]

Notação: \(X \sim t(\nu)\)

A média e a variância são dados por:

\[E(x) = 0 \quad \text{para} \quad v > 1\]

\[Var(x) = \frac{v}{v - 2} \quad para \quad v > 2\]

Distribuição t-Student

Aplicação: Comparando Detectores de Objetos

Imagine que você desenvolveu um novo modelo de detecção de rostos (Modelo B) e quer saber se ele é estatisticamente superior ao modelo atual (Modelo A) em termos de mAP (mean Average Precision).

O Problema da Amostra Pequena: Testar modelos em datasets gigantescos é caro e demorado. Você decide testar ambos em apenas 10 datasets pequenos e variados.
A Limitação: Como você tem apenas 10 amostras (\(n=10\)), você não pode usar a Distribuição Normal com segurança (que exige \(n > 30\)). Além disso, você não conhece o desvio padrão real de performance de todos os modelos de IA do mundo.
A Solução: Teste-t Pareado: Você calcula a diferença de performance entre o Modelo B e o Modelo A em cada um dos 10 testes.

Distribuição t-Student

Aplicação: Comparando Detectores de Objetos

Aplicação Estatística: Para verificar se a melhoria foi real ou apenas “sorte” dos dados escolhidos, você usa a distribuição \(t\):

Hipótese Nula (\(H_0\)): Não há diferença entre os modelos.Cálculo do valor \(t\):

\[t = \frac{\bar{x}_d}{s_d / \sqrt{n}}\]

O Resultado:

Se o valor de \(t\) calculado for maior que o valor crítico da tabela \(t\) (para 9 graus de liberdade), você pode afirmar com, por exemplo, 95% de confiança que o Modelo B é superior.

Modelos Contínuos de Probabilidade

Revisão Rápida

Variável Aleatória

Exemplos

Distribuições de Probabilidade de Variáveis Discretas

Exemplo

Variável Aleatória Contínua

Caso Contínuo

Caso Contínuo

Caso Contínuo

Distribuições Contínuas: Normal, Exponencial, t-Student, F

Distribuição Exponecial

Distribuição Exponecial

Distribuição Exponecial

Aplicação

Distribuição Exponecial

Aplicação

Distribuição Normal

Distribuição Normal

Distribuição Normal

Distribuição Normal

Método Z-score (Estandardização)

Critérios de Decisão - “Sempre 95%?”

Distribuição Normal

Aplicação

Distribuição t-Student

Distribuição t-Student

Distribuição t-Student

Aplicação: Comparando Detectores de Objetos

Distribuição t-Student

Aplicação: Comparando Detectores de Objetos

Obrigado