| Valores de X | Pontos amostrais | Probabilidade |
|---|---|---|
| 0 | CK | 0.25 |
| 1 | CK, KC | 0.50 |
| 2 | KK | 0.25 |
Universidade Federal do Piauí
| Valores de X | Pontos amostrais | Probabilidade |
|---|---|---|
| 0 | CK | 0.25 |
| 1 | CK, KC | 0.50 |
| 2 | KK | 0.25 |
\[P[X \epsilon B] = \int_{B} f(x)dx\]
\[P[X \epsilon (- \infty, \infty)] = \int_{- \infty}^{+\infty} f(x)dx = 1\]
\[P[a < X \leq b] = \int_{a}^{b} f(x)d(x)\]
\[P[X = a] = \int_{a}^{a} f(x)d(x) = 0\]
\[P[X < A] = P{X \le a} = F(a) = \int_{- \infty}^{a} f(x)d(x)\]
\[f(x) = \lambda e^{- \lambda x}\]
para todo \(x > 0\) e zero no complemento, onde \(\lambda\).
\[\int_{0}^{+\infty} \lambda e^{- \lambda y} dy= 1 - e^{- \lambda x}\]
A média e a variância são dados por:
\[E(x) = \frac{1}{\lambda}\]
\[Var(x) = \frac{1}{\lambda^{2}}\]
Imagine um servidor (ou um componente de hardware) que falha, em média, uma vez a cada 500 horas de operação.
Taxa de falha \(\lambda = 1/500 = 0.002\) falhas por hora
Você quer saber qual a probabilidade de um SSD falhar nos primeiros 10.000 horas de uso.
\[P(X \le x) = 1 - e^{-\lambda x}\] \[P(X \le 10.000) = 1 - e^{-(0,00002 \cdot 10.000)}\] \[P(X \le 10.000) = 1 - e^{-0,2} \approx 0,181\]
foi introduzida pelo matemático francês Abraham DeMoivre em 1733, que a utilizou para obter aproximações probabilísticas associadas a variáveis aleatórias binomiais com parâmetro n grande.
A distribuição normal ou Gaussiana é uma das mais importantes distribuições teóricas e práticas. Ela é muito utilizada na inferência estatística.
\[f_{x}(x) = \frac{1}{\sqrt{2 \pi \sigma^{2}}} exp \left[ - \frac{(x - \mu)^2}{2 \sigma^{2}} \right]\]
A média e a variância são dados por:
\[E(x) = \mu\]
\[Var(x) = \sigma^2\]
O Z-Score indica a quantos desvios padrão um valor está da média. É uma forma de identificar quão “extremo” um dado é.
\[Z = \frac{x - \mu}{\sigma}\]
Depende:
Monitoramento de Bem-Estar e Pastejo
Sensores de IoT (acelerômetros em colares) monitoram o tempo que um boi passa ruminando ou se movendo.
O Cenário: Em um rebanho saudável de Nelore, a média da ruminação diária é uma curva normal.
\((\mu)\): 500 minutos/dia;
\((\sigma)\): 40 Minutos
O software de IoT usa a Distribuição Normal para identificar “anomalias”. Se um animal específico apresenta apenas \(380\) minutos de ruminação, o sistema gera um alerta automático. Estatisticamente, a chance de esse animal estar saudável é mínima, indicando uma possível doença metabólica ou estresse.
A distribuição t de Student é uma distribuição de probabilidade, publicada por William Sealy Gosset sob o pseudônimo Student que não podia usar seu nome verdadeiro para publicar trabalhos enquanto trabalhasse para a cervejaria Guinness.
É essencial quando precisamos fazer inferências estatísticas, mas não temos o cenário ideal da Distribuição Normal. Ela é a escolha padrão em situações práticas de pesquisa onde a precisão é limitada pelo tamanho da amostra.
| Característica | Distribuição Normal (Z) | Distribuição t de Student |
|---|---|---|
| Uso Principal | Grandes amostras (n >= 30) | Pequenas amostras (n < 30) |
| Parâmetro de Dispersão | Desvio padrão populacional (sigma) | Desvio padrão amostral (s) |
| Formato da Curva | Fixo e esguio | Variável (caudas mais largas) |
\[f(t) = \frac{\Gamma\left(\frac{\nu+1}{2}\right)}{\sqrt{\nu\pi}\,\Gamma\left(\frac{\nu}{2}\right)} \left(1+\frac{t^2}{\nu}\right)^{-\frac{\nu+1}{2}}, \quad - \infty < x< \infty\]
A média e a variância são dados por:
\[E(x) = 0 \quad \text{para} \quad v > 1\]
\[Var(x) = \frac{v}{v - 2} \quad para \quad v > 2\]
Imagine que você desenvolveu um novo modelo de detecção de rostos (Modelo B) e quer saber se ele é estatisticamente superior ao modelo atual (Modelo A) em termos de mAP (mean Average Precision).
O Problema da Amostra Pequena: Testar modelos em datasets gigantescos é caro e demorado. Você decide testar ambos em apenas 10 datasets pequenos e variados.
A Limitação: Como você tem apenas 10 amostras (\(n=10\)), você não pode usar a Distribuição Normal com segurança (que exige \(n > 30\)). Além disso, você não conhece o desvio padrão real de performance de todos os modelos de IA do mundo.
A Solução: Teste-t Pareado: Você calcula a diferença de performance entre o Modelo B e o Modelo A em cada um dos 10 testes.
Aplicação Estatística: Para verificar se a melhoria foi real ou apenas “sorte” dos dados escolhidos, você usa a distribuição \(t\):
\[t = \frac{\bar{x}_d}{s_d / \sqrt{n}}\]
O Resultado:
Se o valor de \(t\) calculado for maior que o valor crítico da tabela \(t\) (para 9 graus de liberdade), você pode afirmar com, por exemplo, 95% de confiança que o Modelo B é superior.
Mestrado em Ciência da Computação