La Teoría de la Decisión Estadística es un marco matemático utilizado para tomar decisiones bajo incertidumbre. Combina la estadística con la teoría de la probabilidad para elegir la mejor acción posible cuando los resultados dependen de variables aleatorias.
En este contexto, un decisor observa datos y debe elegir una acción que minimice pérdidas o maximice utilidad.
Un problema de decisión estadística está compuesto por:
Espacio de parámetros (Θ)
Conjunto de posibles valores del parámetro desconocido.
Espacio de observaciones (X)
Datos observados provenientes de un experimento o muestra.
Espacio de decisiones (A)
Conjunto de acciones que puede tomar el decisor.
Regla de decisión (δ)
Función que asigna una acción a cada posible observación.
\[ \delta(x): X \rightarrow A \]
La función de pérdida mide el costo de tomar una decisión incorrecta.
\[ L(\theta, a) \]
donde:
La pérdida indica qué tan mala es una decisión cuando el parámetro verdadero es θ.
Pérdida cuadrática
\[ L(\theta, a) = (\theta - a)^2 \]
Penaliza más los errores grandes.
Pérdida absoluta
\[ L(\theta, a) = |\theta - a| \]
Penaliza proporcionalmente el error.
Pérdida 0-1
\[ L(\theta, a) = \begin{cases} 0 & \text{si } a=\theta \\ 1 & \text{si } a \neq \theta \end{cases} \]
Usada en problemas de clasificación.
La función de riesgo es el valor esperado de la pérdida respecto a la distribución de los datos.
\[ R(\theta, \delta) = E_\theta[L(\theta, \delta(X))] \]
donde:
Interpretación:
El riesgo mide la pérdida promedio de una regla de decisión cuando el parámetro verdadero es θ.
Un objetivo frecuente es encontrar una regla de decisión que minimice el riesgo.
\[ \delta^* = \arg\min_\delta R(\theta, \delta) \]
Esto significa elegir la regla que tenga la menor pérdida esperada.
Sin embargo, esto es difícil porque el riesgo depende del valor verdadero \(\theta\), que normalmente es desconocido.
El enfoque bayesiano introduce una distribución previa (prior) sobre el parámetro:
\[ \pi(\theta) \]
Esto representa la creencia inicial sobre los posibles valores de \(\theta\).
Luego se actualiza usando los datos mediante el Teorema de Bayes:
\[ \pi(\theta|x) = \frac{f(x|\theta)\pi(\theta)}{f(x)} \]
donde:
El riesgo bayesiano es el promedio del riesgo sobre la distribución previa.
\[ r(\delta) = \int R(\theta,\delta)\pi(\theta)d\theta \]
La regla Bayesiana es la que minimiza este riesgo:
\[ \delta_B = \arg\min_\delta r(\delta) \]
En lugar de minimizar pérdidas, también se puede maximizar utilidad.
La función de utilidad \(U(\theta,a)\) mide el beneficio de una decisión.
Relación con la pérdida:
\[ U(\theta,a) = -L(\theta,a) \]
El objetivo es maximizar la utilidad esperada posterior:
\[ a^* = \arg\max_a E[U(\theta,a) | x] \]
o equivalentemente minimizar la pérdida posterior.
La decisión óptima bajo el enfoque bayesiano se obtiene minimizando la pérdida posterior esperada:
\[ a^*(x) = \arg\min_a \int L(\theta,a)\pi(\theta|x)d\theta \]
Esto significa elegir la acción que tenga menor pérdida promedio según la distribución posterior.
La teoría de decisión estadística proporciona un marco formal para tomar decisiones bajo incertidumbre mediante:
El enfoque bayesiano es especialmente poderoso porque incorpora información previa y permite tomar decisiones óptimas basadas en la distribución posterior del parámetro.
En la teoría de decisión estadística, una decisión se toma minimizando la pérdida esperada asociada a una acción. Para formalizar esto se utilizan la función de pérdida y la función de riesgo.
La función de pérdida mide el costo de tomar una decisión \(a\) cuando el verdadero valor del parámetro es \(\theta\).
\[ L(\theta, a) \]
donde:
La pérdida cuantifica qué tan mala es la decisión tomada.
Ejemplos comunes:
\[ L(\theta,a) = |\theta - a| \]
\[ L(\theta,a) = (\theta - a)^2 \]
La función de riesgo es el valor esperado de la pérdida respecto a la distribución de los datos.
\[ R(\theta,\delta) = E_\theta[L(\theta,\delta(X))] \]
donde:
Interpretación:
El riesgo es la pérdida promedio que se espera si se usa la regla de decisión \(\delta\) cuando el parámetro verdadero es \(\theta\).
Si el parámetro tiene una distribución previa \(\pi(\theta)\), el riesgo esperado o riesgo Bayesiano es:
\[ r(\delta) = E_\theta[R(\theta,\delta)] \]
o equivalentemente
\[ r(\delta) = \int R(\theta,\delta)\pi(\theta)d\theta \]
Este valor mide la pérdida promedio global considerando la incertidumbre sobre \(\theta\).
Una decisión óptima minimiza la pérdida esperada posterior:
\[ a^*(x) = \arg\min_a E[L(\theta,a)|x] \]
Esto equivale a:
\[ a^*(x) = \arg\min_a \int L(\theta,a)\pi(\theta|x)d\theta \]
Supongamos la pérdida cuadrática:
\[ L(\theta,a) = (\theta-a)^2 \]
Queremos minimizar la pérdida esperada posterior:
\[ E[(\theta-a)^2|x] \]
Expandimos:
\[ E[(\theta-a)^2|x] = E[\theta^2 -2a\theta + a^2 |x] \]
\[ = E[\theta^2|x] -2aE[\theta|x] + a^2 \]
Derivamos respecto a \(a\):
\[ \frac{d}{da} = -2E[\theta|x] +2a \]
Igualamos a cero:
\[ -2E[\theta|x] +2a =0 \]
\[ a = E[\theta|x] \]
Por lo tanto,
\[ a^*(x)=E[\theta|x] \]
Conclusión
Bajo pérdida cuadrática L2, el estimador óptimo es la media posterior.
Consideremos la pérdida absoluta:
\[ L(\theta,a)=|\theta-a| \]
La pérdida esperada es:
\[ E[|\theta-a|] \]
Esto puede escribirse como:
\[ \int |\theta-a| f(\theta|x)d\theta \]
Separando la integral:
\[ \int_{-\infty}^{a}(a-\theta)f(\theta|x)d\theta + \int_{a}^{\infty}(\theta-a)f(\theta|x)d\theta \]
Derivando respecto a \(a\):
\[ \frac{d}{da}E[|\theta-a|] = P(\theta \le a|x) - P(\theta \ge a|x) \]
Para el mínimo:
\[ P(\theta \le a|x) = P(\theta \ge a|x) \]
lo cual implica:
\[ P(\theta \le a|x) = 0.5 \]
Esto significa que \(a\) es la mediana de la distribución posterior.
Dependiendo de la función de pérdida, el estimador óptimo cambia:
| Función de pérdida | Estimador óptimo |
|---|---|
| \(L_2\) pérdida cuadrática | Media posterior |
| \(L_1\) pérdida absoluta | Mediana posterior |
| Pérdida 0-1 | Moda posterior |
La teoría de decisión muestra que los estimadores clásicos aparecen como soluciones de problemas de optimización:
Por lo tanto, la elección de la función de pérdida determina qué estimador es óptimo.
# -------------------------------------------
# Teoría de decisión: pérdida L1 y L2 en R
# Demostración empírica:
# L2 -> media
# L1 -> mediana
# -------------------------------------------
set.seed(123)
# Simular datos de una distribución
n <- 1000
theta <- rnorm(n, mean = 5, sd = 2)
# Definir funciones de pérdida
loss_L2 <- function(a, theta){
mean((theta - a)^2) # riesgo empírico L2
}
loss_L1 <- function(a, theta){
mean(abs(theta - a)) # riesgo empírico L1
}
# Valores posibles de decisión
a_vals <- seq(min(theta)-1, max(theta)+1, length.out = 500)
# Calcular riesgo esperado para cada a
risk_L2 <- sapply(a_vals, loss_L2, theta = theta)
risk_L1 <- sapply(a_vals, loss_L1, theta = theta)
# Encontrar minimizadores
a_L2_opt <- a_vals[which.min(risk_L2)]
a_L1_opt <- a_vals[which.min(risk_L1)]
# Media y mediana teóricas
media <- mean(theta)
mediana <- median(theta)
cat("Media:", media, "\n")
## Media: 5.032256
cat("Mediana:", mediana, "\n")
## Mediana: 5.018419
cat("Minimizador L2:", a_L2_opt, "\n")
## Minimizador L2: 5.021498
cat("Minimizador L1:", a_L1_opt, "\n")
## Minimizador L1: 5.021498
# Graficar riesgos
par(mfrow=c(1,2))
plot(a_vals, risk_L2, type="l", col="blue", lwd=2,
main="Riesgo esperado (L2)",
xlab="a", ylab="Riesgo")
abline(v=media, col="red", lwd=2, lty=2)
plot(a_vals, risk_L1, type="l", col="darkgreen", lwd=2,
main="Riesgo esperado (L1)",
xlab="a", ylab="Riesgo")
abline(v=mediana, col="red", lwd=2, lty=2)
Supongamos que tenemos las siguientes observaciones del parámetro:
| i | θ |
|---|---|
| 1 | 2 |
| 2 | 4 |
| 3 | 6 |
Queremos encontrar una decisión \(a\) que minimice el riesgo esperado
\[ R(a) = E[L(\theta,a)] \]
La pérdida absoluta es
\[ L(\theta,a)=|\theta-a| \]
Calculamos el riesgo promedio para varios valores de \(a\).
| a | 2-a | |||
|---|---|---|---|---|
| 2 | 0 | 2 | 4 | 2.00 |
| 3 | 1 | 1 | 3 | 1.67 |
| 4 | 2 | 0 | 2 | 1.33 |
| 5 | 3 | 1 | 1 | 1.67 |
| 6 | 4 | 2 | 0 | 2.00 |
El mínimo ocurre en
\[ a=4 \]
La mediana de (2,4,6) es
\[ \text{Mediana}=4 \]
Por lo tanto:
Bajo pérdida L1 el estimador óptimo es la mediana.
La pérdida cuadrática es
\[ L(\theta,a)=(\theta-a)^2 \]
| a | (2-a)^2 | (4-a)^2 | (6-a)^2 | Riesgo |
|---|---|---|---|---|
| 2 | 0 | 4 | 16 | 6.67 |
| 3 | 1 | 1 | 9 | 3.67 |
| 4 | 4 | 0 | 4 | 2.67 |
| 5 | 9 | 1 | 1 | 3.67 |
| 6 | 16 | 4 | 0 | 6.67 |
El mínimo ocurre en
\[ a=4 \]
\[ \bar{\theta}=\frac{2+4+6}{3}=4 \]
Por lo tanto:
Esto demuestra cómo la función de pérdida determina el estimador óptimo en teoría de decisión estadística.
# Datos
theta <- c(2,4,6)
# Valores posibles de decision
a_vals <- 2:6
# Riesgo L1
risk_L1 <- sapply(a_vals, function(a){
mean(abs(theta - a))
})
# Riesgo L2
risk_L2 <- sapply(a_vals, function(a){
mean((theta - a)^2)
})
# Tabla resultados
tabla <- data.frame(
a = a_vals,
riesgo_L1 = round(risk_L1,2),
riesgo_L2 = round(risk_L2,2)
)
print(tabla)
## a riesgo_L1 riesgo_L2
## 1 2 2.00 6.67
## 2 3 1.67 3.67
## 3 4 1.33 2.67
## 4 5 1.67 3.67
## 5 6 2.00 6.67
# Media y mediana
mean(theta)
## [1] 4
median(theta)
## [1] 4