Teoría de la Decisión Estadística

La Teoría de la Decisión Estadística es un marco matemático utilizado para tomar decisiones bajo incertidumbre. Combina la estadística con la teoría de la probabilidad para elegir la mejor acción posible cuando los resultados dependen de variables aleatorias.

En este contexto, un decisor observa datos y debe elegir una acción que minimice pérdidas o maximice utilidad.

1. Elementos de un problema de decisión

Un problema de decisión estadística está compuesto por:

Espacio de parámetros (Θ)
Conjunto de posibles valores del parámetro desconocido.
Espacio de observaciones (X)
Datos observados provenientes de un experimento o muestra.
Espacio de decisiones (A)
Conjunto de acciones que puede tomar el decisor.
Regla de decisión (δ)
Función que asigna una acción a cada posible observación.

\[ \delta(x): X \rightarrow A \]

2. Función de pérdida

La función de pérdida mide el costo de tomar una decisión incorrecta.

\[ L(\theta, a) \]

donde:

\(\theta\) = valor verdadero del parámetro
\(a\) = acción tomada

La pérdida indica qué tan mala es una decisión cuando el parámetro verdadero es θ.

Ejemplos

Pérdida cuadrática

\[ L(\theta, a) = (\theta - a)^2 \]

Penaliza más los errores grandes.

Pérdida absoluta

\[ L(\theta, a) = |\theta - a| \]

Penaliza proporcionalmente el error.

Pérdida 0-1

\[ L(\theta, a) = \begin{cases} 0 & \text{si } a=\theta \\ 1 & \text{si } a \neq \theta \end{cases} \]

Usada en problemas de clasificación.

3. Función de riesgo

La función de riesgo es el valor esperado de la pérdida respecto a la distribución de los datos.

\[ R(\theta, \delta) = E_\theta[L(\theta, \delta(X))] \]

donde:

\(\delta(X)\) es la acción tomada usando la regla de decisión
el valor esperado se calcula con la distribución de \(X\)

Interpretación:

El riesgo mide la pérdida promedio de una regla de decisión cuando el parámetro verdadero es θ.

4. Regla de decisión de riesgo mínimo

Un objetivo frecuente es encontrar una regla de decisión que minimice el riesgo.

\[ \delta^* = \arg\min_\delta R(\theta, \delta) \]

Esto significa elegir la regla que tenga la menor pérdida esperada.

Sin embargo, esto es difícil porque el riesgo depende del valor verdadero \(\theta\), que normalmente es desconocido.

5. Enfoque Bayesiano

El enfoque bayesiano introduce una distribución previa (prior) sobre el parámetro:

\[ \pi(\theta) \]

Esto representa la creencia inicial sobre los posibles valores de \(\theta\).

Luego se actualiza usando los datos mediante el Teorema de Bayes:

\[ \pi(\theta|x) = \frac{f(x|\theta)\pi(\theta)}{f(x)} \]

donde:

\(f(x|\theta)\) = verosimilitud
\(\pi(\theta|x)\) = distribución posterior

6. Riesgo Bayesiano

El riesgo bayesiano es el promedio del riesgo sobre la distribución previa.

\[ r(\delta) = \int R(\theta,\delta)\pi(\theta)d\theta \]

La regla Bayesiana es la que minimiza este riesgo:

\[ \delta_B = \arg\min_\delta r(\delta) \]

7. Máxima utilidad

En lugar de minimizar pérdidas, también se puede maximizar utilidad.

La función de utilidad \(U(\theta,a)\) mide el beneficio de una decisión.

Relación con la pérdida:

\[ U(\theta,a) = -L(\theta,a) \]

El objetivo es maximizar la utilidad esperada posterior:

\[ a^* = \arg\max_a E[U(\theta,a) | x] \]

o equivalentemente minimizar la pérdida posterior.

8. Regla Bayesiana óptima

La decisión óptima bajo el enfoque bayesiano se obtiene minimizando la pérdida posterior esperada:

\[ a^*(x) = \arg\min_a \int L(\theta,a)\pi(\theta|x)d\theta \]

Esto significa elegir la acción que tenga menor pérdida promedio según la distribución posterior.

Conclusión

La teoría de decisión estadística proporciona un marco formal para tomar decisiones bajo incertidumbre mediante:

Funciones de pérdida
Funciones de riesgo
Minimización del riesgo
Enfoque bayesiano
Maximización de utilidad

El enfoque bayesiano es especialmente poderoso porque incorpora información previa y permite tomar decisiones óptimas basadas en la distribución posterior del parámetro.

Teoría de Riesgo y Función de Pérdida en Decisión Estadística

En la teoría de decisión estadística, una decisión se toma minimizando la pérdida esperada asociada a una acción. Para formalizar esto se utilizan la función de pérdida y la función de riesgo.

1. Función de pérdida

La función de pérdida mide el costo de tomar una decisión \(a\) cuando el verdadero valor del parámetro es \(\theta\).

\[ L(\theta, a) \]

donde:

\(\theta\) : parámetro verdadero
\(a\) : decisión o estimación

La pérdida cuantifica qué tan mala es la decisión tomada.

Ejemplos comunes:

Pérdida absoluta (L1)

\[ L(\theta,a) = |\theta - a| \]

Pérdida cuadrática (L2)

\[ L(\theta,a) = (\theta - a)^2 \]

2. Función de riesgo

La función de riesgo es el valor esperado de la pérdida respecto a la distribución de los datos.

\[ R(\theta,\delta) = E_\theta[L(\theta,\delta(X))] \]

donde:

\(\delta(X)\) es la regla de decisión
\(X\) es la variable aleatoria observada

Interpretación:

El riesgo es la pérdida promedio que se espera si se usa la regla de decisión \(\delta\) cuando el parámetro verdadero es \(\theta\).

3. Riesgo esperado (riesgo teórico)

Si el parámetro tiene una distribución previa \(\pi(\theta)\), el riesgo esperado o riesgo Bayesiano es:

\[ r(\delta) = E_\theta[R(\theta,\delta)] \]

o equivalentemente

\[ r(\delta) = \int R(\theta,\delta)\pi(\theta)d\theta \]

Este valor mide la pérdida promedio global considerando la incertidumbre sobre \(\theta\).

4. Decisión óptima

Una decisión óptima minimiza la pérdida esperada posterior:

\[ a^*(x) = \arg\min_a E[L(\theta,a)|x] \]

Esto equivale a:

\[ a^*(x) = \arg\min_a \int L(\theta,a)\pi(\theta|x)d\theta \]

5. Demostración: pérdida L2 produce la media

Supongamos la pérdida cuadrática:

\[ L(\theta,a) = (\theta-a)^2 \]

Queremos minimizar la pérdida esperada posterior:

\[ E[(\theta-a)^2|x] \]

Expandimos:

\[ E[(\theta-a)^2|x] = E[\theta^2 -2a\theta + a^2 |x] \]

\[ = E[\theta^2|x] -2aE[\theta|x] + a^2 \]

Derivamos respecto a \(a\):

\[ \frac{d}{da} = -2E[\theta|x] +2a \]

Igualamos a cero:

\[ -2E[\theta|x] +2a =0 \]

\[ a = E[\theta|x] \]

Por lo tanto,

\[ a^*(x)=E[\theta|x] \]

Conclusión

Bajo pérdida cuadrática L2, el estimador óptimo es la media posterior.

6. Demostración: pérdida L1 produce la mediana

Consideremos la pérdida absoluta:

\[ L(\theta,a)=|\theta-a| \]

La pérdida esperada es:

\[ E[|\theta-a|] \]

Esto puede escribirse como:

\[ \int |\theta-a| f(\theta|x)d\theta \]

Separando la integral:

\[ \int_{-\infty}^{a}(a-\theta)f(\theta|x)d\theta + \int_{a}^{\infty}(\theta-a)f(\theta|x)d\theta \]

Derivando respecto a \(a\):

\[ \frac{d}{da}E[|\theta-a|] = P(\theta \le a|x) - P(\theta \ge a|x) \]

Para el mínimo:

\[ P(\theta \le a|x) = P(\theta \ge a|x) \]

lo cual implica:

\[ P(\theta \le a|x) = 0.5 \]

Esto significa que \(a\) es la mediana de la distribución posterior.

7. Resultados fundamentales

Dependiendo de la función de pérdida, el estimador óptimo cambia:

Función de pérdida	Estimador óptimo
\(L_2\) pérdida cuadrática	Media posterior
\(L_1\) pérdida absoluta	Mediana posterior
Pérdida 0-1	Moda posterior

8. Interpretación

La teoría de decisión muestra que los estimadores clásicos aparecen como soluciones de problemas de optimización:

Media minimiza error cuadrático
Mediana minimiza error absoluto
Moda maximiza probabilidad posterior

Por lo tanto, la elección de la función de pérdida determina qué estimador es óptimo.

# -------------------------------------------
# Teoría de decisión: pérdida L1 y L2 en R
# Demostración empírica:
# L2 -> media
# L1 -> mediana
# -------------------------------------------

set.seed(123)

# Simular datos de una distribución
n <- 1000
theta <- rnorm(n, mean = 5, sd = 2)

# Definir funciones de pérdida
loss_L2 <- function(a, theta){
  mean((theta - a)^2)     # riesgo empírico L2
}

loss_L1 <- function(a, theta){
  mean(abs(theta - a))    # riesgo empírico L1
}

# Valores posibles de decisión
a_vals <- seq(min(theta)-1, max(theta)+1, length.out = 500)

# Calcular riesgo esperado para cada a
risk_L2 <- sapply(a_vals, loss_L2, theta = theta)
risk_L1 <- sapply(a_vals, loss_L1, theta = theta)

# Encontrar minimizadores
a_L2_opt <- a_vals[which.min(risk_L2)]
a_L1_opt <- a_vals[which.min(risk_L1)]

# Media y mediana teóricas
media <- mean(theta)
mediana <- median(theta)

cat("Media:", media, "\n")

## Media: 5.032256

cat("Mediana:", mediana, "\n")

## Mediana: 5.018419

cat("Minimizador L2:", a_L2_opt, "\n")

## Minimizador L2: 5.021498

cat("Minimizador L1:", a_L1_opt, "\n")

## Minimizador L1: 5.021498

# Graficar riesgos
par(mfrow=c(1,2))

plot(a_vals, risk_L2, type="l", col="blue", lwd=2,
     main="Riesgo esperado (L2)",
     xlab="a", ylab="Riesgo")
abline(v=media, col="red", lwd=2, lty=2)

plot(a_vals, risk_L1, type="l", col="darkgreen", lwd=2,
     main="Riesgo esperado (L1)",
     xlab="a", ylab="Riesgo")
abline(v=mediana, col="red", lwd=2, lty=2)

Teoría de decisión estadística: ejemplo

Supongamos que tenemos las siguientes observaciones del parámetro:

i	θ
1	2
2	4
3	6

Queremos encontrar una decisión \(a\) que minimice el riesgo esperado

\[ R(a) = E[L(\theta,a)] \]

Pérdida L1

La pérdida absoluta es

\[ L(\theta,a)=|\theta-a| \]

Calculamos el riesgo promedio para varios valores de \(a\).

a		2-a
2	0	2	4	2.00
3	1	1	3	1.67
4	2	0	2	1.33
5	3	1	1	1.67
6	4	2	0	2.00

El mínimo ocurre en

\[ a=4 \]

La mediana de (2,4,6) es

\[ \text{Mediana}=4 \]

Por lo tanto:

Bajo pérdida L1 el estimador óptimo es la mediana.

Pérdida L2

La pérdida cuadrática es

\[ L(\theta,a)=(\theta-a)^2 \]

a	(2-a)^2	(4-a)^2	(6-a)^2	Riesgo
2	0	4	16	6.67
3	1	1	9	3.67
4	4	0	4	2.67
5	9	1	1	3.67
6	16	4	0	6.67

El mínimo ocurre en

\[ a=4 \]

Media

\[ \bar{\theta}=\frac{2+4+6}{3}=4 \]

Por lo tanto:

L1 → Mediana
L2 → Media

Esto demuestra cómo la función de pérdida determina el estimador óptimo en teoría de decisión estadística.

# Datos
theta <- c(2,4,6)

# Valores posibles de decision
a_vals <- 2:6

# Riesgo L1
risk_L1 <- sapply(a_vals, function(a){
  mean(abs(theta - a))
})

# Riesgo L2
risk_L2 <- sapply(a_vals, function(a){
  mean((theta - a)^2)
})

# Tabla resultados
tabla <- data.frame(
  a = a_vals,
  riesgo_L1 = round(risk_L1,2),
  riesgo_L2 = round(risk_L2,2)
)

print(tabla)

##   a riesgo_L1 riesgo_L2
## 1 2      2.00      6.67
## 2 3      1.67      3.67
## 3 4      1.33      2.67
## 4 5      1.67      3.67
## 5 6      2.00      6.67

# Media y mediana
mean(theta)

## [1] 4

median(theta)

## [1] 4

Ejemplo de teoría de decisión estadística

Ejemplo

2026-03-11

Teoría de la Decisión Estadística

1. Elementos de un problema de decisión

2. Función de pérdida

Ejemplos

3. Función de riesgo

4. Regla de decisión de riesgo mínimo

5. Enfoque Bayesiano

6. Riesgo Bayesiano

7. Máxima utilidad

8. Regla Bayesiana óptima

Conclusión

Teoría de Riesgo y Función de Pérdida en Decisión Estadística

1. Función de pérdida

Pérdida absoluta (L1)

Pérdida cuadrática (L2)

2. Función de riesgo

3. Riesgo esperado (riesgo teórico)

4. Decisión óptima

5. Demostración: pérdida L2 produce la media

6. Demostración: pérdida L1 produce la mediana

7. Resultados fundamentales

8. Interpretación

Teoría de decisión estadística: ejemplo

Pérdida L1

Pérdida L2

Media