¿Qué es la Desviancia?

La desviancia es una medida del mal ajuste de un modelo estadístico. Se basa en la diferencia entre la verosimilitud del modelo ajustado y la de un modelo saturado (modelo perfecto que predice exactamente todos los valores observados).

Fórmula:

\[ \text{Desviancia} = 2 \cdot ( \log L_{\text{saturado}} - \log L_{\text{modelo}} ) \]


¿Qué es el AIC?

El AIC (Akaike Information Criterion) permite comparar modelos tomando en cuenta tanto el ajuste como la complejidad (número de parámetros). Penaliza modelos más complejos para evitar sobreajuste.

Fórmula:

\[ \text{AIC} = 2k - 2\log(L) \]

Donde:

  • \(k\) es el número de parámetros estimados.

  • \(L\) es la verosimilitud del modelo.

Un AIC más bajo indica un mejor modelo comparativamente.


Ejemplo en R

Vamos a utilizar un conjunto de datos simulado para ajustar dos modelos y comparar sus desviancias y AIC.

# Simulación de datos
set.seed(123)
x <- rnorm(100)
y <- 3 + 2*x + rnorm(100, sd = 1)

# Ajuste del modelo lineal completo
modelo1 <- lm(y ~ x)

# Ajuste de un modelo más simple
modelo2 <- lm(y ~ 1)  # solo intercepto

# Resumen de los modelos
summary(modelo1)
## 
## Call:
## lm(formula = y ~ x)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1.9073 -0.6835 -0.0875  0.5806  3.2904 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  2.89720    0.09755   29.70   <2e-16 ***
## x            1.94753    0.10688   18.22   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.9707 on 98 degrees of freedom
## Multiple R-squared:  0.7721, Adjusted R-squared:  0.7698 
## F-statistic:   332 on 1 and 98 DF,  p-value: < 2.2e-16
summary(modelo2)
## 
## Call:
## lm(formula = y ~ 1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4.6472 -1.3172  0.1329  1.2797  4.9021 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   3.0733     0.2023   15.19   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.023 on 99 degrees of freedom

Desviancia de los modelos

deviance(modelo1)
## [1] 92.34413
deviance(modelo2)
## [1] 405.2179

Comparación usando AIC

AIC(modelo1)
## [1] 281.8229
AIC(modelo2)
## [1] 427.7132

El modelo con menor AIC es el que logra un mejor equilibrio entre ajuste y complejidad.


Conclusión

¿Hay riesgo de sobreajuste?

Por los resultados que se muestran:

No parece haber sobreajuste en el modelo1.

Porque: