Teoría Regresión cuantilíca

La regresión cuantílica (Quantile Regression) es una técnica estadística que permite modelar la relación entre una variable dependiente y una o más variables independientes en distintos puntos de la distribución condicional de la variable dependiente.

¿Por qué usar Quantile Regression?

  • Permite obtener intervalos de predicción, lo cual es útil para la toma de decisiones en negocios.
  • A diferencia de los métodos no lineales tradicionales de aprendizaje supervisado, ofrece una forma explícita de obtener intervalos de predicción.
  • Mejora la precisión en comparación con el uso de intervalos de predicción basados en regresión lineal estándar.

¿Para qué sirve la Quantile Regression?

  • Es útil para analizar distribuciones asimétricas y detectar efectos diferenciados en distintos niveles.

  • Proporciona una mejor comprensión de la heterogeneidad en los datos.

  • Es robusta a valores atípicos, ya que minimiza una función de pérdida asimétrica.

  • Se usa en análisis económico, modelos de riesgo, bioestadística y otras aplicaciones donde la variabilidad es clave.

  • Permite modelar relaciones no capturadas por la regresión lineal ordinaria.

  • Es aplicable cuando la relación entre las variables cambia en distintos puntos de la distribución.

Diferencias clave entre OLS y Quantile Regression

  • OLS (Regresión Lineal Ordinaria): Minimiza el error cuadrático medio (MSE) y modela la media condicional.

  • Quantile Regression: Minimiza una función de pérdida ponderada, lo que permite estimar distintos cuantiles.

  • Robustez: Quantile Regression es menos sensible a valores atípicos que OLS.

  • Flexibilidad: Mientras OLS asume homocedasticidad (varianza constante del error), Quantile Regression permite heterocedasticidad.

Ejemplos de Aplicación

  • Economía: Evaluación de desigualdad en ingresos, determinando cómo factores afectan diferentes niveles salariales.
  • Finanzas: Modelado de riesgos en mercados financieros.
  • Medicina: Análisis de percentiles en medidas biomédicas como presión arterial o peso infantil.
  • Ciencias sociales: Evaluación de impacto de políticas en distintos grupos poblacionales.

Cargar las líbrerias necesarias

#install.packages("quantreg")
library(quantreg)
#install.packages("ggplot")
library(ggplot2)

Descripción del Análisis

En este ejemplo, usaremos Quantile Regression para analizar el impacto del peso del auto (wt)en el consumo de combustible (mpg) usando el dataset mtcars.

Cargar datos (mtcars)

#Esta base de datos viene ya dentro de R
data(mtcars)

Revisar las primeras filas del dataset

head(mtcars) 
##                    mpg cyl disp  hp drat    wt  qsec vs am gear carb
## Mazda RX4         21.0   6  160 110 3.90 2.620 16.46  0  1    4    4
## Mazda RX4 Wag     21.0   6  160 110 3.90 2.875 17.02  0  1    4    4
## Datsun 710        22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
## Hornet 4 Drive    21.4   6  258 110 3.08 3.215 19.44  1  0    3    1
## Hornet Sportabout 18.7   8  360 175 3.15 3.440 17.02  0  0    3    2
## Valiant           18.1   6  225 105 2.76 3.460 20.22  1  0    3    1

Definir Variables

df <- mtcars
df$X <- df$wt  # Peso del auto
df$y <- df$mpg  # Millas por galón

Ajustar un modelo de Quantile Regression para diferentes cuantiles

quantiles <- c(0.1, 0.5, 0.9)  # Percentiles 10, 50 y 90
models <- lapply(quantiles, function(q) rq(y ~ X, tau = q, data = df)) 
# q representa cada uno de los percetiles 
#tau controla qué parte de la distribución condicional estamos modelando.
summary(quantiles)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     0.1     0.3     0.5     0.5     0.7     0.9

Ajustar un modelo de Regresión Lineal estándar para comparación

lm_model <- lm(y ~ X, data = df)

Crear un dataframe para almacenar predicciones

# Creamos un data frame con una secuencia de valores de X que van desde el mínimo hasta el máximo en df$X
X_seq <- data.frame(X = seq(min(df$X), max(df$X), length.out = 100))
# Crear un nuevo data frame para almacenar las predicciones del modelo de regresión
pred_df <- data.frame(
  X = X_seq$X,
  OLS = predict(lm_model, newdata = X_seq)
)

Agregar predicciones de regresión cuantílica

#loop que recorre todos los cuantiles definidos en la variable 'quantiles'
for (i in 1:length(quantiles)) {
  pred_df[[paste0("Q", quantiles[i] * 100)]] <- predict(models[[i]], newdata = X_seq)
}

Graficar resultados

plot <- ggplot(data = df, aes(x = X, y = y)) +
  geom_point(alpha = 0.5) +  # Puntos de datos reales
  geom_line(data = pred_df, aes(x = X, y = OLS, color = "OLS"), linetype = "dashed") +
  geom_line(data = pred_df, aes(x = X, y = Q10, color = "Quantile 10")) +
  geom_line(data = pred_df, aes(x = X, y = Q50, color = "Quantile 50")) +
  geom_line(data = pred_df, aes(x = X, y = Q90, color = "Quantile 90")) +
  scale_color_manual(values = c("black", "blue", "red", "green")) +
  labs(title = "Comparación de Regresión Cuantílica y Lineal",
       x = "Peso del Auto (wt)",
       y = "Millas por Galón (mpg)",
       color = "Modelo") +
  theme_minimal()
print(plot)

Explicación

  • La línea negra discontinua representa la regresión lineal estándar (OLS).

  • Las líneas azul, roja y verde representan las regresiones cuantílicas para los percentiles 10, 50 y 90. *Línea azul (Quantile 10): Muestra cómo los autos con menor consumo de gasolina (percentil 10) están afectados por el peso.

    *Línea roja (Quantile 50 - Mediana): Representa la relación mediana entre wt y mpg, equivalente a la regresión cuantílica en el percentil 50.

    *Línea verde (Quantile 90): Modela la relación para los autos con mejor consumo de gasolina (percentil 90).

-OLS subestima o sobreestima en ciertas regiones, ya que solo modela la media de mpg, mientras que Quantile Regression permite entender cómo cambia mpg en diferentes niveles.

Referencias

  • Ngieng Kianyew, Understanding How Quantile Regression Works, Medium (2023).
