Teoría Regresión cuantilíca
La regresión cuantílica (Quantile Regression) es una técnica
estadística que permite modelar la relación entre una variable
dependiente y una o más variables independientes en distintos puntos de
la distribución condicional de la variable dependiente.
¿Por qué usar Quantile
Regression?
- Permite obtener intervalos de predicción, lo cual es útil para la
toma de decisiones en negocios.
- A diferencia de los métodos no lineales tradicionales de aprendizaje
supervisado, ofrece una forma explícita de obtener intervalos de
predicción.
- Mejora la precisión en comparación con el uso de intervalos de
predicción basados en regresión lineal estándar.
¿Para qué sirve la Quantile
Regression?
Es útil para analizar distribuciones asimétricas y detectar
efectos diferenciados en distintos niveles.
Proporciona una mejor comprensión de la heterogeneidad en los
datos.
Es robusta a valores atípicos, ya que minimiza una función de
pérdida asimétrica.
Se usa en análisis económico, modelos de riesgo, bioestadística y
otras aplicaciones donde la variabilidad es clave.
Permite modelar relaciones no capturadas por la regresión lineal
ordinaria.
Es aplicable cuando la relación entre las variables cambia en
distintos puntos de la distribución.
Diferencias clave entre OLS y Quantile
Regression
OLS (Regresión Lineal Ordinaria): Minimiza el
error cuadrático medio (MSE) y modela la media condicional.
Quantile Regression: Minimiza una función de
pérdida ponderada, lo que permite estimar distintos cuantiles.
Robustez: Quantile Regression es menos sensible
a valores atípicos que OLS.
Flexibilidad: Mientras OLS asume
homocedasticidad (varianza constante del error), Quantile Regression
permite heterocedasticidad.
Ejemplos de Aplicación
- Economía: Evaluación de desigualdad en ingresos,
determinando cómo factores afectan diferentes niveles salariales.
- Finanzas: Modelado de riesgos en mercados
financieros.
- Medicina: Análisis de percentiles en medidas
biomédicas como presión arterial o peso infantil.
- Ciencias sociales: Evaluación de impacto de
políticas en distintos grupos poblacionales.
Cargar las líbrerias
necesarias
#install.packages("quantreg")
library(quantreg)
#install.packages("ggplot")
library(ggplot2)
Descripción del Análisis
En este ejemplo, usaremos Quantile Regression para analizar el
impacto del peso del auto (wt)en el consumo de combustible (mpg) usando
el dataset mtcars.
Cargar datos (mtcars)
#Esta base de datos viene ya dentro de R
data(mtcars)
Revisar las primeras filas del
dataset
## mpg cyl disp hp drat wt qsec vs am gear carb
## Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
## Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
## Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
## Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
## Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
## Valiant 18.1 6 225 105 2.76 3.460 20.22 1 0 3 1
Definir Variables
df <- mtcars
df$X <- df$wt # Peso del auto
df$y <- df$mpg # Millas por galón
Ajustar un modelo de Quantile
Regression para diferentes cuantiles
quantiles <- c(0.1, 0.5, 0.9) # Percentiles 10, 50 y 90
models <- lapply(quantiles, function(q) rq(y ~ X, tau = q, data = df))
# q representa cada uno de los percetiles
#tau controla qué parte de la distribución condicional estamos modelando.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.1 0.3 0.5 0.5 0.7 0.9
Ajustar un modelo de Regresión Lineal
estándar para comparación
lm_model <- lm(y ~ X, data = df)
Crear un dataframe para almacenar
predicciones
# Creamos un data frame con una secuencia de valores de X que van desde el mínimo hasta el máximo en df$X
X_seq <- data.frame(X = seq(min(df$X), max(df$X), length.out = 100))
# Crear un nuevo data frame para almacenar las predicciones del modelo de regresión
pred_df <- data.frame(
X = X_seq$X,
OLS = predict(lm_model, newdata = X_seq)
)
Agregar predicciones de regresión
cuantílica
#loop que recorre todos los cuantiles definidos en la variable 'quantiles'
for (i in 1:length(quantiles)) {
pred_df[[paste0("Q", quantiles[i] * 100)]] <- predict(models[[i]], newdata = X_seq)
}
Graficar resultados
plot <- ggplot(data = df, aes(x = X, y = y)) +
geom_point(alpha = 0.5) + # Puntos de datos reales
geom_line(data = pred_df, aes(x = X, y = OLS, color = "OLS"), linetype = "dashed") +
geom_line(data = pred_df, aes(x = X, y = Q10, color = "Quantile 10")) +
geom_line(data = pred_df, aes(x = X, y = Q50, color = "Quantile 50")) +
geom_line(data = pred_df, aes(x = X, y = Q90, color = "Quantile 90")) +
scale_color_manual(values = c("black", "blue", "red", "green")) +
labs(title = "Comparación de Regresión Cuantílica y Lineal",
x = "Peso del Auto (wt)",
y = "Millas por Galón (mpg)",
color = "Modelo") +
theme_minimal()
print(plot)

Explicación
La línea negra discontinua representa la regresión lineal
estándar (OLS).
Las líneas azul, roja y verde representan las regresiones
cuantílicas para los percentiles 10, 50 y 90. *Línea azul (Quantile 10):
Muestra cómo los autos con menor consumo de gasolina (percentil 10)
están afectados por el peso.
*Línea roja (Quantile 50 - Mediana): Representa la relación mediana
entre wt y mpg, equivalente a la regresión cuantílica en el percentil
50.
*Línea verde (Quantile 90): Modela la relación para los autos con
mejor consumo de gasolina (percentil 90).
-OLS subestima o sobreestima en ciertas regiones, ya que solo modela
la media de mpg, mientras que Quantile Regression permite entender cómo
cambia mpg en diferentes niveles.
Referencias
- Ngieng Kianyew, Understanding How Quantile Regression
Works, Medium (2023).
