Teoría Regresión cuantilíca
La regresión cuantílica (Quantile Regression) es una técnica
estadística que permite modelar la relación entre una variable
dependiente y una o más variables independientes en distintos puntos de
la distribución condicional de la variable dependiente.
¿Por qué usar Quantile
Regression?
- Permite obtener intervalos de predicción, lo cual es útil para la
toma de decisiones en negocios.
- A diferencia de los métodos no lineales tradicionales de aprendizaje
supervisado, ofrece una forma explícita de obtener intervalos de
predicción.
- Mejora la precisión en comparación con el uso de intervalos de
predicción basados en regresión lineal estándar.
¿Para qué sirve la Quantile
Regression?
Es útil para analizar distribuciones asimétricas y detectar
efectos diferenciados en distintos niveles.
Proporciona una mejor comprensión de la heterogeneidad en los
datos.
Es robusta a valores atípicos, ya que minimiza una función de
pérdida asimétrica.
Se usa en análisis económico, modelos de riesgo, bioestadística y
otras aplicaciones donde la variabilidad es clave.
Permite modelar relaciones no capturadas por la regresión lineal
ordinaria.
Es aplicable cuando la relación entre las variables cambia en
distintos puntos de la distribución.
Diferencias clave entre OLS y Quantile
Regression
OLS (Regresión Lineal Ordinaria): Minimiza el
error cuadrático medio (MSE) y modela la media condicional.
Quantile Regression: Minimiza una función de
pérdida ponderada, lo que permite estimar distintos cuantiles.
Robustez: Quantile Regression es menos sensible
a valores atípicos que OLS.
Flexibilidad: Mientras OLS asume
homocedasticidad (varianza constante del error), Quantile Regression
permite heterocedasticidad.
Ejemplos de Aplicación
- Economía: Evaluación de desigualdad en ingresos,
determinando cómo factores afectan diferentes niveles salariales.
- Finanzas: Modelado de riesgos en mercados
financieros.
- Medicina: Análisis de percentiles en medidas
biomédicas como presión arterial o peso infantil.
- Ciencias sociales: Evaluación de impacto de
políticas en distintos grupos poblacionales.
Cargar las líbrerias
necesarias
#install.packages("quantreg")
library(quantreg)
#install.packages("ggplot")
library(ggplot2)
Descripción del Análisis
En este ejemplo, usaremos Quantile Regression para analizar el
impacto del peso del auto (wt)en el consumo de combustible (mpg) usando
el dataset mtcars.
Cargar datos (mtcars)
#Esta base de datos viene ya dentro de R
data(mtcars)
Revisar las primeras filas del
dataset
## mpg cyl disp hp drat wt qsec vs am gear carb
## Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
## Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
## Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
## Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
## Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
## Valiant 18.1 6 225 105 2.76 3.460 20.22 1 0 3 1
Definir Variables
df <- mtcars
df$X <- df$wt # Peso del auto
df$y <- df$mpg # Millas por galón
Ajustar un modelo de Quantile
Regression para diferentes cuantiles
quantiles <- c(0.1, 0.5, 0.9) # Percentiles 10, 50 y 90
models <- lapply(quantiles, function(q) rq(y ~ X, tau = q, data = df))
# q representa cada uno de los percetiles
#tau controla qué parte de la distribución condicional estamos modelando.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.1 0.3 0.5 0.5 0.7 0.9
Ajustar un modelo de Regresión Lineal
estándar para comparación
lm_model <- lm(y ~ X, data = df)
Crear un dataframe para almacenar
predicciones
# Creamos un data frame con una secuencia de valores de X que van desde el mínimo hasta el máximo en df$X
X_seq <- data.frame(X = seq(min(df$X), max(df$X), length.out = 100))
# Crear un nuevo data frame para almacenar las predicciones del modelo de regresión
pred_df <- data.frame(
X = X_seq$X,
OLS = predict(lm_model, newdata = X_seq)
)
Agregar predicciones de regresión
cuantílica
#loop que recorre todos los cuantiles definidos en la variable 'quantiles'
for (i in 1:length(quantiles)) {
pred_df[[paste0("Q", quantiles[i] * 100)]] <- predict(models[[i]], newdata = X_seq)
}
Graficar resultados
plot <- ggplot(data = df, aes(x = X, y = y)) +
geom_point(alpha = 0.5) + # Puntos de datos reales
geom_line(data = pred_df, aes(x = X, y = OLS, color = "OLS"), linetype = "dashed") +
geom_line(data = pred_df, aes(x = X, y = Q10, color = "Quantile 10")) +
geom_line(data = pred_df, aes(x = X, y = Q50, color = "Quantile 50")) +
geom_line(data = pred_df, aes(x = X, y = Q90, color = "Quantile 90")) +
scale_color_manual(values = c("black", "blue", "red", "green")) +
labs(title = "Comparación de Regresión Cuantílica y Lineal",
x = "Peso del Auto (wt)",
y = "Millas por Galón (mpg)",
color = "Modelo") +
theme_minimal()
print(plot)

Explicación
La línea negra discontinua representa la regresión lineal
estándar (OLS).
Las líneas azul, roja y verde representan las regresiones
cuantílicas para los percentiles 10, 50 y 90. *Línea azul (Quantile 10):
Muestra cómo los autos con menor consumo de gasolina (percentil 10)
están afectados por el peso.
*Línea roja (Quantile 50 - Mediana): Representa la relación mediana
entre wt y mpg, equivalente a la regresión cuantílica en el percentil
50.
*Línea verde (Quantile 90): Modela la relación para los autos con
mejor consumo de gasolina (percentil 90).
-OLS subestima o sobreestima en ciertas regiones, ya que solo modela
la media de mpg, mientras que Quantile Regression permite entender cómo
cambia mpg en diferentes niveles.
Referencias
- Ngieng Kianyew, Understanding How Quantile Regression
Works, Medium (2023).
---
title: "Quantile Regression"
author: "Viviana Durán_ A00837776"
date: "2025-02-27"
output:
  html_document:
    toc: TRUE
    toc_float: TRUE
    code_download: TRUE
    theme: journal
    highlight: haddock
---

# <span style= "Color: purple;">Teoría Regresión cuantilíca </span>
La regresión cuantílica (Quantile Regression) es una técnica estadística que permite modelar la relación entre una variable dependiente y una o más variables independientes en distintos puntos de la distribución condicional de la variable dependiente.
 
### <span style= "Color: violet;">¿Por qué usar Quantile Regression?</span>
- Permite obtener intervalos de predicción, lo cual es útil para la toma de decisiones en negocios.
- A diferencia de los métodos no lineales tradicionales de aprendizaje supervisado, ofrece una forma explícita de obtener intervalos de predicción.
- Mejora la precisión en comparación con el uso de intervalos de predicción basados en regresión lineal estándar.

### <span style= "Color: violet;">¿Para qué sirve la Quantile Regression?</span>
- Es útil para analizar distribuciones asimétricas y detectar efectos diferenciados en distintos niveles.

- Proporciona una mejor comprensión de la heterogeneidad en los datos.
- Es robusta a valores atípicos, ya que minimiza una función de pérdida asimétrica.
- Se usa en análisis económico, modelos de riesgo, bioestadística y otras aplicaciones donde la variabilidad es clave.
- Permite modelar relaciones no capturadas por la regresión lineal ordinaria.
 - Es aplicable cuando la relación entre las variables cambia en distintos puntos de la distribución.

### <span style= "Color:violet;">Diferencias clave entre OLS y Quantile Regression</span>
- **OLS (Regresión Lineal Ordinaria):** Minimiza el error cuadrático medio (MSE) y modela la media condicional.

- **Quantile Regression:** Minimiza una función de pérdida ponderada, lo que permite estimar distintos cuantiles.

- **Robustez:** Quantile Regression es menos sensible a valores atípicos que OLS.
- **Flexibilidad:** Mientras OLS asume homocedasticidad (varianza constante del error), Quantile Regression permite heterocedasticidad.

### <span style= "Color: violet;">Ejemplos de Aplicación</span>
- **Economía:** Evaluación de desigualdad en ingresos, determinando cómo factores afectan diferentes niveles salariales.
- **Finanzas:** Modelado de riesgos en mercados financieros.
- **Medicina:** Análisis de percentiles en medidas biomédicas como presión arterial o peso infantil.
- **Ciencias sociales:** Evaluación de impacto de políticas en distintos grupos poblacionales.

# <span style= "Color: purple;">Cargar las líbrerias necesarias</span>
```{r message=FALSE, warning=FALSE}
#install.packages("quantreg")
library(quantreg)
#install.packages("ggplot")
library(ggplot2)
```

# <span style= "Color: purple;">Descripción del Análisis </span>

En este ejemplo, usaremos Quantile Regression para analizar el impacto del peso del auto (wt)en el consumo de combustible (mpg) usando el dataset mtcars.


## <span style= "Color: violet;">Cargar datos (mtcars) </span>
```{r}
#Esta base de datos viene ya dentro de R
data(mtcars)
```

## <span style= "Color: violet;">Revisar las primeras filas del dataset</span>

```{r}
head(mtcars) 
```


## <span style= "Color: violet;">Definir Variables</span>
```{r}
df <- mtcars
df$X <- df$wt  # Peso del auto
df$y <- df$mpg  # Millas por galón
```

## <span style= "Color: violet;">Ajustar un modelo de Quantile Regression para diferentes cuantiles</span>
```{r}
quantiles <- c(0.1, 0.5, 0.9)  # Percentiles 10, 50 y 90
models <- lapply(quantiles, function(q) rq(y ~ X, tau = q, data = df)) 
# q representa cada uno de los percetiles 
#tau controla qué parte de la distribución condicional estamos modelando.
```

```{r}
summary(quantiles)
```


## <span style= "Color: violet;"> Ajustar un modelo de Regresión Lineal estándar para comparación</span>

```{r}
lm_model <- lm(y ~ X, data = df)
```

## <span style= "Color: violet;"> Crear un dataframe para almacenar predicciones</span>

```{r}
# Creamos un data frame con una secuencia de valores de X que van desde el mínimo hasta el máximo en df$X
X_seq <- data.frame(X = seq(min(df$X), max(df$X), length.out = 100))
# Crear un nuevo data frame para almacenar las predicciones del modelo de regresión
pred_df <- data.frame(
  X = X_seq$X,
  OLS = predict(lm_model, newdata = X_seq)
)
```

## <span style= "Color: violet;"> Agregar predicciones de regresión cuantílica</span>

```{r}
#loop que recorre todos los cuantiles definidos en la variable 'quantiles'
for (i in 1:length(quantiles)) {
  pred_df[[paste0("Q", quantiles[i] * 100)]] <- predict(models[[i]], newdata = X_seq)
}
```

## <span style= "Color: violet;"> Graficar resultados</span>
```{r}
plot <- ggplot(data = df, aes(x = X, y = y)) +
  geom_point(alpha = 0.5) +  # Puntos de datos reales
  geom_line(data = pred_df, aes(x = X, y = OLS, color = "OLS"), linetype = "dashed") +
  geom_line(data = pred_df, aes(x = X, y = Q10, color = "Quantile 10")) +
  geom_line(data = pred_df, aes(x = X, y = Q50, color = "Quantile 50")) +
  geom_line(data = pred_df, aes(x = X, y = Q90, color = "Quantile 90")) +
  scale_color_manual(values = c("black", "blue", "red", "green")) +
  labs(title = "Comparación de Regresión Cuantílica y Lineal",
       x = "Peso del Auto (wt)",
       y = "Millas por Galón (mpg)",
       color = "Modelo") +
  theme_minimal()
print(plot)
```

# <span style= "Color: purple;">Explicación</span>
- La línea negra discontinua representa la regresión lineal estándar (OLS).
- Las líneas azul, roja y verde representan las regresiones cuantílicas para los percentiles 10, 50 y 90.
 *Línea azul (Quantile 10): Muestra cómo los autos con menor consumo de gasolina (percentil 10) están afectados por el peso.
 
  *Línea roja (Quantile 50 - Mediana): Representa la relación mediana entre wt y mpg, equivalente a la regresión cuantílica en el percentil 50.
  
  *Línea verde (Quantile 90): Modela la relación para los autos con mejor consumo de gasolina (percentil 90).

-OLS subestima o sobreestima en ciertas regiones, ya que solo modela la media de mpg, mientras que Quantile Regression permite entender cómo cambia mpg en diferentes niveles.

# <span style= "Color: purple;">Referencias</span>
- Ngieng Kianyew, *Understanding How Quantile Regression Works*, Medium (2023).