REGRESIÓN LINEAL SIMPLE CON PEAJES EN COLOMBIA

library(readr)
## Warning: package 'readr' was built under R version 4.5.2
peajes<-read_csv("C:\\Users\\Isabella Escobar\\Downloads\\peajes.csv")
## Rows: 98306 Columns: 11
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (6): Peaje, IdCategoriaTarifa, FechaDesde, FechaHasta, TraficoEvasores, ...
## dbl (5): IdPeaje, ValorTarifa, Trafico, Lat, Lon
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

CONTEXTO

Esta base de datos pertenece al sistema oficial de peajes en colombia, el cual registra información operativa, económica y logística de los corredores viales,en esta base se incluyen datos como:

  • Tarifas vigentes

  • Flujos vehiculares (tráfico total)

  • Vehículos evasores

  • Vehículos exentos

  • Ubicación geográfica

  • Vigencias de tarifa

FORMULACIÓN DE HIPÓTESIS

  • Hipótesis 1: Esta hipótesis dice que entre mayor sea la tarifa del peaje menor es el trafico vehicula, en esta hipótesis la variable independiente seria el valor de la tarifa y la dependiente el trafico. H0: β1 = 0 → La tarifa NO tiene relación con el tráfico.

H1: β1 < 0 → La tarifa SÍ tiene relación negativa con el tráfico.

  • Hipótesis 2:Esta hipótesis dice que a mayor valor de la tarifa del peaje, menor es el tráfico de vehículos exentos, pues una tarifa más alta podría estar asociada a un control más estricto o a un menor número de vehículos autorizados para exención. En esta hipótesis la variable independiente es el Valor de la tarifa y la dependiente es TraficoExentos787.

H0: β₁ = 0 → El valor de la tarifa NO tiene relación con el tráfico de exentos.

H1: β₁ < 0 → El valor de la tarifa SÍ tiene relación negativa con el tráfico de exentos.

¿QUÉ ES EL MODELO DE REGRESIÓN LINEAL SIMPLE ?

La regresión lineal simple es una técnica estadística que analiza la relación lineal entre dos variables cuantitativas. Se utiliza para predecir el valor de una variable dependiente basándose en una única variable independiente, y proporciona una línea recta que mejor se ajusta a los datos. Esta línea se usa para entender cómo cambia una variable a medida que la otra cambia y para predecir el valor de la variable de respuesta (Y) para un valor específico de la variable predictora (X)

COMPONENTES: - Variable dependiente: La variable que se intenta predecir o explicar (Y). - Variable independiente: La variable utilizada para predecir la variable dependiente (X).

Formula:

  • beta0: Es el punto de corte en el eje Y.

  • beta1: Es la pendiente de la línea, que indica cuánto cambia y por cada unidad de cambio en x.

\[Y = beta0 + beta1 * X\]

SOLUCIÓN DE CADA HIPÓTESIS

  • Hipótesis 1: En esta hipotesis queremos ver si el valor de un peaje puede afectar la cantidad de vehículos que lo transitan.
peajes$ValorTarifa <- as.numeric(peajes$ValorTarifa) 
peajes$Trafico <- as.numeric(peajes$Trafico) 
plot(peajes$Trafico~peajes$ValorTarifa) 
cor.test(peajes$Trafico, peajes$ValorTarifa) 
## 
##  Pearson's product-moment correlation
## 
## data:  peajes$Trafico and peajes$ValorTarifa
## t = -40.34, df = 98304, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.1337536 -0.1214549
## sample estimates:
##        cor 
## -0.1276091
modelo1<- lm(peajes$Trafico~peajes$ValorTarifa) 
summary(modelo1) 
## 
## Call:
## lm(formula = peajes$Trafico ~ peajes$ValorTarifa)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
##  -27129  -22843  -12957    -654 1097616 
## 
## Coefficients:
##                      Estimate Std. Error t value Pr(>|t|)    
## (Intercept)         2.713e+04  2.530e+02  107.23   <2e-16 ***
## peajes$ValorTarifa -4.288e-01  1.063e-02  -40.34   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 54360 on 98304 degrees of freedom
## Multiple R-squared:  0.01628,    Adjusted R-squared:  0.01627 
## F-statistic:  1627 on 1 and 98304 DF,  p-value: < 2.2e-16
modelo1$coefficients 
##        (Intercept) peajes$ValorTarifa 
##       27128.924196          -0.428827
27128.92+(-0.43*7000) 
## [1] 24118.92
plot(peajes$Trafico~peajes$ValorTarifa) 
abline(modelo1,col="pink")

El modelo de regresión lineal simple resultó significativo (F = 1627, p < 2.2e-16), lo que indica que la variable independiente (tarifa del peaje) explica una proporción no nula de la variabilidad del tráfico vehicular. Por lo tanto, se rechaza la hipótesis nula de que la pendiente β1 es igual a cero y se concluye que sí existe relación entre la tarifa y el tráfico. El coeficiente de determinación R² = 0.01628 indica que el 1.6% del tráfico vehicular puede ser explicado únicamente por la tarifa del peaje. Aunque el modelo resulta estadísticamente significativo (p < 2.2e-16), el valor de R² evidencia que la relación es débil, lo cual es esperable debido a que el tráfico depende de múltiples factores adicionales que no están incluidos en el modelo. Se rechaza la hipótesis nula y se acepta que existe una relación negativa significativa entre la tarifa del peaje y el tráfico vehicular. Aunque la relación estadística es débil (R² = 0.016), la pendiente negativa confirma que, en promedio, al aumentar la tarifa, el tráfico disminuye, lo cual respalda la hipótesis inicial

  • Hipótesis 2: Esta hipótesis dice que a mayor valor de la tarifa del peaje, menor es el tráfico de vehículos exentos, pues una tarifa más alta podría estar asociada a un control más estricto o a un menor número de vehículos autorizados para exención. En esta hipótesis la variable independiente es el Valor de la tarifa y la dependiente es TraficoExentos787.
peajes$ValorTarifa <- as.numeric(peajes$ValorTarifa) 
peajes$TraficoExentos787 <- as.numeric(peajes$TraficoExentos787) 
## Warning: NAs introducidos por coerción
plot(peajes$TraficoExentos787~peajes$ValorTarifa) 
cor.test(peajes$TraficoExentos787, peajes$ValorTarifa) 
## 
##  Pearson's product-moment correlation
## 
## data:  peajes$TraficoExentos787 and peajes$ValorTarifa
## t = -41.853, df = 96279, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.1398714 -0.1274641
## sample estimates:
##       cor 
## -0.133673
modelo1<- lm(peajes$TraficoExentos787~peajes$ValorTarifa) 
summary(modelo1) 
## 
## Call:
## lm(formula = peajes$TraficoExentos787 ~ peajes$ValorTarifa)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
##   -283   -238   -150    -50 101089 
## 
## Coefficients:
##                      Estimate Std. Error t value Pr(>|t|)    
## (Intercept)         2.829e+02  3.295e+00   85.85   <2e-16 ***
## peajes$ValorTarifa -5.741e-03  1.372e-04  -41.85   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 697 on 96279 degrees of freedom
##   (2025 observations deleted due to missingness)
## Multiple R-squared:  0.01787,    Adjusted R-squared:  0.01786 
## F-statistic:  1752 on 1 and 96279 DF,  p-value: < 2.2e-16
modelo1$coefficients 
##        (Intercept) peajes$ValorTarifa 
##      282.895763579       -0.005740582
282.89+(-0.0057*7000)
## [1] 242.99
plot(peajes$TraficoExentos787~peajes$ValorTarifa) 
abline(modelo1,col="pink")

Los resultados muestran que existe una relación negativa y estadísticamente significativa entre el valor de la tarifa del peaje y el tráfico de vehículos exentos (cor = –0.1337, p < 2.2e−16). El coeficiente de la regresión lineal confirma esta tendencia, indicando que por cada aumento en la tarifa, el número de exentos disminuye ligeramente (β₁ = –0.00574, p < 2.2e−16). Esto permite rechazar la hipótesis nula y aceptar la hipótesis alternativa de que un mayor valor de la tarifa se asocia con un menor tráfico de exentos. Sin embargo, el modelo presenta un R² muy bajo (1.78%), lo que indica que, aunque la relación existe, la tarifa afecta solo una pequeña parte del comportamiento de los vehículos exentos y que intervienen otros factores más determinantes.