Correlación y regresión lineal simple,con millas y costos
OBJETIVO Realizar un análisis de datos determinando el coeficiente de correlación y aplicando el modelo de regresión lineal simple(RLS) para realizar predicciones. * Visualizar el diagrama de dispercion millas vs costo * Determinar eñ Coeficiente de correlacion * Construir el modelo de regrecion lineal * Realizar predicciones manualmente y por medio de la funcion predict() * interpretacion de los resultados
Se busca una interpretación de los resultados del modelo
library (readr) # Leer Datos
library(ggplot2) # Para graficos
library(corrplot) # Para correlaciones
library (dplyr) # para select filter y otras cosas
datos<-read.csv("../Datos/rutas millas tarifas de vuelos.csv")
str(datos)
## 'data.frame': 18 obs. of 3 variables:
## $ ruta : Factor w/ 18 levels "Chicago-Atlanta",..: 7 9 4 5 2 1 16 18 13 3 ...
## $ millas: int 178 232 238 262 301 593 1092 1608 714 901 ...
## $ costo : int 125 123 148 136 129 162 224 264 287 256 ...
summary(datos)
## ruta millas costo
## Chicago-Atlanta : 1 Min. : 178 Min. :123.0
## Chicago-Cleveland : 1 1st Qu.: 374 1st Qu.:151.5
## Chicago-Denver : 1 Median :1048 Median :275.5
## Chicago-Detroit : 1 Mean :1196 Mean :280.7
## Chicago-San Luis : 1 3rd Qu.:1752 3rd Qu.:364.0
## Chicago-Seattle : 1 Max. :2574 Max. :513.0
## (Other) :12
Las millas es variable independiente o X El costo es la variable dependiente o Y
-1.00= correlación negativa perfecta(A mayor X, menor Y, de manera proporcional. Es decir, cada vez que X aumenta una unidad, Y disminuye siempre una cantidad constante. Esto aplica “a menor X, mayor Y -0.90= Correlaci○ón negativa muy fuerte -0.75=CorrelacKión negativa considerable -0.50= Correlación negativa media -0.25= Correlación negativa débil -0.10= Correlación negativa muy débil 0.00 = No existe correlacón alguna entre variables +0.10= Correlación positiva muy débil +0.25= Correlación positiva débil +0.50= Correlación positiva media +0.75= Correlación positiva considerable +0.90= Correlación positiva muy fuerte +1.00= Correlación positiva perfecta (“A mayor X, mayor Y”, o "a menor X, menor Y, de manera proporcional. Cada vez que X aumenta Y aumenta siempre una cantidad constante).
r <- cor(datos$millas, datos$costo)
r <- round(r, 4)
r
## [1] 0.8358
El valor de la correlación es ** 0.8358** que significa que estadísticamente es una correlación positiva considerable
La fórmula del modelo de rergesión lineal simple implica que el costo de vuelo está en función de las millas. \[costo=a+b∗millas\]
modelo <- lm(data = datos, formula = costo ~ millas)
modelo
##
## Call:
## lm(formula = costo ~ millas, data = datos)
##
## Coefficients:
## (Intercept) millas
## 128.5770 0.1272
summary(modelo)
##
## Call:
## lm(formula = costo ~ millas, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -130.58 -40.95 -18.36 46.06 155.71
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 128.57699 30.24824 4.251 0.00061 ***
## millas 0.12715 0.02088 6.089 1.57e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 72.38 on 16 degrees of freedom
## Multiple R-squared: 0.6985, Adjusted R-squared: 0.6797
## F-statistic: 37.07 on 1 and 16 DF, p-value: 1.567e-05
a <- modelo$coefficients[1]
b <- modelo$coefficients[2]
a
## (Intercept)
## 128.577
b
## millas
## 0.1271535
Una ciudad que está a 200 millas de distancia de otra cuanto debe costar un boleto de avión.
millas.nuevo <- 200
prediccion <- a + b * millas.nuevo
prediccion
## (Intercept)
## 154.0077
Interpretación: Para una distancia 200 millas entre una ciudad y otra, el costo del boleto de avión debiera ser de ‘r prediccion’ conforme al modelo de regresión Lineal.
prediccion <- predict(modelo, newdata = data.frame(millas = c(290,760, 1100,1400,1650)))
prediccion
## 1 2 3 4 5
## 165.4515 225.2136 268.4458 306.5918 338.3802