Correlación y regresión lineal simple,con millas y costos

OBJETIVO Realizar un análisis de datos determinando el coeficiente de correlación y aplicando el modelo de regresión lineal simple(RLS) para realizar predicciones. * Visualizar el diagrama de dispercion millas vs costo * Determinar eñ Coeficiente de correlacion * Construir el modelo de regrecion lineal * Realizar predicciones manualmente y por medio de la funcion predict() * interpretacion de los resultados

Se busca una interpretación de los resultados del modelo

LIBRERÍAS

library (readr)     # Leer Datos
library(ggplot2)    # Para graficos
library(corrplot)   # Para correlaciones
library (dplyr)     # para select filter y otras cosas

Datos

datos<-read.csv("../Datos/rutas millas tarifas de vuelos.csv")

Explorar datos

str(datos)
## 'data.frame':    18 obs. of  3 variables:
##  $ ruta  : Factor w/ 18 levels "Chicago-Atlanta",..: 7 9 4 5 2 1 16 18 13 3 ...
##  $ millas: int  178 232 238 262 301 593 1092 1608 714 901 ...
##  $ costo : int  125 123 148 136 129 162 224 264 287 256 ...
summary(datos)
##                  ruta        millas         costo      
##  Chicago-Atlanta   : 1   Min.   : 178   Min.   :123.0  
##  Chicago-Cleveland : 1   1st Qu.: 374   1st Qu.:151.5  
##  Chicago-Denver    : 1   Median :1048   Median :275.5  
##  Chicago-Detroit   : 1   Mean   :1196   Mean   :280.7  
##  Chicago-San Luis  : 1   3rd Qu.:1752   3rd Qu.:364.0  
##  Chicago-Seattle   : 1   Max.   :2574   Max.   :513.0  
##  (Other)           :12

Coeficiente de correlación de los datos

Las millas es variable independiente o X El costo es la variable dependiente o Y

-1.00= correlación negativa perfecta(A mayor X, menor Y, de manera proporcional. Es decir, cada vez que X aumenta una unidad, Y disminuye siempre una cantidad constante. Esto aplica “a menor X, mayor Y -0.90= Correlaci○ón negativa muy fuerte -0.75=CorrelacKión negativa considerable -0.50= Correlación negativa media -0.25= Correlación negativa débil -0.10= Correlación negativa muy débil 0.00 = No existe correlacón alguna entre variables +0.10= Correlación positiva muy débil +0.25= Correlación positiva débil +0.50= Correlación positiva media +0.75= Correlación positiva considerable +0.90= Correlación positiva muy fuerte +1.00= Correlación positiva perfecta (“A mayor X, mayor Y”, o "a menor X, menor Y, de manera proporcional. Cada vez que X aumenta Y aumenta siempre una cantidad constante).

r <- cor(datos$millas, datos$costo)
r <- round(r, 4)
r
## [1] 0.8358

Interpretación de la correlación

El valor de la correlación es ** 0.8358** que significa que estadísticamente es una correlación positiva considerable

Crear el modelo de Regresión Lineal Simple (MRL)

La fórmula del modelo de rergesión lineal simple implica que el costo de vuelo está en función de las millas. \[costo=a+b∗millas\]

modelo <- lm(data = datos, formula = costo ~ millas)
modelo
## 
## Call:
## lm(formula = costo ~ millas, data = datos)
## 
## Coefficients:
## (Intercept)       millas  
##    128.5770       0.1272
summary(modelo)
## 
## Call:
## lm(formula = costo ~ millas, data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -130.58  -40.95  -18.36   46.06  155.71 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 128.57699   30.24824   4.251  0.00061 ***
## millas        0.12715    0.02088   6.089 1.57e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 72.38 on 16 degrees of freedom
## Multiple R-squared:  0.6985, Adjusted R-squared:  0.6797 
## F-statistic: 37.07 on 1 and 16 DF,  p-value: 1.567e-05

Determinar los coeficentes

a <- modelo$coefficients[1]
b <- modelo$coefficients[2]

a 
## (Intercept) 
##     128.577
b
##    millas 
## 0.1271535

Predecir manualente

Una ciudad que está a 200 millas de distancia de otra cuanto debe costar un boleto de avión.
millas.nuevo <- 200
prediccion <- a + b * millas.nuevo

prediccion
## (Intercept) 
##    154.0077

Interpretación: Para una distancia 200 millas entre una ciudad y otra, el costo del boleto de avión debiera ser de ‘r prediccion’ conforme al modelo de regresión Lineal.

Nuevos valores

Predecir por medio de predict()

prediccion <- predict(modelo, newdata = data.frame(millas = c(290,760, 1100,1400,1650)))
prediccion
##        1        2        3        4        5 
## 165.4515 225.2136 268.4458 306.5918 338.3802