objetivo Realizar un analisis de datos determinando el coeficiente de correlacion y aplicando el modelo de regresion linela simplen(RLS)para establecer predicciones.

** visualixar erl diagrama de dispersion coeficiente de correlacion

Se busca una interpretacion de los resultados del modelo

librerias

library(dplyr)    # para select filter y otras cosas
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(ggplot2)
library(corrplot)
## corrplot 0.84 loaded
library(readr)

Datos

datos<- read.csv("../Documents/modulo3/Datos/rutas millas tarifas de vuelos.csv")
datos
##                        ruta millas costo
## 1            Dallas-Austin     178   125
## 2           Houston-Dallas     232   123
## 3          Chicago-Detroit     238   148
## 4         Chicago-San Luis     262   136
## 5        Chicago-Cleveland     301   129
## 6           Chicago-Atlanta    593   162
## 7         Nueva York-Miami    1092   224
## 8       Nueva York-San Juan   1608   264
## 9        Nueva York-Chicago    714   287
## 10          Chicago-Denver     901   256
## 11        Dallas-Salt Lake    1005   365
## 12       Nueva York-Dallas    1374   459
## 13          Chicago-Seattle   1736   424
## 14      Los Angeles-Chicago   1757   361
## 15      Los Angeles-Atlanta   1946   309
## 16   Nueva York-Los Angeles   2463   444
## 17     Los Angeles-Honolulu   2556   323
## 18 Nueva York-San Francisco   2574   513

Explorar datos

str(datos)
## 'data.frame':    18 obs. of  3 variables:
##  $ ruta  : chr  "Dallas-Austin " "Houston-Dallas " "Chicago-Detroit " "Chicago-San Luis " ...
##  $ millas: int  178 232 238 262 301 593 1092 1608 714 901 ...
##  $ costo : int  125 123 148 136 129 162 224 264 287 256 ...
summary(datos)
##      ruta               millas         costo      
##  Length:18          Min.   : 178   Min.   :123.0  
##  Class :character   1st Qu.: 374   1st Qu.:151.5  
##  Mode  :character   Median :1048   Median :275.5  
##                     Mean   :1196   Mean   :280.7  
##                     3rd Qu.:1752   3rd Qu.:364.0  
##                     Max.   :2574   Max.   :513.0
r <- cor(datos$millas, datos$costo)
r<- round(r, 4)
r
## [1] 0.8358

interpretacion de la correlacion

El valor del coeficiente de correlaciom es 0.8358 que significa que estadisticamente es correlacion posoitiva considerable

crear el modelo de regresion linela simple (MRL)

La formula del modelo de regresion linela simple para este caso esta dada de que el costo de vuelo esta en funcion de las millas \[ costo = a + b / millas\]

modelo<- lm(data = datos, formula =costo ~ millas)
modelo
## 
## Call:
## lm(formula = costo ~ millas, data = datos)
## 
## Coefficients:
## (Intercept)       millas  
##    128.5770       0.1272
summary(modelo)
## 
## Call:
## lm(formula = costo ~ millas, data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -130.58  -40.95  -18.36   46.06  155.71 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 128.57699   30.24824   4.251  0.00061 ***
## millas        0.12715    0.02088   6.089 1.57e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 72.38 on 16 degrees of freedom
## Multiple R-squared:  0.6985,    Adjusted R-squared:  0.6797 
## F-statistic: 37.07 on 1 and 16 DF,  p-value: 1.567e-05

determinar coeficientes

a <- modelo$coefficients[1]
b <- modelo$coefficients[2]
a
## (Intercept) 
##     128.577
b
##    millas 
## 0.1271535

predecir manuelmente

  • una ciudad q este a 100 millas de distancia de otra cuanto debe costar un boleto de avion
millas.nuevo <- 200
predicccion <- a + b / millas.nuevo
predicccion
## (Intercept) 
##    128.5776

###Interpretacion. para una distacncia 200 millas entre una ciudad a otra el costo del boleto de avion deberia ser de r prediccion conforme al modelo de regresion lineal

nuevos valores

  • cuanto debe costar un vuelo en distancias de :
  • 290, 760, 1100, 1400, 1650

predecir por medio de predict() pendiente

predicccion <- predict(modelo, newdata= data.frame(millas= c (290,760,1100,1400,1650)))
predicccion
##        1        2        3        4        5 
## 165.4515 225.2136 268.4458 306.5918 338.3802