title: " Practica 4 Correlacion y regresion lineal simple" author: “Maria Romualda” date: “15/5/2020” output: html_document

Cargar la librerias

library(readr)
library(ggplot2)
library(dplyr)
library(corrplot)

Generar los datos

datos <- read.csv("../Datos/rutas millas tarifas de vuelos.csv")

datos
##                        ruta millas costo
## 1            Dallas-Austin     178   125
## 2           Houston-Dallas     232   123
## 3          Chicago-Detroit     238   148
## 4         Chicago-San Luis     262   136
## 5        Chicago-Cleveland     301   129
## 6           Chicago-Atlanta    593   162
## 7         Nueva York-Miami    1092   224
## 8       Nueva York-San Juan   1608   264
## 9        Nueva York-Chicago    714   287
## 10          Chicago-Denver     901   256
## 11        Dallas-Salt Lake    1005   365
## 12       Nueva York-Dallas    1374   459
## 13          Chicago-Seattle   1736   424
## 14      Los Angeles-Chicago   1757   361
## 15      Los Angeles-Atlanta   1946   309
## 16   Nueva York-Los Angeles   2463   444
## 17     Los Angeles-Honolulu   2556   323
## 18 Nueva York-San Francisco   2574   513
head(datos)
##                 ruta millas costo
## 1     Dallas-Austin     178   125
## 2    Houston-Dallas     232   123
## 3   Chicago-Detroit     238   148
## 4  Chicago-San Luis     262   136
## 5 Chicago-Cleveland     301   129
## 6    Chicago-Atlanta    593   162
tail(datos)
##                        ruta millas costo
## 13          Chicago-Seattle   1736   424
## 14      Los Angeles-Chicago   1757   361
## 15      Los Angeles-Atlanta   1946   309
## 16   Nueva York-Los Angeles   2463   444
## 17     Los Angeles-Honolulu   2556   323
## 18 Nueva York-San Francisco   2574   513

Explorar datos

summary(datos)
##      ruta               millas         costo      
##  Length:18          Min.   : 178   Min.   :123.0  
##  Class :character   1st Qu.: 374   1st Qu.:151.5  
##  Mode  :character   Median :1048   Median :275.5  
##                     Mean   :1196   Mean   :280.7  
##                     3rd Qu.:1752   3rd Qu.:364.0  
##                     Max.   :2574   Max.   :513.0
str(datos)
## 'data.frame':    18 obs. of  3 variables:
##  $ ruta  : chr  "Dallas-Austin " "Houston-Dallas " "Chicago-Detroit " "Chicago-San Luis " ...
##  $ millas: int  178 232 238 262 301 593 1092 1608 714 901 ...
##  $ costo : int  125 123 148 136 129 162 224 264 287 256 ...

Coeficiente de correlacion

r <- cor(datos$millas, datos$costo)

r <- round(r, 4)

r
## [1] 0.8358

Interpretacion de la correlacion

el valor del coeficiente de correlacion es de 0.8358 que significa que estadisticamente es correlacion positiva considerable.

Crear el modelo de Regresion lineal simple ( MRL)

La formula del modelo de regresion lineal

 costo  = a + b * millas
modelo <- lm(data = datos, formula = costo ~ millas)
modelo
## 
## Call:
## lm(formula = costo ~ millas, data = datos)
## 
## Coefficients:
## (Intercept)       millas  
##    128.5770       0.1272
summary(modelo)
## 
## Call:
## lm(formula = costo ~ millas, data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -130.58  -40.95  -18.36   46.06  155.71 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 128.57699   30.24824   4.251  0.00061 ***
## millas        0.12715    0.02088   6.089 1.57e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 72.38 on 16 degrees of freedom
## Multiple R-squared:  0.6985, Adjusted R-squared:  0.6797 
## F-statistic: 37.07 on 1 and 16 DF,  p-value: 1.567e-05

Determinar coeficiente

a <- modelo$coefficients[1]
b <- modelo$coefficients[2]
a
## (Intercept) 
##     128.577
b
##    millas 
## 0.1271535

predecir manualmente

millas.nuevo <-200
predicion <- a +b * millas.nuevo
predicion
## (Intercept) 
##    154.0077
millas.nuevo <-290
predicion <- a +b * millas.nuevo
predicion
## (Intercept) 
##    165.4515
millas.nuevo <-760
predicion <- a +b * millas.nuevo
predicion
## (Intercept) 
##    225.2136
millas.nuevo <-1100
predicion <- a +b * millas.nuevo
predicion
## (Intercept) 
##    268.4458
millas.nuevo <-1400
predicion <- a +b * millas.nuevo
predicion
## (Intercept) 
##    306.5918
millas.nuevo <-1650
predicion <- a +b * millas.nuevo
predicion
## (Intercept) 
##    338.3802

Interpretacion

Interpretación. Para una distancia 200 millas entre una ciudad a otra el costo del boleto d avión debiera ser de 154.0076802 conforme al modelo de regresión Lineal
Interpretación. Para una distancia 290 millas entre una ciudad a otra el costo del boleto d avión debiera ser de 165.4515 conforme al modelo de regresión Lineal
Interpretación. Para una distancia 760 millas entre una ciudad a otra el costo del boleto d avión debiera ser de 225.2136 conforme al modelo de regresión Lineal
Interpretación. Para una distancia 1100 millas entre una ciudad a otra el costo del boleto d avión debiera ser de 268.4458 conforme al modelo de regresión Lineal
Interpretación. Para una distancia 1400 millas entre una ciudad a otra el costo del boleto d avión debiera ser de 306.5918 conforme al modelo de regresión Lineal
Interpretación. Para una distancia 1650 millas entre una ciudad a otra el costo del boleto d avión debiera ser de 338.3802 conforme al modelo de regresión Lineal

Predecir por medio de predict()

prediccion <- predict(modelo, newdata = data.frame(millas = c(200,290,760, 1100,1400,1650)))
prediccion
##        1        2        3        4        5        6 
## 154.0077 165.4515 225.2136 268.4458 306.5918 338.3802