#CARGAR LOS DATOS 
library(readr)
library(ggplot2)
library(stats)

datos <- read_csv("C:/Users/esemi/OneDrive/Documentos/RSTUDIO/datos/dates.csv")
## Parsed with column specification:
## cols(
##   ruta = col_character(),
##   millas = col_double(),
##   costo = col_double()
## )
summary(datos)
##      ruta               millas         costo      
##  Length:18          Min.   : 178   Min.   :123.0  
##  Class :character   1st Qu.: 374   1st Qu.:151.5  
##  Mode  :character   Median :1048   Median :275.5  
##                     Mean   :1196   Mean   :280.7  
##                     3rd Qu.:1752   3rd Qu.:364.0  
##                     Max.   :2574   Max.   :513.0
datos
## # A tibble: 18 x 3
##    ruta                     millas costo
##    <chr>                     <dbl> <dbl>
##  1 Dallas-Austin               178   125
##  2 Houston-Dallas              232   123
##  3 Chicago-Detroit             238   148
##  4 Chicago-San Luis            262   136
##  5 Chicago-Cleveland           301   129
##  6 Chicago-Atlanta             593   162
##  7 Nueva York-Miami           1092   224
##  8 Nueva York-San Juan        1608   264
##  9 Nueva York-Chicago          714   287
## 10 Chicago-Denver              901   256
## 11 Dallas-Salt Lake           1005   365
## 12 Nueva York-Dallas          1374   459
## 13 Chicago-Seattle            1736   424
## 14 Los Angeles-Chicago        1757   361
## 15 Los Angeles-Atlanta        1946   309
## 16 Nueva York-Los Angeles     2463   444
## 17 Los Angeles-Honolulu       2556   323
## 18 Nueva York-San Francisco   2574   513
##VER EL COEFICIENTE DE CORRELACION CON FUNCION COR()
CR <- cor(datos$millas, datos$costo)
CR
## [1] 0.835779
#Modelo de regresion
modelo <- lm(costo ~ millas, datos)
modelo 
## 
## Call:
## lm(formula = costo ~ millas, data = datos)
## 
## Coefficients:
## (Intercept)       millas  
##    128.5770       0.1272
#Valores de los coeficientes
x <- modelo$coefficients[1] 
y <- modelo$coefficients[2]
x; y
## (Intercept) 
##     128.577
##    millas 
## 0.1271535
# Visualizar el diagrama de dispersion
ggplot(datos, aes(millas, costo))   +   geom_point()

#Determinar otros estadisticos significativos
summary(datos)
##      ruta               millas         costo      
##  Length:18          Min.   : 178   Min.   :123.0  
##  Class :character   1st Qu.: 374   1st Qu.:151.5  
##  Mode  :character   Median :1048   Median :275.5  
##                     Mean   :1196   Mean   :280.7  
##                     3rd Qu.:1752   3rd Qu.:364.0  
##                     Max.   :2574   Max.   :513.0
sqrt(0.6985)
## [1] 0.8357631
##Hacer la linea de tendencia en rojo 
## Pronosticar y estimar algunos costos
#con algunas nuevas rutas 

y.predict <- predict(modelo, datos)
y.predict
##        1        2        3        4        5        6        7        8 
## 151.2103 158.0766 158.8395 161.8912 166.8502 203.9790 267.4286 333.0398 
##        9       10       11       12       13       14       15       16 
## 219.3646 243.1423 256.3662 303.2859 349.3154 351.9856 376.0176 441.7560 
##       17       18 
## 453.5813 455.8700
#La recta de tendencia con el modelo y = a+bx
ggplot() + geom_point(data = datos, aes(x = millas, y = costo), size = 0.9) +
   geom_line(aes( x = datos$millas, y = y.predict), color = "red") +
  xlab("Millas") + 
  ylab("Costo") + 
  ggtitle("Linea de tendencia sobre Conjunto de Datos. Millas Costo")

#Pronosticar y Estimar algunos costos con algunas nuevas rutas dadas en millas 
nuevosdatos <- data.frame(millas = c(800, 1200, 1800, 2680))
nuevosdatos
##   millas
## 1    800
## 2   1200
## 3   1800
## 4   2680
#Prediccion de costo
prediccion <- predict(modelo,nuevosdatos)
prediccion
##        1        2        3        4 
## 230.2998 281.1612 357.4532 469.3483
#interpretacion 
#para poder saber que tipo de algoritmo utilizaremos necesitamos saber si existe una correlacion entre los datos en este caso da una correlacion de 0.8357631
#Al momento de ya haber hecho el modelo le metemos nuevos datos los cuales son 800,1200,1800,2680 los cuales son las distancia del viaje y nos arrolo los resultados de 230.2998, 281.1612, 357.4532, 469.3483 que es el costo de viaje
#Por ultimo cabe recalcar que el costo del viaje es mas alto entre mas largo sea el viaje

R Markdown

This is an R Markdown document. Markdown is a simple formatting syntax for authoring HTML, PDF, and MS Word documents. For more details on using R Markdown see http://rmarkdown.rstudio.com.

When you click the Knit button a document will be generated that includes both content as well as the output of any embedded R code chunks within the document. You can embed an R code chunk like this:

summary(cars)
##      speed           dist       
##  Min.   : 4.0   Min.   :  2.00  
##  1st Qu.:12.0   1st Qu.: 26.00  
##  Median :15.0   Median : 36.00  
##  Mean   :15.4   Mean   : 42.98  
##  3rd Qu.:19.0   3rd Qu.: 56.00  
##  Max.   :25.0   Max.   :120.00

Including Plots

You can also embed plots, for example:

Note that the echo = FALSE parameter was added to the code chunk to prevent printing of the R code that generated the plot.