1

Instale el paquete de data.table, ggplot2 y caret y abra la base de datos que contiene la información de arriendos de airbnb de New York para el año 2019.

library(data.table)
library(ggplot2)
library(caret)
A<-fread("A4.csv")

2

Muestre en un gráfico de barras la oferta de arriendos para cada grupo de vecindario, es decir, cuántos departamentos/casas se arriendan por grupo de vecindario.

ggplot(data=A,aes( x= neighbourhood_group))+geom_bar()

3

Muestre con un scatter plot la relación entre el precio (eje x) y el número de visitas (eje y) según el tipo de habitación que se está arrendando. Pista: Recuerde la función facet_wrap.

ggplot(data = A, aes(x= price , y= number_of_reviews)) + geom_point() + facet_wrap(facet="room_type")

4

Realice una regresión lineal simple que explique el precio de los arriendos de airbnb según el tipo de habitación. Pista: Recuerde que para las regresiones hay que transformar las variables character en categóricas.

A[,precio:=as.factor(price)]
A[,Tcuarto:=as.factor(room_type)]
library(jtools)
reg1<-lm(data = A, formula = price~Tcuarto)
summ(reg1)
## MODEL INFO:
## Observations: 48895
## Dependent Variable: price
## Type: OLS linear regression 
## 
## MODEL FIT:
## F(2,48892) = 1716.63, p = 0.00
## R² = 0.07
## Adj. R² = 0.07 
## 
## Standard errors: OLS
## ----------------------------------------------------------
##                                Est.   S.E.   t val.      p
## ------------------------- --------- ------ -------- ------
## (Intercept)                  211.79   1.46   145.43   0.00
## TcuartoPrivate room         -122.01   2.13   -57.30   0.00
## TcuartoShared room          -141.67   6.97   -20.33   0.00
## ----------------------------------------------------------

5

Interprete los coeficientes de su regresión anterior. ¿Son estadísticamente significativos?

R: Según la salida que realiza R, podemos ver que el precio inicial para buscar un arriendo es de 211 dolares, es decir, un arriendo que no especifica su tipo (si es privado o compartido) podría tener este valor, luego, si se especifica que el cuarto en cuestion es privado, este sufrira un castigo de 122 dolares, es decir, el precio de una habitación privada rodea el precio de los 89 dolars, mientras que un cuarto compartido sufrira un castigo de 141 dolares a su precio, esto quiere decir que el valor de las habitaciones compartidas rodea los 70 dolares. esta proyeccion tiene sentido dado que arrendar un cuarto privado suele ser más cara que arrendar un cuarto compartido. Finalmente, dada la magnitud de los parametros, afirmamos que estos parametros son estadisticamente significativos para establecer el precio de un arriendo.

6

Realice una regresión lineal múltiple que explique el precio de los arriendos de airbnb según el tipo de habitación, el número de visitas, la cantidad mínima de noches y el grupo de vecindario en el que se encuentra. No olvide mostrar los resultados Pista: Recuerde que para las regresiones hay que transformar las variables character en categóricas.

A[,vecindario:=as.factor(neighbourhood_group)]
reg2<-lm(data=A, formula = price~Tcuarto+vecindario+minimum_nights+number_of_reviews)
summ(reg2)
## MODEL INFO:
## Observations: 48895
## Dependent Variable: price
## Type: OLS linear regression 
## 
## MODEL FIT:
## F(8,48886) = 555.72, p = 0.00
## R² = 0.08
## Adj. R² = 0.08 
## 
## Standard errors: OLS
## ---------------------------------------------------------------
##                                    Est.    S.E.   t val.      p
## ----------------------------- --------- ------- -------- ------
## (Intercept)                      165.92    7.13    23.26   0.00
## TcuartoPrivate room             -110.95    2.15   -51.69   0.00
## TcuartoShared room              -134.82    6.92   -19.49   0.00
## vecindarioBrooklyn                21.24    7.16     2.97   0.00
## vecindarioManhattan               77.84    7.16    10.87   0.00
## vecindarioQueens                   9.30    7.60     1.22   0.22
## vecindarioStaten Island           13.76   13.80     1.00   0.32
## minimum_nights                     0.16    0.05     3.13   0.00
## number_of_reviews                 -0.21    0.02    -8.92   0.00
## ---------------------------------------------------------------

7

Interprete los coeficientes de su regresión anterior. ¿Son estadísticamente significativos?

R: Según esta nueva regresión, un cuarto en arriendo podria tener un valor de hasta 165 dolares, al igual que la regresión anterior (P4) este valor se vera disminuido si el cuarto es privado o compartido, castigando su valor en 110 o 134 dolares respectivamente, adicionalmente,el precio de estos se vera aumentado al especificar su hubicación, aumentando a lo menos en 9 dolares (si esque el cuarto esta hubicado en Queens) y a lo más 77 dolares (si esque esta hubicado en Manhattan), tambien se puede ver que el precio será capas de aumentar si el minimo de nohes a arrendar es mayor (lo cual suena logico, pues entre más noches se quede la gente, más será lo qu epagará), cada noche minima que se le obliga a alguíen a quedarse muestra un aumento de 16 centavos al precio del hospedaje, de igual forma cada vicita que rcive una habitación "causa" una disminución en 21 centavos a la habitación. Nuevamente, dada la magnitud de estos coeficientes podemos afirmar que efectivamente son elementos significativo para determinar el precio de los cuartos. 

8

Realice k folds CV para comparar los modelos (P4) y (P6). Muestre los resultados de errores en la predicción y determine cuál modelo es más conveniente en base al error de predicción. Utilice k=9 y set.seed(12345)

set.seed(12345)

Kcv<-trainControl(method = "cv" , number = 9)

pred1<-train(price~Tcuarto,data=A,method="lm",trControl=Kcv)
pred2<-train(price~Tcuarto+vecindario+minimum_nights+number_of_reviews,data=A,method="lm",trControl= Kcv)

print(pred1)
## Linear Regression 
## 
## 48895 samples
##     1 predictor
## 
## No pre-processing
## Resampling: Cross-Validated (9 fold) 
## Summary of sample sizes: 43462, 43463, 43462, 43462, 43462, 43463, ... 
## Resampling results:
## 
##   RMSE      Rsquared    MAE     
##   228.9655  0.07144239  75.90461
## 
## Tuning parameter 'intercept' was held constant at a value of TRUE
print(pred2)
## Linear Regression 
## 
## 48895 samples
##     4 predictor
## 
## No pre-processing
## Resampling: Cross-Validated (9 fold) 
## Summary of sample sizes: 43462, 43462, 43461, 43462, 43461, 43464, ... 
## Resampling results:
## 
##   RMSE      Rsquared    MAE     
##   227.8123  0.08766953  73.70391
## 
## Tuning parameter 'intercept' was held constant at a value of TRUE
R: Como muetsran los datos, el valor R del predictor 1 es menor que el vaor R del segundo predictor, esto quiere decir que el predictor 2 tiene una mejor aproccimación a los datos que el predictor 1. Al mimso tiempo, el valor de la suma de los residuos al cuadrado del primer predictor es ligeramente superior que el del predictor 2, esto quiere decir que la distancia entra la linea de prediccion y los datos reales es menor en el caso de la segunda predicción. finalmente el error madio absoluto (MAE) es considerablmenete menor para el segundo predictor, por lo que se establece que el predictor 2 es mejor que el predictor 1.