#Actividad 4 - Valladares

###P1 Instale el paquete de data.table, ggplot2 y caret y abra la base de datos que contiene la información de arriendos de airbnb de New York para el año 2019.

install.packages("data.table")
install.packages("ggplot2")
install.packages("caret")
library(data.table)
library(ggplot2)
library(caret)
Abnb<-fread("A4.xls")

###P2 Muestre en un gráfico de barras la oferta de arriendos para cada grupo de vecindario, es decir, cuántos departamentos/casas se arriendan por grupo de vecindario.

ggplot(data=Abnb, aes(x=neighbourhood_group, y=calculated_host_listings_count )) + geom_bar(stat = "identity")+theme(axis.text.x = element_text(angle=90, vjust=0.6)) + scale_y_continuous(labels=function(n){format(n, scientific = FALSE)})

###P3 Muestre con un scatter plot la relación entre el precio (eje x) y el número de visitas (eje y) según el tipo de habitación que se está arrendando. Pista: Recuerde la función facet_wrap.

ggplot(data=Abnb,aes(x=price,y=number_of_reviews))+ 
  geom_point() + facet_wrap(facets ="room_type")

###P4 Realice una regresión lineal simple que explique el precio de los arriendos de airbnb según el tipo de habitación. Pista: Recuerde que para las regresiones hay que transformar las variables character en categóricas

Abnb$room_type <-factor(Abnb$room_type, levels = c("Private room", "Entire home/apt", "Shared room" ))
Abnb[,roomtype:=as.factor(room_type)]

regre<-lm(data=Abnb,formula =price~roomtype)

summary(regre)
## 
## Call:
## lm(formula = price ~ roomtype, data = Abnb)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -211.8  -59.8  -29.8    9.2 9910.2 
## 
## Coefficients:
##                         Estimate Std. Error t value Pr(>|t|)    
## (Intercept)               89.781      1.554  57.787  < 2e-16 ***
## roomtypeEntire home/apt  122.013      2.130  57.296  < 2e-16 ***
## roomtypeShared room      -19.653      6.991  -2.811  0.00494 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 232.1 on 48892 degrees of freedom
## Multiple R-squared:  0.06561,    Adjusted R-squared:  0.06558 
## F-statistic:  1717 on 2 and 48892 DF,  p-value: < 2.2e-16

###P5 Interprete los coeficientes de su regresión anterior. ¿Son estadísticamente significativos?

#El precio sube en 122,013 para las habitaciones privadas
#El precio baja en 19.653 para las habitaciones compartidas
#Las dos variables son significativas

###P6 Realice una regresión lineal múltiple que explique el precio de los arriendos de airbnb según el tipo de habitación, el número de visitas, la cantidad mínima de noches y el grupo de vecindario en el que se encuentra. No olvide mostrar los resultados Pista: Recuerde que para las regresiones hay que transformar las variables character en categóricas.

Abnb[,NG:=as.factor(neighbourhood_group)]
Abnb[,NH:=as.factor(neighbourhood)]

regre2<-lm(data=Abnb,formula =price~roomtype+number_of_reviews+minimum_nights+NG)
summary(regre2)
## 
## Call:
## lm(formula = price ~ roomtype + number_of_reviews + minimum_nights + 
##     NG, data = Abnb)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -304.3  -63.1  -23.9   11.7 9920.1 
## 
## Coefficients:
##                          Estimate Std. Error t value Pr(>|t|)    
## (Intercept)              54.97497    7.04937   7.799 6.39e-15 ***
## roomtypeEntire home/apt 110.94748    2.14630  51.692  < 2e-16 ***
## roomtypeShared room     -23.87699    6.93132  -3.445 0.000572 ***
## number_of_reviews        -0.20908    0.02345  -8.915  < 2e-16 ***
## minimum_nights            0.16007    0.05108   3.134 0.001727 ** 
## NGBrooklyn               21.23645    7.15621   2.968 0.003003 ** 
## NGManhattan              77.83906    7.16043  10.871  < 2e-16 ***
## NGQueens                  9.29678    7.60385   1.223 0.221471    
## NGStaten Island          13.75862   13.79607   0.997 0.318631    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 229.9 on 48886 degrees of freedom
## Multiple R-squared:  0.08336,    Adjusted R-squared:  0.08321 
## F-statistic: 555.7 on 8 and 48886 DF,  p-value: < 2.2e-16

###P7 Interprete los coeficientes de su regresión anterior. ¿Son estadísticamente significativos?

#El precio aumenta en 110.94748 para si se arrienda toda la propiedad
#El precio baja en 23.87699 para habitaciones compartidas
#El precio baja en 0.20908 por 1 comentario más
#El precio sube en  0.16007 si aumenta en 1 la cantidad mínima de noches
#El precio subirá en 21.23645 si se arrienda en Brooklyn
#El precio subirá en 77.83906 si se arrienda en Manhattan
#El precio subirá en 9.29678  si se arrienda en Queens
#El precio subirá en 13.75862 si se arrienda en Staten Island
#Las variables número de noches y el número de comentarios no son significaticas, el resto sí.