#Tarea 4

P1

Cargue los paquetes necesarios para realizar visualizaciones y trabajar con DT. Ademas cargue la base hogares de la Encuesta Origen y Destino en formato data.table. (2 puntos)

library(data.table)
library(lubridate)
## 
## Attaching package: 'lubridate'
## The following objects are masked from 'package:data.table':
## 
##     hour, isoweek, mday, minute, month, quarter, second, wday, week,
##     yday, year
## The following objects are masked from 'package:base':
## 
##     date, intersect, setdiff, union
library(ggplot2)
library(treemap)
Hogares<-fread("C:/Users/jose/Desktop/R/Data Science/Tarea 4/Base_Hogares.csv", encoding="Latin-1")
## Warning in require_bit64_if_needed(ans): Some columns are type 'integer64'
## but package bit64 is not installed. Those columns will print as strange
## looking floating point data. There is no need to reload the data. Simply
## install.packages('bit64') to obtain the integer64 print method and print the
## data again.

P2

Realice un histograma con ggplot que muestre la distribucion del ingreso de los hogares para las macrozonas del Gran Valparaiso. Es decir, un histograma para cada comuna, pero en un mismo grafico. Ademas, limite el ingreso a menos de 2000000. (8 puntos)

###Bonus: Considere Factorhg como el factor de expansion de los hogares.

ggplot(data=Hogares[IngresoHogar<2000000],aes(x=Macrozona))+geom_histogram(bins=100)

P3

  1. Usando la base de hogares, cree el objeto ingprom, que contenga el ingreso promedio de los hogares en cada macro-zona. (5 puntos) ### Bonus: Considere Factorhg como el factor de expansion de los hogares.
Ingprom<-Hogares[,ingprom:=mean(x=IngresoHogar),by="Macrozona"]

b)

Realice un grafico que permita ver el ingreso promedio de los hogares por macro-zona. (10 puntos)

ggplot(data=Hogares,aes(x=Macrozona,fill=ingprom))+geom_bar()

c)

Agregar etiquetas a los ejes, titulo, subtitulo y fuente al grafico anterior. Ademas, deje de manera legible las categorias del eje x. (7 puntos)

ggplot(data=Hogares,aes(x=Macrozona,fill=ingprom))+geom_bar()+
  labs(x="Macrozona",y="Ingreso Promedio", title="Ingreso Promedio", subtitle = "Por Macrozona", caption="Fuente: Base Hogares de la Encuesta Origen y Destino")+ theme(axis.text.x = element_text(angle=70,vjust=0.6))+
  theme(axis.text.y=element_text(angle=70,vjust=0.6))

P4

Cargue la base de datos de locales hamburguesas para analizar donde se encuentra la competencia. (2 puntos)

Restaurantes<-fread("C:/Users/jose/Desktop/R/Data Science/Tarea 4/restaurantes.csv", encoding="Latin-1")

P5

Cree un scatter-plot con ggplot que muestre la relacion entre el numero de comentarios (reviews) (eje x) y el rating (eje y). (10 puntos)

ggplot(data=Restaurantes,aes(x=reviews,y=rating))+geom_point()

P6

Ahora queremos analizar el nivel de competencia que existe por macrozona. Para realizar esto, debe crear un identificador de competencia para cada macrozona. El indicador esta definido como Icompetencia=(reviews???rating)/1000 para cada macrozona. (4 puntos)

Restaurantes[is.na(Restaurantes)]<-0
Restaurantes[,Icompetencia:=reviews*rating/1000, by="MacrozonaOrigen1"]

P7 a)

Dado este primer analisis exploratorio,indique donde es mas conveniente abrir el nuevo local de hamburguesas. Justifique su respuesta. (6 puntos)

Clientes de las macrozonas de Valparaiso alto,Renaca y de Villa Alemana Poniente tienen promedios de ingresos por hogar de los mas altos, por lo que resultan ser los clientes mas adinerados.Ahora dentro de cada macrozona existen direcciones de menor indice de competencia, las que represantarian un mejores lugares para colocar un restaurante: en Renaca cerca de Torreblanca y en Valparaiso alto cerca de la calle Cumming o Jorge Kenrick. En Villa Alemana Poniente, encontrandose fuera de los registros de la base de datos de restaurantes y teniendo altos niveles de ingresos por hogar, esta macrozona compone el mejor lugar para ubicar un restaurante en vista de la ausencia de competencia.

P7 b)

Indique que agregaria/modificaria a este analisis para poder dar una respuesta mas robusta.(6 puntos)

Se destaca la importancia de datos descriptivos tales como los clientes que se reciben por restaurante y habitantes por macrozona. Indices que reflejen el crecimiento o productividad economica de los restaurantes, tambien distribuyendose en las macrozonas, etc.