###Pregunta 1 Limpie el environment y cargue los paquetes necesarios para trabajar. (2 puntos)
rm(list=ls())
library(data.table)
library(readxl)
library(ggplot2)
###Pregunta 2 Cargue la base de datos de hogares de la Encuesta Origen y Destino. Debe utilizar el encoding Latin-1 para que se lean los tílde. Pista: una de las opciones de la función fread es encoding. Debe ir después de una coma, después del nombre del archivo y dentro de paréntesis. Recuerde que también puede revisar las opciones con ?fread. (5 puntos)
Hogares <- fread("C:/Users/franc/Desktop/7° Semestre/Data science/Laboratorio 3/Base_Hogares.csv", encoding = "Latin-1")
install.packages("ggplot2")
###Pregunta 3 Realice un histograma con ggplot que muestre la distribución del ingreso de los hogares para las macrozonas del Gran Valparaíso. Es decir, un histograma para cada comuna, pero en un mismo gráfico. Además, limite el ingreso a menos de 2000000. (8 puntos)
ggplot(Hogares[IngresoHogar<2000000],aes(x=Comuna,y=IngresoHogar)) + geom_histogram(stat = "identity") + scale_y_continuous(labels=function(n){format(n, scientific = FALSE)})
###Pregunta 4 Usando la base de hogares, cree el objeto ingprom, que contenga el ingreso promedio de los hogares en cada macro-zona. (5 puntos)
ingprom <- Hogares[,mean(IngresoHogar), by="Macrozonahg"]
###Pregunta 5 Realice un gráfico que permita ver el ingreso promedio de los hogares por macro-zona. (10 puntos)
ggplot(ingprom,aes(x=Macrozonahg,y=V1)) + geom_histogram(stat = "identity") + ylab("Ingreso promedio")
###Pregunta 6 Agregar etiquetas a los ejes, título, subtítulo y fuente al gráfico anterior. Además, deje de manera legible las categorías del eje x. (7 puntos)
ggplot(ingprom,aes(x=Macrozonahg, y=V1)) + geom_col() +
labs(x="Macrozonahg", y="Ingreso Promedio", title="Pregunta 6" , subtitle = "Ingreso Promedio por Macrozona", caption = "Fuente: Encuesta Origen y Destino") + theme(axis.text.x = element_text(angle=90, vjust=0.5))
###Pregunta 7 Cargue la base de datos de locales hamburguesas para analizar donde se encuentra la competencia. (2 puntos)
Locales <- fread("C:/Users/franc/Desktop/7° Semestre/Data science/Laboratorio 3/restaurantes.csv")
###Pregunta 8 Cree un scatter-plot (gráfico de puntos) con ggplot que muestre la relación entre el número de comentarios (reviews) (eje x) y el rating (eje y), de manera de que los puntos de cada comuna tomen un color distinto. (10 puntos)
ggplot(Locales,aes(x=reviews, y=rating, color=COMUNA)) + geom_point() + scale_color_brewer(palette = "Paired")
###Pregunta 9 Ahora queremos analizar el nivel de competencia que existe por macrozona. Para realizar esto, debe crear un identificador de competencia para cada macrozona. El indicador esta definido como: reviews∗rating/1000 para cada macrozona. (4 puntos) Pista: Considere que el indicador debe ser el promedio para cada macrozona y que debe remover los NA en caso de que existan.
Indicador <- Locales[,mean(reviews*rating,na.rm = T)/1000, by= MacrozonaOrigen1]
###Pregunta 10 Dado este primer análisis exploratorio,
¿Dónde es más conveniente abrir el nuevo local de hamburguesas? Justifique su respuesta. (6 puntos) #Con la informacion que tenemos de la base de datos y los calculos anteriores, podriamos concluir que seria util implementar un nuevo local al lugar con menor competencia (El belloto). Sin emabrgo hay mas factres a considerar como el ingreso promedio, donde tanto el belloto com belloto norte son las macrzonas con menor ingreso promedio, por lo que seria mas conveniente en ese caso abrir un local en Curauma-Placilla, donde la competencia es mayor al belloto y los ingresos son mas de 200 mil pesos mayores.
¿Qué agregaría/modificaría a este análisis para poder dar una respuesta más robusta? (6 puntos) #Poder conocer a mayor cabalidad los ingresos de los segmentos objetivos. El mismo publico objetivo que consume regularmente este tipo de producto. Otra informacio que se podria saber es el rating de la posible ubicacion, ya que no sirve colocar un local que no este en un luhgar muy recurrente.