Limpie el environment y cargue los paquetes necesarios para trabajar. (2 puntos)
remove(list = ls())
library(data.table)
library(ggplot2)
library(janitor)
library(plotly)
library(RColorBrewer)
library(tidyverse)
Cargue la base de datos de hogares de la Encuesta Origen y Destino. Debe utilizar el encoding Latin-1 para que se lean los tílde. Pista: una de las opciones de la función fread es encoding. Debe ir después de una coma, después del nombre del archivo y dentro de paréntesis. Recuerde que también puede revisar las opciones con ?fread. (5 puntos)
Hogares<-fread('Base_hogares.csv',encoding = "Latin-1")
Hogares<-clean_names(Hogares)
names(Hogares)
## [1] "hogar" "macrozona" "zona"
## [4] "comuna" "manzana" "dir_coord_x"
## [7] "dir_coord_y" "fecha" "dia_asig"
## [10] "tipo_dia" "num_per" "num_veh"
## [13] "propiedad" "no_sabe_no_responde" "monto_div"
## [16] "monto_arr_estima" "monto_arr_paga" "ingreso_hogar"
## [19] "factor_laboral" "factor_sabado" "factor_domingo"
## [22] "factor" "aux" "comunahg"
## [25] "macrozonahg" "factorhg"
Realice un histograma con ggplot que muestre la distribución del ingreso de los hogares para las macrozonas del Gran Valparaíso. Es decir, un histograma para cada comuna, pero en un mismo gráfico. Además, limite el ingreso a menos de 2000000. (8 puntos)
Hogares2<-Hogares[ingreso_hogar<2000000]
Hogares2[comuna==2,nombre_comuna:="comuna2"]
Hogares2[comuna==3,nombre_comuna:="comuna3"]
Hogares2[comuna==4,nombre_comuna:="comuna4"]
Hogares2[comuna==5,nombre_comuna:="comuna5"]
Hogares2[comuna==6,nombre_comuna:="comuna6"]
ggplot(data=Hogares2,mapping = aes(x=ingreso_hogar,fill=macrozonahg))+geom_histogram()
Si bien en la primera parte de la pregunta se pide un histograma que muestre la distribucion del ingreso de los horagres para las macrozonas del gran Valparaiso, en la segunda parte se pide que se haga un histograma por cada comuna.
ggplot(data=Hogares2,mapping = aes(x=ingreso_hogar,fill=macrozonahg))+geom_histogram()+ theme(axis.text.x = element_text(angle=90, vjust=0.5))+facet_wrap(facets = "nombre_comuna")
Usando la base de hogares, cree el objeto ingprom, que contenga el ingreso promedio de los hogares en cada macro-zona. (5 puntos)
ingprom<-Hogares[,.(ingreso_promedio=mean(ingreso_hogar)),by=macrozonahg]
Realice un gráfico que permita ver el ingreso promedio de los hogares por macro-zona. (10 puntos)
ggplot(data=ingprom, aes(x=macrozonahg, y=ingreso_promedio)) +geom_bar(stat = 'identity')
Agregar etiquetas a los ejes, título, subtítulo y fuente al gráfico anterior. Además, deje de manera legible las categorías del eje x. (7 puntos)
ggplot(data = ingprom, mapping = aes(x=macrozonahg, y=ingreso_promedio, fill=macrozonahg)) + geom_bar(stat = 'identity') + labs(x= "Macrozona", y="Ingreso Promedio", title="Ingreso Promedio de los Hogares" , subtitle = "Por macrozona", caption = "Fuente: Encuesta Origen y Destino") + scale_fill_discrete(name="Macrozona") + theme(axis.text.x = element_text(angle=90, vjust=0.5))
Cargue la base de datos de locales hamburguesas para analizar donde se encuentra la competencia. (2 puntos)
Restaurantes<-fread('restaurantes.csv')
Restaurantes<-clean_names(Restaurantes)
names(Restaurantes)
## [1] "nombre" "direccion" "rating"
## [4] "nivelprecio" "reviews" "lat"
## [7] "lng" "comuna" "macrozona_origen1"
Cree un scatter-plot (gráfico de puntos) con ggplot que muestre la relación entre el número de comentarios (reviews) (eje x) y el rating (eje y), de manera de que los puntos de cada comuna tomen un color distinto. (10 puntos)
ggplot(Restaurantes,aes(x=reviews,y=rating,color=comuna)) + geom_point()+labs(x= "Reviews", y="Rating", title="Relación reviews y rating" , subtitle = "De restaurantes por comuna", caption = "Fuente: Base de datos restaurantes")
Ahora queremos analizar el nivel de competencia que existe por macrozona. Para realizar esto, debe crear un identificador de competencia para cada macrozona. El indicador esta definido como: ###(reviews∗rating)/1000 ###para cada macrozona. (4 puntos) Pista: Considere que el indicador debe ser el promedio para cada macrozona y que debe remover los NA en caso de que existan.
Restaurantes[,indicador:=(reviews*rating)/1000]
Competencia<-Restaurantes[,.(nivel_competencia=mean(indicador)),by=macrozona_origen1]
Luego de haber realizado el calculo del promedio de identificadores por macrozona, se identifico que no existian NA
Dado este primer análisis exploratorio, ¿Dónde es más conveniente abrir el nuevo local de hamburguesas? Justifique su respuesta. (6 puntos)
Se considera conveniente abrir el nuevo local de hamburguesas en una de las macrozonas que contenga el indicador de competencia promedio más alto, dentro de las cuales se encuentran: Plan viña, Valparaíso alto y Concón poniente. Esto se debe a que en las macrozonas mencionadas hay mayor competencia, por ende que existe una mayor cantidad de locales de hamburguesas. Por tanto, se asume que hay un flujo significativo de consumidores indicando así que existe una mayor oportunidad de atraer clientes si el nuevo local de hamburguesas se ubica en un de las macrozonas mencionadas. Este análisis esta basado en el modelo de distancia geográfica (hotelling), el cual plantea que los consumidores estan dispuestos a pagar el mismo precio por un bien si la tienda en la que compran está al lado.
¿Qué agregaría/modificaría a este análisis para poder dar una respuesta más robusta? (6 puntos)
Sería esencial agregar información sobre la concurrencia de personas en cada macrozona debido a que un indicador alto de competencia en una macrozona no implica necesariamente que los locales que se sitúen ahí tendrán éxito en ventas. Por otro lado, es importante que en la base de datos “Restaurantes” se consideren los ingresos promedio de las personas que habitan esas macrozonas, ya que es un indicador del nivel socioeconómico de la zona.