Limpie el environment y cargue los paquetes necesarios para trabajar.
rm(list=ls())
library(data.table)
library(ggplot2)
library(tidyverse)
library(janitor)
library(plotly)
library(RColorBrewer)
Cargue la base de datos de hogares de la Encuesta Origen y Destino. Debe utilizar el encoding Latin-1 para que se lean los tílde.
Base_Hogares <- fread("C:/Users/Esteban/Desktop/UAI/1 Sem 2021/Data Science/Tareas/Tarea 3/Base_Hogares.csv",encoding= "Latin-1")
Realice un histograma con ggplot que muestre la distribución del ingreso de los hogares para las macrozonas del Gran Valparaíso. Es decir, un histograma para cada comuna, pero en un mismo gráfico. Además, limite el ingreso a menos de 2000000.
ggplot ( data= Base_Hogares[IngresoHogar < 2000000 ,,],aes(x= IngresoHogar)) +
geom_histogram()+
facet_wrap(facets="Macrozonahg")+
theme(axis.text.x = element_text(angle=20, vjust=0.5))
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
Usando la base de hogares, cree el objeto ingprom , que contenga el ingreso promedio de los hogares en cada macro-zona.
ingprom <- Base_Hogares[,.(ingprom=mean (IngresoHogar)), by=Macrozonahg ]
Realice un gráfico que permita ver el ingreso promedio de los hogares por macro-zona.
ggplot(data=ingprom,aes(x=Macrozonahg,y=ingprom)) +
geom_bar(stat="identity")
Agregar etiquetas a los ejes, título, subtítulo y fuente al gráfico anterior. Además, deje de manera legible las categorías del eje x.
ggplot(data=ingprom,aes(x=Macrozonahg,y=ingprom)) +
geom_bar(stat="identity")+
labs(title="Gráfico 1",subtitle ="Ingreso promedio por macrozona", x="Macrozona", y="Ingreso promedio")+ theme(axis.text.x = element_text(angle=30, vjust=0.5))
Cargue la base de datos de locales hamburguesas para analizar donde se encuentra la competencia.
restaurantes <- fread("C:/Users/Esteban/Desktop/UAI/1 Sem 2021/Data Science/Tareas/Tarea 3/restaurantes.csv", encoding= "Latin-1" )
Cree un scatter-plot (gráfico de puntos) con ggplot que muestre la relación entre el número de comentarios (reviews) (eje x) y el rating (eje y), de manera de que los puntos de cada comuna tomen un color distinto.
ggplot(restaurantes,aes(x=reviews, y=rating, color=COMUNA)) + geom_point()
Ahora queremos analizar el nivel de competencia que existe por macrozona. Para realizar esto, debe crear un identificador de competencia para cada macrozona. El indicador esta definido como:
reviews∗rating/1000
para cada macrozona. (4 puntos) Pista: Considere que el indicador debe ser el promedio para cada macrozona y que debe remover los NA en caso de que existan.
restaurantes[,meanreviews:=mean(reviews), by= MacrozonaOrigen1]
restaurantes[,meanrating:=mean(rating), by= MacrozonaOrigen1]
restaurantes[,indicecomp:= meanreviews*meanrating/1000]
Dado este primer análisis exploratorio
ggplot (restaurantes, aes(x= MacrozonaOrigen1, y= indicecomp)) + geom_point()+ theme(axis.text.x = element_text(angle= 55, vjust=0.5))
Si observamos el siguiente grafico podemos afirmar que las macrozonas con un menor indentificador de competencia son El belloto, Placilla-Curauma y Playa Ancha. Siendo Placilla-Curauma en menor de todos, y por ende, el más conveniente.
Pero en base a lo ya realizado, podrimos realizar el siguiente grafico
ggplot (restaurantes, aes(x= MacrozonaOrigen1, y= indicecomp, color=COMUNA)) + geom_point()+ theme(axis.text.x = element_text(angle=55, vjust=0.5))
Donde también podemos observar que tan competitivas son las comunas, además de las macrozonas. Como por ejmplo Con-Con, que tiene un indicador alto.
También se podriá modificar el indice, pues un local con muchas reviews y mal rating podría tener un alto identificador, sin embargo no ser competitivo. Agregar otras variables como por ejmeplo precio, que nos indicaría indirectamente la competencia, pues a mayor competencia los precios tienden a ser más bajos.