Tarea 3 en Grupos

Compañeros: Edwyn Turner, Ilan Ben-Dov, Florencia Olbertz

#install.packages("ggplot2") ## Paquete para visualizar
#install.packages("plotly") ## Paquete para visualizar de forma interactiva
#install.packages('RColorBrewer') ## Paquete para colores
#install.packages("janitor") ## Paquete para limpiar variables
#install.packages("tidyverse") ## Paquete para trabajar datos
#install.packages("contrib.url")
library(ggplot2)
library(plotly)
## 
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
## 
##     last_plot
## The following object is masked from 'package:stats':
## 
##     filter
## The following object is masked from 'package:graphics':
## 
##     layout
library(RColorBrewer)
library(janitor)
## 
## Attaching package: 'janitor'
## The following objects are masked from 'package:stats':
## 
##     chisq.test, fisher.test
library(tidyverse)
## ── Attaching packages ─────────────────────────────────────── tidyverse 1.3.1 ──
## ✓ tibble  3.1.0     ✓ dplyr   1.0.5
## ✓ tidyr   1.1.3     ✓ stringr 1.4.0
## ✓ readr   1.4.0     ✓ forcats 0.5.1
## ✓ purrr   0.3.4
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## x dplyr::filter() masks plotly::filter(), stats::filter()
## x dplyr::lag()    masks stats::lag()
library(data.table)
## 
## Attaching package: 'data.table'
## The following objects are masked from 'package:dplyr':
## 
##     between, first, last
## The following object is masked from 'package:purrr':
## 
##     transpose

Pregunta 1

Limpie el environment y cargue los paquetes necesarios para trabajar. (2 puntos)

rm(list=ls())

Pregunta 2

Cargue la base de datos de hogares de la Encuesta Origen y Destino. Debe utilizar el encoding Latin-1 para que se lean los tílde.

hogares <- fread("Base_Hogares.csv", encoding="Latin-1")
hogares<-as.data.table(hogares)

Pregunta 3

Realice un histograma con ggplot que muestre la distribución del ingreso de los hogares para las macrozonas del Gran Valparaíso. Es decir, un histograma para cada comuna, pero en un mismo gráfico. Además, limite el ingreso a menos de 2000000.

ggplot(data=hogares[IngresoHogar<2000000],aes(x=IngresoHogar, fill=comunahg)) + geom_histogram(bins = 10, position ="dodge")

Pregunta 4

Usando la base de hogares, cree el objeto ingprom, que contenga el ingreso promedio de los hogares en cada macro-zona.

ingprom <- hogares[,.(mean(IngresoHogar)), by =. (Macrozonahg)]
names(ingprom)[2] <- "Promedio"

Pregunta 5

Realice un gráfico que permita ver el ingreso promedio de los hogares por macro-zona.

ggplot(data=ingprom,aes(x=Macrozonahg, weights=Promedio)) + geom_bar()

Pregunta 6

Agregar etiquetas a los ejes, título, subtítulo y fuente al gráfico anterior. Además, deje de manera legible las categorías del eje x.

ggplot(data=ingprom,aes(x=Macrozonahg, weights=Promedio)) + geom_bar() + labs(x="Macrozona", y="Ingreso Promedio", tittle="Ingreso Promedio Por Hogar", subtitle = "Por Macrozona Hogar", caption="Fuente Datos de Hogares de la Encuesta Origen y Destino") + theme(axis.text.x = element_text(angle=90, vjust=0.5))

Pregunta 7

Cargue la base de datos de locales hamburguesas para analizar donde se encuentra la competencia.

hamburguesas<-fread("restaurantes.csv")
hamburguesas<-as.data.table(hamburguesas)

Pregunta 8

Cree un scatter-plot (gráfico de puntos) con ggplot que muestre la relación entre el número de comentarios (reviews) (eje x) y el rating (eje y), de manera de que los puntos de cada comuna tomen un color distinto.

ggplot(data=hamburguesas, aes(x = reviews, y=rating, color=nombre)) + geom_point() + theme(legend.position="bottom")

Pregunta 9

Ahora queremos analizar el nivel de competencia que existe por macrozona. Para realizar esto, debe crear un identificador de competencia para cada macrozona. El indicador esta definido como:

reviews∗rating/1000

para cada macrozona. (4 puntos) Pista: Considere que el indicador debe ser el promedio para cada macrozona y que debe remover los NA en caso de que existan.

hamburguesas[, PromedioReviews:=(mean(reviews)), by=MacrozonaOrigen1]
hamburguesas[, PromedioRating:=(mean(rating)), by=MacrozonaOrigen1]
hamburguesas[, IndiceDeCompetencia:=(PromedioReviews*PromedioRating)/1000, by= MacrozonaOrigen1]

Pregunta 10

Dado este primer análisis exploratorio,

¿Dónde es más conveniente abrir el nuevo local de hamburguesas? Justifique su respuesta. Para poder elejir el mejor lugar, tienen que haber varios otros analisis psoibles. Dentro de esto, y con simplemente la información que tenemos en este analisis, creo que el mejor lugar seria en la zona de valparaiso. Esto es porque en esa zona se tiene un promedio-ingreso mayor por hogar, por lo que el consumo es mayor. Por otro lado, tambien creemos que el borde costero de Reñaca y Viña del Mar son buenos lugares para abrir locales, y tener competencia dado la cantidad de clientes que estan por esa zona. En la siguente pregunta se responde con mayor información de como obtener un mejor analisis, pero mas que nada por temas geograficos, población, ingreso los mejores lugares son el borde costero, y zonas con mayor ingreso por hogar.

¿Qué agregaría/modificaría a este análisis para poder dar una respuesta más robusta? Dentro de lo que agregaria en este analisis, es una mayor cantidad de indices para poder tomar una mejor desición. Indices de precio, indice de ubicaciónes y población, indice de costos, tiempo de retorno, TIR, ROE, IR, Payback etc. En si hay información para tomar una desición, pero para tomar una mejor desicion debemos tener mas nivel dentro de el posible analisis.