Compañeros: Edwyn Turner, Florencia Olbertz
Limpie el enviroment y cargue los paquetes necesarios para trabarar.
##
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
##
## last_plot
## The following object is masked from 'package:stats':
##
## filter
## The following object is masked from 'package:graphics':
##
## layout
##
## Attaching package: 'janitor'
## The following objects are masked from 'package:stats':
##
## chisq.test, fisher.test
## ── Attaching packages ─────────────────────────────────────── tidyverse 1.3.1 ──
## ✓ tibble 3.1.0 ✓ dplyr 1.0.5
## ✓ tidyr 1.1.3 ✓ stringr 1.4.0
## ✓ readr 1.4.0 ✓ forcats 0.5.1
## ✓ purrr 0.3.4
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## x dplyr::filter() masks plotly::filter(), stats::filter()
## x dplyr::lag() masks stats::lag()
##
## Attaching package: 'data.table'
## The following objects are masked from 'package:dplyr':
##
## between, first, last
## The following object is masked from 'package:purrr':
##
## transpose
##El codigo anterior no se muestra, pero son los codigos impresos + las librerias.
Cargue la base de datos de hogares de la Encuesta Origen y Destino. Debe utilizar el encoding Latin-1 para que se lean los tílde.
hogares <- fread("Base_Hogares.csv", encoding="Latin-1")
as.data.table(hogares)
## Hogar Macrozona Zona Comuna Manzana DirCoordX DirCoordY Fecha
## 1: 90431 1 9 2 90431 253073.7 6341154 2014-11-25
## 2: 1012966 13 101 3 1012966 266270.6 6342393 2015-05-08
## 3: 1580550 17 158 4 1580550 263457.5 6352430 2014-11-04
## 4: 1630397 17 163 4 1630397 261833.0 6353000 2015-11-18
## 5: 3385901 1 3 2 33843 252717.4 6341820 2015-04-01
## ---
## 8772: 3563001037 19 356 5 3563001 269103.5 6340579 2014-09-10
## 8773: 10100810901 13 101 3 1010081 265910.7 6341803 2015-05-08
## 8774: 21618310901 21 216 5 2161831 274441.3 6339604 2014-10-28
## 8775: 23550461901 26 235 6 2350461 278998.6 6341682 2014-09-30
## 8776: 50234990903 6 50 2 502349 259774.5 6332118 2015-05-13
## DiaAsig TipoDia NumPer NumVeh Propiedad NoSabeNoResponde MontoDiv
## 1: 2 1 3 0 1 1 NA
## 2: 5 1 3 1 1 0 NA
## 3: 2 1 5 3 1 0 NA
## 4: 3 1 2 1 3 0 NA
## 5: 3 1 2 0 3 0 NA
## ---
## 8772: 3 1 4 0 1 0 NA
## 8773: 5 1 3 0 1 0 NA
## 8774: 2 1 3 0 3 0 NA
## 8775: 2 1 2 1 1 0 NA
## 8776: 3 1 2 1 1 0 NA
## MontoArrEstima MontoArrPaga IngresoHogar Factor_Laboral Factor_Sabado
## 1: NA NA 241483 49.61113 NA
## 2: 280000 NA 1156372 47.45112 NA
## 3: 1000000 NA 3442226 53.75151 NA
## 4: NA 350000 695736 35.05007 NA
## 5: NA 100000 258299 40.28616 NA
## ---
## 8772: 120000 NA 331018 27.74549 NA
## 8773: 260000 NA 769430 45.89651 NA
## 8774: NA 80000 626361 34.22977 NA
## 8775: 200000 NA 1000248 35.39052 NA
## 8776: 300000 NA 1191615 45.21407 NA
## Factor_Domingo Factor aux comunahg Macrozonahg Factorhg
## 1: NA 40.82472 1 Valparaíso Playa Ancha 40.82472
## 2: NA 39.15974 1 Viña del Mar Viña del Mar Oriente 39.15974
## 3: NA 45.42331 1 Concon Concón Poniente 45.42331
## 4: NA 35.33358 1 Concon Concón Poniente 35.33358
## 5: NA 32.25464 1 Valparaíso Playa Ancha 32.25464
## ---
## 8772: NA 23.72622 1 Quilpue Quilpué Poniente 23.72622
## 8773: NA 38.05306 1 Viña del Mar Viña del Mar Oriente 38.05306
## 8774: NA 30.05988 1 Quilpue El Belloto 30.05988
## 8775: NA 27.56420 1 Villa Alemana Villa Alemana Norte 27.56420
## 8776: NA 39.39303 1 Valparaíso Placilla-Curauma 39.39303
Realice un histograma con ggplot que muestre la distribución del ingreso de los hogares para las macrozonas del Gran Valparaíso. Es decir, un histograma para cada comuna, pero en un mismo gráfico. Además, limite el ingreso a menos de 2000000.
ggplot(data=hogares[IngresoHogar<2000000], aes(x=IngresoHogar, fill=comunahg)) + geom_histogram(bins= 10, position="dodge")
# Con esto podemos tenerlo en orden, y visualmente correcto para entender la información
Usando la base de hogares, cree el objeto ingprom, que contenga el ingreso promedio de los hogares en cada macro-zona.
ingprom <- hogares[,(mean(IngresoHogar)), by ="Macrozonahg"]
names(ingprom)[2] <- "Promedio"
ingprom[order(Macrozonahg)]
## Macrozonahg Promedio
## 1: Barón-Placeres 551315.7
## 2: Concón Oriente 974574.7
## 3: Concón Poniente 1154565.8
## 4: El Belloto 678679.7
## 5: El Belloto Norte 577247.3
## 6: Forestal 693756.1
## 7: Marga-Marga 1328764.2
## 8: Miraflores 775608.6
## 9: Peñablanca 856103.4
## 10: Placilla-Curauma 908328.8
## 11: Plan Valparaíso 681613.8
## 12: Plan Viña 915722.5
## 13: Playa Ancha 519674.1
## 14: Quilpué Norte 891992.3
## 15: Quilpué Poniente 697141.0
## 16: Quilpué Sur 732888.1
## 17: Recreo 930907.6
## 18: Reñaca 1903325.6
## 19: Rodelillo 520192.5
## 20: Santa Julia 680298.9
## 21: Valparaíso Alto 517233.5
## 22: Villa Alemana Norte 582355.2
## 23: Villa Alemana Poniente 535134.2
## 24: Viña del Mar Oriente 579780.9
## Macrozonahg Promedio
Realice un grafico que permita ver el ingreso promedio de los hogares por macro-zona
ggplot(data=ingprom, aes(x=Macrozonahg, weight=Promedio)) + geom_bar(bins = 10, position = "dodge")
## Warning: Ignoring unknown parameters: bins
Agregar etiquetas a los ejes, titulo, subtitulo y fuente al grafico anterior. Ademas, deje de manera legible las categorias del eje x.
ggplot(data=ingprom, aes(x=Macrozonahg, weights=Promedio)) + geom_bar(bins=10, position= "dodge") + labs(x="Macrozona", y="Ingreso Promedio", title= "Ingreso Promedio de los Hogares") + theme(axis.text.x = element_text(angle=90, vjust=0.6 ,size = 5))
## Warning: Ignoring unknown parameters: bins
Cargue la base de datos locales hamburguesas para anlizar donde se encuentra la competencia
hamburguesas <- fread("restaurantes.csv", encoding="Latin-1")
Cree un scatter-plot (grafico de puntos) con ggplot que muestre la relación entre el numero de comentarios (reviews) (eje x) y el rating eje(y), de manera de que los puntos de cada comuna tomen un color distinto
ggplot(data=hamburguesas, aes(x = reviews, y=rating, color=nombre)) + geom_point() + theme(legend.position="bottom")
Ahora queremos analizar el nivel de competencias que existe por macrozona. Para realizar esto, debe crear un identificador de competencia para cada macrozona. El indicador esta definido como: ((REVIEW*RATING)/1000)
hamburguesas[, PromedioReviews:=(mean(reviews)), by=MacrozonaOrigen1]
hamburguesas[, PromedioRating:=(mean(rating)), by=MacrozonaOrigen1]
hamburguesas[, IndiceDeCompetencia:=(PromedioReviews*PromedioRating)/1000, by= MacrozonaOrigen1]
Dado este primer analisis exploratorio,
a) Donde es mas conveniente abrir el nuevo local de hamburugesas? Justifique? Para poder elejir el mejor lugar, tienen que haber varios otros analisis psoibles. Dentro de esto, y con simplemente la información que tenemos en este analisis, creo que el mejor lugar seria en la zona de valparaiso. Esto es porque en esa zona se tiene un promedio-ingreso mayor por hogar, por lo que el consumo es mayor. Por otro lado, tambien creemos que el borde costero de Reñaca y Viña del Mar son buenos lugares para abrir locales, y tener competencia dado la cantidad de clientes que estan por esa zona. En la siguente pregunta se responde con mayor información de como obtener un mejor analisis, pero mas que nada por temas geograficos, población, ingreso los mejores lugares son el borde costero, y zonas con mayor ingreso por hogar.
b) Que agregaria/modificaria a este analisis para poder dar una repsuesta mas robusta? Dentro de lo que agregaria en este analisis, es una mayor cantidad de indices para poder tomar una mejor desición. Indices de precio, indice de ubicaciónes y población, indice de costos, tiempo de retorno, TIR, ROE, IR, Payback etc. En si hay información para tomar una desición, pero para tomar una mejor desicion debemos tener mas nivel dentro de el posible analisis.