Tarea en grupo 3

Compañeros: Edwyn Turner, Florencia Olbertz

Pregunta 1

Limpie el enviroment y cargue los paquetes necesarios para trabarar.

## 
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
## 
##     last_plot
## The following object is masked from 'package:stats':
## 
##     filter
## The following object is masked from 'package:graphics':
## 
##     layout
## 
## Attaching package: 'janitor'
## The following objects are masked from 'package:stats':
## 
##     chisq.test, fisher.test
## ── Attaching packages ─────────────────────────────────────── tidyverse 1.3.1 ──
## ✓ tibble  3.1.0     ✓ dplyr   1.0.5
## ✓ tidyr   1.1.3     ✓ stringr 1.4.0
## ✓ readr   1.4.0     ✓ forcats 0.5.1
## ✓ purrr   0.3.4
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## x dplyr::filter() masks plotly::filter(), stats::filter()
## x dplyr::lag()    masks stats::lag()
## 
## Attaching package: 'data.table'
## The following objects are masked from 'package:dplyr':
## 
##     between, first, last
## The following object is masked from 'package:purrr':
## 
##     transpose

##El codigo anterior no se muestra, pero son los codigos impresos + las librerias.

Pregunta 2

Cargue la base de datos de hogares de la Encuesta Origen y Destino. Debe utilizar el encoding Latin-1 para que se lean los tílde.

hogares <- fread("Base_Hogares.csv", encoding="Latin-1")
as.data.table(hogares)
##             Hogar Macrozona Zona Comuna Manzana DirCoordX DirCoordY      Fecha
##    1:       90431         1    9      2   90431  253073.7   6341154 2014-11-25
##    2:     1012966        13  101      3 1012966  266270.6   6342393 2015-05-08
##    3:     1580550        17  158      4 1580550  263457.5   6352430 2014-11-04
##    4:     1630397        17  163      4 1630397  261833.0   6353000 2015-11-18
##    5:     3385901         1    3      2   33843  252717.4   6341820 2015-04-01
##   ---                                                                         
## 8772:  3563001037        19  356      5 3563001  269103.5   6340579 2014-09-10
## 8773: 10100810901        13  101      3 1010081  265910.7   6341803 2015-05-08
## 8774: 21618310901        21  216      5 2161831  274441.3   6339604 2014-10-28
## 8775: 23550461901        26  235      6 2350461  278998.6   6341682 2014-09-30
## 8776: 50234990903         6   50      2  502349  259774.5   6332118 2015-05-13
##       DiaAsig TipoDia NumPer NumVeh Propiedad NoSabeNoResponde MontoDiv
##    1:       2       1      3      0         1                1       NA
##    2:       5       1      3      1         1                0       NA
##    3:       2       1      5      3         1                0       NA
##    4:       3       1      2      1         3                0       NA
##    5:       3       1      2      0         3                0       NA
##   ---                                                                  
## 8772:       3       1      4      0         1                0       NA
## 8773:       5       1      3      0         1                0       NA
## 8774:       2       1      3      0         3                0       NA
## 8775:       2       1      2      1         1                0       NA
## 8776:       3       1      2      1         1                0       NA
##       MontoArrEstima MontoArrPaga IngresoHogar Factor_Laboral Factor_Sabado
##    1:             NA           NA       241483       49.61113            NA
##    2:         280000           NA      1156372       47.45112            NA
##    3:        1000000           NA      3442226       53.75151            NA
##    4:             NA       350000       695736       35.05007            NA
##    5:             NA       100000       258299       40.28616            NA
##   ---                                                                      
## 8772:         120000           NA       331018       27.74549            NA
## 8773:         260000           NA       769430       45.89651            NA
## 8774:             NA        80000       626361       34.22977            NA
## 8775:         200000           NA      1000248       35.39052            NA
## 8776:         300000           NA      1191615       45.21407            NA
##       Factor_Domingo   Factor aux      comunahg          Macrozonahg Factorhg
##    1:             NA 40.82472   1    Valparaíso          Playa Ancha 40.82472
##    2:             NA 39.15974   1  Viña del Mar Viña del Mar Oriente 39.15974
##    3:             NA 45.42331   1        Concon      Concón Poniente 45.42331
##    4:             NA 35.33358   1        Concon      Concón Poniente 35.33358
##    5:             NA 32.25464   1    Valparaíso          Playa Ancha 32.25464
##   ---                                                                        
## 8772:             NA 23.72622   1       Quilpue     Quilpué Poniente 23.72622
## 8773:             NA 38.05306   1  Viña del Mar Viña del Mar Oriente 38.05306
## 8774:             NA 30.05988   1       Quilpue           El Belloto 30.05988
## 8775:             NA 27.56420   1 Villa Alemana  Villa Alemana Norte 27.56420
## 8776:             NA 39.39303   1    Valparaíso     Placilla-Curauma 39.39303

Pregunta 3

Realice un histograma con ggplot que muestre la distribución del ingreso de los hogares para las macrozonas del Gran Valparaíso. Es decir, un histograma para cada comuna, pero en un mismo gráfico. Además, limite el ingreso a menos de 2000000.

ggplot(data=hogares[IngresoHogar<2000000], aes(x=IngresoHogar, fill=comunahg)) + geom_histogram(bins= 10, position="dodge")

# Con esto podemos tenerlo en orden, y visualmente correcto para entender la información

Pregunta 4

Usando la base de hogares, cree el objeto ingprom, que contenga el ingreso promedio de los hogares en cada macro-zona.

ingprom <- hogares[,(mean(IngresoHogar)), by ="Macrozonahg"]
names(ingprom)[2] <- "Promedio"
ingprom[order(Macrozonahg)]
##                Macrozonahg  Promedio
##  1:         Barón-Placeres  551315.7
##  2:         Concón Oriente  974574.7
##  3:        Concón Poniente 1154565.8
##  4:             El Belloto  678679.7
##  5:       El Belloto Norte  577247.3
##  6:               Forestal  693756.1
##  7:            Marga-Marga 1328764.2
##  8:             Miraflores  775608.6
##  9:             Peñablanca  856103.4
## 10:       Placilla-Curauma  908328.8
## 11:        Plan Valparaíso  681613.8
## 12:              Plan Viña  915722.5
## 13:            Playa Ancha  519674.1
## 14:          Quilpué Norte  891992.3
## 15:       Quilpué Poniente  697141.0
## 16:            Quilpué Sur  732888.1
## 17:                 Recreo  930907.6
## 18:                 Reñaca 1903325.6
## 19:              Rodelillo  520192.5
## 20:            Santa Julia  680298.9
## 21:        Valparaíso Alto  517233.5
## 22:    Villa Alemana Norte  582355.2
## 23: Villa Alemana Poniente  535134.2
## 24:   Viña del Mar Oriente  579780.9
##                Macrozonahg  Promedio

Pregunta 5

Realice un grafico que permita ver el ingreso promedio de los hogares por macro-zona

ggplot(data=ingprom, aes(x=Macrozonahg, weight=Promedio)) + geom_bar(bins = 10, position = "dodge")
## Warning: Ignoring unknown parameters: bins

Pregunta 6

Agregar etiquetas a los ejes, titulo, subtitulo y fuente al grafico anterior. Ademas, deje de manera legible las categorias del eje x.

ggplot(data=ingprom, aes(x=Macrozonahg, weights=Promedio)) + geom_bar(bins=10, position= "dodge") + labs(x="Macrozona", y="Ingreso Promedio", title= "Ingreso Promedio de los Hogares") + theme(axis.text.x = element_text(angle=90, vjust=0.6 ,size = 5))
## Warning: Ignoring unknown parameters: bins

Pregunta 7

Cargue la base de datos locales hamburguesas para anlizar donde se encuentra la competencia

hamburguesas <- fread("restaurantes.csv", encoding="Latin-1")

Pregunta 8

Cree un scatter-plot (grafico de puntos) con ggplot que muestre la relación entre el numero de comentarios (reviews) (eje x) y el rating eje(y), de manera de que los puntos de cada comuna tomen un color distinto

ggplot(data=hamburguesas, aes(x = reviews, y=rating, color=nombre)) + geom_point() + theme(legend.position="bottom")

Pregunta 9

Ahora queremos analizar el nivel de competencias que existe por macrozona. Para realizar esto, debe crear un identificador de competencia para cada macrozona. El indicador esta definido como: ((REVIEW*RATING)/1000)

hamburguesas[, PromedioReviews:=(mean(reviews)), by=MacrozonaOrigen1]
hamburguesas[, PromedioRating:=(mean(rating)), by=MacrozonaOrigen1]
hamburguesas[, IndiceDeCompetencia:=(PromedioReviews*PromedioRating)/1000, by= MacrozonaOrigen1]

Pregunta 10

Dado este primer analisis exploratorio,

a) Donde es mas conveniente abrir el nuevo local de hamburugesas? Justifique? Para poder elejir el mejor lugar, tienen que haber varios otros analisis psoibles. Dentro de esto, y con simplemente la información que tenemos en este analisis, creo que el mejor lugar seria en la zona de valparaiso. Esto es porque en esa zona se tiene un promedio-ingreso mayor por hogar, por lo que el consumo es mayor. Por otro lado, tambien creemos que el borde costero de Reñaca y Viña del Mar son buenos lugares para abrir locales, y tener competencia dado la cantidad de clientes que estan por esa zona. En la siguente pregunta se responde con mayor información de como obtener un mejor analisis, pero mas que nada por temas geograficos, población, ingreso los mejores lugares son el borde costero, y zonas con mayor ingreso por hogar.

b) Que agregaria/modificaria a este analisis para poder dar una repsuesta mas robusta? Dentro de lo que agregaria en este analisis, es una mayor cantidad de indices para poder tomar una mejor desición. Indices de precio, indice de ubicaciónes y población, indice de costos, tiempo de retorno, TIR, ROE, IR, Payback etc. En si hay información para tomar una desición, pero para tomar una mejor desicion debemos tener mas nivel dentro de el posible analisis.