Instale y cargue los siguientes paquetes: data.table,rgdal,ggplot2 y treemap.
library("data.table")
library("rgdal")
library("ggplot2")
library("treemap")
Cargue la base de datos de la lista y transformarla en un data.table
DatosBici<-readOGR("Bici_personaGS2016_2/Bici_personaGS2016_2.shp")
## OGR data source with driver: ESRI Shapefile
## Source: "/cloud/project/Bici_personaGS2016_2/Bici_personaGS2016_2.shp", layer: "Bici_personaGS2016_2"
## with 1135 features
## It has 33 fields
DatosBici<-DatosBici@data
DatosBici<-as.data.table(DatosBici)
La variable ESTADO_CAL describe el estado de la calzada por la cual circulaba el/la ciclista. De esta forma, las categorías que debe considerar esta variable son 3: BUENO, REGULAR y MALO. Por lo tanto, lo que debe hacer, es considerar todas aquellas observaciones que tengan alguna de esas 3 categorías en la variable ESTADO_CAL.
DatosBici<-DatosBici[ESTADO_CAL=="BUENO"|ESTADO_CAL=="REGULAR"|ESTADO_CAL=="MALO"]
¿Cuántos accidentes hay por comuna?
DatosBici[,sum(Accidentes),by=COMUNA1]
## COMUNA1 V1
## 1: PROVIDENCIA 141
## 2: CERRO NAVIA 15
## 3: NUNOA 83
## 4: RENCA 34
## 5: SANTIAGO 154
## 6: MAIPU 63
## 7: LA FLORIDA 31
## 8: P. AGUIRRE CERDA 12
## 9: PUDAHUEL 36
## 10: PENALOLEN 43
## 11: LAMPA 12
## 12: COLINA 6
## 13: LAS CONDES 54
## 14: QUILICURA 49
## 15: SAN JOAQUIN 19
## 16: PIRQUE 1
## 17: PUENTE ALTO 73
## 18: MACUL 28
## 19: LA CISTERNA 18
## 20: LO BARNECHEA 9
## 21: EL BOSQUE 35
## 22: CERRILLOS 15
## 23: SAN RAMON 14
## 24: VITACURA 7
## 25: RECOLETA 26
## 26: LA REINA 30
## 27: LO PRADO 18
## 28: ESTACION CENTRAL 34
## 29: SAN MIGUEL 19
## 30: QUINTA NORMAL 27
## 31: LA GRANJA 15
## 32: HUECHURABA 6
## 33: INDEPENDENCIA 16
## 34: LA PINTANA 13
## 35: CONCHALI 12
## COMUNA1 V1
¿Cuántos accidentes con personas fallecidas hay por comuna?
DatosBici[,sum(Fallecidos),by=COMUNA1]
## COMUNA1 V1
## 1: PROVIDENCIA 0
## 2: CERRO NAVIA 1
## 3: NUNOA 1
## 4: RENCA 0
## 5: SANTIAGO 1
## 6: MAIPU 1
## 7: LA FLORIDA 2
## 8: P. AGUIRRE CERDA 0
## 9: PUDAHUEL 0
## 10: PENALOLEN 0
## 11: LAMPA 0
## 12: COLINA 0
## 13: LAS CONDES 0
## 14: QUILICURA 2
## 15: SAN JOAQUIN 0
## 16: PIRQUE 0
## 17: PUENTE ALTO 0
## 18: MACUL 1
## 19: LA CISTERNA 1
## 20: LO BARNECHEA 0
## 21: EL BOSQUE 0
## 22: CERRILLOS 0
## 23: SAN RAMON 0
## 24: VITACURA 0
## 25: RECOLETA 1
## 26: LA REINA 1
## 27: LO PRADO 0
## 28: ESTACION CENTRAL 0
## 29: SAN MIGUEL 0
## 30: QUINTA NORMAL 0
## 31: LA GRANJA 1
## 32: HUECHURABA 0
## 33: INDEPENDENCIA 0
## 34: LA PINTANA 1
## 35: CONCHALI 0
## COMUNA1 V1
¿Cuántos accidentes con personas graves hay por comuna?
DatosBici[,sum(Graves),by=COMUNA1]
## COMUNA1 V1
## 1: PROVIDENCIA 26
## 2: CERRO NAVIA 2
## 3: NUNOA 16
## 4: RENCA 8
## 5: SANTIAGO 19
## 6: MAIPU 11
## 7: LA FLORIDA 3
## 8: P. AGUIRRE CERDA 2
## 9: PUDAHUEL 13
## 10: PENALOLEN 6
## 11: LAMPA 2
## 12: COLINA 2
## 13: LAS CONDES 9
## 14: QUILICURA 4
## 15: SAN JOAQUIN 6
## 16: PIRQUE 0
## 17: PUENTE ALTO 7
## 18: MACUL 5
## 19: LA CISTERNA 5
## 20: LO BARNECHEA 2
## 21: EL BOSQUE 9
## 22: CERRILLOS 2
## 23: SAN RAMON 1
## 24: VITACURA 2
## 25: RECOLETA 5
## 26: LA REINA 7
## 27: LO PRADO 4
## 28: ESTACION CENTRAL 5
## 29: SAN MIGUEL 3
## 30: QUINTA NORMAL 10
## 31: LA GRANJA 3
## 32: HUECHURABA 1
## 33: INDEPENDENCIA 4
## 34: LA PINTANA 3
## 35: CONCHALI 2
## COMUNA1 V1
¿Cómo podría mostrar el resultado de la pregunta 6 en un gráfico?. Muestre un gráfico legible.
ggplot(data=DatosBici[Graves>0],aes(x=COMUNA1)) + geom_bar() + labs(x="Comuna", y="Cantidad de graves", title = "Accidentes con personas graves", subtitle = "En region Metropolitana", caption = "Fuente: Informe de accidentes por region met. 2016") +
theme(axis.text.x = element_text(angle=90, vjust=0.5),
axis.text.x.top = element_text(size=0.05),
plot.title = element_text(size=15))
¿Cuál es la principal causa (CAUSA__CON) de accidentes?
DatosBici[,.N,by=CAUSA__CON]
## CAUSA__CON N
## 1: PERDIDA CONTROL VEHICULO 19
## 2: CAUSAS NO DETERMINADAS 246
## 3: IMPRUDENCIA DEL CONDUCTOR 507
## 4: OTRAS CAUSAS 195
## 5: DESOBEDIENCIA A SENALIZACION 121
## 6: ALCOHOL EN CONDUCTOR 21
## 7: DROGAS Y/O FATIGA EN CONDUCTOR 3
## 8: IMPRUDENCIA DEL PEATON 13
## 9: FALLAS MECANICAS 2
## 10: VELOCIDAD IMPRUDENTE 2
## 11: DEFICIENCIAS VIALES 1
#La principal causa es imprudencia del conductor
¿Cómo podríamos mostrar,gráficamente, las diferentes causas para la comuna de Providencia y Santiago? Muestre un gráfico legible.
Santiago<-DatosBici[COMUNA1=="SANTIAGO"]
Providencia<-DatosBici[COMUNA1=="PROVIDENCIA"]
ggplot()+geom_bar(data=Santiago,aes(x=CAUSA__CON), fill="red")+ geom_bar(data=Providencia,aes(x=CAUSA__CON),fill="blue")+ theme(axis.text.x = element_text(size=6,angle=85,vjust=0.5))+facet_wrap(~COMUNA1)+ labs(x="Causa de Accidente", y="Cantidad", title="Comparación accidentes entre Providencia y Santiago")
¿Podría establecer que existe alguna relación entre la cantidad de accidentes leves por comuna y la proporción de accidentes que ocurren en un buen estado de calzada (porc_bueno)? Argumente gráficamente, de la mejor manera posible.
ggplot(data=DatosBici, aes(x=Leves, y=porc_bueno))+geom_point()
¿Podría establecer que existe alguna relación entre la cantidad de accidentes graves por comuna y la proporción de accidentes que ocurren en un buen estado de calzada (porc_bueno)? Argumente gráficamente, de la mejor manera posible.
ggplot(data=DatosBici, aes(x=Graves, y=porc_bueno)) +geom_point()
Muestre gráficamente la cantidad de accidentes que hay para las distintas causas de accidentes.
ggplot(data=DatosBici, aes(x=CAUSA__CON)) + geom_bar() + theme(axis.text.x=element_text(angle=90)) + labs(x="Causa", y="accidentes")