library (tidyr)
## Warning: package 'tidyr' was built under R version 3.3.2
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(readr)
## Warning: package 'readr' was built under R version 3.3.2
library(foreign)
ACC_AUX <- read_csv("C:/Users/Gustavo/Documents/FARS2015NationalCSV/ACC_AUX.CSV")
## Parsed with column specification:
## cols(
## .default = col_integer()
## )
## See spec(...) for full column specifications.
PER_AUX.CSV<- read_csv("C:/Users/Gustavo/Documents/FARS2015NationalCSV/PER_AUX.CSV")
## Parsed with column specification:
## cols(
## .default = col_integer()
## )
## See spec(...) for full column specifications.
VEH_AUX.CSV <- read_csv("C:/Users/Gustavo/Documents/FARS2015NationalCSV/VEH_AUX.CSV")
## Parsed with column specification:
## cols(
## YEAR = col_integer(),
## ST_CASE = col_integer(),
## VEH_NO = col_integer(),
## A_BODY = col_integer(),
## A_IMP1 = col_integer(),
## A_IMP2 = col_integer(),
## A_VROLL = col_integer(),
## A_LIC_S = col_integer(),
## A_LIC_C = col_integer(),
## A_CDL_S = col_integer(),
## A_MC_L_S = col_integer(),
## A_SPVEH = col_integer(),
## A_SBUS = col_integer(),
## A_MOD_YR = col_integer(),
## A_DRDIS = col_integer(),
## A_DRDRO = col_integer()
## )
names(ACC_AUX)
## [1] "YEAR" "STATE" "ST_CASE" "COUNTY" "FATALS"
## [6] "A_CRAINJ" "A_REGION" "A_RU" "A_INTER" "A_RELRD"
## [11] "A_INTSEC" "A_ROADFC" "A_JUNC" "A_MANCOL" "A_TOD"
## [16] "A_DOW" "A_CT" "A_LT" "A_MC" "A_SPCRA"
## [21] "A_PED" "A_PED_F" "A_PEDAL" "A_PEDAL_F" "A_ROLL"
## [26] "A_POLPUR" "A_POSBAC" "A_D15_19" "A_D16_19" "A_D15_20"
## [31] "A_D16_20" "A_D65PLS" "A_D21_24" "A_D16_24" "A_RD"
## [36] "A_HR" "A_DIST" "A_DROWSY"
x<-left_join(ACC_AUX, VEH_AUX.CSV, "ST_CASE")
y<-left_join(x,PER_AUX.CSV, 'ST_CASE')
Caracterización y exploración de variables.
1.¿después de que hora está el percentil más alto de accidentes por personas bajo la influencia del alcohol?
De la tabla creada con left_join seleccioné las variables de hora del dia y alchohol positivo en la sangre que se define con el #2 y por último que contara el numero de incidencias del dia #1= dia, 2=noche, 3=desconocido
pregunta1 <- y%>%
select(A_ALCTES, A_TOD)%>%
group_by(A_TOD)%>%
filter(A_ALCTES == 2)%>%
count(A_TOD)
usando barplot, disminuyo mi tabla pregunta1 a una sola variable seleccionando solamente las incidencias, uso esa variable para usarla como matriz y especifico el nombre de la grafica, del eje x y del y. Selecciono colores y creo una leyenda para los colores identificando cada uno.
codigo barplot(as.matrix(seguimientoprg1), main = “Hora del día, donde más accidentes hay, por causas del alcohol”, ylab = “cantidad”, ylim = c(0,10500), xlab = “total”, beside = TRUE, col = rainbow(6), names.arg = c(“Hora del Dia”), legend(“topright”, c(“Durante el día”, “Durante la noche”, “desconocido”), cex = 0.9, bty = “n”, fill = rainbow(6)))
Gráfica del codigo del barplot de arriba. Responde la pregunta 1
2 En qué parte de la carretera hay más incidencias en las que un carro vuelca? en lo rural y lo urbano?
———————–parte2 de la 2nda pregunta—————————-
pregunta2urban <- y%>%
select(A_RELRD, A_VROLL, A_RU )%>%
filter(A_RU=="2", A_VROLL=="1")%>%
group_by(A_RELRD)%>%
count(A_RELRD)
seg.preg2.urban <- pregunta2urban%>%
select(n)
tabla2<- pregunta2urban%>%
mutate(porcentaje= n/sum(n)*100)%>%
mutate(carretera = c("Roadway","Shoulder","Median","Other","Unknown"))%>%
arrange(desc(porcentaje))
pregunta2rural <- y%>%
select(A_RELRD, A_VROLL, A_RU )%>%
filter(A_RU=="1", A_VROLL=="1")%>%
group_by(A_RELRD)%>%
count(A_RELRD)
seg.preg2.rural <- pregunta2rural%>%
select(n)
grafica pregunta 2 urbano
Código barplot(as.matrix(seg.preg2.urban), main = “En que tipo de carreteras vuelcan los carros en lo URBANO”, ylab = “cantidad”, ylim = c(0, 3200), xlab = “Parte de la Carretera”, beside = TRUE, col =c(“blue”,“red”, “orange”, “green”, “yellow” ), names.arg = c(“Roadway”," Shoulder“,”Median“,”Other“,”Uknown“))
Gráfica pregunta 2 rural
codigo barplot(as.matrix(seg.preg2.rural), main = “En que tipo de carreteras vuelcan los carros en lo RURAL”, ylab = “cantidad”, ylim = c(0, 6000), xlab = “Parte de la Carretera”, beside = TRUE, col = rainbow(10), names.arg = c(“Roadway”," Shoulder“,”Median“,”Other“,”Uknown“))
3. ¿Qué rango de edad muestra mas probabilidad de salir del carro volando? Se puede vincular con el uso de usar el cinturon. Salir expulsado.
pregunta3<- y%>%
select(A_AGE4, A_EJECT )%>%
group_by(A_AGE4)%>%
filter(A_EJECT == 2)%>%
count(A_AGE4)%>%
mutate(edad = c("<16","16-20", "21-24", "25-34", "35-44", "45-64","65+", "desconocido" ))%>%
mutate(porcentaje = n/sum(n)*100)%>%
arrange(desc(n))
#############################################
tabla3incidendias <- y%>%
select(A_AGE4, A_EJECT )%>%
group_by(A_AGE4)%>%
filter(A_EJECT == 2)%>%
count(A_AGE4)%>%
mutate(edad = c("<16","16-20", "21-24", "25-34", "35-44", "45-64","65+", "desconocido" ))%>%
mutate(porcentaje = n/sum(n)*100)
barras3<- tabla3incidendias%>%
select(porcentaje)
barplot(as.matrix(barras3), main = "porcentajes por personas Ejected por edad", ylab = "porcentaje %", ylim = c(0,25), xlab = "Edad", beside = TRUE, col = rainbow(13), names.arg = c("<16","16-20", "21-24", "25-34", "35-44", "45-64","65+", "desconocido"))
