library (tidyr)
## Warning: package 'tidyr' was built under R version 3.3.2
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(readr)
## Warning: package 'readr' was built under R version 3.3.2
library(foreign)

ACC_AUX <- read_csv("C:/Users/Gustavo/Documents/FARS2015NationalCSV/ACC_AUX.CSV")
## Parsed with column specification:
## cols(
##   .default = col_integer()
## )
## See spec(...) for full column specifications.
PER_AUX.CSV<- read_csv("C:/Users/Gustavo/Documents/FARS2015NationalCSV/PER_AUX.CSV")
## Parsed with column specification:
## cols(
##   .default = col_integer()
## )
## See spec(...) for full column specifications.
VEH_AUX.CSV <- read_csv("C:/Users/Gustavo/Documents/FARS2015NationalCSV/VEH_AUX.CSV")
## Parsed with column specification:
## cols(
##   YEAR = col_integer(),
##   ST_CASE = col_integer(),
##   VEH_NO = col_integer(),
##   A_BODY = col_integer(),
##   A_IMP1 = col_integer(),
##   A_IMP2 = col_integer(),
##   A_VROLL = col_integer(),
##   A_LIC_S = col_integer(),
##   A_LIC_C = col_integer(),
##   A_CDL_S = col_integer(),
##   A_MC_L_S = col_integer(),
##   A_SPVEH = col_integer(),
##   A_SBUS = col_integer(),
##   A_MOD_YR = col_integer(),
##   A_DRDIS = col_integer(),
##   A_DRDRO = col_integer()
## )
names(ACC_AUX)
##  [1] "YEAR"      "STATE"     "ST_CASE"   "COUNTY"    "FATALS"   
##  [6] "A_CRAINJ"  "A_REGION"  "A_RU"      "A_INTER"   "A_RELRD"  
## [11] "A_INTSEC"  "A_ROADFC"  "A_JUNC"    "A_MANCOL"  "A_TOD"    
## [16] "A_DOW"     "A_CT"      "A_LT"      "A_MC"      "A_SPCRA"  
## [21] "A_PED"     "A_PED_F"   "A_PEDAL"   "A_PEDAL_F" "A_ROLL"   
## [26] "A_POLPUR"  "A_POSBAC"  "A_D15_19"  "A_D16_19"  "A_D15_20" 
## [31] "A_D16_20"  "A_D65PLS"  "A_D21_24"  "A_D16_24"  "A_RD"     
## [36] "A_HR"      "A_DIST"    "A_DROWSY"
x<-left_join(ACC_AUX, VEH_AUX.CSV, "ST_CASE")
y<-left_join(x,PER_AUX.CSV, 'ST_CASE')

Caracterización y exploración de variables.

1.¿después de que hora está el percentil más alto de accidentes por personas bajo la influencia del alcohol?

De la tabla creada con left_join seleccioné las variables de hora del dia y alchohol positivo en la sangre que se define con el #2 y por último que contara el numero de incidencias del dia #1= dia, 2=noche, 3=desconocido

pregunta1 <- y%>%
    select(A_ALCTES, A_TOD)%>%
    group_by(A_TOD)%>%
    filter(A_ALCTES == 2)%>%
    count(A_TOD)

usando barplot, disminuyo mi tabla pregunta1 a una sola variable seleccionando solamente las incidencias, uso esa variable para usarla como matriz y especifico el nombre de la grafica, del eje x y del y. Selecciono colores y creo una leyenda para los colores identificando cada uno.

codigo barplot(as.matrix(seguimientoprg1), main = “Hora del día, donde más accidentes hay, por causas del alcohol”, ylab = “cantidad”, ylim = c(0,10500), xlab = “total”, beside = TRUE, col = rainbow(6), names.arg = c(“Hora del Dia”), legend(“topright”, c(“Durante el día”, “Durante la noche”, “desconocido”), cex = 0.9, bty = “n”, fill = rainbow(6)))

Gráfica del codigo del barplot de arriba. Responde la pregunta 1

Creo un boxplot para que sean los cuartiles, la media y mediana más fáciles de distinguir en la grafica.

boxplot(A_TOD~A_ALCTES, data = y, main= "Hora/Influencia Alcohol", xlab="Alcohol positivo", xlim=c(2, 2), ylab="hora", ylim=c(1, 5), las=1)

2 En qué parte de la carretera hay más incidencias en las que un carro vuelca? en lo rural y lo urbano?

———————–parte2 de la 2nda pregunta—————————-

pregunta2urban <- y%>%
    select(A_RELRD, A_VROLL, A_RU )%>%
    filter(A_RU=="2", A_VROLL=="1")%>%
    group_by(A_RELRD)%>%
    count(A_RELRD)

seg.preg2.urban <- pregunta2urban%>%
    select(n)

tabla2<- pregunta2urban%>%
    mutate(porcentaje= n/sum(n)*100)%>%
    mutate(carretera = c("Roadway","Shoulder","Median","Other","Unknown"))%>%
    arrange(desc(porcentaje))

pregunta2rural <- y%>%
    select(A_RELRD, A_VROLL, A_RU )%>%
    filter(A_RU=="1", A_VROLL=="1")%>%
    group_by(A_RELRD)%>%
    count(A_RELRD) 
seg.preg2.rural <- pregunta2rural%>%
    select(n)

grafica pregunta 2 urbano

Código barplot(as.matrix(seg.preg2.urban), main = “En que tipo de carreteras vuelcan los carros en lo URBANO”, ylab = “cantidad”, ylim = c(0, 3200), xlab = “Parte de la Carretera”, beside = TRUE, col =c(“blue”,“red”, “orange”, “green”, “yellow” ), names.arg = c(“Roadway”," Shoulder“,”Median“,”Other“,”Uknown“))

Gráfica pregunta 2 rural

codigo barplot(as.matrix(seg.preg2.rural), main = “En que tipo de carreteras vuelcan los carros en lo RURAL”, ylab = “cantidad”, ylim = c(0, 6000), xlab = “Parte de la Carretera”, beside = TRUE, col = rainbow(10), names.arg = c(“Roadway”," Shoulder“,”Median“,”Other“,”Uknown“))

3. ¿Qué rango de edad muestra mas probabilidad de salir del carro volando? Se puede vincular con el uso de usar el cinturon. Salir expulsado.

pregunta3<- y%>%
    select(A_AGE4, A_EJECT )%>%
    group_by(A_AGE4)%>%
    filter(A_EJECT == 2)%>%
    count(A_AGE4)%>%
    mutate(edad = c("<16","16-20", "21-24", "25-34", "35-44", "45-64","65+", "desconocido" ))%>%
    mutate(porcentaje = n/sum(n)*100)%>%
    arrange(desc(n))
#############################################
tabla3incidendias <- y%>%
    select(A_AGE4, A_EJECT )%>%
    group_by(A_AGE4)%>%
    filter(A_EJECT == 2)%>%
    count(A_AGE4)%>%
    mutate(edad = c("<16","16-20", "21-24", "25-34", "35-44", "45-64","65+", "desconocido" ))%>%
    mutate(porcentaje = n/sum(n)*100)
barras3<- tabla3incidendias%>%
    select(porcentaje)
barplot(as.matrix(barras3), main = "porcentajes por personas Ejected por edad", ylab = "porcentaje %", ylim = c(0,25), xlab = "Edad", beside = TRUE, col = rainbow(13), names.arg = c("<16","16-20", "21-24", "25-34", "35-44", "45-64","65+", "desconocido"))