Datasets

Los Datasets más importantes son: vehicle, person, accident. De estas tres se derivan las otras 22 restantes.

Informaci?n general de datasets

  • Vehicle : Esta dataset contiene información sobre los datos del vehiculos en los que se sufrio el accidente. Hay datos desde el modelo del automovil hasta las personas que murieron en el mismo.
##  [1] "YEAR"     "ST_CASE"  "VEH_NO"   "A_BODY"   "A_IMP1"   "A_IMP2"  
##  [7] "A_VROLL"  "A_LIC_S"  "A_LIC_C"  "A_CDL_S"  "A_MC_L_S" "A_SPVEH" 
## [13] "A_SBUS"   "A_MOD_YR" "A_DRDIS"  "A_DRDRO"
## [1] 48923    16
  • Person : Esta dataset conttiene la informacion de las personas que sufrieron el accidente, desde la edad, género hasta el hospital que fueron. También da información del estado que se encontraba el conductor (ebriedad, drogas, etc.)
##  [1] "A_AGE1"   "A_AGE2"   "A_AGE3"   "A_AGE4"   "A_AGE5"   "A_AGE6"  
##  [7] "A_AGE7"   "A_AGE8"   "A_AGE9"   "ST_CASE"  "VEH_NO"   "PER_NO"  
## [13] "YEAR"     "A_PTYPE"  "A_REST"   "A_ALCTES" "A_HISP"   "A_RCAT"  
## [19] "A_HRACE"  "A_EJECT"  "A_PERINJ" "A_LOC"
## [1] 80587    22
  • accident : Esta dataset contiene la información del accidente. Por ejemplo hay variables que indican cuantas personas se encontraban en el percance y en qué ruta se sufrio. Al mismo tiempo hay datos como la latitud y longitud, es decir la ubicación exacta del accidente. También hay variables de clima, por lo tanto se puede verificar si existe alguna relación entre el clima y la cantidad de accidentes.
##  [1] "YEAR"      "STATE"     "ST_CASE"   "COUNTY"    "FATALS"   
##  [6] "A_CRAINJ"  "A_REGION"  "A_RU"      "A_INTER"   "A_RELRD"  
## [11] "A_INTSEC"  "A_ROADFC"  "A_JUNC"    "A_MANCOL"  "A_TOD"    
## [16] "A_DOW"     "A_CT"      "A_LT"      "A_MC"      "A_SPCRA"  
## [21] "A_PED"     "A_PED_F"   "A_PEDAL"   "A_PEDAL_F" "A_ROLL"   
## [26] "A_POLPUR"  "A_POSBAC"  "A_D15_19"  "A_D16_19"  "A_D15_20" 
## [31] "A_D16_20"  "A_D65PLS"  "A_D21_24"  "A_D16_24"  "A_RD"     
## [36] "A_HR"      "A_DIST"    "A_DROWSY"
## [1] 32166    38

Diccionario de variables

*A_CT: Crash type

*A_D15_19: young driver(15-19)

*a_dist: Distracter driver

*A_Dow: day of week

*A_Roll: Involving a Rollover

*A_SPVEH:Speeding Vehicle

*A_VROll: Rollover

*A_ALCTES:Alcohol testing

*A_TOD:Time of day

Graficas

Crash Type

Young driver

Distracted Driver

Day of week

RollOver

Speed

Rollover

Alcohol Testing

Time of Day

HIPÓTESIS

PREGUNTA 1.

Ho: En promedio los accidentes que ocurren el día viernes, después de 11 pm son ocasionados por jóvenes de 16-24.

Ha: En promedio los accidentes que ocurren el día viernes, después de 11 pm son ocasionados por adultos de 25- 35 años

MUJERES HOMBRES
52598 26631

## 
##  One Sample t-test
## 
## data:  caso1$volume
## t = -483.78, df = 52597, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 26300
## 95 percent confidence interval:
##  26299 26299
## sample estimates:
## mean of x 
##     26299

## 
##  One Sample t-test
## 
## data:  caso2$volume
## t = -171.75, df = 26630, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 13316
## 95 percent confidence interval:
##  13315.50 13315.51
## sample estimates:
## mean of x 
##   13315.5
Rechazamos la hipotesis nula porque p-value(2.2e-16) es menor a 0.05

PREGUNTA 2.

Ho: La proporción de carros que dieron vuelta(rollover) e iban con alta velocidad es mayor que los que no iban con alta velocidad

Ha: La proporción de carros que dieron vuelta(rollover) e iban con baja velocidad es mayor que los que iban con alta velocidad

## 
##  One Sample t-test
## 
## data:  cas$volume
## t = 0.1024, df = 8788, p-value = 0.9184
## alternative hypothesis: true mean is not equal to 4394
## 95 percent confidence interval:
##  4393.986 4394.016
## sample estimates:
## mean of x 
##  4394.001
Fallamos de rechazar la hipotesis nula porque p-value(0.3457) es mayor a 0.05

PREGUNTA 3.

Ho: Carros de marca japonesa ( Honda, Mitsubishi, Nissan, Subaru, Suzuki y Toyota) sufren de más accidentes que otras marcas.(alemanas,americanas, italianas, suecas)

Ha: Carros de marca japonesa ( Honda, Mitsubishi, Nissan, Subaru, Suzuki y Toyota) sufren de menos accidentes que otras marcas (alemanas,americanas, italianas, suecas)

## 
##  One Sample t-test
## 
## data:  car$volume
## t = -15534, df = 17999, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 9000
## 95 percent confidence interval:
##  8944.993 8945.006
## sample estimates:
## mean of x 
##      8945
Rechazamos la hipotesis nula porque p-value(2.2e-16) es menor a 0.05

PREGUNTA 4.

Ho:La probabilidad de que ocurran accidentes entre semana es mayor a que ocurran fines de semana

Ha: La probabilidad de que ocurran accidentes entre semana es menor a que ocurran fines de semana

Fin de Semana Entre Semana
13133 18976

## 
##  One Sample t-test
## 
## data:  semana1$volume
## t = 0.072397, df = 499, p-value = 0.9423
## alternative hypothesis: true mean is not equal to 250
## 95 percent confidence interval:
##  249.9685 250.0340
## sample estimates:
## mean of x 
##  250.0012

## 
##  One Sample t-test
## 
## data:  finde2$volume
## t = -0.014809, df = 349, p-value = 0.9882
## alternative hypothesis: true mean is not equal to 175
## 95 percent confidence interval:
##  174.9600 175.0394
## sample estimates:
## mean of x 
##  174.9997
Fallamos de rechazar la hipotesis nula porque p-value(0.8033) es mayor a 0.05

PREGUNTA 5.

Ho: Los días donde hay más accidentes es en julio, agosto y septiembre & cuando hay menos accidentes es en enero,febrero y marzo.

Ha:Los meses donde hay menos accidentes es en julio, agosto y septiembre & cuando hay más accidentes es en enero,febrero y marzo

## [1] TRUE

## 
##  One Sample t-test
## 
## data:  seman$volume
## t = 0.8002, df = 9669, p-value = 0.4236
## alternative hypothesis: true mean is not equal to 4835
## 95 percent confidence interval:
##  4834.996 4835.009
## sample estimates:
## mean of x 
##  4835.003
Rechazamos la hipotesis nula porque p-value(0.0271) es menor a 0.05

PREGUNTA 6.

Ho: Los que provocan más accidentes bajo la influencia de alcohol/drogas es independiente de la edad

Ha: Los que provocan más accidentes bajo la influencia de alcohol/drogas no es independiente de la edad

Porcentaje de accidentes causados por DROGA

Porcentaje de accidentes causados por ALCOHOL

COMPARACIÓN

Mujeres-Droga Mujeres-Alcohol Hombres-Droga Hombres-Alcohol
25553 25349 13546 12876

Mujeres-Droga Mujeres-Alcohol Hombres-Droga Hombres-Alcohol
2412 2350 2049 2006

## 
##  One Sample t-test
## 
## data:  menores$volume
## t = -0.0095317, df = 2411, p-value = 0.9924
## alternative hypothesis: true mean is not equal to 1206
## 95 percent confidence interval:
##  1205.986 1206.014
## sample estimates:
## mean of x 
##      1206
Rechazamos la hipotesis nula porque p-value(0.00988) es menor a 0.05

PREGUNTA 7.

Ho: Los accidentes que se producen por distracción en el celular en proporción son mayores, que los que se producen por falta de sueño

Ha: Los accidentes que se producen por falta de sueño en proporción son mayores, que los que se producen por distracción al celular

## [1] TRUE

## 
##  One Sample t-test
## 
## data:  pre$volume
## t = 0.50091, df = 49822, p-value = 0.6164
## alternative hypothesis: true mean is not equal to 24911
## 95 percent confidence interval:
##  24911 24911
## sample estimates:
## mean of x 
##     24911
Rechazamos la hipotesis nula porque p-value(0.01435) es menor a 0.05

PREGUNTA 8.

Ho: Los accidentes Fatal crash ocurren más en jovenes de 16- 24 años

Ha: Los accidentes Fatal crash ocurren más en adultos mayores de 65 +

## # A tibble: 6 x 38
##    YEAR STATE ST_CASE COUNTY FATALS A_CRAINJ A_REGION  A_RU A_INTER
##   <int> <int>   <int>  <int>  <int>    <int>    <int> <int>   <int>
## 1  2015     1   10005     45      1        1        4     2       2
## 2  2015     1   10011     83      1        1        4     2       2
## 3  2015     1   10012     95      1        1        4     2       2
## 4  2015     1   10014     11      1        1        4     1       2
## 5  2015     1   10019    121      1        1        4     1       2
## 6  2015     1   10029     69      1        1        4     1       2
## # ... with 29 more variables: A_RELRD <int>, A_INTSEC <int>,
## #   A_ROADFC <int>, A_JUNC <int>, A_MANCOL <int>, A_TOD <int>,
## #   A_DOW <int>, A_CT <int>, A_LT <int>, A_MC <int>, A_SPCRA <int>,
## #   A_PED <int>, A_PED_F <int>, A_PEDAL <int>, A_PEDAL_F <int>,
## #   A_ROLL <int>, A_POLPUR <int>, A_POSBAC <int>, A_D15_19 <int>,
## #   A_D16_19 <int>, A_D15_20 <int>, A_D16_20 <int>, A_D65PLS <int>,
## #   A_D21_24 <int>, A_D16_24 <int>, A_RD <int>, A_HR <int>, A_DIST <int>,
## #   A_DROWSY <int>
## # A tibble: 6 x 38
##    YEAR STATE ST_CASE COUNTY FATALS A_CRAINJ A_REGION  A_RU A_INTER
##   <int> <int>   <int>  <int>  <int>    <int>    <int> <int>   <int>
## 1  2015     1   10036     97      2        1        4     1       2
## 2  2015     1   10048      3      2        1        4     1       2
## 3  2015     1   10125    113      2        1        4     1       2
## 4  2015     1   10127     31      2        1        4     1       2
## 5  2015     1   10180     21      2        1        4     1       2
## 6  2015     1   10199     43      2        1        4     1       2
## # ... with 29 more variables: A_RELRD <int>, A_INTSEC <int>,
## #   A_ROADFC <int>, A_JUNC <int>, A_MANCOL <int>, A_TOD <int>,
## #   A_DOW <int>, A_CT <int>, A_LT <int>, A_MC <int>, A_SPCRA <int>,
## #   A_PED <int>, A_PED_F <int>, A_PEDAL <int>, A_PEDAL_F <int>,
## #   A_ROLL <int>, A_POLPUR <int>, A_POSBAC <int>, A_D15_19 <int>,
## #   A_D16_19 <int>, A_D15_20 <int>, A_D16_20 <int>, A_D65PLS <int>,
## #   A_D21_24 <int>, A_D16_24 <int>, A_RD <int>, A_HR <int>, A_DIST <int>,
## #   A_DROWSY <int>

## 
##  One Sample t-test
## 
## data:  ocho$volume
## t = -0.79569, df = 17892, p-value = 0.4262
## alternative hypothesis: true mean is not equal to 8945
## 95 percent confidence interval:
##  8944.993 8945.003
## sample estimates:
## mean of x 
##  8944.998
Fallamoso de rechazar la hipotesis nula porque p-value(0.4768) es mayor a 0.05

PREGUNTA 9.

Ho: Hay diferencia significativa con los accidentes respecto a los rango de edades

Ha:No hay diferencia significativa con los accidentes respecto a los rango de edades (Con un nivel de significancia de 0.05)

## # A tibble: 20 x 38
##     YEAR STATE ST_CASE COUNTY FATALS A_CRAINJ A_REGION  A_RU A_INTER
##    <int> <int>   <int>  <int>  <int>    <int>    <int> <int>   <int>
## 1   2015     1   10005     45      1        1        4     2       2
## 2   2015     1   10012     95      1        1        4     2       2
## 3   2015     1   10019    121      1        1        4     1       2
## 4   2015     1   10029     69      1        1        4     1       2
## 5   2015     1   10036     97      2        1        4     1       2
## 6   2015     1   10040     73      1        1        4     2       2
## 7   2015     1   10048      3      2        1        4     1       2
## 8   2015     1   10056      3      1        1        4     1       2
## 9   2015     1   10062     89      1        1        4     2       2
## 10  2015     1   10066    101      1        1        4     2       2
## 11  2015     1   10069     97      1        1        4     2       2
## 12  2015     1   10109     17      1        1        4     1       2
## 13  2015     1   10111    125      1        1        4     1       2
## 14  2015     1   10117      3      1        1        4     1       1
## 15  2015     1   10119    125      1        1        4     1       2
## 16  2015     1   10121     51      1        1        4     2       2
## 17  2015     1   10127     31      2        1        4     1       2
## 18  2015     1   10129     49      1        1        4     1       2
## 19  2015     1   10136    125      1        1        4     1       2
## 20  2015     1   10137     73      1        1        4     2       2
## # ... with 29 more variables: A_RELRD <int>, A_INTSEC <int>,
## #   A_ROADFC <int>, A_JUNC <int>, A_MANCOL <int>, A_TOD <int>,
## #   A_DOW <int>, A_CT <int>, A_LT <int>, A_MC <int>, A_SPCRA <int>,
## #   A_PED <int>, A_PED_F <int>, A_PEDAL <int>, A_PEDAL_F <int>,
## #   A_ROLL <int>, A_POLPUR <int>, A_POSBAC <int>, A_D15_19 <int>,
## #   A_D16_19 <int>, A_D15_20 <int>, A_D16_20 <int>, A_D65PLS <int>,
## #   A_D21_24 <int>, A_D16_24 <int>, A_RD <int>, A_HR <int>, A_DIST <int>,
## #   A_DROWSY <int>
## # A tibble: 20 x 38
##     YEAR STATE ST_CASE COUNTY FATALS A_CRAINJ A_REGION  A_RU A_INTER
##    <int> <int>   <int>  <int>  <int>    <int>    <int> <int>   <int>
## 1   2015     1   10011     83      1        1        4     2       2
## 2   2015     1   10014     11      1        1        4     1       2
## 3   2015     1   10046     17      1        1        4     2       1
## 4   2015     1   10051    109      1        1        4     2       2
## 5   2015     1   10057     49      1        1        4     1       2
## 6   2015     1   10060     49      1        1        4     1       2
## 7   2015     1   10067     81      1        1        4     2       2
## 8   2015     1   10071     95      1        1        4     2       2
## 9   2015     1   10080    101      1        1        4     1       2
## 10  2015     1   10086     89      1        1        4     2       2
## 11  2015     1   10088    127      1        1        4     1       2
## 12  2015     1   10092     81      1        1        4     2       2
## 13  2015     1   10101     59      1        1        4     1       2
## 14  2015     1   10125    113      2        1        4     1       2
## 15  2015     1   10134     55      1        1        4     1       2
## 16  2015     1   10138     55      1        1        4     2       2
## 17  2015     1   10158     73      1        1        4     1       2
## 18  2015     1   10163    101      1        1        4     2       2
## 19  2015     1   10169     89      1        1        4     1       2
## 20  2015     1   10170    113      1        1        4     1       2
## # ... with 29 more variables: A_RELRD <int>, A_INTSEC <int>,
## #   A_ROADFC <int>, A_JUNC <int>, A_MANCOL <int>, A_TOD <int>,
## #   A_DOW <int>, A_CT <int>, A_LT <int>, A_MC <int>, A_SPCRA <int>,
## #   A_PED <int>, A_PED_F <int>, A_PEDAL <int>, A_PEDAL_F <int>,
## #   A_ROLL <int>, A_POLPUR <int>, A_POSBAC <int>, A_D15_19 <int>,
## #   A_D16_19 <int>, A_D15_20 <int>, A_D16_20 <int>, A_D65PLS <int>,
## #   A_D21_24 <int>, A_D16_24 <int>, A_RD <int>, A_HR <int>, A_DIST <int>,
## #   A_DROWSY <int>

## 
##  One Sample t-test
## 
## data:  caso$volume
## t = -0.02976, df = 4752, p-value = 0.9763
## alternative hypothesis: true mean is not equal to 2376.5
## 95 percent confidence interval:
##  2376.49 2376.51
## sample estimates:
## mean of x 
##    2376.5
Fallamos de rechazar la hipotesis nula porque p-value(0.1674) es mayor a 0.05

PREGUNTA 10.

Ho: En el estado que más choques graves hay es en Mississippi y Dakota del norte y en el Estado que menos choques hay es Washington D.C.

Ha: En el estado que más choques graves hay es en California y en Nevada(por las Vegas) y en el Estado que menos choques hay es en Iowa

## [1] 13133    38
## [1] 18976    38

## 
##  One Sample t-test
## 
## data:  die$volume
## t = -0.27664, df = 18975, p-value = 0.7821
## alternative hypothesis: true mean is not equal to 9488
## 95 percent confidence interval:
##  9487.992 9488.006
## sample estimates:
## mean of x 
##  9487.999
Fallamos de rechazar la hipotesis nula porque p-value(0.153) es mayor a 0.05