Databáze dopravních nehod PČR obsahuje celkem 560 údajů o následcích u spolucestujícího cyklisty. Z toho 493 je nehod s následky na zdraví a 67 je nehod bez následků na zdraví.
Dále bylo pracováno jen s údaji o řidičích a spolucestujících - cyklistech - tedy s páry lidí, kteří spolu jeli na kole. Trend v nošení přilby v čase stoupá jak u řidičů (korelační koeficient 0.69), tak i u spolujezdců (korelační koeficient 0.5). U obou skupin je trend signifikantní.
## [1] "Mann-Kendall test u ridicu"
## tau = 0.516, 2-sided pvalue =0.0023221
## [1] "Mann-Kendall test u spolujezdcu"
## tau = 0.349, 2-sided pvalue =0.041853
Po vynesení proporcí nošení přilby mezi dvojicemi řidič-spolujezdec je zřejmé, že existuje silná korelace mezi nošením přilby i řidiče a spolujezdce. Pokud má řidič kola nasazenou přilbu, je 0.79 pravděpodobnost, že ji bude mít i spolujezdec. Poměr šancí, že bude mít spolujezdec přilbu, pokud ji má řidič kola je 16.83 ku jedné.
## spolujezdec ANO spolujezdec NE
## ridic ANO 74 20
## ridic NE 84 382
## spolujezdec ANO spolujezdec NE
## ridic ANO 0.7872340 0.2127660
## ridic NE 0.1802575 0.8197425
Rozdělení četností věku řidičů a spolucestujících má následující tvar:
## Warning: Removed 19 rows containing non-finite outside the scale range
## (`stat_bin()`).
## Warning: Removed 4 rows containing missing values or values outside the scale range
## (`geom_bar()`).
U spolucestujících je rozdělení věku silně zešikmené doleva a má pouze jeden vrchol. U řidičů má rozdělení četnosti dva vrcholy, což naznačuje přítomnost dvou skupin záznamů v datech. To potvrzuje následující graf, kde jsou věk řidičů a věk spolujezdců vyneseny do scatterplotu. Červeně jsou označeny záznamy, kdy spolujezdech měl při nehodě přilbu, zeleně jsou záznamy, kde přilbu neměl. Poznámka: body se mohou překrývat, protože může existoval více dvojic se stejný věkem řidiče i spolujezdce
## Scale for x is already present.
## Adding another scale for x, which will replace the existing scale.
## Warning: Removed 15 rows containing missing values or values outside the scale range
## (`geom_point()`).
V grafu jsou jasně patrné dva shluky protaženého tvaru. První shluk je protažen podél osy x-y a lze interpretovat jako dvojice cyklistů podobného věku. Nošení přilby spolujezdcem v této skupině je nízké. Druhá skupina je protažena ve směru osy x (věk řidiče), přičemž věk spolucestujícího se pohybuje do 10 let a věk řidiče je vyšší než 20 let. Tuto skupinu lze interpretovat jako rodiče vozící své děti. Nošení přilby spolujezdcem je v této skupině výrazně vyšší.
Pomocí shlukové analýzy lze tyto dva shluky identifikovat a porovnat nošení přileb mezi nimi. V následujícím grafu jsou potlačeny body, které do dvou hlavních shluků nespadají. Elipsy jsou orientační, neobsahují všechna data náležící do shluku.
Oba shluky se výrazně liší v hodnotě sledovaných proměnných:
## Warning: The `x` argument of `as_tibble.matrix()` must have unique column names if
## `.name_repair` is omitted as of tibble 2.0.0.
## ℹ Using compatibility `.name_repair`.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
## Shluk 1 Shluk 2
## Počet nehod 242.00 199.00
## Přilba spolujezdec % 0.07 0.58
## Přilba řidič % 0.10 0.29
## Prům. věk řidič 16.67 35.78
## Průměr věk spolujezdec 15.08 4.23
## Podíl mužů - řidič 0.76 0.48
## Podíl mužů - spolucestující 0.51 0.51
## Podíl zavinění cyklistou 0.84 0.55
## Podíl zavinění řidičem auta 0.12 0.39
## Podíl havárie 0.38 0.36
## Podíl srážka s jedoucím vozidlem 0.41 0.48
## Podíl alkohol u viníka 0.20 0.15
## Průměr rozdíl ve věku 2.36 31.55
Ve shluku 1 - rodiče vozící děti - výrazně vyšší podíl nošení přilby u spolujezdců, vyšší nošení přilby u řidičů, výrazně nižší věk spolujezdců, vyšší věk řidičů, nižší zastoupení mužů - řidičů kola, nižší podíl nehod zaviněných řidičem kola, větší rozdíl mezi věkem řidiče a spolujezdce.
Protože shluky byly identifikovány na základě věku, je logicky vysoká variabilita ve věku jak řidičů, tak i spolucestujících mezi oběma shluky.
Pravděpodobnost, že bude spojezdec při nehodě zraněn těžce nebo smrtelně je prakticky shodná pro oba shluky.
## Lehké nebo žádné zranění Těžké nebo smrtelné zranění
## Shluk 1 259 10
## Shluk 2 204 8
## Lehké nebo žádné zranění Těžké nebo smrtelné zranění
## Shluk 1 0.96282528 0.03717472
## Shluk 2 0.96226415 0.03773585
To stejné platí pro řidiče kola.
## Lehké nebo žádné zranění Těžké nebo smrtelné zranění
## Shluk 1 252 17
## Shluk 2 197 16
## Lehké nebo žádné zranění Těžké nebo smrtelné zranění
## Shluk 1 0.93680297 0.06319703
## Shluk 2 0.92488263 0.07511737
Ačkoli se nehody v obou shlucích výrazně liší v řadě parametrů včetně věku řidičů a spolucestujících; nošení přilby nebo podílu nehod zaviněných řidičem automobilu, v následcích na zdraví neexistuje prakticky žádný rozdíl.
V rámci shluků prozkoumat vztah mezi pohlavím řidičů a spolujezdců.
## Spolujezdec muž spolujezdec žena
## Řidič muž 126 77
## Řidič žena 12 54
## Spolujezdec muž spolujezdec žena
## Řidič muž 0.47 0.29
## Řidič žena 0.04 0.20
U prvního shluku pozorujeme mnohem mnohem vyšší zastoupení kombinace řidič muž - spolujezdec muž a naopak velmi nízké zastoupení kombinace řidič žena - spolujezdec muž.
Stejné srovnání lze udělat u shluku 2 - řidič a spolujezdec podobného věku.
## Spolujezdec muž spolujezdec žena
## Řidič muž 58 45
## Řidič žena 51 59
## Spolujezdec muž spolujezdec žena
## Řidič muž 0.27 0.21
## Řidič žena 0.24 0.28
U druhého shluku jsou všechny 4 kombinace pohlaví řidiče a spolujezdce zastoupeny přibližně stejně četně.
V rámci shluků prozkoumat vztah mezi nošením přilby u řidičů a spolujezdců.
Shluk 1:
## Spolujezdec - přilba spolujezdec - bez přilby
## Řidič - přilba 12 15
## Řidič - bez přilby 8 234
## Spolujezdec - přilba spolujezdec - bez přilby
## Řidič - přilba 0.04 0.06
## Řidič - bez přilby 0.03 0.87
U shluku 1 - řidič a spolujezdec podobného věku - je výrazně vyšší šance, že spolujezdec bude mít přilbu, pokud ji má řidič - poměr šancí je:
## $`Odds Ratio`
## [1] 23.4
##
## $`Confidence Interval of level 5%`
## [1] 8.305907 65.924170
Stejné srovnání lze udělat u shluku 2 - řidič a spolujezdec podobného věku a rovněž zde je signifikantně vyšší šance, že spolujezdec bude mít přilbu, pokud jí má řidič.
## Spolujezdec - přilba spolujezdec - bez přilby
## Řidič - přilba 55 4
## Řidič - bez přilby 67 87
## Spolujezdec - přilba spolujezdec - bez přilby
## Řidič - přilba 0.26 0.02
## Řidič - bez přilby 0.31 0.41
odds.ratio(tbl_cl2_prilba,conf.int = TRUE)
## $`Odds Ratio`
## [1] 17.85448
##
## $`Confidence Interval of level 5%`
## [1] 6.162242 51.731553
V obou případech je šance, že spolujezdec bude mít přibu, pokud ji má řidič cca 17 ku jedné.
Pro oba shluky lze udělat statistický model (logistická regrese) a zjistit, který soubor faktorů nejlépe vysvětluje nošení přilby spolujezdcem.
##
## Call:
## glm(formula = prilba_spolucestujici ~ prilba_ridic + vek_spolucestujici +
## rok + pohlavi_spolucestujici, family = "binomial", data = subset(clustdata,
## cluster == 1))
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -1.64845 -0.28535 -0.16712 -0.09779 2.92640
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -197.51632 104.61444 -1.888 0.05902 .
## prilba_ridicne -3.46735 0.66217 -5.236 1.64e-07 ***
## vek_spolucestujici -0.19391 0.06257 -3.099 0.00194 **
## rok 0.09884 0.05194 1.903 0.05705 .
## pohlavi_spolucestujicif 1.25045 0.66642 1.876 0.06060 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 142.43 on 268 degrees of freedom
## Residual deviance: 90.02 on 264 degrees of freedom
## AIC: 100.02
##
## Number of Fisher Scoring iterations: 7
U prvního shluku - řidič a spolujezdec podbného věku - jsou v nejlepším modelu zahrnuty tyto proměnné:
##
## Call:
## glm(formula = prilba_spolucestujici ~ prilba_ridic + vek_spolucestujici +
## vek_ridic, family = "binomial", data = subset(clustdata,
## cluster == 2))
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -2.7338 -0.8902 0.2794 0.9033 2.3662
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 2.17946 1.09443 1.991 0.0464 *
## prilba_ridicne -2.56487 0.56581 -4.533 5.81e-06 ***
## vek_spolucestujici -0.43161 0.08936 -4.830 1.36e-06 ***
## vek_ridic 0.05779 0.02910 1.986 0.0470 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 290.75 on 212 degrees of freedom
## Residual deviance: 210.26 on 209 degrees of freedom
## AIC: 218.26
##
## Number of Fisher Scoring iterations: 5
U druhého shluku - rodiče a děti:
Značné rozdíly jsou v čase, kdy se nehody v obou shlucích dějí. Ve shluku 1 - rodiče a děti - pozorujeme peak ráno okolo sedmé hodiny a dále velký počet nehod, které se stanou odpoledne mezi 15 a 18 hodinou. U sdhluku 2 - řidič a spolujezdec podobného věku - se prakticky všechny nehody dějí mezi 15 a 20 hodinou, nejvíce nehod se stane okolo 19 hodiny.
U shluku dva je rovněž vyšší podíl nehod v noci. Šance, že nehoda se stala v noci je 0 krát vyšší (rozdíl je statisticky významný).
U obou shluků dochází k největšímu podílu nehod v pátek. Vetší rozdíl ve frekvenci je pouze u pondělí, kdy se častěji dějí nehody ve shluku 1 (rodiče-děti) neže ve shluku 2. Zajímavé je, že o víkendu se děje hodně nehod ive shluku 1, což ukazuje, že tento shluk netvořípouz nehody během dojížďky.
Ve shluku 1 je výrazně nižší šance, že řidič bude mít přilbu, pokud se nehoda stala ve všední den. O víkendu je šance na nošení přilby u řidiče téměř 5 krát vyšší.
## $`Odds Ratio`
## [1] 0.9092857
##
## $`Confidence Interval of level 5%`
## [1] 0.3799096 2.1763086
U spolujezdce je také nošení přilby vyšší ve všední den než o víkendu. Poměr šancí ale nevychází jako statisticky významný.
## $`Odds Ratio`
## [1] 0.8944444
##
## $`Confidence Interval of level 5%`
## [1] 0.3304276 2.4211985
Zatímo nehod ve shluku 2 počet nehod v čase mírně, ale konstantně stoupá u shluku 1 je zajímavější trend připomínající písmeno U. Mezi lety 2006 a 2015 došlo k poklese počtu nehod v tomto shluku na polovinu, ale v posledních letech se počet nehod opět zvýšil.
Ve dvou identifikovaných shlucích se nachází 85 % nehod.
První shluk tvoří nehody, kdy řidič a spolujezdec mají velmi podobný věk (průměrný rozdíl je cca 2,5 roku), většinou mezi 10 a 30 lety. Nošení přilby jak řidičem tak i spolujezdcem je nízké v řádu jednotek procent. Nehody se dějí častěji v noci. 85 % nehod je zaviněno řidičem kola a ve 20 % případů je u viníka přítomen alkohol. U spolucestujících jsou obě pohlaví zastoupena rovnoměrně, ale tři čtvrtiny řidičů kol jsou muži.
Druhý shluk tvoří nehody a dětí. Věk řidičů je mezi 20 a 55 lety a věk dětí do 10 let. Přilbu nosí přes 50 % dětí a 25 % řidičů. Nejvíce nehod se děje okolo sedmé hodiny raní a poté mezi 15 a 17 hodinou. Tři čtvrtiny nehod se stanou ve všední den. Většina nehod se stane ve dne za dobré viditelnosti. Počet nehod velmi lehce stoupá. Jen jedna nehoda z 10 je zaviněná řidičem kola. Obě pohlaví jsou rovnoměrně zastoupena mezi řidiči i cestujícími.
Je pozoruhodné, že ačkoli se oba shluky znatelně liší v nošení přilby jak řidičem tak spolujezdcem, tak následky u obou shluků jsou prakticky totožné. U Většina evidovaných nehod je s lehkým zraněním. Nehod s těžkými zraněními jsou jednotky u obou shluků a smrtelná nehoda byla pouze jedna.
V celém datasetu nehod cyklistů se však následky mezi řidiči a spolujezdci liší. V následujícím grafu jsou mezi řidiče počítáni všichni řidiči cyklisté - i ti, kteří jeli na kole v okamžik nehody sami (takových je drtivá většina).
Řidiči obecně mají vyšší šanci, že budou mít následky na zdraví než spolujezdci.
Pokud ale srovnáme následky řidičů a spolujezdců jenu těch nehod, kde byl spolujezdec přítomný, tak jsou rozdíly minimální.