לפי נתוני ארגון הבריאות העולמי, כ-1.2 מיליון בני אדם נהרגים ועד 30 מיליון נפצעים בתאונות דרכים מדי שנה ברחבי העולם. מספר סיבות וגורמים תורמים לכך שתאונות דרכים נחשבות כדאגה משמעותית לבריאות הציבור, במיוחד עם הזדקנות האוכלוסייה ותאונות דרכים שבהן מעורבים נהגים מבוגרים.
המחקר הנוכחי חוקר משתנים שונים המשפיעים על מספר תאונות הדרכים בקבוצות גיל שונות. על ידי ניתוח נתוני תאונות בעולם האמיתי, אנו שואפים לזהות דפוסים וגורמי סיכון המשפיעים על נהגים קשישים. נבדקה תדירות התאונות לפי תנאי מזג האוויר, סוגי תאונות ורמות חומרה, באמצעות אימות צולב של כל פרמטר. קבוצות הגיל של הנהגים סווגו לפי תעריפי ביטוח רכב “מגדל”. הנתונים לקחו מהלשכה המרכזית לסטטיסטיקה.
מטרת מחקר זה, היא לספק הבנה מעמיקה יותר של הגורמים המשפיעים על תאונות דרכים בקרב נהגים קשישים, במטרה לפתח אסטרטגיות והתערבויות לשיפור בטיחותם בדרכים.
ספריות שנעשה בהן שימוש לטובת שאלת מחקר זו:
library(tidyverse)#includes ggplot2, dplyr and tidyr packages
library(ggplot2)
library(plotly) #3D graphs, statistical charts, SVG maps, financial charts etc.
library(plotrix) #provides plotting, labeling, and axis & color scaling functions
library(car) #contains mostly functions for applied regression,linear models and generalized linear models, with an emphasis on regression diagnostics.
library(DescTools) #Mode function
library(gmodels)#Tools for fitting linear models that complement those in base R
library(ggstatsplot)# plotting a stacked bar graph
library(data.table)
library(reshape2)
library(vcd)
library(fmsb)
library(stats)
library(MESS)#Goodman Kruskal Gamma Correlationהעלה של הקבצים שאיתם אנו נעבוד: שימוש בקבצים המורכבים של הלמ”סת 3 שנים שונות (2015,2016,2018 – ללא שנת קורונה) קיימים סך הכל 50 משתנים שונים
חילוק קבוצות לפי ביטוח רכב “מגדל”:
עד גיל 24: נהגים חדשים (15-19): פרמיה גבוהה מאוד , נהגים צעירים (20-24): פרמיה גבוה
נהגים ותיקים: (25-29): פרמייה נמוכה יותר בהשוואה לנהגים צעירים עקב ניסיום רב ,(30-49) : פרמייה זולה משמעותית, נהגים עם וותק רק ונחשבים אחריים (משפחה,הורים)
נהגים מבוגרים: (50-69): ירידה נוספות בפרמייה
נהגים בגיל הצהב: (70-85): פרמייה גבוהה יחיסת וקיימת אפשרות ביטוח לארח שיחת התייצות עם רופא ואישור וועדת חריגים.
חיבור הקבצים השונים ובדיקה על דימיון בין השנים:
## [1] 1
## attr(,"freq")
## [1] 12654
## Bright Rainy Foggy HeatWave
## Min. :3860 Min. :327.0 Min. :0.000 Min. : 0.00
## 1st Qu.:4038 1st Qu.:469.5 1st Qu.:2.000 1st Qu.:11.00
## Median :4216 Median :612.0 Median :4.000 Median :22.00
## Mean :4218 Mean :573.7 Mean :3.333 Mean :23.33
## 3rd Qu.:4397 3rd Qu.:697.0 3rd Qu.:5.000 3rd Qu.:35.00
## Max. :4578 Max. :782.0 Max. :6.000 Max. :48.00
## [1] 1
## attr(,"freq")
## [1] 12496
## Bright Rainy HeatWave
## Min. :3289 Min. :365.0 Min. : 2.0
## 1st Qu.:3824 1st Qu.:647.0 1st Qu.:11.5
## Median :4359 Median :929.0 Median :21.0
## Mean :4165 Mean :754.3 Mean :15.0
## 3rd Qu.:4604 3rd Qu.:949.0 3rd Qu.:21.5
## Max. :4848 Max. :969.0 Max. :22.0
## [1] 1
## attr(,"freq")
## [1] 11657
## Bright Rainy Foggy HeatWave
## Min. :2978 Min. : 258.0 Min. : 0.000 Min. : 0.000
## 1st Qu.:3520 1st Qu.: 565.0 1st Qu.: 2.000 1st Qu.: 0.000
## Median :4063 Median : 872.0 Median : 4.000 Median : 0.000
## Mean :3886 Mean : 769.7 Mean : 6.333 Mean : 7.667
## 3rd Qu.:4340 3rd Qu.:1025.5 3rd Qu.: 9.500 3rd Qu.:11.500
## Max. :4616 Max. :1179.0 Max. :15.000 Max. :23.000
אפשר לראות ש3 השנים מאוד דומים בתאונות הדרכים בחודשי החורף. בולט הוא שב2016 לא מועפים תאונות דרכים במזג אוויר ערפלי. עקב זה שבשנים האחרות אתונות דרכים עם מזג אוויר ערפל הוא אפסי, אנו לא מתייחסים לנתון החוסר זה. מפה נסיק שניתן לחבר בין 3 הטבלאות.
הצגה גרפית של תדירות תאונות הדרכים לפי חודשי השנה:
חיבור בין 3 הדטאות השונים:
:::
:::
בתרשים זה מאוד ברור לראות שהמשתנה מזג אוויר לא מספיק “משתנה”.
הקטגוריה “בהיר” הכי דומיננטית. כדי לטפל בביעה זו החלתתי להתרכז
רק בחודשי החורב (ינאור, בפרואר ודצמבר) בשנים אלו
ובנוסף להוסיף משתנה “יום ולילה”. ב4 תרשימים האבהים אפשר לראות
תהליך המתאר את החיתוך של הנתונים מחדש, עד העגה לטבלת נתונים שאיתם נמשיך
לבצע מבחנים סטטיסטים כדי לענות על שאלת המחקר.
הצגת שינוי הנתונים על ידי גרפי עוגה תלת מימדיים:
Figure 1
Figure 2
Figure 3
גרף עוגה 1: מתאר את המצב הנוכחי שבו פילוח בין קטגוריאה מזג אוויר לא קיימת, אלה אנו ראוים קטגוריאת “בהיר” מול שער הקטגוריות (Figure1).
גרף עוגה 2 משמאל: מארה פילוח אחרי הוספת משתנה “יום ולילה”. חילוק לתאונות דרכים בו היה בהיר יום, בהיר לילה ,כלל הקטגורויות האחרות של מזג אוויר ואחר. (Figure2 שמאל)
גרף עוגה 3 ימין: מראה את הפליוח של רק משתנה מזג אוויר קיצוני. אפשר לראות שתדירות תאונות הדרכים בו היה מזג אוויר ערפל או שרבי הוא אפסי, לכן חידדתי את כלל מזג אוויר אלו לקבוצה אחד. כפי שאפשר לראות לפי הצבעים (Figure2 ימין).
גרף עוגה 4: מראה פילוח חדש בין מזג אוויר בהיר יום לבין מזג אוויר קיצוני ,שהוא כולל בהיר לילה ושער המזג אוויר הקיצונים (Figure3).
עם פילוח נתונים של הגרף עוגה האחרון (Figure3) אנו נמשיך את החקירה
וביצוע מבחנים סטטיסטים.
המסביר על בניית גרף
עוגה תלת מידמ על ידי חבילה plotrix
נבצע בדיקה זו על ידי מבחן חי בריבוע. להלן ההשערות המבחן:
H0: משתנה מזג אוויר ומשתנה קבוצות גיל בלתי תלויים.
H1: משתנה מזג אוויר ומשתנה קבוצות גיל תלויים.
השערת המחקר: אנו משערות שאכן יהיה קיים תלות בין תדירות תאונות הדרכים במצבי מזג אוויר לבין קבוצות הגיל
במבחן חי בריבוע של פירסון, השערת האפס היא שאין קשר בין שני המשתנים
הקטגוריים (קבוצות גיל ותנאי מזג אוויר). ערך p מייצג את ההסתברות לצפייה
בנתונים או בתוצאות קיצוניות יותר בהנחה שהשערת האפס נכונה.
כדי לבצע את המבחן נבדוק האם מתקיימות הנחות המודל:
כל ההנחות מתקיימות, לכן נבצע מבחן זה.
בכדי להשוות בין קבוצות הגיל השונות ביחס תאונות לדרכים במזג אוויר אנו
מבצעים טבלה המאפשרת לראות את האחוזים השונים לפי כל משתנה ובנוסף מבצעת
מבחן חי בריבוע. הצגה זו מאפשרת השווה בין הקבוצות הגיל ומזג אוויר.
(בדוגמה: ערך של קבוצת גיל 15-19 - בהיר:)
ערך ראשון במשבצת (1016) מארה את תדהירות תאונות הדרכים של קבוצה זו במזג אוויר בהיר.
ערך שני במשבצת (0.362) מראה את החלק של בהיר בתוך סך הכל תאונות דריכים בקרב גילאים 15-19.
ערך שלישי במשבצת (0.056) מראה את החלק של קבוצת הגיל 15-19 בתוך סך הכל תאונות הדרכים במזג אוויר בהיר.
ערך רביעי במשבצת (0.027) נראה את החלק של בהיר וקבוצת הגיל 15-19 ביחס לכלל הנתונים
#Cross Table Weather Condition & Age Groups with Chi Square Test:
mytable <- CrossTable(subset_dataConditionsAge$KVUZA_GIL,
subset_dataConditionsAge$MEZEG_AVIR,
digits = 3, chisq = TRUE, prop.chisq = FALSE)##
##
## Cell Contents
## |-------------------------|
## | N |
## | N / Row Total |
## | N / Col Total |
## | N / Table Total |
## |-------------------------|
##
##
## Total Observations in Table: 37928
##
##
## | subset_dataConditionsAge$MEZEG_AVIR
## subset_dataConditionsAge$KVUZA_GIL | bright | extreme | Row Total |
## -----------------------------------|-----------|-----------|-----------|
## 15-19 | 1016 | 1787 | 2803 |
## | 0.362 | 0.638 | 0.074 |
## | 0.056 | 0.090 | |
## | 0.027 | 0.047 | |
## -----------------------------------|-----------|-----------|-----------|
## 20-24 | 2009 | 3179 | 5188 |
## | 0.387 | 0.613 | 0.137 |
## | 0.111 | 0.160 | |
## | 0.053 | 0.084 | |
## -----------------------------------|-----------|-----------|-----------|
## 25-29 | 2141 | 2711 | 4852 |
## | 0.441 | 0.559 | 0.128 |
## | 0.118 | 0.137 | |
## | 0.056 | 0.071 | |
## -----------------------------------|-----------|-----------|-----------|
## 30-49 | 7127 | 7171 | 14298 |
## | 0.498 | 0.502 | 0.377 |
## | 0.394 | 0.361 | |
## | 0.188 | 0.189 | |
## -----------------------------------|-----------|-----------|-----------|
## 50-69 | 4220 | 4093 | 8313 |
## | 0.508 | 0.492 | 0.219 |
## | 0.233 | 0.206 | |
## | 0.111 | 0.108 | |
## -----------------------------------|-----------|-----------|-----------|
## 70-85 | 1575 | 899 | 2474 |
## | 0.637 | 0.363 | 0.065 |
## | 0.087 | 0.045 | |
## | 0.042 | 0.024 | |
## -----------------------------------|-----------|-----------|-----------|
## Column Total | 18088 | 19840 | 37928 |
## | 0.477 | 0.523 | |
## -----------------------------------|-----------|-----------|-----------|
##
##
## Statistics for All Table Factors
##
##
## Pearson's Chi-squared test
## ------------------------------------------------------------
## Chi^2 = 650.1386 d.f. = 5 p = 2.95476e-138
##
##
##
במקרה זה, ערך ה-p טן מאוד קטן (2.95476e-138), מה שמצביע על ראיות חזקות נגד השערת האפס. לכן, אנו דוחים את השערת האפס ומסיקים שיש קשר מובהק בין קבוצות גיל ותנאי מזג אוויר
נבצע עוצמת הקשר על ידי מבחן Goodman
Kruskal´s Gamma Correlation הוא מדד סטטיסטי המודד את חוזק
וכיוון הקשר בין שני משתנים אורדינאלים.
הערך של מקדם הגמא הוא בין -1 ל-+1. ככל שהערך קרוב יותר לקצוות הקיצוניים,
כלומר 1- או 1, כך הקשר בין המשתנים חזק יותר.
מקורות:
#GoodMan Kruskal Gamma Correlation Age Groups - Weather Condition::
mytable <- table(subset_dataConditionsAge$MEZEG_AVIR,
subset_dataConditionsAge$KVUZA_GIL)
gkgamma(mytable)##
## Goodman-Kruskal's gamma for ordinal categorical data
##
## data: mytable
## Z = -23.56, p-value < 2.2e-16
## 95 percent confidence interval:
## -0.1880999 -0.1593868
## sample estimates:
## Goodman-Kruskal's gamma
## -0.1737434
ניתן לראות שהערך הוא שלילי ונופל בין 0 ל1 כלומר מהווה קשר חלש. קיים קשר שלישי בין המשתנים אך חלש.
#Cross Table Severity and & Age Groups with Chi Square Test:
mytable <- CrossTable(subset_dataYearSeverAge$KVUZA_GIL,
subset_dataYearSeverAge$HUMRAT_TEUNA,
digits= 3, chisq = TRUE,prop.chisq = FALSE)##
##
## Cell Contents
## |-------------------------|
## | N |
## | N / Row Total |
## | N / Col Total |
## | N / Table Total |
## |-------------------------|
##
##
## Total Observations in Table: 19840
##
##
## | subset_dataYearSeverAge$HUMRAT_TEUNA
## subset_dataYearSeverAge$KVUZA_GIL | fatal | severe | slight | Row Total |
## ----------------------------------|-----------|-----------|-----------|-----------|
## 15-19 | 78 | 258 | 1451 | 1787 |
## | 0.044 | 0.144 | 0.812 | 0.090 |
## | 0.102 | 0.108 | 0.087 | |
## | 0.004 | 0.013 | 0.073 | |
## ----------------------------------|-----------|-----------|-----------|-----------|
## 20-24 | 133 | 427 | 2619 | 3179 |
## | 0.042 | 0.134 | 0.824 | 0.160 |
## | 0.175 | 0.179 | 0.157 | |
## | 0.007 | 0.022 | 0.132 | |
## ----------------------------------|-----------|-----------|-----------|-----------|
## 25-29 | 81 | 336 | 2294 | 2711 |
## | 0.030 | 0.124 | 0.846 | 0.137 |
## | 0.106 | 0.141 | 0.137 | |
## | 0.004 | 0.017 | 0.116 | |
## ----------------------------------|-----------|-----------|-----------|-----------|
## 30-49 | 261 | 757 | 6153 | 7171 |
## | 0.036 | 0.106 | 0.858 | 0.361 |
## | 0.343 | 0.317 | 0.369 | |
## | 0.013 | 0.038 | 0.310 | |
## ----------------------------------|-----------|-----------|-----------|-----------|
## 50-69 | 179 | 480 | 3434 | 4093 |
## | 0.044 | 0.117 | 0.839 | 0.206 |
## | 0.235 | 0.201 | 0.206 | |
## | 0.009 | 0.024 | 0.173 | |
## ----------------------------------|-----------|-----------|-----------|-----------|
## 70-85 | 29 | 128 | 742 | 899 |
## | 0.032 | 0.142 | 0.825 | 0.045 |
## | 0.038 | 0.054 | 0.044 | |
## | 0.001 | 0.006 | 0.037 | |
## ----------------------------------|-----------|-----------|-----------|-----------|
## Column Total | 761 | 2386 | 16693 | 19840 |
## | 0.038 | 0.120 | 0.841 | |
## ----------------------------------|-----------|-----------|-----------|-----------|
##
##
## Statistics for All Table Factors
##
##
## Pearson's Chi-squared test
## ------------------------------------------------------------
## Chi^2 = 48.81474 d.f. = 10 p = 4.404316e-07
##
##
##
במקרה זה, ערך ה-p מאוד קטן (4.404316e-07), מה שמצביע על ראיות חזקה נגד השערת האפס. לכן, אנו דוחים את השערת האפס ומסיקים שיש קשר מובהק בין קבוצות גיל ותנאי מזג אוויר.
נבצע עוצמת הקשר על ידי מבחן Goodman Kruskal´s Gamma Correlation:
#GoodMan Kruskal Gamma Correlation Age Groups - Severity:
mytable <- table(subset_dataYearSeverAge$KVUZA_GIL, subset_dataYearSeverAge$HUMRAT_TEUNA)
gkgamma(mytable)##
## Goodman-Kruskal's gamma for ordinal categorical data
##
## data: mytable
## Z = 2.4395, p-value = 0.01471
## 95 percent confidence interval:
## 0.006733192 0.061213346
## sample estimates:
## Goodman-Kruskal's gamma
## 0.03397327
קיים קשר חיובי אך חלש בין המתשני תאונות דרכים במזג אוויר קיצוני בקבוצות הגיל לחומרת התאונה. ערך הגמה נופל בין 0ל 1 שזו מצביע על קשר חלש.
מכיוון שהנתונים לא מתפלגים נורמלית אנו מבצעים מבחן אי-פרמטרי שבודק אם קיים הבדל בתדירות תאונת הדרכים בין קבוצות הגיל וחומרת התאונה שאנו נמצאים במצב מזג אוויר קיצוני.
מבחן Kruskal Wallis: להלן ההשערות המבחן:
H0: אין הבדל בהשפעת חומרת התאונה על כמות תאונות בין קבוצות הגיל
H1: יש הבדל בהשפעת חומרת התאונה על כמות תאונות בין קבוצות הגיל
וקבוצות הגיל הכי מסוכנות
השערת המחקר: אנו משערות שאכן יהיה קיים הבדל.
הנחות המודל:
הנחות המודל מתקיימות לכן נבצע את המבחן.
:::
#Kruskal Wallis inside of extreme weather condition:
kruskal.test(Frequency ~ Age_Group, data = subset_dataYearSeverAge)##
## Kruskal-Wallis rank sum test
##
## data: Frequency by Age_Group
## Kruskal-Wallis chi-squared = 25.618, df = 5, p-value = 0.0001058
אפשר לראות שערך ה- p-value הוא נמוך מ-0.05 לכן נדחה את השערת האפס ונסיק כי יש הבדל בין תדירויות של קבוצות הגיל ביחס לחומרת התאונה במזג אוויר קיצוני.
כדי לבדא אחזה קבוצות גיל מבצעת הכי הרבה תאונות דרכים מסוכניות, כלומר קטלניות או קשות, אנו נבנה גרך בר באחוזים שמאפשר השוואה בין הקבוצות השונות.
גרף בר:
בגרף זה ניתן לראות שבמצטבר קבוצות הגיל 15-19, כלומר נהג חדש, וקבוצת 20-24, נהג צעיר, מבצעים הכי הרבה תאונות דרכים מסוכנות.
מקורות:
מדריך ביצוע גרף רדר בשפת
R, מדריך
נוסף
בכדי לבדוק האם קיים קשר ליניארי בין משתנה קבוצות הגיל למשתנה חומרת
התאונה, שניהם בסולם אורדינלי ביחס לדרגות של מזג אוויר השונה, אנו נשתמש
במבחן Mantel Haenszel Test:
להלן ההשערות המבחן:
H0: כמות תאונות הדרכים של כל רמת מזג אוויר לא תלויה בחומרת התאונה
וקבוצות הגיל הכי מסוכנות
H1: כמות תאונת הדרכים של כל רמת מזג אוויר תלויה בחומרת התאונה
העשרת החוקר: אנו משערות שאכן יהיה קיים הבדל
#Mantel Haetzel Test: checking relation between 2 ordinal variabales:
mantelhaen.test(data_Mantel$KVUZA_GIL,
y = data_Mantel$HUMRAT_TEUNA,
z = data_Mantel$MEZEG_AVIR, alternative = "greater")##
## Mantel-Haenszel chi-squared test with continuity correction
##
## data: data_Mantel$KVUZA_GIL and data_Mantel$HUMRAT_TEUNA and data_Mantel$MEZEG_AVIR
## Mantel-Haenszel X-squared = 0.69473, df = 1, p-value = 0.2023
## alternative hypothesis: true common odds ratio is greater than 1
## 95 percent confidence interval:
## 0.9032799 Inf
## sample estimates:
## common odds ratio
## 1.131291
אפשר לראות שערך ה-p-value לא נמוך מ-0.05 (0.2023) לכן לא נדחה את השערת האפס ונסיק כי כמות תאונות הדרכים של כל רמת מזג אוויר לא תלויה בחומרת התאונה וקבוצות הגיל הכי מסוכנות. התוצאות מצביעות על קשר חלש, לא מובהק סטטיסטית בין החשיפה לתוצאה כאשר בוחנים תנאי מזג אוויר שונים. אמנם עשויה להיות מגמה של קשר חיובי (עלייה בסיכויים לתוצאה עם החשיפה), זו לא חד משמעית.
מבחן ANOVA דו כיווני, כאשר:
Y - משתנה נומרי המייצג את כמות התאונות
X1 - משתנה קטגוריאלי המייצג קבוצת גיל
X2 - משתנה קטגוריאלי המייצג סוג תאונה
המודל: 𝒀 = 𝝁 + 𝜶𝒊 + 𝜷𝒋 + 𝜸𝒊𝒋 + 𝜺𝒊𝒋
השערת המחקר: גיל הנהג משפיע על סוג תאונת הדרכים שיעשה.
מבחן השערות:
עפ”י השערת H0 - לא קיים הבדל בסוג התאונות שביצעו נהגים בגילאים שונים.
עפ”י השערת H1 - קיים הבדל בסוג התאונות שביצעו נהגים בגילאים שונים.
ניתן לראות בניתוח את הערכים הבאים:
מינימום, מקסימום, ממוצע, חציון וסטיית תקן של כמות סוגי התאונות בשנת 2022.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 364 625 2042 2543 2314 9759
## [1] 3002.593
בנוסף, ניתן לראות את סוג התאונה הנפוץ ביותר, ואת קבוצת הגיל שעשתה את כמות התאונות הגבוהה ביותר מבין כל קבוצות הגיל בשנת 2022.
## [1] "side collision"
## attr(,"freq")
## [1] 9759
## [1] "50-69"
## attr(,"freq")
## [1] 4990
ניתן לראות כבר בהסתכלות ראשונית שסוגי התאונה הנפוצים ביותר הם “התנגשות צד” ו- “פגיעה בהולך רגל”.
ראשית נבצע מבחן Chi-squared, שבאמצעותו נבדוק האם קיימת תלות בין המשתנים.
##
## collision with not alive object head-on collision
## 15-19 138 220
## 20-24 138 441
## 25-29 73 300
## 30-39 96 466
## 40-49 77 365
## 50-69 112 405
## 70-85 95 117
##
## injury to pedestrian other overturning rear-end collision
## 15-19 340 57 86 150
## 20-24 374 74 86 312
## 25-29 396 70 37 298
## 30-39 624 87 57 472
## 40-49 633 79 50 408
## 50-69 1180 144 51 522
## 70-85 823 114 24 128
##
## side by side collision side collision slip
## 15-19 153 833 43
## 20-24 310 1489 87
## 25-29 287 1271 46
## 30-39 398 1873 55
## 40-49 329 1530 51
## 50-69 406 2106 64
## 70-85 159 657 18
##
## Pearson's Chi-squared test
##
## data: chisq_table
## X-squared = 1310.9, df = 48, p-value < 2.2e-16
P-value < 5% : לכן נדחה את H0 ברמת מובהקות של 5%, ונסיק שקיים קשר בין קבוצות הגיל השונות לסוג תאונת הדרכים שיבצעו.
לאחר שמצאנו שאכן קיים קשר מובהק בין קבוצת הגיל לסוג התאונה, נבדוק את עוצמת הקשר בין המשתנים על-ידי מבחן Crame’rs V.
:::
## X^2 df P(> X^2)
## Likelihood Ratio 1201.9 48 0
## Pearson 1310.9 48 0
##
## Phi-Coefficient : NA
## Contingency Coeff.: 0.233
## Cramer's V : 0.098
Crame’rs V מודד את עוצמת הקשר בין שני משתנים קטגוריים. המדד נע בין 0 ל-1, כאשר 0 מציין היעדר קשר ו-1 מציין קשר מושלם. Crame’rs V = 0.098 מה שמעיד על עוצמה חלשה-בינונית.
מסקנה:
המבחן מצביע על קשר מובהק סטטיסטית בין שני המשתנים, אך עוצמת הקשר חלשה-בינונית.
לאחר ביצוע מבחן cramer’s שבודק לי את עוצמת הקשר בין שני המשתנים המסבירים, נציג את תוצאות המבחן באמצעות גרף קורלציה.
כאשר צפיפות הנקודות גבוהה זה מצביע על קורלציה חזקה בין המשתנים, וכאשר צפיפות הנקודות נמוכה זה מצביע על קורלציה נמוכה בין המשתנים.
לפני ביצוע מבחן Anova אנו מוכרחים לבדוק שהנחת הנורמליות אכן מתקיימת, ולכן נבצע את מבחן שפירו לבדיקת התפלגות נורמאלית
##
## Shapiro-Wilk normality test
##
## data: df_grouped$Percentage
## W = 0.71752, p-value = 1.057e-09
p-value<0.05 ולכן נדחה את השערת האפס, ונסיק שנתוני התדירות אינם מתפלגים נורמלית.
## [1] 52 53
באמצעות מבחן שפירו ותרשים QQplot הגעתי למסקנה שהנתונים אינם מתפלגים נורמאלית ולכן לא אוכל לענות על שאלת המחקר שלי ע”י מודל ANOVA. מסקנה- צריך לעבור למבחנים א-פרמטריים.
מבחן קרוסקל וואליס: מבחן סטטיסטי א-פרמטרי המשמש להשוואת שתי קבוצות או יותר כאשר המשתנה הכמותי אינו מתפלג נורמלית.
##
## Kruskal-Wallis rank sum test
##
## data: SUG_TEUNA by KVUZA_GIL
## Kruskal-Wallis chi-squared = 214.95, df = 6, p-value < 2.2e-16
P-value< 5% ולכן נדחה את H0, ונסיק ברמת מובהקות של 5% שקיים הבדל מובהק סטטיסטי בין לפחות שתי קבוצות הגיל השונות, בסוג התאונה שיבצעו.
ניתן לראות לפי המקרא מימין שככל שהצבע בהיר יותר כך תדירות התאונה מסוג מסוים גבוהה יותר. ניתן לראות שסוג התאונה “פגיעה בהולך רגל” בקרב הנהגים בגילאי 70-85 מהווה את האחוז הגבוה ביותר מבין כל שאר סוגי התאונות.
Heat Map,קישור לRPpubs (עבור תרשים חום)
Statistics for EES and others, Comparing more than two groups,Dirk Metzler, June 13, 2023 Multiple testing, ANOVA and Kruskal-Wallis
RVAideMemoire (version 0.9-83-7), cramer.test: Cramer’s association coefficient
Community contributions for EDAV Fall 2019 2019-12-13,BoodDown
Dan Chaltiel, 2023-11-12,Introduction to Crosstable
Paul W. Egeler, M.S., GStat 2023-12-10, Introduction to the Cochran Mantel Test
גרפים, GSTAT, 2016-05-29
הלמ”ס, הלשכה המרכזית לסטטיסטיקה של ישראל
Central Bureau of Statistics, 1997- 2024 The State of Israel, link