רקע:

לפי נתוני ארגון הבריאות העולמי, כ-1.2 מיליון בני אדם נהרגים ועד 30 מיליון נפצעים בתאונות דרכים מדי שנה ברחבי העולם. מספר סיבות וגורמים תורמים לכך שתאונות דרכים נחשבות כדאגה משמעותית לבריאות הציבור, במיוחד עם הזדקנות האוכלוסייה ותאונות דרכים שבהן מעורבים נהגים מבוגרים.

המחקר הנוכחי חוקר משתנים שונים המשפיעים על מספר תאונות הדרכים בקבוצות גיל שונות. על ידי ניתוח נתוני תאונות בעולם האמיתי, אנו שואפים לזהות דפוסים וגורמי סיכון המשפיעים על נהגים קשישים. נבדקה תדירות התאונות לפי תנאי מזג האוויר, סוגי תאונות ורמות חומרה, באמצעות אימות צולב של כל פרמטר. קבוצות הגיל של הנהגים סווגו לפי תעריפי ביטוח רכב “מגדל”. הנתונים לקחו מהלשכה המרכזית לסטטיסטיקה.

מטרת מחקר זה, היא לספק הבנה מעמיקה יותר של הגורמים המשפיעים על תאונות דרכים בקרב נהגים קשישים, במטרה לפתח אסטרטגיות והתערבויות לשיפור בטיחותם בדרכים.

1.1 האם קיים קשר בתדירות תאונות הדרכים בין מזג האוויר לקבוצות הגיל השונות? {אמלי בין סדון}

ספריות שנעשה בהן שימוש לטובת שאלת מחקר זו:

library(tidyverse)#includes ggplot2, dplyr and tidyr packages 
library(ggplot2)
library(plotly) #3D graphs, statistical charts, SVG maps, financial charts etc.
library(plotrix) #provides plotting, labeling, and axis & color scaling functions
library(car) #contains mostly functions for applied regression,linear models and generalized linear models, with an emphasis on regression diagnostics.
library(DescTools) #Mode function
library(gmodels)#Tools for fitting linear models that complement those in base R 
library(ggstatsplot)# plotting a stacked bar graph
library(data.table)
library(reshape2)
library(vcd)
library(fmsb)
library(stats)
library(MESS)#Goodman Kruskal Gamma Correlation

סטטיסטיקה תיאורית:

העלה של הקבצים שאיתם אנו נעבוד: שימוש בקבצים המורכבים של הלמ”סת 3 שנים שונות (2015,2016,2018 – ללא שנת קורונה) קיימים סך הכל 50 משתנים שונים

חילוק קבוצות לפי ביטוח רכב “מגדל”:

חיבור הקבצים השונים ובדיקה על דימיון בין השנים:

2015:

#Most frequent Weather Condition2015:
Mode(Data2015Winter_1$MEZEG_AVIR)
## [1] 1
## attr(,"freq")
## [1] 12654
summary(subset_matrix2015Winter)
##      Bright         Rainy           Foggy          HeatWave    
##  Min.   :3860   Min.   :327.0   Min.   :0.000   Min.   : 0.00  
##  1st Qu.:4038   1st Qu.:469.5   1st Qu.:2.000   1st Qu.:11.00  
##  Median :4216   Median :612.0   Median :4.000   Median :22.00  
##  Mean   :4218   Mean   :573.7   Mean   :3.333   Mean   :23.33  
##  3rd Qu.:4397   3rd Qu.:697.0   3rd Qu.:5.000   3rd Qu.:35.00  
##  Max.   :4578   Max.   :782.0   Max.   :6.000   Max.   :48.00

2016:

#Most frequent Weather Condition2016:
Mode(Data2016Winter_1$MEZEG_AVIR)
## [1] 1
## attr(,"freq")
## [1] 12496
summary(subset_matrix2016Winter)
##      Bright         Rainy          HeatWave   
##  Min.   :3289   Min.   :365.0   Min.   : 2.0  
##  1st Qu.:3824   1st Qu.:647.0   1st Qu.:11.5  
##  Median :4359   Median :929.0   Median :21.0  
##  Mean   :4165   Mean   :754.3   Mean   :15.0  
##  3rd Qu.:4604   3rd Qu.:949.0   3rd Qu.:21.5  
##  Max.   :4848   Max.   :969.0   Max.   :22.0

2018:

#Most frequent Weather Condition2018:
Mode(Data2018Winter_1$MEZEG_AVIR)
## [1] 1
## attr(,"freq")
## [1] 11657
summary(subset_matrix2018Winter)
##      Bright         Rainy            Foggy           HeatWave     
##  Min.   :2978   Min.   : 258.0   Min.   : 0.000   Min.   : 0.000  
##  1st Qu.:3520   1st Qu.: 565.0   1st Qu.: 2.000   1st Qu.: 0.000  
##  Median :4063   Median : 872.0   Median : 4.000   Median : 0.000  
##  Mean   :3886   Mean   : 769.7   Mean   : 6.333   Mean   : 7.667  
##  3rd Qu.:4340   3rd Qu.:1025.5   3rd Qu.: 9.500   3rd Qu.:11.500  
##  Max.   :4616   Max.   :1179.0   Max.   :15.000   Max.   :23.000

אפשר לראות ש3 השנים מאוד דומים בתאונות הדרכים בחודשי החורף. בולט הוא שב2016 לא מועפים תאונות דרכים במזג אוויר ערפלי. עקב זה שבשנים האחרות אתונות דרכים עם מזג אוויר ערפל הוא אפסי, אנו לא מתייחסים לנתון החוסר זה. מפה נסיק שניתן לחבר בין 3 הטבלאות.

הצגה גרפית של תדירות תאונות הדרכים לפי חודשי השנה:

חיבור בין 3 הדטאות השונים:

:::

:::

בתרשים זה מאוד ברור לראות שהמשתנה מזג אוויר לא מספיק “משתנה”. הקטגוריה “בהיר” הכי דומיננטית. כדי לטפל בביעה זו החלתתי להתרכז רק בחודשי החורב (ינאור, בפרואר ודצמבר) בשנים אלו
ובנוסף להוסיף משתנה “יום ולילה”. ב4 תרשימים האבהים אפשר לראות תהליך המתאר את החיתוך של הנתונים מחדש, עד העגה לטבלת נתונים שאיתם נמשיך לבצע מבחנים סטטיסטים כדי לענות על שאלת המחקר.

הצגת שינוי הנתונים על ידי גרפי עוגה תלת מימדיים:

Figure 1

Figure 1

Figure 2Figure 2

Figure 2

Figure 3

Figure 3

עם פילוח נתונים של הגרף עוגה האחרון (Figure3) אנו נמשיך את החקירה וביצוע מבחנים סטטיסטים.

המסביר על בניית גרף עוגה תלת מידמ על ידי חבילה plotrix

סטטיסטיקה היסקית:

נבצע בדיקה זו על ידי מבחן חי בריבוע. להלן ההשערות המבחן:

    H0: משתנה מזג אוויר ומשתנה קבוצות גיל בלתי תלויים.

    H1: משתנה מזג אוויר ומשתנה קבוצות גיל תלויים.
   

השערת המחקר: אנו משערות שאכן יהיה קיים תלות בין תדירות תאונות הדרכים במצבי מזג אוויר לבין קבוצות הגיל

במבחן חי בריבוע של פירסון, השערת האפס היא שאין קשר בין שני המשתנים הקטגוריים (קבוצות גיל ותנאי מזג אוויר). ערך p מייצג את ההסתברות לצפייה בנתונים או בתוצאות קיצוניות יותר בהנחה שהשערת האפס נכונה.
כדי לבצע את המבחן נבדוק האם מתקיימות הנחות המודל:

  1. התאונות הדרכים הם לא תלוים זה בזה, לכל אחד יש את הקוד זהות היחודי שלה .
  2. כל קטגוריה מהווה מעל 5 תצפיות.
  3. משתנים קטגוריואלים כלומר אין אפשרות להתפלגות נורמלית.

כל ההנחות מתקיימות, לכן נבצע מבחן זה.

בדיקת קורלאציה בין קבוצות גיל לבין תאונות דרכים במזגי אוויר שונים :

בכדי להשוות בין קבוצות הגיל השונות ביחס תאונות לדרכים במזג אוויר אנו מבצעים טבלה המאפשרת לראות את האחוזים השונים לפי כל משתנה ובנוסף מבצעת מבחן חי בריבוע. הצגה זו מאפשרת השווה בין הקבוצות הגיל ומזג אוויר.
(בדוגמה: ערך של קבוצת גיל 15-19 - בהיר:)

#Cross Table Weather Condition & Age Groups with Chi Square Test:
mytable <- CrossTable(subset_dataConditionsAge$KVUZA_GIL,
                      subset_dataConditionsAge$MEZEG_AVIR,
                      digits = 3, chisq = TRUE, prop.chisq = FALSE)
## 
##  
##    Cell Contents
## |-------------------------|
## |                       N |
## |           N / Row Total |
## |           N / Col Total |
## |         N / Table Total |
## |-------------------------|
## 
##  
## Total Observations in Table:  37928 
## 
##  
##                                    | subset_dataConditionsAge$MEZEG_AVIR 
## subset_dataConditionsAge$KVUZA_GIL |    bright |   extreme | Row Total | 
## -----------------------------------|-----------|-----------|-----------|
##                              15-19 |      1016 |      1787 |      2803 | 
##                                    |     0.362 |     0.638 |     0.074 | 
##                                    |     0.056 |     0.090 |           | 
##                                    |     0.027 |     0.047 |           | 
## -----------------------------------|-----------|-----------|-----------|
##                              20-24 |      2009 |      3179 |      5188 | 
##                                    |     0.387 |     0.613 |     0.137 | 
##                                    |     0.111 |     0.160 |           | 
##                                    |     0.053 |     0.084 |           | 
## -----------------------------------|-----------|-----------|-----------|
##                              25-29 |      2141 |      2711 |      4852 | 
##                                    |     0.441 |     0.559 |     0.128 | 
##                                    |     0.118 |     0.137 |           | 
##                                    |     0.056 |     0.071 |           | 
## -----------------------------------|-----------|-----------|-----------|
##                              30-49 |      7127 |      7171 |     14298 | 
##                                    |     0.498 |     0.502 |     0.377 | 
##                                    |     0.394 |     0.361 |           | 
##                                    |     0.188 |     0.189 |           | 
## -----------------------------------|-----------|-----------|-----------|
##                              50-69 |      4220 |      4093 |      8313 | 
##                                    |     0.508 |     0.492 |     0.219 | 
##                                    |     0.233 |     0.206 |           | 
##                                    |     0.111 |     0.108 |           | 
## -----------------------------------|-----------|-----------|-----------|
##                              70-85 |      1575 |       899 |      2474 | 
##                                    |     0.637 |     0.363 |     0.065 | 
##                                    |     0.087 |     0.045 |           | 
##                                    |     0.042 |     0.024 |           | 
## -----------------------------------|-----------|-----------|-----------|
##                       Column Total |     18088 |     19840 |     37928 | 
##                                    |     0.477 |     0.523 |           | 
## -----------------------------------|-----------|-----------|-----------|
## 
##  
## Statistics for All Table Factors
## 
## 
## Pearson's Chi-squared test 
## ------------------------------------------------------------
## Chi^2 =  650.1386     d.f. =  5     p =  2.95476e-138 
## 
## 
## 

במקרה זה, ערך ה-p טן מאוד קטן (2.95476e-138), מה שמצביע על ראיות חזקות נגד השערת האפס. לכן, אנו דוחים את השערת האפס ומסיקים שיש קשר מובהק בין קבוצות גיל ותנאי מזג אוויר

עוצמת הקשר בין קבוצות הגיל למזג אוויר:

נבצע עוצמת הקשר על ידי מבחן Goodman Kruskal´s Gamma Correlation הוא מדד סטטיסטי המודד את חוזק וכיוון הקשר בין שני משתנים אורדינאלים.
הערך של מקדם הגמא הוא בין -1 ל-+1. ככל שהערך קרוב יותר לקצוות הקיצוניים, כלומר 1- או 1, כך הקשר בין המשתנים חזק יותר.

מקורות:

מדריך ביצוע מבחן בשפת R, הסבר על מבחן Goodman Kruskal Gamma

#GoodMan Kruskal Gamma Correlation Age Groups - Weather Condition::
mytable <- table(subset_dataConditionsAge$MEZEG_AVIR,
                 subset_dataConditionsAge$KVUZA_GIL)
gkgamma(mytable)
## 
##  Goodman-Kruskal's gamma for ordinal categorical data
## 
## data:  mytable
## Z = -23.56, p-value < 2.2e-16
## 95 percent confidence interval:
##  -0.1880999 -0.1593868
## sample estimates:
## Goodman-Kruskal's gamma 
##              -0.1737434

ניתן לראות שהערך הוא שלילי ונופל בין 0 ל1 כלומר מהווה קשר חלש. קיים קשר שלישי בין המשתנים אך חלש.

בדיקת קורלאציה בין תונות דרכים בקבוצות גיל וחומרת התאונה שונים במזג אוויר קיצוני:

#Cross Table Severity and & Age Groups with Chi Square Test:
mytable <- CrossTable(subset_dataYearSeverAge$KVUZA_GIL,
                      subset_dataYearSeverAge$HUMRAT_TEUNA,
                      digits= 3, chisq = TRUE,prop.chisq = FALSE)
## 
##  
##    Cell Contents
## |-------------------------|
## |                       N |
## |           N / Row Total |
## |           N / Col Total |
## |         N / Table Total |
## |-------------------------|
## 
##  
## Total Observations in Table:  19840 
## 
##  
##                                   | subset_dataYearSeverAge$HUMRAT_TEUNA 
## subset_dataYearSeverAge$KVUZA_GIL |     fatal |    severe |    slight | Row Total | 
## ----------------------------------|-----------|-----------|-----------|-----------|
##                             15-19 |        78 |       258 |      1451 |      1787 | 
##                                   |     0.044 |     0.144 |     0.812 |     0.090 | 
##                                   |     0.102 |     0.108 |     0.087 |           | 
##                                   |     0.004 |     0.013 |     0.073 |           | 
## ----------------------------------|-----------|-----------|-----------|-----------|
##                             20-24 |       133 |       427 |      2619 |      3179 | 
##                                   |     0.042 |     0.134 |     0.824 |     0.160 | 
##                                   |     0.175 |     0.179 |     0.157 |           | 
##                                   |     0.007 |     0.022 |     0.132 |           | 
## ----------------------------------|-----------|-----------|-----------|-----------|
##                             25-29 |        81 |       336 |      2294 |      2711 | 
##                                   |     0.030 |     0.124 |     0.846 |     0.137 | 
##                                   |     0.106 |     0.141 |     0.137 |           | 
##                                   |     0.004 |     0.017 |     0.116 |           | 
## ----------------------------------|-----------|-----------|-----------|-----------|
##                             30-49 |       261 |       757 |      6153 |      7171 | 
##                                   |     0.036 |     0.106 |     0.858 |     0.361 | 
##                                   |     0.343 |     0.317 |     0.369 |           | 
##                                   |     0.013 |     0.038 |     0.310 |           | 
## ----------------------------------|-----------|-----------|-----------|-----------|
##                             50-69 |       179 |       480 |      3434 |      4093 | 
##                                   |     0.044 |     0.117 |     0.839 |     0.206 | 
##                                   |     0.235 |     0.201 |     0.206 |           | 
##                                   |     0.009 |     0.024 |     0.173 |           | 
## ----------------------------------|-----------|-----------|-----------|-----------|
##                             70-85 |        29 |       128 |       742 |       899 | 
##                                   |     0.032 |     0.142 |     0.825 |     0.045 | 
##                                   |     0.038 |     0.054 |     0.044 |           | 
##                                   |     0.001 |     0.006 |     0.037 |           | 
## ----------------------------------|-----------|-----------|-----------|-----------|
##                      Column Total |       761 |      2386 |     16693 |     19840 | 
##                                   |     0.038 |     0.120 |     0.841 |           | 
## ----------------------------------|-----------|-----------|-----------|-----------|
## 
##  
## Statistics for All Table Factors
## 
## 
## Pearson's Chi-squared test 
## ------------------------------------------------------------
## Chi^2 =  48.81474     d.f. =  10     p =  4.404316e-07 
## 
## 
## 

במקרה זה, ערך ה-p מאוד קטן (4.404316e-07), מה שמצביע על ראיות חזקה נגד השערת האפס. לכן, אנו דוחים את השערת האפס ומסיקים שיש קשר מובהק בין קבוצות גיל ותנאי מזג אוויר.

עוצמת הקשר בין קבוצות הגיל לחומרת התאונה במזג אוויר קיצוני:

נבצע עוצמת הקשר על ידי מבחן Goodman Kruskal´s Gamma Correlation:

#GoodMan Kruskal Gamma Correlation Age Groups - Severity:
mytable <- table(subset_dataYearSeverAge$KVUZA_GIL, subset_dataYearSeverAge$HUMRAT_TEUNA)
gkgamma(mytable)
## 
##  Goodman-Kruskal's gamma for ordinal categorical data
## 
## data:  mytable
## Z = 2.4395, p-value = 0.01471
## 95 percent confidence interval:
##  0.006733192 0.061213346
## sample estimates:
## Goodman-Kruskal's gamma 
##              0.03397327

קיים קשר חיובי אך חלש בין המתשני תאונות דרכים במזג אוויר קיצוני בקבוצות הגיל לחומרת התאונה. ערך הגמה נופל בין 0ל 1 שזו מצביע על קשר חלש.

1.2 מי הוא הנהג הכי מסוכן לנהוג במזג אוויר קיצוני?

סטטיסטיקה תיאורת:

סטטיסטיקה היסיקת:

מכיוון שהנתונים לא מתפלגים נורמלית אנו מבצעים מבחן אי-פרמטרי שבודק אם קיים הבדל בתדירות תאונת הדרכים בין קבוצות הגיל וחומרת התאונה שאנו נמצאים במצב מזג אוויר קיצוני.

מבחן Kruskal Wallis: להלן ההשערות המבחן:

    H0: אין הבדל בהשפעת חומרת התאונה על כמות תאונות בין קבוצות הגיל

    H1: יש הבדל בהשפעת חומרת התאונה על כמות תאונות בין קבוצות הגיל   
        וקבוצות הגיל הכי מסוכנות

השערת המחקר: אנו משערות שאכן יהיה קיים הבדל.

הנחות המודל:

הנחות המודל מתקיימות לכן נבצע את המבחן.

:::

#Kruskal Wallis inside of extreme weather condition:
kruskal.test(Frequency ~ Age_Group, data = subset_dataYearSeverAge)
## 
##  Kruskal-Wallis rank sum test
## 
## data:  Frequency by Age_Group
## Kruskal-Wallis chi-squared = 25.618, df = 5, p-value = 0.0001058

אפשר לראות שערך ה- p-value הוא נמוך מ-0.05 לכן נדחה את השערת האפס ונסיק כי יש הבדל בין תדירויות של קבוצות הגיל ביחס לחומרת התאונה במזג אוויר קיצוני.

כדי לבדא אחזה קבוצות גיל מבצעת הכי הרבה תאונות דרכים מסוכניות, כלומר קטלניות או קשות, אנו נבנה גרך בר באחוזים שמאפשר השוואה בין הקבוצות השונות.

גרף בר:

בגרף זה ניתן לראות שבמצטבר קבוצות הגיל 15-19, כלומר נהג חדש, וקבוצת 20-24, נהג צעיר, מבצעים הכי הרבה תאונות דרכים מסוכנות.

מקורות:
מדריך ביצוע גרף רדר בשפת R, מדריך נוסף

בכדי לבדוק האם קיים קשר ליניארי בין משתנה קבוצות הגיל למשתנה חומרת התאונה, שניהם בסולם אורדינלי ביחס לדרגות של מזג אוויר השונה, אנו נשתמש במבחן Mantel Haenszel Test:
להלן ההשערות המבחן:

  H0: כמות תאונות הדרכים של כל רמת מזג אוויר לא תלויה בחומרת התאונה
   וקבוצות הגיל הכי מסוכנות

  H1: כמות תאונת הדרכים של כל רמת מזג אוויר  תלויה בחומרת התאונה
  

העשרת החוקר: אנו משערות שאכן יהיה קיים הבדל

#Mantel Haetzel Test: checking relation between 2 ordinal variabales:
mantelhaen.test(data_Mantel$KVUZA_GIL,
                y = data_Mantel$HUMRAT_TEUNA,
                z = data_Mantel$MEZEG_AVIR, alternative = "greater")
## 
##  Mantel-Haenszel chi-squared test with continuity correction
## 
## data:  data_Mantel$KVUZA_GIL and data_Mantel$HUMRAT_TEUNA and data_Mantel$MEZEG_AVIR
## Mantel-Haenszel X-squared = 0.69473, df = 1, p-value = 0.2023
## alternative hypothesis: true common odds ratio is greater than 1
## 95 percent confidence interval:
##  0.9032799       Inf
## sample estimates:
## common odds ratio 
##          1.131291

אפשר לראות שערך ה-p-value לא נמוך מ-0.05 (0.2023) לכן לא נדחה את השערת האפס ונסיק כי כמות תאונות הדרכים של כל רמת מזג אוויר לא תלויה בחומרת התאונה וקבוצות הגיל הכי מסוכנות. התוצאות מצביעות על קשר חלש, לא מובהק סטטיסטית בין החשיפה לתוצאה כאשר בוחנים תנאי מזג אוויר שונים. אמנם עשויה להיות מגמה של קשר חיובי (עלייה בסיכויים לתוצאה עם החשיפה), זו לא חד משמעית.

2. האם קיים הבדל מובהק סטטיסטית בסוג התאונות שביצעו נהגים בגילאים שונים? במידה וקיים הבדל מה סוג התאונה השכיח ביותר בקרב נהגים מבוגרים? {ירין חורב}

המבחן הסטטיסטי:

מבחן ANOVA דו כיווני, כאשר:

Y - משתנה נומרי המייצג את כמות התאונות

X1 - משתנה קטגוריאלי המייצג קבוצת גיל

X2 - משתנה קטגוריאלי המייצג סוג תאונה

המודל: 𝒀 = 𝝁 + 𝜶𝒊 + 𝜷𝒋 + 𝜸𝒊𝒋 + 𝜺𝒊𝒋

השערת המחקר: גיל הנהג משפיע על סוג תאונת הדרכים שיעשה.

מבחן השערות:

עפ”י השערת H0 - לא קיים הבדל בסוג התאונות שביצעו נהגים בגילאים שונים.

עפ”י השערת H1 - קיים הבדל בסוג התאונות שביצעו נהגים בגילאים שונים.


סטטיסטיקה תיאורית:

ניתן לראות בניתוח את הערכים הבאים:

מינימום, מקסימום, ממוצע, חציון וסטיית תקן של כמות סוגי התאונות בשנת 2022.

##סטטיסטיקה תיאורית עבור סוג התאונה
summary(count$Freq )
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     364     625    2042    2543    2314    9759
sd(count$Freq)
## [1] 3002.593

בנוסף, ניתן לראות את סוג התאונה הנפוץ ביותר, ואת קבוצת הגיל שעשתה את כמות התאונות הגבוהה ביותר מבין כל קבוצות הגיל בשנת 2022.

Mode(Data_Base$SUG_TEUNA)
## [1] "side collision"
## attr(,"freq")
## [1] 9759
Mode(Data_Base$KVUZA_GIL)
## [1] "50-69"
## attr(,"freq")
## [1] 4990

הצגה ויזואלית של הסטטיסטיקה התיאורית:

ניתן לראות כבר בהסתכלות ראשונית שסוגי התאונה הנפוצים ביותר הם “התנגשות צד” ו- “פגיעה בהולך רגל”.


מהלך הבדיקה:

ראשית נבצע מבחן Chi-squared, שבאמצעותו נבדוק האם קיימת תלות בין המשתנים.

##        
##         collision with not alive object head-on collision
##   15-19                             138               220
##   20-24                             138               441
##   25-29                              73               300
##   30-39                              96               466
##   40-49                              77               365
##   50-69                             112               405
##   70-85                              95               117
##        
##         injury to pedestrian other overturning rear-end collision
##   15-19                  340    57          86                150
##   20-24                  374    74          86                312
##   25-29                  396    70          37                298
##   30-39                  624    87          57                472
##   40-49                  633    79          50                408
##   50-69                 1180   144          51                522
##   70-85                  823   114          24                128
##        
##         side by side collision side collision slip
##   15-19                    153            833   43
##   20-24                    310           1489   87
##   25-29                    287           1271   46
##   30-39                    398           1873   55
##   40-49                    329           1530   51
##   50-69                    406           2106   64
##   70-85                    159            657   18
## 
##  Pearson's Chi-squared test
## 
## data:  chisq_table
## X-squared = 1310.9, df = 48, p-value < 2.2e-16

P-value < 5% : לכן נדחה את H0 ברמת מובהקות של 5%, ונסיק שקיים קשר בין קבוצות הגיל השונות לסוג תאונת הדרכים שיבצעו.


לאחר שמצאנו שאכן קיים קשר מובהק בין קבוצת הגיל לסוג התאונה, נבדוק את עוצמת הקשר בין המשתנים על-ידי מבחן Crame’rs V.

:::

##                     X^2 df P(> X^2)
## Likelihood Ratio 1201.9 48        0
## Pearson          1310.9 48        0
## 
## Phi-Coefficient   : NA 
## Contingency Coeff.: 0.233 
## Cramer's V        : 0.098

Crame’rs V מודד את עוצמת הקשר בין שני משתנים קטגוריים. המדד נע בין 0 ל-1, כאשר 0 מציין היעדר קשר ו-1 מציין קשר מושלם. Crame’rs V = 0.098 מה שמעיד על עוצמה חלשה-בינונית.

מסקנה:

המבחן מצביע על קשר מובהק סטטיסטית בין שני המשתנים, אך עוצמת הקשר חלשה-בינונית.


לאחר ביצוע מבחן cramer’s שבודק לי את עוצמת הקשר בין שני המשתנים המסבירים, נציג את תוצאות המבחן באמצעות גרף קורלציה.

כאשר צפיפות הנקודות גבוהה זה מצביע על קורלציה חזקה בין המשתנים, וכאשר צפיפות הנקודות נמוכה זה מצביע על קורלציה נמוכה בין המשתנים.


לפני ביצוע מבחן Anova אנו מוכרחים לבדוק שהנחת הנורמליות אכן מתקיימת, ולכן נבצע את מבחן שפירו לבדיקת התפלגות נורמאלית

## 
##  Shapiro-Wilk normality test
## 
## data:  df_grouped$Percentage
## W = 0.71752, p-value = 1.057e-09

p-value<0.05 ולכן נדחה את השערת האפס, ונסיק שנתוני התדירות אינם מתפלגים נורמלית.


נרצה להציג זאת גם בצורה ויזואלית באמצעות QQnorm:

## [1] 52 53

באמצעות מבחן שפירו ותרשים QQplot הגעתי למסקנה שהנתונים אינם מתפלגים נורמאלית ולכן לא אוכל לענות על שאלת המחקר שלי ע”י מודל ANOVA. מסקנה- צריך לעבור למבחנים א-פרמטריים.


מבחן קרוסקל וואליס: מבחן סטטיסטי א-פרמטרי המשמש להשוואת שתי קבוצות או יותר כאשר המשתנה הכמותי אינו מתפלג נורמלית.

## 
##  Kruskal-Wallis rank sum test
## 
## data:  SUG_TEUNA by KVUZA_GIL
## Kruskal-Wallis chi-squared = 214.95, df = 6, p-value < 2.2e-16

P-value< 5% ולכן נדחה את H0, ונסיק ברמת מובהקות של 5% שקיים הבדל מובהק סטטיסטי בין לפחות שתי קבוצות הגיל השונות, בסוג התאונה שיבצעו.

ניתן לראות לפי המקרא מימין שככל שהצבע בהיר יותר כך תדירות התאונה מסוג מסוים גבוהה יותר. ניתן לראות שסוג התאונה “פגיעה בהולך רגל” בקרב הנהגים בגילאי 70-85 מהווה את האחוז הגבוה ביותר מבין כל שאר סוגי התאונות.

מקורות:

#sessionInfo()