עבור תחילת העבודה עם הנתונים, אטען את כל החבילות שאעשה בהן שימוש.
library(tidyverse) ##include ggplot2,dplyr, helps at "group by", manipulation, etc.
library(broom) ## for the table of all the tests
library(plotrix) ##for 3D pie chart
library(reshape2) #merging data sets
library(vcd) #Visualization of Chi - test, Cramer
library(stats) #R statistical function
library(plotly) #interactive graphs
library(lsr) #Cramer's calculation
library(gplots) #extra graph - heatmap
library(grid) #control the layout
library(RColorBrewer) #creating build R palette
library(plot3D)
library(rgl)
library(ggthemes)
library(car)#VIF
library(lmtest)
library(jpeg)
library(gt) #Advanced design for tables
library(kableExtra)
library(htmltools)
בכדי לענות על שאלת המחקר אאחד את שני קבצי הנתונים ע”י עמודה משותפת, אסנן ערכים כפולים וריקים ואצור את הטבלה עם העמודות הרלוונטיות עבור שאלת המחקר
# Reading data files
data1 <- read.csv("C:\\Users\\Dell\\OneDrive\\women road accidents group 5\\H20221161AccData.csv" , header = TRUE)
data2 <- read.csv("C:\\Users\\Dell\\OneDrive\\women road accidents group 5\\H20221161InvData.csv" , header = TRUE)
# Merging the files by a common column
mergeData <- merge(data1,data2,by = "pk_teuna_fikt")
#Create merge data with the columns we need for this project
#selecting the wanted columns
all_mergedata <- mergeData %>% select(pk_teuna_fikt, MIN, YOM_BASHAVUA, EZOR_TIVI_MEGURIM, SUG_TEUNA, ZURAT_DEREH, KVUZA_GIL, ZURAT_ISHUV_MEGURIM, YOM_LAYLA, HUMRAT_PGIA, SUG_DEREH)
# Remove duplicates based on the 'pk_teuna_fikt' column
all_mergedata <- all_mergedata %>% distinct(pk_teuna_fikt, .keep_all = TRUE)
#Delete NA values
Final_mergeData <- na.omit(all_mergedata)
#Final data - from here we will use this data
Final_mergeData <- as.data.frame(Final_mergeData)
# Print the resulting data frame
#print(Final_mergeData)
על מנת לענות על שאלת המחקר, בחרתי מתוך בסיס הנתונים שהטענו את שלושת העמודות הרלוונטיות לצורך מענה על שאלת המחקר. העמודות הן: סוג תאונה, צורת דרך ומין. כאשר צורת דרך מתייחסת לצורות כמו כניסה למחלף, עקומה חדה, כביש ישר וכדומה. לצורך הנוחות ייצרתי מילון כאשר לכל מין, סוג תאונה וצורת דרך קיים שם.
## SUG_TEUNA ZURAT_DEREH MIN
## 2 4 9 1
## 3 3 9 1
## 5 2 9 1
## 6 1 9 2
## 7 3 9 2
## 9 4 9 1
| Road Types |
|---|
| Other |
| Sharp Slope/Curve |
| Straight road/junction |
| Exit/Entrance to Interchange |
| Accident Types |
|---|
| Side by side collision |
| Rear-end collision |
| Head-on collision |
| Injury to a pedestrian |
| Overturning |
| Other |
| Slip |
המבחן הסטטיסטי:
מבחן ANOVA דו כיווני, כאשר:
Y - משתנה נומרי המייצג את כמות התאונות
X1 - משתנה קטגוריאלי המייצג צורת הדרך
X2 - משתנה קטגוריאלי המייצג סוג תאונה
המודל : 𝒀𝒊𝒋 = 𝝁 + 𝜶𝒊 + 𝜷𝒋 + 𝜸𝒊𝒋 + 𝜺𝒊𝒋
הגדרת משתנים :
𝒀𝒊𝒋 – כמות תאונות הדרכים שנצפו בתאונה מסוג i בצורת דרך j.
𝝁 – הממוצע של מספר התאונות על פני כל סוגי התאונות וצורות הדרכים.
𝜶𝒊 – ההשפעה של סוג התאונה i על כמות התאונות.
𝜷𝒋 - ההשפעה של צורת הדרך j על כמות התאונות.
𝜸𝒊𝒋 - אפקט אינטראקציה בין סוגי התאונות לצורות הדרכים, כלומר ההשפעה המשותפת של סוג תאונה i וצורת דרך j על כמות התאונות.
𝜺𝒊𝒋 - הטעות האקראית.
השערת המחקר : קיים הבדל בין סוגי התאונות שביצעו נהגים בצורות דרכים שונות, וישנה השפעה של צורת הדרך על סוג התאונה.
מבחן השערות :
H0 : אין הבדל מובהק סטטיסטית בין סוגי התאונות שביצעו נהגים בצורות דרכים שונות.
H1 : יש הבדל מובהק סטטיסטית בין סוגי התאונות שביצעו נהגים בצורות דרכים שונות.
הנחות המודל :
המשתנים בלתי תלויים זה בזה בין הקבוצות ובתוך הקבוצות כלומר - \(𝜺𝒊𝒋~ N(0,σ^{2})\), במידה ויש קשר, יש למצוא את עוצמת הקשר.
המשתנים מתפלגים בהתאם להתפלגות נורמלית.
קיים שיוויון שונויות בין המשתנים - במידה ונמצאה נורמליות, יש לבצע בדיקה האם השונויות הומוגניות כלומר ישנה הומוסקדסטיות בין הקבוצות.
בסיכום הבא ניתן לראות את הערכים המינימליים והמקסימליים, הממוצע, חציון, רבעונים ראשון ושלישי וסטיית תקן של כמות סוגי התאונות בחלוקה לגברים ונשים בשנת 2022.
# Create summary statistics for accident types by genders
summary_stats <- acc_summary %>%
group_by(MIN) %>%
summarise(
Min = min(total_accidents),
`1st Qu.` = quantile(total_accidents, 0.25),
Median = median(total_accidents),
Mean = mean(total_accidents),
`3rd Qu.` = quantile(total_accidents, 0.75),
Max = max(total_accidents),
SD = sd(total_accidents)
)
## MIN Min 1st Qu. Median Mean 3rd Qu. Max SD
## 1 Man 637 2016 2302 2991 2768 8432 2509
## 2 Woman 397 1239 1341 1814 1407 5665 1736
נראה שמספר התאונות הנמוך ביותר הוא בקרב נשים.
ניתן לראות גם שכמות התאונות המקסימלית הגבוהה ביותר היא 8,432 תאונות אשר מתקיימות גם בקרב גברים. נראה גם כי לכ- 25% מסך סוגי התאונות (רבעון ראשון) יש פחות מ- 2,016 תאונות עבור גברים ופחות מ-1,239 תאונות עבור נשים, כאשר ברבעון השלישי, כלומר ל- 75% מסך סוגי התאונות, יש פחות מ- 2,768 תאונות עבור גברים ופחות מ - 1,407 תאונות עבור נשים.
ל- 50% מסוגי התאונות כלומר לחציון יש פחות מ- 2,302 תאונות בקרב גברים ופחות מ-1,341 תאונות בקרב נשים. ניתן לציין כי אצל גברים ממוצע התאונות הוא 2,991 תאונות בעוד שאצל נשים הממוצע נמוך יותר ועומד על 1,814 תאונות.
בניתוח הסטטיסטיקה נראה כי גם עבור גברים וגם עבור נשים סטיית התקן נמוכה מהממוצע מה שמעיד על פיזור תקין של סטיות הנתונים וכי הנתונים בעלי אחידות מסויימת, אם כי אדגיש שסטיית התקן עדיין גדולה לא מעט.
במבט ראשוני ניתן לראות כי סוגי התאונות הנפוצים ביותר בקרב נשים וגברים יחד הם התנגשות “אחור בחזית” (Rear-end collision) ו”התנגשות חזיתית” (Head-on collision).
בנוסף, ניתן לראות עבור איזה מין, מהו סוג התאונה הנפוץ ביותר ובאיזה צורת דרך כמות התאונות בשנת 2022 היא הגדולה ביותר:
## [1] "Rear-end collision"
## attr(,"freq")
## [1] 14097
## [1] "Other"
## attr(,"freq")
## [1] 33554
## [1] "Man"
## attr(,"freq")
## [1] 20940
נראה שסוג התאונה הנפוץ ביותר הוא “התנגשות אחור בחזית” בצורת דרך “אחר” כאשר המין בעל כמות התאונות הגבוהה ביותר הוא “גברים”.
אציג את ההתפלגות של שכיחות סוג התאונה, צורת הדרך והמין בעזרת גרף עוגה תלת מימדי וגרף עמודות:
## Category Most_Common Frequency
## 1 Type of Accident Rear-end collision 14097
## 2 Road Shape Other 33554
## 3 Gender Man 20940
הערה: יש לבדוק גרף פאי תלת מימדי זה כחלק ממתן הציון
ראשית נבדוק את ההנחה כי קיימת תלות בין המשתנים. כדי לבצע את הבדיקה אשתמש במבחן Chi - squared בעזרתו נבדוק האם קיימת תלות בין משתני סוג התאונה וצורת הדרך.
השערות המבחן:
H0 : אין תלות בין סוגי התאונות וצורות הדרכים השונות.
H1 : יש תלות בין סוגי התאונות שביצעו וצורות הדרכים השונות.##
## Head-on collision Injury to a pedestrian Other
## Exit/Entrance to Interchange 1 0 0
## Other 3627 3114 4201
## Sharp Slope/Curve 1 1 1
## Straight road/junction 14 13 7
##
## Overturning Rear-end collision
## Exit/Entrance to Interchange 0 0
## Other 1030 14073
## Sharp Slope/Curve 2 1
## Straight road/junction 2 23
##
## Side by side collision Slip
## Exit/Entrance to Interchange 1 0
## Other 4088 3421
## Sharp Slope/Curve 1 0
## Straight road/junction 8 5
##
## Pearson's Chi-squared test
##
## data: chi_table
## X-squared = 37.713, df = 18, p-value = 0.004226
## P-Value is : 0.004226435
## Desicion - Reject HO hypothesis (Accept H1).
## There is a connection between the different road shapes and the types of accidents.
כמסקנה אוכל לומר כי מאחר ו- P-value < 5% אזי אדחה את H0 ברמת מובהקות 5%, ואסיק כי קיימת תלות בין צורות הדרך וסוגי התאונות שביצעו הנהגים.
אוכל להציג את המסקנה גם באופן גרפי על ידי גרף אסוציאציה שמטרתו להמחיש את הקשר בין שני המשתנים הקטגוריים - סוג תאונה וצורת דרך בהתבסס על תוצאות מבחן חי בריבוע.
נראה כי הציר האופקי מתאר את סוגי התאונות שביצעו נהגים והציר האנכי מתאר את צורות הדרך בהן נעשו התאונות, כאשר הקווים בגרף מייצגים את השאריות של פרסון (Pearson residuals), שהם ההפרש בין הערכים שנצפו בפועל לבין הערכים הצפויים בהינתן שאין קשר בין המשתנים.
אורך הקווים מייצג את גודל השאריות: קו ארוך יותר מייצג שארית גדולה יותר. אם הקו מתרומם מעל הציר האופקי, המשמעות היא שכמות המקרים שנצפתה גבוהה יותר מהצפוי. אם הקו יורד מתחת לציר, המשמעות היא שכמות המקרים שנצפתה נמוכה מהצפוי.
את גודל השאריות מתארים הצבעים, כאשר צבע כחול כהה יותר, יתאר שאריות חיוביות גבוהות ולעומת זאת, צבע אפור כהה יותר, יתאר שאריות שליליות יותר. אדגיש כי, שאריות גבוהות (חיוביות או שליליות) מראות סטייה מהצפוי, מה שמצביע על תלות בין המשתנים עבור הקטגוריות הרלוונטיות.
מסקנות סופיות העולות מן הגרף -
נראה על פי תוצאות הגרף כי:
לסיכום, אוכל לחזק את המסקנה הנקבעה לפי מבחן “חי בריבוע” כי קיים קשר בין סוג התאונה לצורת הדרך. כאשר, על פי הגרף, אוכל גם להסיק כי רוב התאונות אשר מושפעות מצורות הדרך (כלומר קיימת תלות מובהקת), עשויות להתרחש בעקבות עומסים בכבישים, (כמו במקרה של התנגשות חזיתית בכביש ישר או בכניסה למחלף), בעקבות תנאי מזג אוויר המקשים על אחיזה בכביש (כמו במקרה של התהפכות בעיקול חד / שיפוע כאשר במקרה בו אין אחיזה טובה ניתן במקרים מסויימים להתהפך כשהכביש מעוקל), וכדומה.
את עוצמת הקשרים שמצאתי, נבדוק כעת באמצעות מבחן קארמר (Cramer’s V).
לאחר שמצאתי כי אכן קיים קשר מובהק בין צורות הדרכים לסוג התאונה, אבדוק את עוצמת הקשר בין המשתנים על-ידי מבחן Cramer’s V.
## X^2 df P(> X^2)
## Likelihood Ratio 26.582 18 0.0871722
## Pearson 37.713 18 0.0042264
##
## Phi-Coefficient : NA
## Contingency Coeff.: 0.033
## Cramer's V : 0.019
## There is a very weak connection between the variables.
## The connection is : 0.01933255
## conclusion : The test indicates a statistically significant relationship between the two variables, But the strength of the relationship is very weak.
מבחן Cramer’s V בודקת את עוצמת הקשר בין שני משתנים קטגוריים. מדד המבחן נע בין 0 ל-1 כאשר, 0 מתאר מצב בו אין קשר ו- 1 מתאר מצב של קשר בעוצמה מיטבית. במקרה זה, מדד קראמר הינו: 0.019 כלומר קיימת עוצמת קשר חלשה מאוד.
מסקנה:
המבחן מצביע על קיום קשר בין שני המשתנים אך מתאר את עוצמת הקשר כעוצמה חלשה מאוד.
לאחר ביצוע המבחן אראה את התוצאה גם באופן ויזואלי בעזרת גרף קורלציה.
נראה גם על פי הגרף כי קיים קשר בין סוג התאונה וצורת הדרך אך עוצמת הקשר לרוב היא חלשה. צפיפות גבוהה של נקודות מתארת קורלציה גבוהה בין משתנים ולהפך, צפיפות נמוכה מציגה קשר חלש. ניתן לראות על פי הגרף כי עוצמת הקשר החזקה ביותר היא כשסוג התאונה “התנגשות אחור בחזית” מתרחש בצורת דרך “אחרת”, כאשר צפיפות הנקודות שם הינה הגבוהה ביותר. כזכור, בגף האסוציאציות מצאתי כי בצורת דרך “אחרת” קווי הגרף רחבים, כלומר קיים קשר (חיובי / שלילי) בעל עוצמה חזקה במיוחד, נשים לב כי הדבר עולה בקנה אחד עם גרף הקורלציה בו רוב הקשרים החזקים נמצאים בצורת דרך זו.
על מנת שאוכל לבדוק את שאלת המחקר ולהשתמש במבחן ANOVA דו כיווני, עליי לבדוק קודם לכן, אם המשתנים מתפלגים על פי התפלגות נורמלית. לצורך הבדיקה אשתמש במבחן Shapiro - Wilk לבדיקת נורמליות:
השערות המבחן:
H0 : נתוני התדירות מתפלגים נורמלית.
H1 : נתוני התדירות אינם מתפלגים נורמלית.##
## Shapiro-Wilk normality test
##
## data: Frame_group$Percentages
## W = 0.80398, p-value = 0.0005779
## P-Value is: 0.000577945
## Reject HO hypothesis (Accept H1), The frequency data is not normally distributed.
כמסקנה אוכל לומר כי מאחר ו- P-value < 5% אזי אדחה את H0 ברמת מובהקות 5%, ואסיק כי נתוני התדירות אינם מתפלגים נורמלית. אוכל להציג את המסקנה גם באופן ויזואלי:
## The frequency data is not normally distributed
## The residuals are not arranged at 45 degrees according to the red qqline.
כמסקנה ניתן לראות כי גם על פי מבחן שפירו - וילק וגם לפי גרף QQ-Plot נתוני התדירות לא מתפלגים נורמלית, כך שהנחת הנורמליות עבור מבחן ANOVA דו כיווני אינה מתקיימת! לאור התוצאות לא ניתן להשתמש במבחן ANOVA TWO-WAY לבדיקת שאלת המחקר, על כן יש לעבור לשימוש במבחנים א-פרמטריים.
המבחן הסטטיסטי:
מבחן א-פרמטרי Kruskal-Wallis
השערת המחקר : קיים הבדל בין סוגי התאונות שביצעו נהגים בצורות דרכים שונות, וישנה השפעה של צורת הדרך על סוג התאונה.
מבחן השערות :
H0 : אין הבדל מובהק סטטיסטית בין סוגי התאונות שביצעו נהגים בצורות דרכים שונות.
H1 : יש הבדל מובהק סטטיסטית בין סוגי התאונות שביצעו נהגים בצורות דרכים שונות.
הנחות המודל :
המשתנים אינם מתפלגים בהתאם להתפלגות נורמלית.
המשתנה הבלתי תלוי בעל 2 קבוצות ומעלה.
מבחן “Kruskal-Wallis” הינו מבחן א-פרמטרי המשתמש להשוואת שתי קבוצות ומעלה, כאשר המשתנה הכמותי אינו מתפלג נורמלית.
##
## Kruskal-Wallis rank sum test
##
## data: SUG_TEUNA by ZURAT_DEREH
## Kruskal-Wallis chi-squared = 8.7567, df = 3, p-value = 0.03271
## P-Value is: 0.03270688
## Reject HO hypothesis (Accept H1).
## We will conclude at a significance level of 5% ,that there is a statistically significant difference in the type of accidents committed by drivers, on different types of road shapes.
על פי המבחן ניתן לראות כי ערך ה- P-value < 5% כלומר, אדחה את השערת H0 ברמת מובהקות של 5%, ואומר כי קיים הבדל מובהק סטטיסטית בין סוגי התאונות שמבצעים נהגים בצורות דרכים שונות.
בעזרת המקרא של הגרף נדע כי ככל שצבע המשבצת כהה יותר, כך תדירות התאונה מסוג מסויים גבוהה יותר. על פי תוצאות הגרף ניתן לראות כי סוג התאונה “התנגשות אחור בחזית” המתקיימת בצורת דרך “אחר”, היא בעלת אחוז תדירות התאונות הגבוה ביותר ביחס לשאר סוגי התאונות, דבר המתכנס עם גרף העמודות ההתחלתי בו נראה כי “התנגשות אחור בחזית” בעלת כמות התאונות הגבוהה ביותר, בנוסף, סוג תאונה “התנגשות חזיתית” המתקיימת בצורת דרך “יציאה / כניסה למחלף” גם היא בעלת אחוז תדירות גבוהה במיוחד בדומה למה שנראה גם בגרף העמודות המוערם של הסטטיסטיקה התיאורית. נראה כי גם לסוג תאונה “התנגשות צד בצד” ישנה תדירות גבוהה יחסית. התוצאות מחזקות את המסקנה כי קיים הבדל מובהק סטטיסטית בין סוגי התאונות שמבצעים נהגים בצורות דרכים שונות.
על מנת להתחיל בביצוע המחקר על שאלה זו, אבצע סינון של טבלת הנתונים המקורית בה השתמשתי כאשר אבחר רק את הנתונים המתייחסים לנשים.
## # A tibble: 16 × 3
## SUG_TEUNA ZURAT_DEREH total_accidents
## <chr> <chr> <int>
## 1 Head-on collision Other 1334
## 2 Head-on collision Sharp Slope/Curve 1
## 3 Head-on collision Straight road/junction 6
## 4 Injury to a pedestrian Other 1365
## 5 Injury to a pedestrian Straight road/junction 4
## 6 Other Other 1324
## 7 Other Straight road/junction 2
## 8 Overturning Other 396
## 9 Overturning Straight road/junction 1
## 10 Rear-end collision Other 5655
## 11 Rear-end collision Straight road/junction 10
## 12 Side by side collision Other 1440
## 13 Side by side collision Sharp Slope/Curve 1
## 14 Side by side collision Straight road/junction 4
## 15 Slip Other 1150
## 16 Slip Straight road/junction 2
## [1] "Rear-end collision"
## attr(,"freq")
## [1] 5665
## [1] "Other"
## attr(,"freq")
## [1] 12664
## Category Most_Common Frequency
## 1 Type of Accident Rear-end collision 5665
## 2 Road Shape Other 12664
נראה שסוג התאונה הנפוץ ביותר עבור נשים הוא “התנגשות אחור בחזית” כאשר צורת הדרך הנפוצה ביותר היא “אחר”.
את מסקנת המחקר אוכל להציג גם באופן גרפי בעזרת גרף פיזור תלת מימדי.
הערה: יש לבדוק גרף זה כחלק ממתן הציון
נראה כי על פי הגרף סוג התאונה בשילוב צורת הדרך הנפוצים ביותר בקרב נשים מיוצגים ע”י הנקודה הצהובה, כך שעל פי המקרא, ככל שהצבע בהיר יותר כך השכיחות גבוהה יותר. בהתאם לכך, נראה כי גם לפי הגרף הויזואלי, סוג התאונה הנפוץ ביותר הוא “התנגשות אחור בחזית” בצורת דרך “אחרת”, כאשר מספר התאונות הוא הגבוה ביותר והינו 5,655 תאונות.
Statistics for EES and others, Comparing more than two groups: Multiple testing, ANOVA and Kruskal-Wallis, Dirk Metzler, June 13, 2023 Multiple testing using ANOVA and Kruskal-Wallis
Spring 2021 EDAV Community Contributions, 2021-12-11 +Chapter 43 3D plot in R, Xinzhe Qi
Spring 2021 EDAV Community Contributions, 2021-12-11, Chapter 46 Common Errors in R, Emily Jennings-Dobbs Creating 3D plots in R and Common Errors in R
Package ‘plotly’, Create Interactive Web Graphics via ‘plotly.js’, January 13, 2024 Using “Plotly” package for interactive plots
RVAideMemoire (version 0.9-83-7),Testing and Plotting Procedures for Biostatistics Cramer.test: Cramer’s association coefficient
Package ‘vcd’, Visualizing Categorical Data, December 29, 2023 Using “vcd” package for visualizing of categorical data
R CHART by R coder, pie3D function in R Performing 3D pie charts at R
R Pubs, Data Science עם R - פרק 2 - ויז’ואליזציה של נתונים , עדי שריד R data science visualization
המדריך העברי למשתמש, ויזואליזציה Using R
R Markdown from R Studio Output Formats
Data visualization with ggplot2 CHEAT SHEET
R Markdown with RStudio, Roger Peng How to use Markdown - YouTube