alt text
בפרויקט שלנו, בחרנו לנתח את הנושא “בעיית הקילומטר האחרון” בעזרת בסיס נתונים אשר אספנו באופן כיתתי בעזרת שאלון מחקר שכולל 368 תצפיות. המונח “בעיית הקילומטר האחרון” מתאר את הקושי בנגישות במקטע האחרון במסלול, כלומר מתחנת הירידה מהאוטובוס או הרכבת ועד ליעד הסופי. בעיה זו מעסיקה רבים בתחום התחבורה ותכנון הערים.
באיזה מידה בעיית הקילומטר הראשון/אחרון משפיעה על הבחירה בשימוש בתחבורה ציבורית? על מנת לבדוק שאלה זאת נשתמש במס’ שאלות שמבוססות על המשתנים המסבירים שלנו-
פתח דבר: המציאות התחבורתית שעימה מתמודדים תושבי ישראל בשנת 2022 מדי יום ביומו היא קשה. עומסי התנועה בכל בוקר ובכל ערב הם כבדים. התמשכות הנסיעות לעבודה או לעיסוקים השונים והחזרה מהם נוגסת בזמנם היקר של התושבים, פוגעת בפריון העבודה, מביאה לאי-מיצוי הפוטנציאל של התוצר המקומי הגולמי ושל ההכנסות ממיסים ואף גורמת לזיהום אוויר ולמפגעי רעש. לגבי האדם היחיד, השעות הרבות בדרכים מקטינות את הזמן הפנוי, פוגמות באיכות החיים ויוצרות תחושת תסכול ומתחים מיותרים.
לעומסי התנועה במדינה יש משמעויות כלכליות כבדות שמעורכות בעשרות מיליארדי ₪ בשנה. בשל כך נדרש לנקוט אמצעים מיידים ויעלים לפתרון הבעיה ומאחר שהעומסים אף צפויים להחריף מאוד בעתיד כדאי “להזדרז”.
רקע בישראל פועלים כיום שירותי תחבורה ציבורית מארבעה סוגים: אוטובוסים, מוניות שירות, רכבות בין עירוניות ורכבת קלה. שירותי האוטובוסים הם אמצעי התחבורה הציבורית הנפוץ ביותר, והם המשמשים את רוב הנוסעים. בכל יום יש כ311,000 יציאות של קווי אוטובוסים ובהם כ2.2 מיליון נוסעים. המחזור הכספי של התחבורה הציבורית בישראל נאמד בכ-5 מיליארד ₪ בשנה ומתוכם 3 מיליארד ניתנים ע"י סובסידיה מן המדינה.
הליקויים והכשלים: זה כשני עשורים מודעים הממשלה ומשרד האוצר לכך שמערכת תחבורה ציבורית ענפה ויעלה היא הפתרון המיטבי לבעיות התחבורה במטרופלינים ואולם במהלך השנים לא בוצעו פעולות משמעותיות להתקדמות עם הבעיה. במשך שנים רבות ההשקעה בתחבורה ציבורית בישראל הייתה נמוכה מאוד לעומת מרבית המדינות המפותחות והושם דגש על פיתוח תשתיות התומכות בשימוש ברכב פרטי. במשך השנים היקף השימוש בתחבורה ציבורית נותר קטן והיקף השימוש ברכב פרטי הלך וגדל. הכמות הגדולה של כלי רכב והנסועה הרבה בכבישים גורמת לכך שצפיפות התנועה בכבישי ישראל הן מהגבוהות בעולם פי 3.5 מהמוצע של המדינות המפותחות. התלות הרבה והגוברת של תושבי המדינה ברכבם הפרטי נובעת מכמה סיבות עיקריות:
רמת שירות נמוכה- שירותי התחבורה הציבורית בישראל לא מספקים. השירות הניתן לתושב אינו מספק את הביקושים באופן הולם. צפיפות, רמת שירות, תדירות, זמני נסיעה והמתנה ארוכים כל אלו מונעים משירות התחבורה הציבורית לשמש חלופה אמיתית לשימוש ברכב פרטי ומקבע את הציבור להשתמש ברכב פרטי למרות המפגעים הנוצרים מהשימוש.
.ליקווים בפעילות מערך האוטובוסים- האוטובוסים הם אמצעי תחבורה הציבורי המרכזי במדינת ישראל והם עמוד התווך בהסעת המונים. משרד האוצר מעביר מיליארדי שקלים כל שנה לסבסוד התחבורה הציבורית אך עדיים קיים מחסור בתשתיות התומכות בתחבורה ציבורית ומחסור עצום בנהגים.
ליקווים בפעילות הרכבת- רכבת ישראל לא צפתה את הגידול הקרב ובא לאורך השנים ולא התכוננה בהתאם. התחזיות החסרות, תכנון ותפקוד לקוי הביאו למחסור בקטרים, רכבות וכל אלו גרמו לפגיעה בטיב השירות, צפיפות רבה ולאיחורי רכבות בעיקר בשעות השיא.
מתן עדיפות לתחבורה ציבורית- אספקת שירותי תחבורה ציבורית יעילים דורשת, בצד תפעול יעיל, של קווים ושל תעבורת נוסעים, גם מתן עדיפות בדרכים לתחבורה הציבורית על פני הרכב הפרטי על מנת לקצר את זמן הנסיעה.
הפחתת הגודש בכבישים- הגידול במספר כלי הרכב במדינה יוצר עומס בכבישים שעלותו למשק גבוהה מאוד, בין היתר בגלל ירידה בפריון העבודה, פגיעה במערך האספקה של סחורות שגורמת להתייקרות המוצרים, זיהום אוויר ופגיעה באיכות החיים של תושבי המדינה.
למרכזי פעילות- הגידול הבלתי מבוקר של אוכלוסיית הערים והתייקרות מחירי הדירות ושכר הדירה בהן גורם לאוכלוסייה לחפש פתרונות מגורים בפרוורי העיר, אשר מתאפיינים בצפיפות אוכלוסין נמוכה יותר. תחבורה ציבורית יעילה מהפרוורים למרכזי הפעילות הכלכלית עשויה לקרב את התושבים לעיר, לקצר את זמני הנסיעה ולתרום להפחתת העומס בכבישים.
שוויוניות והגברת הנגישות- התחבורה הציבורית היא האמצעי העיקרי שמסוגל להנגיש את מקומות העבודה, השירותים הציבוריים, אתרי הפנאי והמסחר לכלל האוכלוסייה. הדברים אמורים בעיקר בבעלי הכנסה נמוכה, בילדים, בקשישים ותושבי פריפריה שאין ברשותם כלי רכב לשימוש יום יומי.
צמצום יוקר המחייה-קיומה ל מערכת תחבורה ציבורית יעילה מאפשרת להפחית את הוצאות משקי הבית על תחבורה תוך שיפור באורח החיים של התושבים.
תרשים 2: מידת שביעות הרצון מתדירות הקווים ומהעמידה בלוחות הזמנים
תרשים 3: גידול מצטבר באוכלוסייה, באורך ובשטח כבישים, בכלי רכב פרטיים, בנסועת כלי רכב, בנסיעות באוטובוסים ובנוסעים ברכבת, בשנים 2017-2010
Data-driven shuttle service design for sustainable last mile transportation
Measuring the Quality of the First/Last Mile Connection to Public Transport
דוח מבקר המדינה “משבר התחבורה הציבורית”.
“הבעיה היא דווקא הקילומטר הראשון” – אור תורג’מן
“מתנועה לתנועתיות: צריך לחשוב אחרת על התחבורה בישראל”
“השקעות בתחבורה ציבורית בישראל ובעולם-מרכז המחקר והמדע הכנסת”
" פרויקט מהיר לעיר-מערכת חצב תכנון תחבורתי בישראל"
האם קיים הבדל בין התוחלות של כמות הנסיעות בתחבורה ציבורית בשבוע של אוכלוסיית הגברים לבין אוכלוסיית הנשים?
ביצענו מבחן Wilcoxon לבדיקת ההשערה על ההבדל בין התוחלות של שתי אוכלוסיות- גברים ונשים. אנו רוצים לבדוק ע"י מבחן האם יש הבדל בין כמות הנסיעות בתחבורה ציבורית בשבוע של אוכלוסיית הגברים לבין אוכלוסיית נשים.נבצע מבחן זה מכיוון שהנתונים שלנו לא מתפלגים נורמלית ולכן לא נוכל לבצע מבחן T שזה המבחן המקביל לו, במבחן Wilcoxonאין צורך בהתייחסות להנחת הנורמליות. כאשר נדחה את H0 נסיק שקיים הבדל בהפרש התוחלות בין שתי האוכלוסיות.
library(readxl)
finalData <- read_excel("C:/Users/orbre/OneDrive/Desktop/finalData.xlsx")
y<- as.numeric(finalData$transNO)
x<-as.numeric(finalData$gender)
stat.test <- wilcox.test(x,y)
stat.test
##
## Wilcoxon rank sum test with continuity correction
##
## data: x and y
## W = 57120, p-value = 5.675e-05
## alternative hypothesis: true location shift is not equal to 0
ניתן לראות לפי הפלט שהערך P-value < 0.05שזה 5% ולכן נקבל את H0 ונסיק כי לא קיים הבדל בין התוחלות של האוכלוסיות השונות כלומר, אין הבדל בין כמות הנסיעות בתחבורה ציבורית בשבוע של אוכלוסיית הגברים לבין אוכלוסיית נשים. לאחר מכן ביצענו מבחן קורלציה בין משתנה הX שמייצג את מגדר האוכלוסייה למשתנה הY שמייצג את כמות הנסיעות השבועיות בתחבורה ציבורית.
לאחר מכן ביצענו מבחן קורלציה בין משתנה הX שמייצג את מגדר האוכלוסייה למשתנה הY שמייצג את כמות הנסיעות השבועיות בתחבורה ציבורית.
מקדם המתאם הוא מדד המבטא את הקשר בין שני משתנים. במקרה שלנו המשנים הינם אורדינליים (Ordinal), משתנים שסולם המדידה שלהם הוא סדר לכן נוכל להשתמש במקדם המתאם של פירסון.
finalData <- read_excel("C:/Users/orbre/OneDrive/Desktop/finalData.xlsx")
y<- as.numeric(finalData$transNO)
x<-as.numeric(finalData$gender)
cor.test(x,y)
##
## Pearson's product-moment correlation
##
## data: x and y
## t = 0.70823, df = 366, p-value = 0.4793
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.06548402 0.13870070
## sample estimates:
## cor
## 0.03699445
לפי בדיקת קורלציה על שאלת המחקר ניתן לראות שהקשר הוא 0.03 קשר חיובי חלש ואף זניח, לכן ניתן להגיד שאין השפעה של המשתנים אחד על השני- ההנחה היא שהמשתנים שלנו קטגוריאליים שהפכנו לאורדינליים ואינם מתפלגים נורמלית ולכן גם אין ביניהם קורלציה.
הצגת ניתוח הנתונים שלנו בעזרת 3 גרפים שונים-
כעת נצלול לוויזואליזציה, בחרנו להציג את שאלת המחקר בעזרת גרף תרשים קופסה מציג את החציון, רבעון עליון ותחתון וערכי מינימום ומקסימום. בתרשים שלנו ניתן גם לראות את פיזור התצפיות בכל קבוצה (נשים וגברים) ביחס למדד כמות הנסיעות בתחבורה ציבורית בשבוע.
library(readxl)
library(ggpubr)
library(ggstatsplot)
finalData <- read_excel("C:/Users/orbre/OneDrive/Desktop/finalData.xlsx")
Chn_Gender_transNo <- data.frame(finalData$gender,finalData$transNO)
Chn_Gender_transNo$finalData.gender<-as.character(Chn_Gender_transNo$finalData.gender)
names(Chn_Gender_transNo)[1]<-paste("gender")
names(Chn_Gender_transNo)[2]<-paste("transNO")
Chn_Gender_transNo["gender"][Chn_Gender_transNo["gender"] == "0"] <- "Male"
Chn_Gender_transNo["gender"][Chn_Gender_transNo["gender"] == "1"] <- "Female"
ggboxplot(Chn_Gender_transNo, x = "gender", y = "transNO",
color = "gender",
ylab = "Num of trans per week", xlab = "Gender",add = "jitter")
מסקנה זו מהגרף מאמתת את המבחן הסטטיסטי שביצענו ושאין הבדל בין כמות הנסיעות בתחבורה ציבורית בשבוע של אוכלוסיית הגברים לבין אוכלוסיית נשים.
library(readxl)
finalData <- read_excel("C:/Users/orbre/OneDrive/Desktop/finalData.xlsx")
y<- as.numeric(finalData$transNO)
x<-as.numeric(finalData$gender)
library(ggpubr)
library(ggstatsplot)
ggbetweenstats(
data = Chn_Gender_transNo,
x= gender,
y = transNO,
ylab = "Num of trans per week",
xlab = "Gender",
plot.type = "box",
type = "nonparametric",
sphericity.correction = TRUE,
centrality.plotting = TRUE,
title = "Comparison of Gender"
)
בנוסף, ניתן לראות שהחציון של שתי הקבוצות זהה לגמרי ושווה ל1.
המבחן כולל פלט של מבחן סטטיסטי מבחן Mann-Whitney שדומה מאד בתכונותיו למבחן Wilcoxon שביצענו וניתן לראות גם כאן ש P-value < 0.05ושנדחה את H0
library(readxl)
finalData <- read_excel("C:/Users/orbre/OneDrive/Desktop/finalData.xlsx")
y<- as.numeric(finalData$transNO)
x<-as.numeric(finalData$gender)
library(ggpubr)
library(ggstatsplot)
library(afex)
ggwithinstats(
data = Chn_Gender_transNo,
x = gender,
y = transNO,
ylab = "Num of trans per week",
xlab = "Gender",
type = "np",
effsize.type = "d",
conf.level = 0.99,
title = "Wilcoxon Test- Density & Distribution",
package = "ggsci",
palette = "uniform_startrek",
)
גרף זה משלב את הצפיפות וההתפלגות של כל אחד מהמדגמים על גבי BoxPlot, על מנת להראות את ההבדלים בין ההתפלגות והצפיפות של כל אחד מהמדגמים. ניתן לראות שגם כאן החציון שווה ל1 וזהה, וניתן לראות את ההתפלגות של כל אוכלוסייה ביחס למדד כמות הנסיעות.
כל מדגם בנוי בצורת “פעמון” שמראה לנו את צפיפות המדגם כאשר הוא יותר “שמן” הצפיפות יותר גבוהה וההפך, בנוסף ניתן לראות שהפעמון מחולק לארבעה רבעים בעזרת 4 נקודות וניתן לראות איפה מתקיים קשר חזק יותר של תצפיות כאשר הנקודה גדולה יותר, ניתן לראות חד משמעית שהערכים בקבוצת הנשים חופפים לקבוצת הגברים ושהצפיפות כמעט וזהה, הקווים המחברים בין שני המדגמים זה השוואה בעין הערכים המיוחדים של כל אחד מהמדגמים- חציון,3Q, 1Q וכו’…
לסיכום, מדגם אוכלוסיית הנשים זהה כמעט לחלוטין למדגם אוכלוסיית הגברים ביחס לכמות הנסיעות בתחבורה ציבורית ומכאן נגיע למסקנה חד משמעית שאין הבדל בין האוכלוסיות.
בשביל שאלה זו השתמשנו בשני פרמטרים מין השאלון- מרחק מתחנה ציבורית, וכמות נסיעות שבועיות בשביל לבדוק האם יש השפעה נגדיר y- כמות נסיעות שבועיות, x- מרחק מתחבורה ציבורית. בשביל לבדוק האם יש השפעה אנו נשתמש במבחן פרמטרי ולשם כך נבדוק שתי הנחות יסוד של המבחן. האם הנתונים מתפלגים נורמלית והאם יש שיוויון שוניות. במידה ואחת ההנחות אינה מתקיימת נעשה שימוש במבחן א-פרמטרי
השערת מבחן נורמליות
library(readxl)
finalData <- read_excel("C:/Users/orbre/OneDrive/Desktop/finalData.xlsx")
transno<-as.numeric(finalData$transNO)
max1<-as.factor(finalData$Max_distance_to_public_transoprt_station)
shapiro.test(transno)
##
## Shapiro-Wilk normality test
##
## data: transno
## W = 0.78567, p-value < 2.2e-16
לפי מבחן Shapiro-Wilk הנתונים אינם מתפלגים נורמלית לכן נעבור למבחן א-פרמטרי Kruskal-Wallis
כאשר לא ניתן לבצע מבחן ניתוח שונות חד כיווני (למשל, כאשר השונויות לא שוות, המשתנה התלוי אינו מתפלג נורמאלי או המשתנה התלוי נמדד בסולם סדר) נבחר קבוצות בלתי תלויות. k במבחן לא-פרמטרי להשוואת מבחן Wallis-Kruskal הוא מבחן אפרמטרי להשוואת מספר אוכלוסיות בלתי תלויות.
השערות המבחן
library(readxl)
finalData <- read_excel("C:/Users/orbre/OneDrive/Desktop/finalData.xlsx")
transno<-as.numeric(finalData$transNO)
max1<-as.factor(finalData$Max_distance_to_public_transoprt_station)
kruskal.test(transno~max1,data=finalData)
##
## Kruskal-Wallis rank sum test
##
## data: transno by max1
## Kruskal-Wallis chi-squared = 10.735, df = 3, p-value = 0.01325
p-value < 0.05 לכן אפשר להניח שישנו הבדל של מרחק התחנה של התחבורה הציבורית מהבית על כמות הנסיעות השבועיות.
עוד ניתן להסיק על שאלת המחקר מתצוגה ויזואלית של הנתונים ע"י גרפים ומהתבוננות על הנתונים וויזואלית נוכל להסיק מסקנות
מכיוון שרוב התצפיות הצביעו על כך שלרוב האנשים שענו על סקר זה יש תחנת תחבורה ציבורית במרחק של כ-0-300 מטרים מהבית, החלטנו לנתח ולראות מה מסיקים מהגרף.
library(dplyr)
library(tidyverse)
library(readxl)
finalData <- read_excel("C:/Users/orbre/OneDrive/Desktop/finalData.xlsx")
df<-finalData %>% count(finalData$Max_distance_to_public_transoprt_station)
barplot(df$n,names.arg=0:3,main = "Number of trips by distance",xlab = "0-300",
ylab = "Num of trans per week?",col = c("red","gray","gray","gray"))
ההשערה ההתחלתית הייתה שאם יש תחנה קרובה כל כך לביתו של אדם הוא יחליט כן לבחור לנסוע בתחבורה ציבורית. מה שעולה מהגרף זה שרוב האנשים שהצביעו שיש תחנה במרחק קצר מביתם מחליטים לא לנסוע בגלל בתחבורה ציבורית.
נתון זה מאוד הפתיע את חברי הקבוצה, לאחר שמצאנו כי ישנו הבדל בין המרחקים השונים של תחנות תחבורה ציבורית לבין תדירות הנסיעות הערכנו שאנשים שיש ליד ביתם תחנת תחבורה ציבורית השתמשו יותר בשירותיה.
מה שעולה מן הגרף זה שדווקא מי שיש לו תחנה קרובה לביתו לא נוסע כמעט בכלל. בגרף הבא ניתן לראות שרק 3% ממי שהצביע שישנה תחנה קרובה לביתו משתמש בתחבורה ציבורית 3 פעמיים בשבוע מה שמעיד על תרבות הנסיעה בארץ וכמה מקום להשתפר יש למדינה בנושא הזה
library(dplyr)
library(tidyverse)
library(plotrix)
library(readxl)
df<-finalData %>% count(finalData$Max_distance_to_public_transoprt_station)
silnce<-df[[2]]
pct<-round(silnce/sum(silnce)*100)
lbls<-paste(c("0:","1:","2:","3:")," ",pct,"%",sep="")
pie3D(silnce,labels = lbls,col = rainbow(5),explode=0.0,main = "my pie")
האם משך זמן ההגעה לתחנת התחבורה הציבורית משפיע על כמות הנסיעות בתחבורה ציבורית בשבוע?
בחלק זה של המחקר אנו מעוניינים לבחון האם קיימת השפעה לזמן ההגעה לתחנת התחבורה הציבורית (זמן המסלול בק"מ הראשון) לבין כמות הפעמים שנבחר לנסוע בתחבורה הציבורית (רכבת/ אוטובוס בין עירוני).
ראשית, נציג את פילוח המדגם שנאסף על מידת ההשפעה של זמן הנסיעה בק"מ הראשון (0-כלל לא משפיע, 5-משפיע מאוד):
library(ggplot2)
library(ggpubr)
library(plotrix)
library(readxl)
finalData <- read_excel("C:/Users/orbre/OneDrive/Desktop/finalData.xlsx")
Time_of_public_transoprt <- factor(finalData$Time_of_public_transoprt, levels = c("0", "1", "2", "3", "4", "5"))
freq<-table(Time_of_public_transoprt)
freq
## Time_of_public_transoprt
## 0 1 2 3 4 5
## 17 15 50 47 101 138
library(plotrix)
colo<-c("lightblue1","tan1","lightpink","lightgreen","plum1","khaki1")
pieval<-round(c(17/368*100,15/368*100,50/368*100,47/368*100,101/368*100,138/368*100))
pielabels<-
c("5%-Don't care about travel time","4%","14%","13%","27%","28%-Care about travel time")
lp<-pie3D(pieval,radius=0.9,labels=pielabels,explode=0.1,main="Segmenting the impact of arrival time at the station",
col=c("lightblue1","tan1","lightpink","lightgreen","plum1","khaki1"))
# lengthen the last label and move it to the left
lp[1]<-0.1
lp[4]<-1.7
lp[2]<-0.5
par(xpd=TRUE)
legend(1,0.7,legend=c("0-Don't care","1","2","3","4","5-Care"),cex=0.9,yjust=0.35, xjust = -0.1,
length(c("0-Don't care","1","2","3","4","5-Care")),fill = colo)
28% - בחרו במדד ההשפעה הגבוה ביותר [5]
27% - בחרו במדד ההשפעה אחד מתחתיו [4]
כאמור, יותר מ-50% מהתצפיות מעידות כי קיימת השפעה של זמן הנסיעה בק"מ הראשון על תדירות הנסיעה בתחבורה הציבורית בשבוע.
5% - בחרו במדד ההשפעה הנמוך ביותר [0]
4% - בחרו במדד ההשפעה אחד מתחתיו [1]
כמו כן, פחות מ-10% מהתצפיות העידו כי לא קיימת השפעה / קיימת השפעה נמוכה מאוד לזמן הנסיעה בק"מ הראשון על תדירות הנסיעה בתחבורה הציבורית בשבוע.
כעת נצלול לתוך המחקר ונבחן האם בפועל התקבלו תצפיות המאשרות את מה שהסקנו מתרשים הפאי.
נבחון את השאלה האם קיימים הבדלים בכמות הנסיעות בשבוע לפי קטגורית מידת ההשפעה של זמן הנסיעה בק"מ הראשון. קטגוריות- 0-כלל לא משפיע,1, 2, 3, 4, 5- משפיע מאוד.
לפי הגרף הקודם, ניכר כי קיימים הבדלים, וההבדל המהותי ביותר הינו בין מידות ההשפעה הגבוהה ביותר [5] למידות ההשפעה הנמוכות [0] / [1].
לכן ננתח את ההבדלים באמצעות ניתוח שונות חד כיווני.
בשלב הראשון-נבצע ניתוח שונות חד כיווני באמצעות Kruskal-Wallis test שהינו מבחן א-פרמטרי המתאים למשתנים קטגוריאליים.מבחן זה מאפשר ביצוע של ניתוח שונות חד כיווני ללא קיום הנחת התפלגות נורמלית (ההנחה שדחינו בשלב הראשון).
library(readxl)
finalData <- read_excel("C:/Users/orbre/OneDrive/Desktop/finalData.xlsx")
kruskal.test(transNO~Time_of_public_transoprt,data=finalData)
##
## Kruskal-Wallis rank sum test
##
## data: transNO by Time_of_public_transoprt
## Kruskal-Wallis chi-squared = 6.8535, df = 5, p-value = 0.2318
כפי שניתן לראות, קיבלנו שה- P-Value גבוה מרמת המובהקות α=0.05 ולכן לא נדחה את השערת האפס ונסיק כי אין הבדל סטטיסטי בין הקבוצות.
בשלב בשני-נבצע בדיקת קורלציה בין המשתנים. Correlation – מקדם המתאם הוא מדד המבטא את הקשר בין שני משתנים. במקרה שלנו המשנים הינם אורדניאלים (Ordinal), משתנים שסולם המדידה שלהם הוא סדר לכן נוכל להשתמש במקדם המתאם של פירסון.
library(readxl)
finalData <- read_excel("C:/Users/orbre/OneDrive/Desktop/finalData.xlsx")
transNO<-as.numeric(finalData$transNO)
Time_of_public_transoprt<-as.numeric(finalData$Time_of_public_transoprt)
cor(Time_of_public_transoprt,transNO, method = "pearson")
## [1] 0.1121242
כפי שניתן לראות, מקדם המתאם שקיבלנו נמצא בטווח שבין 0.0 לבין 0.2 המעיד על מתאם חיובי חלש מאוד או זניח כלומר קיים קשר ליניארי עולה כלשהו – ככל שמדד השפעת זמן הנסיעה עולה כך עולה תדירות הנסיעה בתחבורה הציבורית בשבוע אך הוא חלש מאוד ואף זניח – מתאם נמוך. לכן לא נדחה את השערת האפס ונסיק כי אין קשר בין המשתנים. דבר המחזק את המסקנה שלנו בשלב הקודם, בו הסקנו כי אין הבדל בין קטגוריות מידת ההשפעה, כלומר שייתכן שאם אין הבדל בין הבחירות – זה נובע כי אין קשר בין המשתנים.
כמו כן, ניתן להסיק כי אין השפעה משמעותית לזמן הנסיעה בק"מ הראשון על תדירות הנסיעה בתחבורה הציבורית בשבוע.
בשלב השלישי- נציג את גרף ה-Box plot. בגרף הבא ניתן לראות תרשימי קופסה של כל קבוצה (קטגוריית מדד). ציר ה-Y מייצג את קטגורית מדד ההשפעה של הזמן, ציר ה-X מציג את מדד כמות הנסיעות בשבוע ([0]0 , [1] 1-2, [2] 3-4, [3] 5+).
תרשים קופסה מציג את החציון, רבעון עליון ותחתון וערכי מינימום ומקסימום. בתרשים הקופסה הראשון שלנו ניתן גם לראות את פיזור התצפיות בכל קבוצה/קטגוריה ביחס למדד כמות הנסיעות בתחבורה ציבורית בשבוע. כיוון שהבחירות הן נקודתיות, כלומר בחירה בציר ה-X וציר ה-Y תהווה נקודה במיקום ספציפי (כפי שניתן לראות בגרף השני), בחרנו להוסיף גם את פונקציית הפיזורים לגרף הראשון, פונקציה זו מוסיפה רעשים לתצפיות על מנת להראות פיזור כלשהו סביב הנקודה הספציפית, כל זאת על מנת כדי להציג את כמות התצפיות שבחרו באותה נקודה ולהבחין באופן ויזואלי במגמה.
library(ggplot2)
library(ggpubr)
p1<-ggboxplot(finalData, "Time_of_public_transoprt", "transNO",
color = "Time_of_public_transoprt",
add ="jitter", shape = "Time_of_public_transoprt",
ylab = "Travel per week", xlab = "Travel time",
title ="Time of public transport",font.main=25)
p1 + scale_x_discrete(labels =c("0-Don't care about travel time","1","2","3","4","5-Care about travel time")) +
theme(legend.title=element_blank())+theme(legend.background = element_rect(fill="lightblue",size=0.5, linetype="solid",colour ="darkblue"))+
font("xlab", size = 18)+font("ylab", size = 18)
#----------------------------------------------
p2<-ggboxplot(finalData, "Time_of_public_transoprt", "transNO",
color = "Time_of_public_transoprt",
add = "point",add.params=list(size=6), shape = "Time_of_public_transoprt",
ylab ="Travel per week" , xlab = "Travel time",
main= "Time of public transport",font.main=25)
p2 + scale_x_discrete(labels =c("0-Don't care about travel time","1","2","3","4","5-Care about travel time"))+theme(legend.title=element_blank())+
theme(legend.background = element_rect(fill="lightblue",size=0.5, linetype="solid",colour ="darkblue"))+ font("xlab", size = 18)+
font("ylab", size = 18)
מסקנה זו מהגרף עולה בקנה אחד עם המבחן הסטטיסטי ובדיקת הקורלציה שביצענו המעידים כי בפועל, לזמן הנסיעה בק"מ הראשון אין השפעה על תדירות הנסיעות בתחבורה הציבורית בשבוע.
האם יש תלות בין כמות הנסיעות השבועית של נוסעים בתחבורה ציבורית למידת העלות של המייל האחרון שתשפיע עליך אם להשתמש בתחבורה ציבורית?
בשביל שאלה זו השתמשנו בשני פרמטרים מין השאלון - מידת השפעת העלות (דירוג של 1-5 כאשר 1 נמוך ו-5 גבוה) וכמות הנסיעות השבועיות (1-> 1-2, 2-> 3-4, 3-> 5+).
library(readxl)
library(tidyr)
library(tidyverse)
library(corrplot)
library(GGally)
library(devtools)
library(dplyr)
library(ggplot2)
library(ggExtra)
library(car)
library(PerformanceAnalytics)
library(ggstatsplot)
finalData <- read_excel("C:/Users/orbre/OneDrive/Desktop/finalData.xlsx")
db<-finalData %>% select(transNO, Cost_of_public_transoprt) %>%
mutate(Cost_of_public_transoprt=factor(Cost_of_public_transoprt),
transNO=factor(transNO))
colnames(db)[2]<-'Cost deggre of public trans.'
levels(db$`Cost deggre of public trans.`)<-c('Non','Low','Low-Mid','Miduem','Mid-High','High')
attach(db)
ggplot(db) +
aes(x = transNO, fill = `Cost deggre of public trans.`) +
geom_bar() +
stat_count(geom = "text", colour = "black", size = 3,
aes(label = ..count..),position=position_stack(vjust=0.5))+
scale_x_discrete(labels = c('0','1-2','3-4','5+'))+
labs(title="Quantity Segmentation ",x="public trans./per week",
y="Count")+
theme(text = element_text(size=10),
axis.text.x = element_text(hjust=1))
בגרף ניתן לראות את התפלגות כמות הנסיעות בתחבורה ציבורית, לפי מידת העלות של המייל האחרון, ניתן לראות שמרבית האנשים שלא נוסעים בתחבורה ציבורית מורכבים מאלה שלטענתם יש השפעה גדולה למידת העלות של המייל האחרון, בנוסף ניתן לראות שהיחס נשאר לכל כמויות הנסיעות בתחבורה הציבורית.
לבדיקת השאלה בחרנו להשתמש במבחן חי-בריבוע לאי תלות, זאת מכיוון והנתונים שלנו הם קטגוריאליים:
alt text
library(readxl)
finalData <- read_excel("C:/Users/orbre/OneDrive/Desktop/finalData.xlsx")
chisq <-chisq.test(transNO,`Cost deggre of public trans.`)
chisq
##
## Pearson's Chi-squared test
##
## data: transNO and Cost deggre of public trans.
## X-squared = 31.215, df = 15, p-value = 0.008221
ניתן לראות שקיבלנו 0.05 >P-value לכן, ניתן להניח כי ישנה תלות בין הגורמים.
כעת נסתכל על הגרף הבא כדי להבין את הנתונים יותר לעומק-
library(readxl)
library(tidyr)
library(tidyverse)
library(corrplot)
library(GGally)
library(devtools)
library(dplyr)
library(ggplot2)
library(ggExtra)
library(car)
library(PerformanceAnalytics)
library(ggstatsplot)
ggbarstats(data = db,
x = `Cost deggre of public trans.`,
y = transNO,ggstatsplot.layer = FALSE,
ggplot.component = list(theme(text = element_text(size = 25)))) +
scale_x_discrete(labels = c('0','1-2','3-4','5+'))+
labs(title="percentage Segmentation ",x="public trans./per week",caption = NULL)+
theme(text = element_text(size=20),plot.subtitle = element_text(size = 20), plot.title = element_text(size = 30),
legend.title = element_text(size = 15),
legend.text = element_text(size = 15),
axis.text.x = element_text(hjust=1))
על מנת לבחון את הנתונים יותר לעומק, בגרף הבא נראה את התפלגות הטעויות של המבחן-
library(readxl)
library(tidyr)
library(tidyverse)
library(corrplot)
library(GGally)
library(devtools)
library(dplyr)
library(ggplot2)
library(ggExtra)
library(car)
library(PerformanceAnalytics)
library(ggstatsplot)
chiRes<-chisq$residuals
rownames(chiRes)<-c('public trans./per week: 0','public trans./per week: 1-2','public trans./per week: 3-4','public trans./per week: 5+')
colnames(chiRes)<-c('Cost deggre: Non','Cost deggre: Low','Cost deggre: Low-Mid','Cost deggre: Miduem','Cost deggre: Mid-High','Cost deggre: High')
corrplot(chiRes, is.cor = FALSE, title = 'correlation of residuals',mar = c(0,0,2,0),cex.main =3, tl.srt=20)
גרף הקורלציה מראה קשר חיובי כאשר הצבע הוא כחול (ככל שהצבע הופך כהה קח חוזק הקשר גדל) וקשר שלילי כאשר הצבע הוא אדום (ככל שהצבע הופך כהה קח חוזק הקשר גדל). לפי גרף קורלציית הטעויות, ניתן לומר בבירור שישנו קשר חיובי חזק בין כמות נסיעות שבועית 5+ לבין אלה שחושבים שעלות המייל האחרון משפיע במידה מרובה (5), וקשר שלילי חזק בין כמות נסיעות 5+ לבין אלה שחושבים שעלות המייל האחרון משפיע בדירוג 2.
ניתן בנוסף להבחין שמבין אלא שלא נוסעים יש קשר חיובי עם אלא שלא חושבים שעלות הנסיעה משפיעה. ואותה מידת קשר גם לאלה שנוסעים 1-2 פעמים בשבוע לבין מידת השפעה בדירוג 4.
ביצוע מבחן סטטיסטי טרם המודל הכלכלי: השאלה המרכזית בתחום התחבורה הציבורית בישראל היא מדוע הצרכן הישראלי מעדיף באופן כל כך מובהק רכב פרטי? על פי נתוני חברת “מתת” ל3-5% מנוסעי התחבורה הציבורית ישנה אפשרות לבחור לנסוע ברכבם הפרטי. היתר 95-97% הם נוסעים שבויים: ילדים ונוער, קשישים, סטודנטים או משפחות שלא יכולות להרשות לעצמן 2 כלי רכב בבית.
ביצוע מבחן ANOVA:
כחלק מן הפרויקט הכלכלי בחרנו לבצע מבחן ANOVA חד כיווני כדאי לבדוק האם יש הבדלים מובהקים סטטיסטית בין מספר הרכבים שיש בבית לבין מספר הנסיעות אשר בוחרים לבצע בשבוע בתחבורה ציבורית. בנוסף בעת ביצוע המבחן שילבנו את ההכנסה החודשית על מנת לבדוק האם קיימת אינטראקציה מסוימת בין שלושתם.
-אמנם כחלק מן דרישות הAnova ישנה הנחת נורמליות אך ניתן להפר אותה לעיתים ובכל זאת להסיק מסקנות לגביה.
library(readxl)
finalData <- read_excel("C:/Users/orbre/OneDrive/Desktop/finalData.xlsx")
model_anova<-aov(finalData$carsNo~finalData$income*finalData$transNO,data = finalData)
summary(model_anova)
## Df Sum Sq Mean Sq F value Pr(>F)
## finalData$income 1 0.0 0.00 0.002 0.969
## finalData$transNO 1 42.7 42.71 32.789 2.15e-08 ***
## finalData$income:finalData$transNO 1 0.3 0.34 0.263 0.609
## Residuals 364 474.2 1.30
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
מסקנה
ניתן לראות כי P-value < 0.05 ולכן ניתן להסיק כי קיים קשר מאוד מובהק בין מספר הרכבים שיש בבית לבין מספר הפעמים בהם בוחר האזרח הישראלי לנסוע בתחבורה ציבורית בשבוע. בנוסף ניתן לשים לב כי אין כול אינטראקציה בין ההכנסה החודשית בחודש לבין מספר הפעמים שבוחרים לנוסע בתחבורה ציבורית.
ביצוע מבחן רגרסיה לינארית פשוטה:
בנוסף, בחרנו לבצע מבחן רגרסיה לינארית פשוטה על מנת לבדוק את המתאם בין מספר הרכבים שיש לנבדק בבית לבין מספר הפעמים שהוא בוחר לנסוע בתחבורה ציבורית בשבוע. אמנם מודל רגרסיה לינארית מתאים עבור הנחת התפלגות נורמלית אך עדיין בשל המדגם הקטן שאספנו והעובדה כי המשתנים הינם כקטגוריים ניתן להזניח את ההנחת הנורמליות ולבצע את המבחן.
model_regression <- lm(carsNo ~ transNO, data = finalData)
summary(model_regression)
##
## Call:
## lm(formula = carsNo ~ transNO, data = finalData)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.2096 -0.8867 -0.2096 0.7669 3.7591
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.20964 0.07880 28.041 < 2e-16 ***
## transNO -0.32292 0.05641 -5.724 2.17e-08 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.139 on 366 degrees of freedom
## Multiple R-squared: 0.08217, Adjusted R-squared: 0.07966
## F-statistic: 32.77 on 1 and 366 DF, p-value: 2.167e-08
מסקנה
ניתן לראות כי גם בעזרת בדיקת רגרסיה לינארית פשוטה קיים קשר מובהק מאוד בין מספר הרכבים שיש לנבדק בבית לבין מספר הנסיעות אשר הוא בוחר לבצע בשבוע בעזרת תחבורה ציבורית. בנוסף לפי התוצאות ניתן לראות כי כול תוספת של מכונית אחת בבית מקטינה את מספר הנסיעות בתחבורה ציבורית ב-0.322- נסיעות.
תצוגה ויזואלית של מסקנות מהמבחן:library(ggplot2)
ggplot(finalData,mapping = aes(x=carsNo,y=transNO)) +
geom_smooth() + xlab("Number of Cars") +
ylab("Num of trans per week")
בחרנו לבחון את כדאיות הפרויקט של פרויקט “מהיר לעיר”- אנו נבחן את עלות ההשקעה בהקמת הפרויקט אל מול התועלת אותה אנו מניחים מביצוע הפרויקט:
פרויקט “מהיר לעיר”: כדי להתגבר על בעיית התחבורה במטרופולין גוש דן, החליטו במשרד התחבורה להשיק את תוכנית “מהיר לעיר”- הפקעת נתיבים מהכבישים והסבתם לנתיבי תחבורה ציבורית בלבד. 17 רשויות מקומיות נכללות בפרויקט הזה והוא נועד להוסיף 265 ק"מ של נתיבי תחבורה ציבורית. נתיבים אלו ייתנו עדיפות משמעותית לתחבורה ציבורית על פני כלי רכב.הפרויקט יכלול את המרכיבים הבאים:
נתונים אודות המצב הקיים אשר עזרו בבניית המודל הכלכלי:
• המדינה מסבסדת כ-7 מיליארד שקל עבור נסיעות בתחבורה ציבורית, שהם כמעט 3000 שקל בשנה לכל משק בית.
• כיום ישנם 3.5 מיליארד מכוניות פרטיות בכבישי ישראל ובשנים הקרובות מספר זה יעלה ל4.5 מיליון מכוניות פרטיות.
• לפי משרד האוצר והתחבורה, הנזק השנתי כתוצאה מגודש בכבישים עומד על כ-35 מיליארד שקל בשנה.
• על פי דוח מבקר המדינה מ2019 הנזק השנתי ב-2030 יעמוד על כ-74 מיליארד שקל, גדילה של כמעט 10% בכל שנה. • כרגע ישנם רק 130 ק"מ של נתיבי תחבורה ציבורית במטרופולין גוש דן.
• מטרופולין גוש דן הוא העמוס ביותר במדינת ישראל. כ50% מכלל מקומות העבודה בישראל מרוכזים בגוש דן.
• השעות המבוזבזות בשל הגודש בדרכים מסתכם ב-850 מיליון שעות בשנה.
• כל נוסע ברכב מאבד בכבישים יותר מ-60 דקות נוספות בממוצע ביום בגלל הגודש.
• לפי הלשכה המרכזית לסטטיסטיקה במטרופולין גוש דן מתגוררים כ-1,300,000 תושבים.
• רק 18%-19% מהעובדים בגוש דן משתמשים בתחבורה ציבורית כדי להגיע לעבודה, זאת לעומת מטרופולינים אחרים בעולם, בעיקר באירופה ואסיה, שם הנתון עומד על 30%-40%.
• מנתונים של עמותת אור ירוק עולה כי נסועת האוטובוסים בישראל עומדת על 3.5% מהנסיעות, לעומת ממוצע של 12% במדינות שונות באירופה.
• מחיר הנסיעה בגוש דן החל על נסיעות בכל הערים הינו 6.9 שח לנסיעה.
• בכל יום מתבצעות 4.2 מיליון נסיעות במטרופולין תל אביב-יפו, מתוכן 2.8 מיליון ברכב פרטי ו-1.3 מיליון בתחבורה ציבורית (אוטובוסים, רכבות, מוניות שירות וכו)
• למדינה יש הכנסות של 38-39 מיליארד שקל הודות למיסוי על כלי הרכב.
תזרים מזומנים של הפרויקט: (באלפי ₪)
הצגת תזרים מזומנים באופן ויזואלי:
library(readxl)
library('FinancialMath')
cashflowdata <- read_excel("C:/Users/orbre/OneDrive/Desktop/cashflowdata.xlsx")
total<-cashflowdata$total
year_of_project<-length(cashflowdata$year)
r<-0.04
NPV2022<-NPV(0,cf=total,(1:year_of_project),i=r)
NPV2022
## [1] 626988.8
מסקנה
NPV2020= 626988.8 בחישוב הערך הנוכחי של הפרויקט ניתן לראות כי פרויקט “מהיר לעיר” הינו פרויקט כדאי. ניתן לראות כי עם התקדמות הפרויקט התועלת גדלה בעקבות החיבור של יותר רשויות לפרויקט. ובכך בעצם מספר המשתמשים אשר יבחרו בתחבורה ציבורית יעלה בכל שנה.
הצגת תזרים מזומנים של הפרויקט באופן ויזואלי:
ggplot(cashflowdata) +
aes(x = year, y = total) +
geom_line(size = 2.7, colour = "#24FF00") +
theme_minimal()+
labs(x = "year", y = "total_cashflow")
השאלון מבוסס על נתונים קטגוריאליים שהפכנו בעזרת קידוד לאורדינליים ולכן יכולנו להשתמש רק במבחנים סטטיסטים א-פרמטרים מכיוון והנתונים אינם נומריים ואינם מתפלגים נורמלית ולכן לא יכולנו לבדוק את הקשרים וההשפעות בצורה מדויקת יותר.
ההמלצות שלנו למחקר עתידי עקב המחקר שביצענו הן:
• מחקר בעל מדגם גדול יותר
• מחקר שמייצג אוכלוסיות שונות ומגוונות כגון: מגדר, גיל, מחוז בארץ וכו’…
• בניית שאלות שיתרמו לשאלת המחקר ולבניית מודל כלכלי
• בניית שאלון שמורכב משילוב של נתונים קטגוריאליים והן נומריים רציפים.
• שאלון מדויק יותר וקצר יותר
במחקר שלנו בחרנו לחקור את אחת הסיבות אשר עלולה לגרום לאנשים לוותר על השימוש בתחבורה הציבורית, לנסוע ברכבם הפרטי אל היעד ובכך להוסיף על העומס בכבישים – “בעיית הקילומטר הראשון/אחרון”.
בשאלת המחקר שלנו רצינו לבחון באיזו מידה בעיית הקילומטר הראשון/אחרון משפיעה על הבחירה בשימוש בתחבורה ציבורית, באמצעות גורמים שונים המרכיבים את מקטע הקילומטר הראשון/אחרון: מרחק, עלות, זמן ומגדר.
ביצענו מבחנים סטטיסטיים שונים על שאלות המחקר השונות וקיבלנו מסקנות מעניינות:
מרחק התחנה המרכזית מהבית – משפיע על כמות הנסיעות בתחבורה הציבורית.
עלות המקטע (אוטובוס עירונית/מונית/קורקינט וכו’) – משפיע על כמות הנסיעות בתחבורה הציבורית.
זמן הגעה לתחנה המרכזית – איננו משפיע על כמות הנסיעות בתחבורה הציבורית.
מגדר (הבדל בין נשים לגברים בתדירות הנסיעה) – אין הבדל בין האוכלוסיות בכמות הנסיעות.
בנוסף, ביצענו בדיקת כדאיות לפרויקט העשוי לשפר את המציאות התחבורתית במדינת ישראל – חיבור של 17 רשויות מקומיות למטרופולין גוש דן. בדקנו סטטיסטית והסקנו כי קיימת השפעה של מספר המכוניות בבית על כמות הנסיעות בתחבורה הציבורית. ובסופו של דבר, הסקנו באמצעות חישוב סך התועלות מהפרויקט פחות סך העלויות מהפרויקט (מדד כדאיות NVP) כי הפרויקט אכן כדאי.
את המחקר שלנו ביצענו סביב שאלת מחקר מרכזית שבחרנו בתחילת הדרך (לקראת הפרזנטציה הראשונה), בחרנו משתנה מסביר ומשתנים מסבירים. בהמשך העבודה על הפרויקט, חילקנו את המשתנים המסבירים בנינו – כל אחד קיבל משתנה אחד שבדק את ההשפעה על המשתנה המוסבר, במהלך פגישת חלוקת העבודה ביצענו סיעור מוחות ביחד על מנת לשייך לכל אחד מבחן שיתאים לו על מנת שאחרי הפגישה כל אחד יוכל להתחיל לחקור ולבנות את החלק שלו בפרויקט. לאחר שבוע, נפגשנו שוב וזאת על מנת לשבת ולעבוד ביחד באותו המקום (כל אחד על החלק שלו) כדי שנוכל להיעזר אחד בשני וזה סייע לנו מאוד.
לאחר שכל אחד סיים את החלק שלו הוא שלח לכולם על מנת שיקראו ויחוו את דעתם לטובת שיפור ותוספות במידת הצורך. המשכנו בחלוקת עבודה נוספת על המשימות הכלליות – כתיבת סקירה ספרותית, כתיבת סיכום ומסקנות, ריכוז החומרים למצגת ומסמך אחוד, הכנת מסמך R-markdown וכו’. כל אחד ביצע משימה משותפת עבור כולם ודאג לשיתוף ולסנכרון של כולם על חלקו.
תהליך העבודה בקבוצה סייע מאוד בבניית הפרויקט, חלקנו דעות ומשימות ובכל שבוע חשנו התקדמות נוספת לעבר השלמת המשימה. נהנינו מאוד לעבוד בשיתוף פעולה כאשר כל אחד מעשיר בחוזקותיו ומשתף בחולשותיו ובכך מגבש את העבודה הצוותית.
למדנו לא מעט דברים בעקבות העבודה על הפרויקט. בפן המקצועי/ידע כללי, הכרנו לעומק את “בעיית הקילומטר האחרון” שמהווה חלק בלתי נפרד גם מחיינו, שיערנו השערות והסקנו מסקנות בחלקן תואמות ובחלקן מעט מפתיעות. בנוסף למדנו להעמיק ולהעשיר את הגרפים שאנחנו בונים בתוכנת R.
בפן האישי, למדנו דברים חדשים אחד על השנייה, הכרנו עבודה בצוות בפרויקט מסוג כזה שמשלב פן ספרותי, סטטיסטי ותכנותי.