Το dataset το οποίο επιλέκτηκε για την εργασία αφορά προσομοιωμένα δεδομένα ρεαλιστικών μαθητών παγκοσμίως σχετικά με την χρήση διαδικτυακών πλατφορμών μάθησης.
Αποτελείται από ένα αρχείο με το όνομα Online_Learning_Behavior_Dataset_Worldwide.csv
Link Dataset: www.kaggle.com/datasets/maazshaikh05/online-learning-behavior-dataset?resource=download
Το παρόν σετ δεδομένων έχει επιλεχθεί καθότι έχει μια πληθώρα τύπων μεταβλητών, που συνδιαστικά μπορούν να φανερώσουν μοτίβα. Για παράδειγμα μεταβλητές όπως τα ποσοστά όλοκλήρωσης μαθημάτων, σκορ ευχαρίστησης, ημερίσιες ώρες μάθησης, ηλικία και ούτω καθεξής. Δοθέντος πως η επιχειρηματική αναλυτική έχει ως σκοπό την έυρεση τέτοιων μοτίβων, η χρήση του παραπάνω dataset είναι δόκιμη.
Παρακάτων γίνεται ανάλυση των μεταβλητών σετ δεδομένων, όπου φαίνεται η μεταβλητή, ο τύπος της και το εύρος.
df <- read.csv("Online_Learning_Behavior_Dataset_Worldwide.csv")
summary(df)
## Student_ID Country Age Gender
## Min. : 1.0 Length:1000 Min. :15.00 Length:1000
## 1st Qu.: 250.8 Class :character 1st Qu.:23.00 Class :character
## Median : 500.5 Mode :character Median :33.00 Mode :character
## Mean : 500.5 Mean :32.73
## 3rd Qu.: 750.2 3rd Qu.:42.00
## Max. :1000.0 Max. :50.00
## Education_Level Field_of_Study Platform_Used Device_Used
## Length:1000 Length:1000 Length:1000 Length:1000
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
## Learning_Mode Enrollment_Date Daily_Learning_Hours Quizzes_Attempted
## Length:1000 Length:1000 Min. :0.510 Min. : 0.00
## Class :character Class :character 1st Qu.:1.810 1st Qu.: 5.00
## Mode :character Mode :character Median :3.115 Median :10.00
## Mean :3.189 Mean :10.12
## 3rd Qu.:4.560 3rd Qu.:16.00
## Max. :6.000 Max. :20.00
## Assignments_Submitted Course_Completion_Rate... Satisfaction_Score.1.5.
## Min. : 0.000 Min. :20.00 Min. :1.000
## 1st Qu.: 2.000 1st Qu.:39.83 1st Qu.:2.000
## Median : 5.000 Median :59.90 Median :3.000
## Mean : 5.062 Mean :60.02 Mean :2.903
## 3rd Qu.: 8.000 3rd Qu.:80.88 3rd Qu.:4.000
## Max. :10.000 Max. :99.90 Max. :5.000
df <- read.csv("Online_Learning_Behavior_Dataset_Worldwide.csv")
sd(df$Age)
## [1] 10.45651
sd(df$Daily_Learning_Hours)
## [1] 1.581955
sd(df$Quizzes_Attempted)
## [1] 6.15022
sd(df$Assignments_Submitted)
## [1] 3.17872
sd(df$Course_Completion_Rate...)
## [1] 23.25666
sd(df$Satisfaction_Score.1.5.)
## [1] 1.413361
df <- read.csv("Online_Learning_Behavior_Dataset_Worldwide.csv")
var(df$Age)
## [1] 109.3386
var(df$Daily_Learning_Hours)
## [1] 2.502582
var(df$Quizzes_Attempted)
## [1] 37.8252
var(df$Assignments_Submitted)
## [1] 10.10426
var(df$Course_Completion_Rate...)
## [1] 540.8722
var(df$Satisfaction_Score.1.5.)
## [1] 1.997589
df <- read.csv("Online_Learning_Behavior_Dataset_Worldwide.csv")
range(df$Age)
## [1] 15 50
range(df$Daily_Learning_Hours)
## [1] 0.51 6.00
range(df$Quizzes_Attempted)
## [1] 0 20
range(df$Assignments_Submitted)
## [1] 0 10
range(df$Course_Completion_Rate...)
## [1] 20.0 99.9
range(df$Satisfaction_Score.1.5.)
## [1] 1 5
df <- read.csv("Online_Learning_Behavior_Dataset_Worldwide.csv")
numdf <- df[sapply(df, is.numeric)]
cor(numdf)
## Student_ID Age Daily_Learning_Hours
## Student_ID 1.000000000 -0.0133340050 -0.011861079
## Age -0.013334005 1.0000000000 0.001679342
## Daily_Learning_Hours -0.011861079 0.0016793421 1.000000000
## Quizzes_Attempted 0.003707186 0.0008599822 -0.040299327
## Assignments_Submitted 0.001532996 -0.0084778606 -0.038444441
## Course_Completion_Rate... -0.042603112 -0.0120293050 0.002565870
## Satisfaction_Score.1.5. -0.025158299 -0.0049987671 -0.012442719
## Quizzes_Attempted Assignments_Submitted
## Student_ID 0.0037071858 0.001532996
## Age 0.0008599822 -0.008477861
## Daily_Learning_Hours -0.0402993272 -0.038444441
## Quizzes_Attempted 1.0000000000 0.055618775
## Assignments_Submitted 0.0556187753 1.000000000
## Course_Completion_Rate... -0.0534879043 -0.002943487
## Satisfaction_Score.1.5. 0.0192456370 -0.023391637
## Course_Completion_Rate... Satisfaction_Score.1.5.
## Student_ID -0.042603112 -0.025158299
## Age -0.012029305 -0.004998767
## Daily_Learning_Hours 0.002565870 -0.012442719
## Quizzes_Attempted -0.053487904 0.019245637
## Assignments_Submitted -0.002943487 -0.023391637
## Course_Completion_Rate... 1.000000000 -0.014662951
## Satisfaction_Score.1.5. -0.014662951 1.000000000
library(ggplot2)
df <- read.csv("Online_Learning_Behavior_Dataset_Worldwide.csv")
ggplot(data=df, aes(x=Daily_Learning_Hours, y=Course_Completion_Rate...)) +
geom_point(size=4, alpha = 0.7) +
labs(
title = "Χρόνος ημερίσιας εκμάθησης σε σχέση με το ποσοστό ολοκλήρωσης μαθήματος",
x = "Χρόνος ημερίσιας εκμάθησης",
y = "Ποσοστό Ολοκλήρωσης"
)
Στο παραπάνω διάγραμμα μπορούμε να δούμε την συσχέτηση μεταξύ της ηλικία και του ποσοστού ολοκλήρωσης μαθημάτων. Από την κατανομή των τιμών στον χώρο δεν παρατηρείται σημαντική διαφοροποιήση στις ηλικές των χρηστών, κάτι που δείχνει πως δεν υπάρχει συσχέτηση μεταξύ της ηλικίας του χρήστη και του ποσοστού ολοκλήρωσης ενός διαδικτυακού μαθήματος.
library(ggplot2)
df <- read.csv("Online_Learning_Behavior_Dataset_Worldwide.csv")
ggplot(data=df, aes(x=Satisfaction_Score.1.5., y=Course_Completion_Rate..., group = Satisfaction_Score.1.5.))+
geom_boxplot(alpha=0.7)+
labs(
title = "Ποσοστό ευχαρίστησης σε σχέση με το ποσοστό ολοκλήρωσης μαθήματος",
x = "Ποσοστό ευχαρίστησης",
y = "Ποσοστό Ολοκλήρωσης"
)
Στο θηκογραμμα που φαίνεται παραπάνω απεικονίζεται το ποσοστό ολοκλήρωσης ενός μαθήματος σε σχέση με το επίπεδο ευχαρίστησης των μαθητών. Είναι εμφανές πως χαμηλότερο ποσοστό ολοκλήρωσης παρουσίαζει το επίπεδο 3, ενώ τα υπόλοιπα είναι πιο σταθερά. Επίσης για την τιμή 5 το ορθογώνιο παραλληλόγραμμο είναι και πιο μακρύ από το άλλα με τα οποία έχουν κοντινές μέσες τιμές, κάτι που θα μπορούσε να υποδικνυεί πως περισσότεροι άνθρωποι δηλώνουν πως τους αρέσει το μάθημα χωρίς να έχουν ολοκληρώσει επαρκώς το ύλη του.
library(ggplot2)
df <- read.csv("Online_Learning_Behavior_Dataset_Worldwide.csv")
ggplot(data=df, aes(x=Assignments_Submitted))+
geom_histogram(binwidth = 3, , fill = "#3498DB", color = "white")+
labs(
title = "Αριθμός Απεσταλμένων Εργασιών",
x = "Απεσταλμένες Εργασίες",
y = "Συχνότητα"
)
Το άνω ιστόγραμμα μας δείχνει την κατανομή του αριθμού των απεσταλμένων εργασιών των μαθητών. Είναι φανερό πως οι μαθητές στην πλειοψηφία τους στέλνουνε 10 εργασίες, ενώ με σημαντική διαφορά είναι χαμηλά ο αιρθμός μαθητών που έστειλε 0-2 εργασίες. Στην μέση με σχεδόν ισόποσο αριθμό μαθητών, ο αριθμός της συχνότητας των ατομών που απέστειλαν 3-7 εργασίες.
library(ggplot2)
df <- read.csv("Online_Learning_Behavior_Dataset_Worldwide.csv")
ggplot(data=df, aes(x=Platform_Used))+
geom_bar(fill = "steelblue", color = "white")+
labs(
title = "Κατανομή Πλατφορμών Μάθησης",
x = "Πλατφόρμες Πλατφόρμας Μαθησης",
y = "Συχνότητα"
)
Στο ραβδόγραμμα βλέπουμε την κατανομή της συχνότητας των πλατφόρμων μάθησης οι οποίες χρησιμοποιήθηκαν από τους μαθητές. Στην κορυφή βρίσκεται το Udacity με σχετικά κοντινό ακοόλουθο το Youtube. Στην συνέχεια βρίσκονται οι πλατφόρμες Khan Academy, edX και Coursera με μικρή σχετικα διαφορά μεταξύ τους. Τέλος η λιγότερο χρησιμοποιούμενη είναι το Udemy.