Αρχική Διερεύνηση Dataset

A. Περιγραφή Dataset

Το dataset το οποίο επιλέκτηκε για την εργασία αφορά προσομοιωμένα δεδομένα ρεαλιστικών μαθητών παγκοσμίως σχετικά με την χρήση διαδικτυακών πλατφορμών μάθησης.

Αποτελείται από ένα αρχείο με το όνομα Online_Learning_Behavior_Dataset_Worldwide.csv

Link Dataset: www.kaggle.com/datasets/maazshaikh05/online-learning-behavior-dataset?resource=download

B. Αιτιολόγηση σε σχέση με την Επιχειρηματική Αναλυτική

Το παρόν σετ δεδομένων έχει επιλεχθεί καθότι έχει μια πληθώρα τύπων μεταβλητών, που συνδιαστικά μπορούν να φανερώσουν μοτίβα. Για παράδειγμα μεταβλητές όπως τα ποσοστά όλοκλήρωσης μαθημάτων, σκορ ευχαρίστησης, ημερίσιες ώρες μάθησης, ηλικία και ούτω καθεξής. Δοθέντος πως η επιχειρηματική αναλυτική έχει ως σκοπό την έυρεση τέτοιων μοτίβων, η χρήση του παραπάνω dataset είναι δόκιμη.

Γ. Ερωτήματα σχετικά με την Επιχειρηματική Αναλυτική που μπορούν να απαντηθούν

  1. Σχέση μεταξύ ποσοστού ολοκλήρωσης μαθημάτων και επίπεδο ικανοποιήσης.
  2. Συσχέτηση ηλικίας και πλατφόρμας που χρησιμοποιήθηκε.
  3. Σχέση χώρας και ημερίσιων ωρών μάθησης.
  4. Σχέση τρόπου μάθησης και ποσοστού ολοκλήρωσης.

Δ. Περιγραφή των μεταβλητών

Παρακάτων γίνεται ανάλυση των μεταβλητών σετ δεδομένων, όπου φαίνεται η μεταβλητή, ο τύπος της και το εύρος.

Στήλες Αρχείου

  • Student_ID [Κλειδί], [1,1000]
  • Country [Αλφαριθμητικό]
  • Age [Νούμερο], [12,50]
  • Gender [Αλφαριθμητικό], (Male, Female, Other)
  • Education_Level [Αλφαριθμητικό], (High School, Undergraduate, Postgraduate, Professional)
  • Field_Of_Study [Αλφαριθμητικό]
  • Platform_Used [Αλφαριθμητικό], (Khan Academy, Udacity, edX, Coursera, Youtube Learning, Udemy)
  • Device_Used [Αλφαριθμητικό], (Mobile, Tablet, Laptop, Desktop)
  • Learning_Mode [Αλφαριθμητικό], (Self-Paced, Instructor, Hybrid)
  • Enrollment_Date [Ημερομηνία], [2023-01-01, 2024-01-01]
  • Daily_Learning_Hours [Νούμερο], [0.510, 6]
  • Quizzes_Attempted [Νούμερο], [0, 20]
  • Assignments_Submitted [Νούμερο], [0,10]
  • Course_Completion_Rate(%) [Νούμερο], [20,99.90]
  • Satisfaction_Score [Νούμερο], [1-5]

Υπολογισμός περιγραφικών στατιστικών

Α. Summary του dataset - Χαρακτηριστικά Θέσης

df <- read.csv("Online_Learning_Behavior_Dataset_Worldwide.csv")
summary(df)
##    Student_ID       Country               Age           Gender         
##  Min.   :   1.0   Length:1000        Min.   :15.00   Length:1000       
##  1st Qu.: 250.8   Class :character   1st Qu.:23.00   Class :character  
##  Median : 500.5   Mode  :character   Median :33.00   Mode  :character  
##  Mean   : 500.5                      Mean   :32.73                     
##  3rd Qu.: 750.2                      3rd Qu.:42.00                     
##  Max.   :1000.0                      Max.   :50.00                     
##  Education_Level    Field_of_Study     Platform_Used      Device_Used       
##  Length:1000        Length:1000        Length:1000        Length:1000       
##  Class :character   Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character  
##                                                                             
##                                                                             
##                                                                             
##  Learning_Mode      Enrollment_Date    Daily_Learning_Hours Quizzes_Attempted
##  Length:1000        Length:1000        Min.   :0.510        Min.   : 0.00    
##  Class :character   Class :character   1st Qu.:1.810        1st Qu.: 5.00    
##  Mode  :character   Mode  :character   Median :3.115        Median :10.00    
##                                        Mean   :3.189        Mean   :10.12    
##                                        3rd Qu.:4.560        3rd Qu.:16.00    
##                                        Max.   :6.000        Max.   :20.00    
##  Assignments_Submitted Course_Completion_Rate... Satisfaction_Score.1.5.
##  Min.   : 0.000        Min.   :20.00             Min.   :1.000          
##  1st Qu.: 2.000        1st Qu.:39.83             1st Qu.:2.000          
##  Median : 5.000        Median :59.90             Median :3.000          
##  Mean   : 5.062        Mean   :60.02             Mean   :2.903          
##  3rd Qu.: 8.000        3rd Qu.:80.88             3rd Qu.:4.000          
##  Max.   :10.000        Max.   :99.90             Max.   :5.000

B. Τυπική απόκλιση

df <- read.csv("Online_Learning_Behavior_Dataset_Worldwide.csv")
sd(df$Age)
## [1] 10.45651
sd(df$Daily_Learning_Hours)
## [1] 1.581955
sd(df$Quizzes_Attempted)
## [1] 6.15022
sd(df$Assignments_Submitted)
## [1] 3.17872
sd(df$Course_Completion_Rate...)
## [1] 23.25666
sd(df$Satisfaction_Score.1.5.)
## [1] 1.413361

Γ. Μεταβλητότητα

df <- read.csv("Online_Learning_Behavior_Dataset_Worldwide.csv")
var(df$Age)
## [1] 109.3386
var(df$Daily_Learning_Hours)
## [1] 2.502582
var(df$Quizzes_Attempted)
## [1] 37.8252
var(df$Assignments_Submitted)
## [1] 10.10426
var(df$Course_Completion_Rate...)
## [1] 540.8722
var(df$Satisfaction_Score.1.5.)
## [1] 1.997589

Δ. Έυρος

df <- read.csv("Online_Learning_Behavior_Dataset_Worldwide.csv")
range(df$Age)
## [1] 15 50
range(df$Daily_Learning_Hours)
## [1] 0.51 6.00
range(df$Quizzes_Attempted)
## [1]  0 20
range(df$Assignments_Submitted)
## [1]  0 10
range(df$Course_Completion_Rate...)
## [1] 20.0 99.9
range(df$Satisfaction_Score.1.5.)
## [1] 1 5

Διερεύνηση συσχετίσεων

Υπολογισμός συντελεστών συσχέτισης μεταξύ αριθμητικών μεταβλητών

df <- read.csv("Online_Learning_Behavior_Dataset_Worldwide.csv")
numdf <- df[sapply(df, is.numeric)]
cor(numdf)
##                             Student_ID           Age Daily_Learning_Hours
## Student_ID                 1.000000000 -0.0133340050         -0.011861079
## Age                       -0.013334005  1.0000000000          0.001679342
## Daily_Learning_Hours      -0.011861079  0.0016793421          1.000000000
## Quizzes_Attempted          0.003707186  0.0008599822         -0.040299327
## Assignments_Submitted      0.001532996 -0.0084778606         -0.038444441
## Course_Completion_Rate... -0.042603112 -0.0120293050          0.002565870
## Satisfaction_Score.1.5.   -0.025158299 -0.0049987671         -0.012442719
##                           Quizzes_Attempted Assignments_Submitted
## Student_ID                     0.0037071858           0.001532996
## Age                            0.0008599822          -0.008477861
## Daily_Learning_Hours          -0.0402993272          -0.038444441
## Quizzes_Attempted              1.0000000000           0.055618775
## Assignments_Submitted          0.0556187753           1.000000000
## Course_Completion_Rate...     -0.0534879043          -0.002943487
## Satisfaction_Score.1.5.        0.0192456370          -0.023391637
##                           Course_Completion_Rate... Satisfaction_Score.1.5.
## Student_ID                             -0.042603112            -0.025158299
## Age                                    -0.012029305            -0.004998767
## Daily_Learning_Hours                    0.002565870            -0.012442719
## Quizzes_Attempted                      -0.053487904             0.019245637
## Assignments_Submitted                  -0.002943487            -0.023391637
## Course_Completion_Rate...               1.000000000            -0.014662951
## Satisfaction_Score.1.5.                -0.014662951             1.000000000

Πιθανές συσχετίσεις

  1. Satisfaction Scores & Quizzes Attempted
  2. Course Completion Rate & Quizzes Attempted
  3. Assignments Submitted & Quizzes Attempted
  4. Student_ID Quizzes Attempted

Διαγράμματα

1. Scatterplot

library(ggplot2)
df <- read.csv("Online_Learning_Behavior_Dataset_Worldwide.csv")

ggplot(data=df, aes(x=Daily_Learning_Hours, y=Course_Completion_Rate...)) +
  geom_point(size=4, alpha = 0.7) +
  labs(
    title = "Χρόνος ημερίσιας εκμάθησης σε σχέση με το ποσοστό ολοκλήρωσης μαθήματος",
    x = "Χρόνος ημερίσιας εκμάθησης",
    y = "Ποσοστό Ολοκλήρωσης"
  )

Στο παραπάνω διάγραμμα μπορούμε να δούμε την συσχέτηση μεταξύ της ηλικία και του ποσοστού ολοκλήρωσης μαθημάτων. Από την κατανομή των τιμών στον χώρο δεν παρατηρείται σημαντική διαφοροποιήση στις ηλικές των χρηστών, κάτι που δείχνει πως δεν υπάρχει συσχέτηση μεταξύ της ηλικίας του χρήστη και του ποσοστού ολοκλήρωσης ενός διαδικτυακού μαθήματος.

2. Boxplot

library(ggplot2)
df <- read.csv("Online_Learning_Behavior_Dataset_Worldwide.csv")

ggplot(data=df, aes(x=Satisfaction_Score.1.5., y=Course_Completion_Rate..., group = Satisfaction_Score.1.5.))+
  geom_boxplot(alpha=0.7)+
  labs(
    title = "Ποσοστό ευχαρίστησης σε σχέση με το ποσοστό ολοκλήρωσης μαθήματος",
    x = "Ποσοστό ευχαρίστησης",
    y = "Ποσοστό Ολοκλήρωσης"
  )

Στο θηκογραμμα που φαίνεται παραπάνω απεικονίζεται το ποσοστό ολοκλήρωσης ενός μαθήματος σε σχέση με το επίπεδο ευχαρίστησης των μαθητών. Είναι εμφανές πως χαμηλότερο ποσοστό ολοκλήρωσης παρουσίαζει το επίπεδο 3, ενώ τα υπόλοιπα είναι πιο σταθερά. Επίσης για την τιμή 5 το ορθογώνιο παραλληλόγραμμο είναι και πιο μακρύ από το άλλα με τα οποία έχουν κοντινές μέσες τιμές, κάτι που θα μπορούσε να υποδικνυεί πως περισσότεροι άνθρωποι δηλώνουν πως τους αρέσει το μάθημα χωρίς να έχουν ολοκληρώσει επαρκώς το ύλη του.

3. Histogram

library(ggplot2)
df <- read.csv("Online_Learning_Behavior_Dataset_Worldwide.csv")

ggplot(data=df, aes(x=Assignments_Submitted))+
geom_histogram(binwidth = 3, , fill = "#3498DB", color = "white")+
labs(
title = "Αριθμός Απεσταλμένων Εργασιών",
x = "Απεσταλμένες Εργασίες",
y = "Συχνότητα"
)

Το άνω ιστόγραμμα μας δείχνει την κατανομή του αριθμού των απεσταλμένων εργασιών των μαθητών. Είναι φανερό πως οι μαθητές στην πλειοψηφία τους στέλνουνε 10 εργασίες, ενώ με σημαντική διαφορά είναι χαμηλά ο αιρθμός μαθητών που έστειλε 0-2 εργασίες. Στην μέση με σχεδόν ισόποσο αριθμό μαθητών, ο αριθμός της συχνότητας των ατομών που απέστειλαν 3-7 εργασίες.

4. Bar Chart

library(ggplot2)
df <- read.csv("Online_Learning_Behavior_Dataset_Worldwide.csv")

ggplot(data=df, aes(x=Platform_Used))+
  geom_bar(fill = "steelblue", color = "white")+
  labs(
    title = "Κατανομή Πλατφορμών Μάθησης",
    x = "Πλατφόρμες Πλατφόρμας Μαθησης",
    y = "Συχνότητα"
  )

Στο ραβδόγραμμα βλέπουμε την κατανομή της συχνότητας των πλατφόρμων μάθησης οι οποίες χρησιμοποιήθηκαν από τους μαθητές. Στην κορυφή βρίσκεται το Udacity με σχετικά κοντινό ακοόλουθο το Youtube. Στην συνέχεια βρίσκονται οι πλατφόρμες Khan Academy, edX και Coursera με μικρή σχετικα διαφορά μεταξύ τους. Τέλος η λιγότερο χρησιμοποιούμενη είναι το Udemy.