Το dataset περιέχει πληροφορίες για μαθητές, όπως:

ώρες μελέτης ποσοστό παρουσιών βαθμούς (Math, Science, English) τελικό ποσοστό (Final_Percentage)

data <- read.csv(“Student_Performance_Dataset.csv”) head(data) summary(data) 2. Διαγράμματα Scatterplot (Study Hours vs Final Percentage) plot(data$Study_Hours_Per_Day, data$Final_Percentage, main=“Study Hours vs Final Percentage”, xlab=“Study Hours”, ylab=“Final %”, pch=19) Boxplot boxplot(data$Final_Percentage, main=“Κατανομή Τελικού Βαθμού”) 3. Απλή Γραμμική Παλινδρόμηση

Προσπαθούμε να προβλέψουμε το Final Percentage από τις ώρες μελέτης.

model1 <- lm(Final_Percentage ~ Study_Hours_Per_Day, data=data) summary(model1) Γραφική απεικόνιση plot(data$Study_Hours_Per_Day, data$Final_Percentage) abline(model1, col=“red”, lwd=2) 4. Πολλαπλή Γραμμική Παλινδρόμηση

model2 <- lm(Final_Percentage ~ Study_Hours_Per_Day + Attendance_Percentage + Previous_Year_Score, data=data) summary(model2) 5. Σύγκριση Μοντέλων (R² & SSE) # R-squared summary(model1)$r.squared summary(model2)$r.squared

SSE

SSE1 <- sum(residuals(model1)^2) SSE2 <- sum(residuals(model2)^2)

SSE1 SSE2

👉 Αναμένουμε:

Το model2 να έχει μεγαλύτερο R² Και μικρότερο SSE (καλύτερη πρόβλεψη) 6. Συσχετίσεις cor(data[, c(“Study_Hours_Per_Day”, “Attendance_Percentage”, “Previous_Year_Score”, “Final_Percentage”)]) 7. Συμπεράσματα Οι ώρες μελέτης έχουν θετική επίδραση στον βαθμό. Η προσθήκη περισσότερων μεταβλητών βελτιώνει το μοντέλο. Το model2 είναι καλύτερο λόγω υψηλότερου R² και μικρότερου SSE.

Linear Regression Case Study

2026-03-30

SSE