Το dataset “Life Expectancy Data” περιέχει πληροφορίες για την προσδοκώμενη διάρκεια ζωής (Life Expectancy) και παράγοντες που την επηρεάζουν σε διάφορες χώρες από το 2000 έως το 2015. Περιλαμβάνει κοινωνικοοικονομικούς, υγειονομικούς και περιβαλλοντικούς δείκτες που σχετίζονται με την υγεία και τη μακροζωία.
Μεταβλητές και τύποι τους:
Country: Κατηγορική (character) - Όνομα της χώρας Year: Αριθμητική (integer) - Έτος παρατήρησης Status: Κατηγορική (character) - Κατάσταση ανάπτυξης (Developing/Developed) Life.expectancy: Αριθμητική (double) - Προσδοκώμενη διάρκεια ζωής (σε έτη) Adult.Mortality: Αριθμητική (integer) - Ποσοστό θνησιμότητας ενηλίκων (ανά 1000) infant.deaths: Αριθμητική (integer) - Αριθμός θανάτων βρεφών (ανά 1000 γεννήσεις) Alcohol: Αριθμητική (double) - Κατανάλωση αλκοόλ (λίτρα καθαρού αλκοόλ ανά κάτοικο) percentage.expenditure: Αριθμητική (double) - Δαπάνες υγείας (% του ΑΕΠ) Hepatitis.B: Αριθμητική (integer) - Κάλυψη εμβολιασμού για Ηπατίτιδα Β (%) Measles: Αριθμητική (integer) - Κρούσματα ιλαράς (ανά 1000) BMI: Αριθμητική (double) - Μέσος Δείκτης Μάζας Σώματος under.five.deaths: Αριθμητική (integer) - Θάνατοι παιδιών κάτω των 5 ετών (ανά 1000) Polio: Αριθμητική (integer) - Κάλυψη εμβολιασμού για πολιομυελίτιδα (%) Total.expenditure: Αριθμητική (double) - Συνολικές δαπάνες υγείας (% του ΑΕΠ) Diphtheria: Αριθμητική (integer) - Κάλυψη εμβολιασμού για διφθερίτιδα (%) HIV.AIDS: Αριθμητική (double) - Θάνατοι από HIV/AIDS (ανά 1000) GDP: Αριθμητική (double) - ΑΕΠ ανά κάτοικο (σε USD) Population: Αριθμητική (double) - Πληθυσμός της χώρας thinness..1.19.years: Αριθμητική (double) - Ποσοστό αδυναμίας (ηλικίες 1-19) thinness.5.9.years: Αριθμητική (double) - Ποσοστό αδυναμίας (ηλικίες 5-9) Income.composition.of.resources: Αριθμητική (double) - Δείκτης ανθρώπινης ανάπτυξης Schooling: Αριθμητική (double) - Μέσος χρόνος εκπαίδευσης (σε έτη)
URL: https://www.kaggle.com/datasets/kumarajarshi/life-expectancy-who/data
library(tidyverse)
## Warning: package 'tidyverse' was built under R version 4.4.3
## Warning: package 'ggplot2' was built under R version 4.4.3
## Warning: package 'tidyr' was built under R version 4.4.3
## Warning: package 'readr' was built under R version 4.4.3
## Warning: package 'purrr' was built under R version 4.4.3
## Warning: package 'dplyr' was built under R version 4.4.3
## Warning: package 'stringr' was built under R version 4.4.3
## Warning: package 'forcats' was built under R version 4.4.3
## Warning: package 'lubridate' was built under R version 4.4.3
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.1.4 ✔ readr 2.1.5
## ✔ forcats 1.0.0 ✔ stringr 1.5.1
## ✔ ggplot2 3.5.2 ✔ tibble 3.2.1
## ✔ lubridate 1.9.4 ✔ tidyr 1.3.1
## ✔ purrr 1.0.4
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(ggplot2)
library(dplyr)
library(readr)
library(knitr)
## Warning: package 'knitr' was built under R version 4.4.3
data<- read.csv("C:/Users/Tasos/Downloads/Life Expectancy Data.csv")
# Μετονομασία στηλών για ευκολία
colnames(data) <- c("Country", "Year", "Status", "Life.expectancy", "Adult.Mortality",
"infant.deaths", "Alcohol", "percentage.expenditure", "Hepatitis.B",
"Measles", "BMI", "under.five.deaths", "Polio", "Total.expenditure",
"Diphtheria", "HIV.AIDS", "GDP", "Population", "thinness.1.19.years",
"thinness.5.9.years", "Income.composition.of.resources", "Schooling")
# Αφαίρεση γραμμών με ελλιπή δεδομένα
data <- na.omit(data)
# Εμφάνιση περιλήψης δεδομένων
summary(data)
## Country Year Status Life.expectancy
## Length:1649 Min. :2000 Length:1649 Min. :44.0
## Class :character 1st Qu.:2005 Class :character 1st Qu.:64.4
## Mode :character Median :2008 Mode :character Median :71.7
## Mean :2008 Mean :69.3
## 3rd Qu.:2011 3rd Qu.:75.0
## Max. :2015 Max. :89.0
## Adult.Mortality infant.deaths Alcohol percentage.expenditure
## Min. : 1.0 Min. : 0.00 Min. : 0.010 Min. : 0.00
## 1st Qu.: 77.0 1st Qu.: 1.00 1st Qu.: 0.810 1st Qu.: 37.44
## Median :148.0 Median : 3.00 Median : 3.790 Median : 145.10
## Mean :168.2 Mean : 32.55 Mean : 4.533 Mean : 698.97
## 3rd Qu.:227.0 3rd Qu.: 22.00 3rd Qu.: 7.340 3rd Qu.: 509.39
## Max. :723.0 Max. :1600.00 Max. :17.870 Max. :18961.35
## Hepatitis.B Measles BMI under.five.deaths
## Min. : 2.00 Min. : 0 Min. : 2.00 Min. : 0.00
## 1st Qu.:74.00 1st Qu.: 0 1st Qu.:19.50 1st Qu.: 1.00
## Median :89.00 Median : 15 Median :43.70 Median : 4.00
## Mean :79.22 Mean : 2224 Mean :38.13 Mean : 44.22
## 3rd Qu.:96.00 3rd Qu.: 373 3rd Qu.:55.80 3rd Qu.: 29.00
## Max. :99.00 Max. :131441 Max. :77.10 Max. :2100.00
## Polio Total.expenditure Diphtheria HIV.AIDS
## Min. : 3.00 Min. : 0.740 Min. : 2.00 Min. : 0.100
## 1st Qu.:81.00 1st Qu.: 4.410 1st Qu.:82.00 1st Qu.: 0.100
## Median :93.00 Median : 5.840 Median :92.00 Median : 0.100
## Mean :83.56 Mean : 5.956 Mean :84.16 Mean : 1.984
## 3rd Qu.:97.00 3rd Qu.: 7.470 3rd Qu.:97.00 3rd Qu.: 0.700
## Max. :99.00 Max. :14.390 Max. :99.00 Max. :50.600
## GDP Population thinness.1.19.years thinness.5.9.years
## Min. : 1.68 Min. :3.400e+01 Min. : 0.100 Min. : 0.100
## 1st Qu.: 462.15 1st Qu.:1.919e+05 1st Qu.: 1.600 1st Qu.: 1.700
## Median : 1592.57 Median :1.420e+06 Median : 3.000 Median : 3.200
## Mean : 5566.03 Mean :1.465e+07 Mean : 4.851 Mean : 4.908
## 3rd Qu.: 4718.51 3rd Qu.:7.659e+06 3rd Qu.: 7.100 3rd Qu.: 7.100
## Max. :119172.74 Max. :1.294e+09 Max. :27.200 Max. :28.200
## Income.composition.of.resources Schooling
## Min. :0.0000 Min. : 4.20
## 1st Qu.:0.5090 1st Qu.:10.30
## Median :0.6730 Median :12.30
## Mean :0.6316 Mean :12.12
## 3rd Qu.:0.7510 3rd Qu.:14.00
## Max. :0.9360 Max. :20.70
Το dataset περιέχει 2599 παρατηρήσεις μετά την αφαίρεση ελλιπών δεδομένων. Η μεταβλητή Life.expectancy κυμαίνεται από 36.3 έως 89 έτη, ενώ υπάρχουν μεγάλες διακυμάνσεις σε μεταβλητές όπως GDP και Population.
#Boxplot
ggplot(data, aes(x = Status, y = Life.expectancy, fill = Status)) +
geom_boxplot() +
labs(title = "Boxplot Προσδοκώμενου Όρου Ζωής ανά Κατάσταση Ανάπτυξης",
x = "Κατάσταση", y = "Προσδοκώμενος Όρος Ζωής") +
theme_minimal()
Οι ανεπτυγμένες χώρες (Developed) παρουσιάζουν υψιλότερο μέσο όρο και
μικρότερη διακύμανση στον προσδοκώμενο όρο ζωής σε σύγκριση με τις
αναπτυσσόμενες (Developing), όπου υπάρχουν και ακραίες χαμηλές
τιμές.
#Bar Chart
data_summary <- data %>%
group_by(Status) %>%
summarise(mean_life = mean(Life.expectancy, na.rm = TRUE))
ggplot(data_summary, aes(x = Status, y = mean_life, fill = Status)) +
geom_bar(stat = "identity") +
labs(title = "Μέσος Προσδοκώμενος Όρος Ζωής ανά Κατάσταση Ανάπτυξης",
x = "Κατάσταση", y = "Μέσος Όρος Ζωής") +
theme_minimal()
Οι ανεπτυγμένες χώρες έχουν μέσο όρο ζωής κοντά στα 80 έτη, ενώ οι
αναπτυσσόμενες περίπου 67 έτη, υποδεικνύοντας σημαντική διαφορά στην
ποιότητα ζωής.
#Ιστόγραμμα
ggplot(data, aes(x = Life.expectancy)) +
geom_histogram(binwidth = 2, fill = "blue", color = "black") +
labs(title = "Ιστόγραμμα Προσδοκώμενου Όρου Ζωής",
x = "Προσδοκώμενος Όρος Ζωής", y = "Συχνότητα") +
theme_minimal()
Η κατανομή του προσδοκώμενου όρου ζωής είναι ασύμμετρη με κορυφή γύρω
στα 70-75 έτη, αλλά υπάρχει μια ουρά προς χαμηλότερες τιμές, πιθανώς από
χώρες με χαμηλή ανάπτυξη.
#Scatterplot
ggplot(data, aes(x = Schooling, y = Life.expectancy)) +
geom_point(aes(color = Status), alpha = 0.5) +
geom_smooth(method = "lm", color = "red") +
labs(title = "Συσχέτιση Εκπαίδευσης και Προσδοκώμενου Όρου Ζωής",
x = "Χρόνια Εκπαίδευσης", y = "Προσδοκώμενος Όρος Ζωής") +
theme_minimal()
## `geom_smooth()` using formula = 'y ~ x'
Υπάρχει ισχυρή θετική συσχέτιση μεταξύ χρόνων εκπαίδευσης και
προσδοκώμενου όρου ζωής, με τις ανεπτυγμένες χώρες να συγκεντρώνονται σε
υψηλότερες τιμές και των δύο μεταβλητών.
Μοντέλο 1: Πλήρες Μοντέλο Περιλαμβάνει όλες τις αριθμητικές μεταβλητές (εκτός από Country, Year, Status που δεν είναι κατάλληλες για το αρχικό μοντέλο).
#Μοντέλο 1: Πλήρες Μοντέλο
model1 <- lm(Life.expectancy ~ Adult.Mortality + infant.deaths + Alcohol +
percentage.expenditure + Hepatitis.B + Measles + BMI +
under.five.deaths + Polio + Total.expenditure + Diphtheria +
HIV.AIDS + GDP + Population + thinness.1.19.years +
thinness.5.9.years + Income.composition.of.resources + Schooling,
data = data)
summary(model1)
##
## Call:
## lm(formula = Life.expectancy ~ Adult.Mortality + infant.deaths +
## Alcohol + percentage.expenditure + Hepatitis.B + Measles +
## BMI + under.five.deaths + Polio + Total.expenditure + Diphtheria +
## HIV.AIDS + GDP + Population + thinness.1.19.years + thinness.5.9.years +
## Income.composition.of.resources + Schooling, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -17.0176 -2.0454 -0.0185 2.2260 11.9157
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 5.328e+01 7.358e-01 72.412 < 2e-16 ***
## Adult.Mortality -1.689e-02 9.473e-04 -17.828 < 2e-16 ***
## infant.deaths 9.369e-02 1.068e-02 8.776 < 2e-16 ***
## Alcohol -5.435e-02 3.061e-02 -1.776 0.0760 .
## percentage.expenditure 3.777e-04 1.805e-04 2.093 0.0365 *
## Hepatitis.B -5.582e-03 4.446e-03 -1.256 0.2095
## Measles -8.617e-06 1.081e-05 -0.797 0.4253
## BMI 3.350e-02 6.011e-03 5.573 2.92e-08 ***
## under.five.deaths -7.047e-02 7.728e-03 -9.119 < 2e-16 ***
## Polio 7.836e-03 5.163e-03 1.518 0.1293
## Total.expenditure 7.975e-02 4.074e-02 1.958 0.0505 .
## Diphtheria 1.439e-02 5.938e-03 2.423 0.0155 *
## HIV.AIDS -4.383e-01 1.788e-02 -24.519 < 2e-16 ***
## GDP 1.383e-05 2.838e-05 0.487 0.6260
## Population -6.917e-10 1.753e-09 -0.395 0.6931
## thinness.1.19.years -8.670e-03 5.310e-02 -0.163 0.8703
## thinness.5.9.years -5.123e-02 5.242e-02 -0.977 0.3286
## Income.composition.of.resources 9.824e+00 8.340e-01 11.780 < 2e-16 ***
## Schooling 8.783e-01 5.939e-02 14.789 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.596 on 1630 degrees of freedom
## Multiple R-squared: 0.8347, Adjusted R-squared: 0.8329
## F-statistic: 457.4 on 18 and 1630 DF, p-value: < 2.2e-16
Το μοντέλο εξηγεί το 82.6% της διακύμανσης, αλλά αρκετές μεταβλητές (π.χ., Alcohol, Hepatitis.B, Population) δεν είναι στατιστικά σημαντικές.
#Μοντέλο 2: Αφαίρεση ασήμαντων μεταβλητών
model2 <- lm(Life.expectancy ~ Adult.Mortality + infant.deaths +
percentage.expenditure + BMI + under.five.deaths + Polio +
Diphtheria + HIV.AIDS + GDP + thinness.1.19.years +
thinness.5.9.years + Income.composition.of.resources + Schooling,
data = data)
summary(model2)
##
## Call:
## lm(formula = Life.expectancy ~ Adult.Mortality + infant.deaths +
## percentage.expenditure + BMI + under.five.deaths + Polio +
## Diphtheria + HIV.AIDS + GDP + thinness.1.19.years + thinness.5.9.years +
## Income.composition.of.resources + Schooling, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -17.5234 -2.0707 0.0044 2.1983 12.0421
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 5.384e+01 6.804e-01 79.132 < 2e-16 ***
## Adult.Mortality -1.713e-02 9.431e-04 -18.164 < 2e-16 ***
## infant.deaths 9.338e-02 9.839e-03 9.490 < 2e-16 ***
## percentage.expenditure 3.983e-04 1.800e-04 2.213 0.0270 *
## BMI 3.423e-02 5.973e-03 5.730 1.19e-08 ***
## under.five.deaths -7.081e-02 7.299e-03 -9.701 < 2e-16 ***
## Polio 6.535e-03 5.100e-03 1.281 0.2002
## Diphtheria 1.122e-02 5.351e-03 2.097 0.0361 *
## HIV.AIDS -4.368e-01 1.769e-02 -24.689 < 2e-16 ***
## GDP 9.668e-06 2.837e-05 0.341 0.7333
## thinness.1.19.years -3.073e-03 5.299e-02 -0.058 0.9538
## thinness.5.9.years -5.127e-02 5.230e-02 -0.980 0.3271
## Income.composition.of.resources 9.589e+00 8.249e-01 11.624 < 2e-16 ***
## Schooling 8.565e-01 5.644e-02 15.176 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.6 on 1635 degrees of freedom
## Multiple R-squared: 0.8338, Adjusted R-squared: 0.8325
## F-statistic: 631.1 on 13 and 1635 DF, p-value: < 2.2e-16
#Μοντέλο 3: Περαιτέρω απλοποίηση
model3 <- lm(Life.expectancy ~ Adult.Mortality + BMI + Polio + Diphtheria +
HIV.AIDS + thinness.1.19.years + thinness.5.9.years +
Income.composition.of.resources + Schooling , data = data)
summary(model3)
##
## Call:
## lm(formula = Life.expectancy ~ Adult.Mortality + BMI + Polio +
## Diphtheria + HIV.AIDS + thinness.1.19.years + thinness.5.9.years +
## Income.composition.of.resources + Schooling, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -17.6212 -2.1010 0.0134 2.2126 11.0468
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 52.1691364 0.6922674 75.360 < 2e-16 ***
## Adult.Mortality -0.0187052 0.0009726 -19.233 < 2e-16 ***
## BMI 0.0342060 0.0062329 5.488 4.7e-08 ***
## Polio 0.0089176 0.0053087 1.680 0.09319 .
## Diphtheria 0.0170232 0.0055448 3.070 0.00217 **
## HIV.AIDS -0.4344417 0.0184496 -23.547 < 2e-16 ***
## thinness.1.19.years -0.0211664 0.0550027 -0.385 0.70042
## thinness.5.9.years -0.0483273 0.0542046 -0.892 0.37275
## Income.composition.of.resources 10.4768386 0.8471844 12.367 < 2e-16 ***
## Schooling 0.9391773 0.0577041 16.276 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.762 on 1639 degrees of freedom
## Multiple R-squared: 0.8181, Adjusted R-squared: 0.8171
## F-statistic: 819.2 on 9 and 1639 DF, p-value: < 2.2e-16
Αφαιρούμε επιπλέον ασήμαντες μεταβλητές: infant.deaths, under.five.deaths, percentage.expenditure και GDP.
#Μοντέλο 4: Τελικό Μοντέλο
model4 <- lm(Life.expectancy ~ Adult.Mortality + BMI + Polio + Diphtheria +
HIV.AIDS + thinness.1.19.years + Income.composition.of.resources +
Schooling, data = data)
summary(model4)
##
## Call:
## lm(formula = Life.expectancy ~ Adult.Mortality + BMI + Polio +
## Diphtheria + HIV.AIDS + thinness.1.19.years + Income.composition.of.resources +
## Schooling, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -17.6193 -2.0983 0.0164 2.2170 11.1014
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 52.1292323 0.6907758 75.465 < 2e-16 ***
## Adult.Mortality -0.0187466 0.0009714 -19.299 < 2e-16 ***
## BMI 0.0349297 0.0061794 5.653 1.86e-08 ***
## Polio 0.0091525 0.0053018 1.726 0.08448 .
## Diphtheria 0.0169115 0.0055430 3.051 0.00232 **
## HIV.AIDS -0.4346466 0.0184470 -23.562 < 2e-16 ***
## thinness.1.19.years -0.0648031 0.0250946 -2.582 0.00990 **
## Income.composition.of.resources 10.4730992 0.8471211 12.363 < 2e-16 ***
## Schooling 0.9380465 0.0576865 16.261 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.762 on 1640 degrees of freedom
## Multiple R-squared: 0.818, Adjusted R-squared: 0.8171
## F-statistic: 921.6 on 8 and 1640 DF, p-value: < 2.2e-16
Το μοντέλο είναι το πιο απλό με ελάχιστη απώλεια στο R² πετυχαίνει το μεγαλύτερο SSE καθιστώντας το το πιο αποτελεσματικό.
#5 Δημιουργία πίνακα σύγκρισης
comparison <- data.frame(
Model = c("Μοντέλο 1", "Μοντέλο 2", "Μοντέλο 3", "Μοντέλο 4"),
R_squared = c(summary(model1)$r.squared, summary(model2)$r.squared,
summary(model3)$r.squared, summary(model4)$r.squared),
Adjusted_R_squared = c(summary(model1)$adj.r.squared, summary(model2)$adj.r.squared,
summary(model3)$adj.r.squared, summary(model4)$adj.r.squared),
SSE = c(sum(resid(model1)^2), sum(resid(model2)^2),
sum(resid(model3)^2), sum(resid(model4)^2))
)
kable(comparison, caption = "Σύγκριση Μοντέλων Γραμμικής Παλινδρόμησης",
digits = 3, align = "c")
| Model | R_squared | Adjusted_R_squared | SSE |
|---|---|---|---|
| Μοντέλο 1 | 0.835 | 0.833 | 21075.79 |
| Μοντέλο 2 | 0.834 | 0.833 | 21190.63 |
| Μοντέλο 3 | 0.818 | 0.817 | 23194.87 |
| Μοντέλο 4 | 0.818 | 0.817 | 23206.12 |
Το Μοντέλο 1 έχει το υψηλότερο R² και το χαμηλότερο SSE, αλλά περιλαμβάνει πολλές ασήμαντες μεταβλητές, καθιστώντας το υπερβολικά πολύπλοκο. Το Μοντέλο 4 προσφέρει σχεδόν ίδια απόδοση με το Μοντέλο 1, αλλά με λιγότερες μεταβλητές, καθιστώντας το πιο ερμηνεύσιμο και αποδοτικό. Το SSE αυξάνεται ελαφρώς από το Μοντέλο 1 στο Μοντέλο 4, αλλά η διαφορά είναι μικρή σε σχέση με τη μείωση της πολυπλοκότητας.
##Συμπερασμα Η προσδοκώμενη διάρκεια ζωής επηρεάζεται σημαντικά από την υγεία (θνησιμότητα, εμβολιασμοί, HIV/AIDS), την εκπαίδευση και την κοινωνικοοικονομική ανάπτυξη. Το Μοντέλο 4 προσφέρει ισορροπία μεταξύ ακρίβειας και απλότητας, καθιστώντας το ιδανικό για προβλέψεις.