Το επιλεγμένο dataset αφορά τη σχέση μεταξύ του προσδόκιμου ζωής και των κρίσιμων κοινωνικοοικονομικών και υγειονομικών παραγόντων. Περιλαμβάνει δεδομένα από 193 χώρες για την περίοδο 2000 έως 2015 και προέρχεται από αξιόπιστες πηγές όπως ο Παγκόσμιος Οργανισμός Υγείας (WHO).
Πηγή δεδομένων:https://www.kaggle.com/datasets/kumarajarshi/life-expectancy-who
Η συγκεκριμένη βάση δεδομένων συγκεντρώνει μεταβλητές που σχετίζονται με:
✅ Εμβολιαστική κάλυψη (Hepatitis B, Polio, Diphtheria)
✅ Θνησιμότητα (βρεφική, ενήλικη, υπό διαχείριση παθήσεων)
✅ Οικονομικούς δείκτες (GDP, δαπάνες υγείας, εισοδηματικοί δείκτες)
✅ Κοινωνικούς παράγοντες (εκπαίδευση, υποδομές, πρόσβαση σε υγεία)
✅ Συνήθειες ζωής (αλκοόλ, κάπνισμα, τρόπος ζωής)
Στόχος είναι να βοηθήσει τις χώρες να καταλάβουν ποιοι παράγοντες επηρεάζουν αρνητικά ή θετικά το προσδόκιμο ζωής και πού οφείλουν να επικεντρώσουν την πολιτική τους.
Έχει 22 στήλες (1 εξαρτημένη και 21 ανεξάρτητες μεταβλητές). Παρακάτω παρουσιάζονται αναλυτικά:
| Variable | Description | Variable_Type | Variable_Range |
|---|---|---|---|
| Country | Όνομα χώρας | Κατηγορική | 193 διαφορετικές χώρες |
| Year | Έτος παρατήρησης | Αριθμητική | 2000 – 2015 |
| Status | Ανάπτυξη χώρας | Κατηγορική | 2 επίπεδα: Developed, Developing |
| Life_expectancy | Προσδόκιμο ζωής | Αριθμητική | 36.3 – 89.0 |
| Adult_Mortality | Θάνατοι ενηλίκων (15–60 ετών) ανά 1.000 άτομα | Αριθμητική | 1 – 692 |
| Infant_deaths | Θάνατοι βρεφών | Αριθμητική | 0 – 180 |
| Alcohol | Κατανάλωση αλκοόλ ανά άτομο | Αριθμητική | 0 – 17.87 |
| Percentage_expenditure | Ποσοστιαίες δαπάνες για υγεία | Αριθμητική | 0.005 – 19479.91 |
| Hepatitis_B | Εμβολιαστική κάλυψη για ηπατίτιδα Β (%) | Αριθμητική | 3 – 99 |
| Measles | Κρούσματα ιλαράς | Αριθμητική | 0 – 212183 |
| BMI | Δείκτης Μάζας Σώματος | Αριθμητική | 1.0 – 70.7 |
| Under_five_deaths | Θάνατοι κάτω των 5 ετών | Αριθμητική | 0 – 250 |
| Polio | Εμβολιαστική κάλυψη για πολιομυελίτιδα (%) | Αριθμητική | 3 – 99 |
| Total_expenditure | Δαπάνες υγείας ως ποσοστό του ΑΕΠ | Αριθμητική | 0 – 17.9 |
| Diphtheria | Εμβολιαστική κάλυψη για διφθερίτιδα (%) | Αριθμητική | 2 – 99 |
| HIV_AIDS | Θάνατοι από HIV/AIDS ανά 1.000 άτομα | Αριθμητική | 0.1 – 40.0 |
| GDP | Ακαθάριστο Εγχώριο Προϊόν (σε USD) | Αριθμητική | 0 – 1.7e+05 |
| Population | Πληθυσμός | Αριθμητική | 34 – 1.3e+09 |
| thinness_1_19_years | Ποσοστό λεπτών ατόμων ηλικίας 1–19 | Αριθμητική | 0.1 – 27.7 |
| thinness_5_9_years | Ποσοστό λεπτών ατόμων ηλικίας 5–9 | Αριθμητική | 0.1 – 28.6 |
| Income_composition_of_resources | Δείκτης εισοδηματικής ευημερίας (0–1) | Αριθμητική | 0.0 – 0.95 |
| Schooling | Μέσος όρος ετών εκπαίδευσης | Αριθμητική | 0 – 20.7 |
Εισάγω τα δεδομένα του dataset για επεξεργασία.
library(readr)
life_expectancy <- read.csv("Life_Expectancy_Data.csv")
Χρησιμοποιούμε την συνάρτηση str() για να εμφανίσουμε τη δομή του dataset life_expectancy με συνοπτικό και χρήσιμο τρόπο.
str(life_expectancy)
## 'data.frame': 2938 obs. of 22 variables:
## $ Country : chr "Afghanistan" "Afghanistan" "Afghanistan" "Afghanistan" ...
## $ Year : int 2015 2014 2013 2012 2011 2010 2009 2008 2007 2006 ...
## $ Status : chr "Developing" "Developing" "Developing" "Developing" ...
## $ Life_expectancy : num 65 59.9 59.9 59.5 59.2 58.8 58.6 58.1 57.5 57.3 ...
## $ Adult_Mortality : int 263 271 268 272 275 279 281 287 295 295 ...
## $ infant_deaths : int 62 64 66 69 71 74 77 80 82 84 ...
## $ Alcohol : num 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.03 0.02 0.03 ...
## $ percentage_expenditure : num 71.3 73.5 73.2 78.2 7.1 ...
## $ Hepatitis_B : int 65 62 64 67 68 66 63 64 63 64 ...
## $ Measles : int 1154 492 430 2787 3013 1989 2861 1599 1141 1990 ...
## $ BMI : num 19.1 18.6 18.1 17.6 17.2 16.7 16.2 15.7 15.2 14.7 ...
## $ under.five_deaths : int 83 86 89 93 97 102 106 110 113 116 ...
## $ Polio : int 6 58 62 67 68 66 63 64 63 58 ...
## $ Total_expenditure : num 8.16 8.18 8.13 8.52 7.87 9.2 9.42 8.33 6.73 7.43 ...
## $ Diphtheria : int 65 62 64 67 68 66 63 64 63 58 ...
## $ HIV.AIDS : num 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 ...
## $ GDP : num 584.3 612.7 631.7 670 63.5 ...
## $ Population : num 33736494 327582 31731688 3696958 2978599 ...
## $ thinness._1.19_years : num 17.2 17.5 17.7 17.9 18.2 18.4 18.6 18.8 19 19.2 ...
## $ thinness_5.9_years : num 17.3 17.5 17.7 18 18.2 18.4 18.7 18.9 19.1 19.3 ...
## $ Income_composition_of_resources: num 0.479 0.476 0.47 0.463 0.454 0.448 0.434 0.433 0.415 0.405 ...
## $ Schooling : num 10.1 10 9.9 9.8 9.5 9.2 8.9 8.7 8.4 8.1 ...
Χρησιμοποιούμε την συνάρτηση summary() για να μας δώσει μια περιγραφική στατιστική περίληψη του dataset life_expectancy.
summary(life_expectancy)
## Country Year Status Life_expectancy
## Length:2938 Min. :2000 Length:2938 Min. :36.30
## Class :character 1st Qu.:2004 Class :character 1st Qu.:63.10
## Mode :character Median :2008 Mode :character Median :72.10
## Mean :2008 Mean :69.22
## 3rd Qu.:2012 3rd Qu.:75.70
## Max. :2015 Max. :89.00
## NA's :10
## Adult_Mortality infant_deaths Alcohol percentage_expenditure
## Min. : 1.0 Min. : 0.0 Min. : 0.0100 Min. : 0.000
## 1st Qu.: 74.0 1st Qu.: 0.0 1st Qu.: 0.8775 1st Qu.: 4.685
## Median :144.0 Median : 3.0 Median : 3.7550 Median : 64.913
## Mean :164.8 Mean : 30.3 Mean : 4.6029 Mean : 738.251
## 3rd Qu.:228.0 3rd Qu.: 22.0 3rd Qu.: 7.7025 3rd Qu.: 441.534
## Max. :723.0 Max. :1800.0 Max. :17.8700 Max. :19479.912
## NA's :10 NA's :194
## Hepatitis_B Measles BMI under.five_deaths
## Min. : 1.00 Min. : 0.0 Min. : 1.00 Min. : 0.00
## 1st Qu.:77.00 1st Qu.: 0.0 1st Qu.:19.30 1st Qu.: 0.00
## Median :92.00 Median : 17.0 Median :43.50 Median : 4.00
## Mean :80.94 Mean : 2419.6 Mean :38.32 Mean : 42.04
## 3rd Qu.:97.00 3rd Qu.: 360.2 3rd Qu.:56.20 3rd Qu.: 28.00
## Max. :99.00 Max. :212183.0 Max. :87.30 Max. :2500.00
## NA's :553 NA's :34
## Polio Total_expenditure Diphtheria HIV.AIDS
## Min. : 3.00 Min. : 0.370 Min. : 2.00 Min. : 0.100
## 1st Qu.:78.00 1st Qu.: 4.260 1st Qu.:78.00 1st Qu.: 0.100
## Median :93.00 Median : 5.755 Median :93.00 Median : 0.100
## Mean :82.55 Mean : 5.938 Mean :82.32 Mean : 1.742
## 3rd Qu.:97.00 3rd Qu.: 7.492 3rd Qu.:97.00 3rd Qu.: 0.800
## Max. :99.00 Max. :17.600 Max. :99.00 Max. :50.600
## NA's :19 NA's :226 NA's :19
## GDP Population thinness._1.19_years
## Min. : 1.68 Min. :3.400e+01 Min. : 0.10
## 1st Qu.: 463.94 1st Qu.:1.958e+05 1st Qu.: 1.60
## Median : 1766.95 Median :1.387e+06 Median : 3.30
## Mean : 7483.16 Mean :1.275e+07 Mean : 4.84
## 3rd Qu.: 5910.81 3rd Qu.:7.420e+06 3rd Qu.: 7.20
## Max. :119172.74 Max. :1.294e+09 Max. :27.70
## NA's :448 NA's :652 NA's :34
## thinness_5.9_years Income_composition_of_resources Schooling
## Min. : 0.10 Min. :0.0000 Min. : 0.00
## 1st Qu.: 1.50 1st Qu.:0.4930 1st Qu.:10.10
## Median : 3.30 Median :0.6770 Median :12.30
## Mean : 4.87 Mean :0.6276 Mean :11.99
## 3rd Qu.: 7.20 3rd Qu.:0.7790 3rd Qu.:14.30
## Max. :28.60 Max. :0.9480 Max. :20.70
## NA's :34 NA's :167 NA's :163
Το training set είναι το 65% της βάσης και το υπόλοιπο 35% είναι για το testing set.
Πριν διαχωρίσω το dataset ορίζω το ίδιο seed για να εξασφαλιστεί ότι όλα τα sets θα είναι ίδια.
library(caTools)
set.seed(906)
Και στην συνέχεια δημιουργώ τα δύο καινούργια datasets.
split <- sample.split(life_expectancy$Life_expectancy,SplitRatio=0.65)
Ονομάζω τα sets ως train και test.
LETrain = subset(life_expectancy, split==TRUE)
LETest = subset(life_expectancy, split==FALSE)
Και καταγράφω το πόσες είναι οι καταχωρήσεις σε κάθε set.
nrow(LETrain)
## [1] 1901
nrow(LETest)
## [1] 1037
Το dataset επιχειρεί να απαντήσει σε κρίσιμα ερωτήματα, όπως:
🔹Ποιοι παράγοντες επηρεάζουν σημαντικά το προσδόκιμο ζωής;
🔹Έχει θετική ή αρνητική σχέση η κατανάλωση αλκοόλ με το προσδόκιμο ζωής;
🔹Πόσο επηρεάζει η εμβολιαστική κάλυψη;
🔹Θα ωφεληθούν χώρες με χαμηλό προσδόκιμο (<65) αν αυξήσουν τις δαπάνες υγείας;
🔹Ποια η σημασία της εκπαίδευσης και της κοινωνικοοικονομικής ανάπτυξης;
Το παρακάτω διάγραμμα δείχνει ότι υπάρχει θετική συσχέτιση μεταξύ των ετών εκπαίδευσης και του προσδόκιμου ζωής. Παρατηρείται ότι τα περισσότερα χρόνια σχολικής φοίτησης συνδέονται με μεγαλύτερη διάρκεια ζωής. Αυτό μπορεί να συμβαίνει γιατί η εκπαίδευση οδηγεί σε καλύτερη γνώση για την υγεία και πιο υγιεινές συνήθειες, συμβάλλοντας έτσι σε μια πιο υγιή και μακρόχρονη ζωή.
library(ggplot2)
ggplot(life_expectancy, aes(Schooling, Life_expectancy)) +
geom_point(alpha = 0.5, color = "darkblue") +
labs(title = "Σχέση Εκπαίδευσης και Προσδόκιμου Ζωής",
x = "Έτη Εκπαίδευσης",
y = "Προσδόκιμο Ζωής")+
theme_minimal()
Το παρακάτω διάγραμμα δείχνει ότι υπάρχει έντονη θετική συσχέτιση μεταξύ του δείκτη εισοδήματος και του προσδόκιμου ζωής.Καθώς ο δείκτης πλησιάζει τη μέγιστη τιμή (1.0), το προσδόκιμο ζωής τείνει να αυξάνεται σημαντικά, ξεπερνώντας ακόμα και τα 80 έτη σε πολλές περιπτώσεις. Αυτό φανερώνει ότι χώρες με καλύτερη κατανομή και διαχείριση των οικονομικών πόρων, που εξασφαλίζουν πρόσβαση σε παιδεία, περίθαλψη και κοινωνικές υπηρεσίες, απολαμβάνουν υψηλότερη ποιότητα ζωής και συνεπώς μεγαλύτερη διάρκεια ζωής.Αντίθετα, χαμηλές τιμές του δείκτη (κάτω από 0.5) σχετίζονται με προσδόκιμο ζωής κάτω των 60 ετών, δείχνοντας οικονομική και κοινωνική ανεπάρκεια.
ggplot(life_expectancy, aes(x = Income_composition_of_resources, y = Life_expectancy)) +
geom_point(alpha = 0.6, color = "darkred") +
labs(title = "Σχέση Δείκτη Εισοδηματικής Σύνθεσης και Προσδόκιμου Ζωής",
x = "Δείκτη Εισοδήματος", y = "Προσδόκιμου Ζωής") +
theme_minimal()
Το παρακάτω διάγραμμα δείχνει ότι οι αναπτυγμένες χώρες έχουν σαφώς υψηλότερο προσδόκιμο ζωής σε σύγκριση με τις αναπτυσσόμενες. Αυτό οφείλεται στη βελτιωμένη υγειονομική περίθαλψη, την εκπαίδευση και τις κοινωνικές υποδομές. Οι αναπτυσσόμενες χώρες εμφανίζουν μεγαλύτερη διακύμανση, δείχνοντας ανισότητες στις συνθήκες διαβίωσης και στην πρόσβαση σε βασικές υπηρεσίες.
ggplot(life_expectancy, aes(Status, Life_expectancy, fill = Status)) +
geom_boxplot() +
labs(title = "Σχέση Κατηγορίας Χώρας και Προσδόκιμου Ζωής",
x = "Κατηγορία Χώρας",
y = "Προσδόκιμο Ζωής")+
theme_minimal()
##
## Call:
## lm(formula = Life_expectancy ~ GDP, data = LETrain)
##
## Residuals:
## Min 1Q Median 3Q Max
## -30.855 -4.990 1.941 5.874 21.925
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 6.694e+01 2.427e-01 275.80 <2e-16 ***
## GDP 3.274e-04 1.585e-05 20.66 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 8.64 on 1629 degrees of freedom
## (270 observations deleted due to missingness)
## Multiple R-squared: 0.2076, Adjusted R-squared: 0.2071
## F-statistic: 426.7 on 1 and 1629 DF, p-value: < 2.2e-16
## (Intercept) GDP
## 6.693863e+01 3.274327e-04
Η γραμμική εξίσωση που προκύπτει είναι:
Life_Expectancy = 66.9386 + 0.0003274 × GDP
Δηλαδή:
Σταθερά (Intercept): Όταν το GDP είναι μηδέν, το προσδόκιμο ζωής είναι ~67 έτη.
Συντελεστής GDP: Για κάθε 1 μονάδα αύξησης στο GDP, το προσδόκιμο ζωής αυξάνεται κατά 0.0003274 έτη, δηλαδή περίπου 3 ώρες.
📌 Συμπερασματικά:
Υπάρχει θετική σχέση μεταξύ GDP και προσδόκιμου ζωής.
Όσο υψηλότερο είναι το ΑΕΠ μιας χώρας, τόσο μεγαλύτερο είναι κατά μέσο όρο και το προσδόκιμο ζωής των κατοίκων της.
##
## Call:
## lm(formula = Life_expectancy ~ Income_composition_of_resources,
## data = LETrain)
##
## Residuals:
## Min 1Q Median 3Q Max
## -27.8683 -2.7997 0.5092 3.0133 30.1726
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 48.8274 0.4760 102.59 <2e-16 ***
## Income_composition_of_resources 32.6400 0.7217 45.23 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 6.481 on 1809 degrees of freedom
## (90 observations deleted due to missingness)
## Multiple R-squared: 0.5307, Adjusted R-squared: 0.5304
## F-statistic: 2045 on 1 and 1809 DF, p-value: < 2.2e-16
## (Intercept) Income_composition_of_resources
## 48.82745 32.64003
Η γραμμική εξίσωση που προκύπτει είναι:
Life_Expectancy = 48.82 + 32.64 × Income_Composition_of_Resources
Δηλαδή:
Σταθερά (Intercept): Όταν ο δείκτης εισοδήματος είναι 0, το προσδόκιμο ζωής προβλέπεται να είναι περίπου 49 έτη.
Συντελεστής εισοδήματος: Για κάθε μονάδα αύξησης στον δείκτη (που κυμαίνεται από 0 έως 1), το προσδόκιμο ζωής αυξάνεται κατά περίπου 32 — μια πολύ ισχυρή θετική σχέση.
Επομένως,μια αύξηση από 0.5 σε 0.6 στον δείκτη ισοδυναμεί με ~3 επιπλέον έτη προσδόκιμου ζωής.
📌 Συμπερασματικά, ο δείκτης εισοδήματος έχει:
Ισχυρή θετική σχέση με το προσδόκιμο ζωής.
Επομένως, ο δείκτης αυτός αποτυπώνει πιο ρεαλιστικά την πραγματική οικονομική και κοινωνική ευημερία των πολιτών από το ΑΕΠ.
##
## Call:
## lm(formula = Life_expectancy ~ Income_composition_of_resources +
## Adult_Mortality, data = LETrain)
##
## Residuals:
## Min 1Q Median 3Q Max
## -25.5092 -1.9955 0.2276 2.2434 24.9914
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 59.918736 0.543362 110.27 <2e-16 ***
## Income_composition_of_resources 23.715941 0.666529 35.58 <2e-16 ***
## Adult_Mortality -0.033580 0.001141 -29.43 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5.33 on 1808 degrees of freedom
## (90 observations deleted due to missingness)
## Multiple R-squared: 0.6827, Adjusted R-squared: 0.6823
## F-statistic: 1945 on 2 and 1808 DF, p-value: < 2.2e-16
## (Intercept) Income_composition_of_resources
## 59.91873564 23.71594113
## Adult_Mortality
## -0.03358048
Η γραμμική εξίσωση που προκύπτει είναι:
Life_Expectancy= 59.91 + 23.71 × Income_composition_of_resources − 0.034 × Adult_Mortality
Δηλαδή:
Σταθερά (Intercept): Όταν οι άλλες δύο μεταβλητές είναι 0, το προσδόκιμο ζωής είναι περίπου 60 έτη.
Income_composition_of_resources: Για κάθε μονάδα αύξησης (0 → 1, γιατί είναι δείκτης), το προσδόκιμο ζωής αυξάνεται κατά 23 έτη περίπου.
Adult_Mortality: Για κάθε 1 επιπλέον θάνατο ανά 1000 ενήλικες, το προσδόκιμο ζωής μειώνεται κατά 0.034 έτη (~12 ημέρες).
Είναι αρνητικός δείκτης : περισσότερη θνησιμότητα => χαμηλότερη προσδόκιμο ζωής.
##
## Call:
## lm(formula = Life_expectancy ~ Income_composition_of_resources +
## Adult_Mortality + Schooling, data = LETrain)
##
## Residuals:
## Min 1Q Median 3Q Max
## -23.8888 -2.1983 0.2631 2.6030 24.5854
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 54.343251 0.580123 93.67 <2e-16 ***
## Income_composition_of_resources 10.906990 0.917708 11.88 <2e-16 ***
## Adult_Mortality -0.030394 0.001059 -28.71 <2e-16 ***
## Schooling 1.091349 0.058392 18.69 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4.881 on 1807 degrees of freedom
## (90 observations deleted due to missingness)
## Multiple R-squared: 0.7341, Adjusted R-squared: 0.7337
## F-statistic: 1663 on 3 and 1807 DF, p-value: < 2.2e-16
## (Intercept) Income_composition_of_resources
## 54.34325129 10.90698996
## Adult_Mortality Schooling
## -0.03039385 1.09134920
Η γραμμική εξίσωση που προκύπτει είναι:
Life_Expectancy = 54.34 + 10.90 × Income_composition_of_resources − 0.0303 × Adult_Mortality + 1.09 × Schooling
Δηλαδή:
Σταθερά (Intercept): Αν όλες οι άλλες μεταβλητές ήταν μηδέν, το προσδόκιμο ζωής θα ήταν περίπου 55 έτη.
Income_composition_of_resources (10.90): Η θετική του επίδραση παραμένει ισχυρή αλλά μειωμένη σε σχέση με το προηγούμενο μοντέλο (από ~23 → ~10).
Adult_Mortality (-0.0303): Όπως και πριν, για κάθε επιπλέον μονάδα στη θνησιμότητα ενηλίκων, το προσδόκιμο ζωής μειώνεται κατά ~0.031 έτη.
Παραμένει σημαντικός και αρνητικός παράγοντας.
Schooling (1.09): Για κάθε επιπλέον χρόνο εκπαίδευσης, το προσδόκιμο ζωής αυξάνεται κατά ~1 έτος.
📌 Συμπερασματικά,η προσθήκη της μεταβλητής Schooling βελτίωσε σημαντικά το μοντέλο.
Το προσδόκιμο ζωής εξαρτάται ισχυρά από:
1)Την οικονομική πρόσβαση σε πόρους
2)Τη θνησιμότητα ενηλίκων
3)Την εκπαίδευση
Επομένως, θα μπορούσαμε να πούμε ότι ένα παιδί που ζει σε μια χώρα με υψηλότερο εισόδημα, λιγότερη θνησιμότητα και καλύτερη εκπαίδευση έχει πολύ περισσότερες πιθανότητες να ζήσει περισσότερο.
##
## Call:
## lm(formula = Life_expectancy ~ GDP, data = LETrain)
##
## Residuals:
## Min 1Q Median 3Q Max
## -30.855 -4.990 1.941 5.874 21.925
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 6.694e+01 2.427e-01 275.80 <2e-16 ***
## GDP 3.274e-04 1.585e-05 20.66 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 8.64 on 1629 degrees of freedom
## (270 observations deleted due to missingness)
## Multiple R-squared: 0.2076, Adjusted R-squared: 0.2071
## F-statistic: 426.7 on 1 and 1629 DF, p-value: < 2.2e-16
## (Intercept) GDP
## 6.693863e+01 3.274327e-04
SSE2 <- sum(model2$residuals^2)
SSE2
## [1] 121613.5
RMSE2 <- sqrt(SSE2/nrow(LETrain))
RMSE2
## [1] 7.998338
Υπάρχει θετική συσχέτιση μεταξύ GDP και προσδόκιμου ζωής, άλλά δεν είναι τόσο ισχυρή.
Το R² = 0.2071 σημαίνει ότι το 20.7% της διακύμανσης στο προσδόκιμο ζωής εξηγείται από το ΑΕΠ.
Αυτό υποδηλώνει μέτρια επίδραση — το ΑΕΠ επηρεάζει το προσδόκιμο ζωής, αλλά δεν είναι ο μοναδικός παράγοντας.
Το SSE = 121613.5 είναι το σφάλμα του μοντέλου, το οποίο θεωρείται σχετικά υψηλό.
Το RMSE = 7.998338 σημαίνει ότι, κατά μέσο όρο, οι προβλέψεις του μοντέλου διαφέρουν από τις πραγματικές τιμές του προσδόκιμου ζωής κατά περίπου 8 χρόνια, το οποίο θεωρείται σχετικά υψηλό.
##
## Call:
## lm(formula = Life_expectancy ~ Income_composition_of_resources,
## data = LETrain)
##
## Residuals:
## Min 1Q Median 3Q Max
## -27.8683 -2.7997 0.5092 3.0133 30.1726
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 48.8274 0.4760 102.59 <2e-16 ***
## Income_composition_of_resources 32.6400 0.7217 45.23 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 6.481 on 1809 degrees of freedom
## (90 observations deleted due to missingness)
## Multiple R-squared: 0.5307, Adjusted R-squared: 0.5304
## F-statistic: 2045 on 1 and 1809 DF, p-value: < 2.2e-16
## (Intercept) Income_composition_of_resources
## 48.82745 32.64003
SSE3 <- sum(model3$residuals^2)
SSE3
## [1] 75976.53
RMSE3 <- sqrt(SSE3/nrow(LETrain))
RMSE3
## [1] 6.321915
Η συσχέτιση μεταξύ του προσδόκιμου ζωής και του δείκτη εισοδηματικής ευημερίας είναι θετική. Αυτό σημαίνει ότι όταν αυξάνεται ο δείκτης εισοδήματος, αυξάνεται και το προσδόκιμο ζωής.
Το R² = 0.5304 σημαίνει ότι περίπου το 53% της διακύμανσης στο προσδόκιμο ζωής εξηγείται από τον δείκτη εισοδήματος. Αυτό είναι πολύ καλό για ένα μοντέλο με μία μόνο μεταβλητή.
Το SSE = 75976.53 είναι σαφώς μικρότερο από αυτό του μοντέλου με το GDP (που ήταν 121613.5), άρα το μοντέλο με το δείκτη εισοδήματος είναι πιο ακριβές.Επιλέγω να συνεχίσω με αυτόν τον συνδυασμό.
Το RMSE = 6.321915 σημαίνει ότι, κατά μέσο όρο, οι προβλέψεις του μοντέλου διαφέρουν από τις πραγματικές τιμές του προσδόκιμου ζωής κατά περίπου 6 χρόνια, το οποίο θεωρείται σχετικά υψηλό αλλά καλύτερο από το προηγούμενο μοντέλο.
##
## Call:
## lm(formula = Life_expectancy ~ Income_composition_of_resources +
## Adult_Mortality, data = LETrain)
##
## Residuals:
## Min 1Q Median 3Q Max
## -25.5092 -1.9955 0.2276 2.2434 24.9914
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 59.918736 0.543362 110.27 <2e-16 ***
## Income_composition_of_resources 23.715941 0.666529 35.58 <2e-16 ***
## Adult_Mortality -0.033580 0.001141 -29.43 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5.33 on 1808 degrees of freedom
## (90 observations deleted due to missingness)
## Multiple R-squared: 0.6827, Adjusted R-squared: 0.6823
## F-statistic: 1945 on 2 and 1808 DF, p-value: < 2.2e-16
## (Intercept) Income_composition_of_resources
## 59.91873564 23.71594113
## Adult_Mortality
## -0.03358048
SSE4 <- sum(model4$residuals^2)
SSE4
## [1] 51365.43
RMSE4 <- sqrt(SSE4/nrow(LETrain))
RMSE4
## [1] 5.198097
Παρατηρούμε ότι το προσδόκιμο ζωής επηρεάζεται έντονα από:
1)Το εισόδημα (θετική συσχέτιση),
2)Τη θνησιμότητα ενηλίκων (αρνητική συσχέτιση).
Το συγκεκριμένο μοντέλο έχει καλύτερη προβλεπτική ισχύ με R²= 0.6823 ή 68%.
Το SSE = 51365.43 είναι σημαντικά χαμηλότερο σε σύγκριση με τα προηγούμενα μοντέλα που βασίζονταν μόνο σε 1 μεταβλητή, άρα το νέο μοντέλο αποδίδει καλύτερες προβλέψεις.
Το RMSE = 5.198097 σημαίνει ότι, κατά μέσο όρο, οι προβλέψεις του μοντέλου διαφέρουν από τις πραγματικές τιμές του προσδόκιμου ζωής κατά περίπου 5 χρόνια, το οποίο θεωρείται καλύτερο από όλα τα προηγούμενα μοντέλα.
##
## Call:
## lm(formula = Life_expectancy ~ Income_composition_of_resources +
## Adult_Mortality + Schooling, data = LETrain)
##
## Residuals:
## Min 1Q Median 3Q Max
## -23.8888 -2.1983 0.2631 2.6030 24.5854
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 54.343251 0.580123 93.67 <2e-16 ***
## Income_composition_of_resources 10.906990 0.917708 11.88 <2e-16 ***
## Adult_Mortality -0.030394 0.001059 -28.71 <2e-16 ***
## Schooling 1.091349 0.058392 18.69 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4.881 on 1807 degrees of freedom
## (90 observations deleted due to missingness)
## Multiple R-squared: 0.7341, Adjusted R-squared: 0.7337
## F-statistic: 1663 on 3 and 1807 DF, p-value: < 2.2e-16
## (Intercept) Income_composition_of_resources
## 54.34325129 10.90698996
## Adult_Mortality Schooling
## -0.03039385 1.09134920
SSE5 <- sum(model5$residuals^2)
SSE5
## [1] 43044.44
RMSE5 <- sqrt(SSE5/nrow(LETrain))
RMSE5
## [1] 4.758471
Παρατηρούμε ότι το προσδόκιμο ζωής έχει θετική συσχέτιση με τα έτη εκπαίδευσης.
Το R² είναι 0.7337 και σημαίνει ότι το 73.37% της συνολικής διακύμανσης στο προσδόκιμο ζωής μπορεί να εξηγηθεί από αυτές τις 3 μεταβλητές.
Το συνολικό σφάλμα του μοντέλου SSE = 43044.44 είναι χαμηλό σε σχέση με την έκταση και το εύρος των δεδομένων, υποδηλώνοντας ότι οι προβλέψεις του μοντέλου είναι αρκετά κοντά στις πραγματικές τιμές του προσδόκιμου ζωής. Αυτό ενισχύει την αξιοπιστία του μοντέλου και το καθιστά κατάλληλο για περαιτέρω ανάλυση ή εφαρμογή σε πολιτικές υγείας.
Το RMSE = 4.758471 σημαίνει ότι, κατά μέσο όρο, οι προβλέψεις του μοντέλου διαφέρουν από τις πραγματικές τιμές του προσδόκιμου ζωής κατά περίπου 4 χρόνια, το οποίο θεωρείται καλύτερο από όλα τα προηγούμενα μοντέλα.
##
## Call:
## lm(formula = Life_expectancy ~ Income_composition_of_resources +
## Adult_Mortality + Schooling + Total_expenditure, data = LETrain)
##
## Residuals:
## Min 1Q Median 3Q Max
## -23.7659 -2.1785 0.2861 2.6344 25.1894
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 53.56410 0.64023 83.663 <2e-16 ***
## Income_composition_of_resources 10.58475 0.93846 11.279 <2e-16 ***
## Adult_Mortality -0.03046 0.00109 -27.959 <2e-16 ***
## Schooling 1.14649 0.06230 18.402 <2e-16 ***
## Total_expenditure 0.04409 0.05158 0.855 0.393
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4.933 on 1679 degrees of freedom
## (217 observations deleted due to missingness)
## Multiple R-squared: 0.7283, Adjusted R-squared: 0.7277
## F-statistic: 1125 on 4 and 1679 DF, p-value: < 2.2e-16
## (Intercept) Income_composition_of_resources
## 53.56410105 10.58475462
## Adult_Mortality Schooling
## -0.03046373 1.14648886
## Total_expenditure
## 0.04408975
SSE6 <- sum(model6$residuals^2)
SSE6
## [1] 40857.45
RMSE6 <- sqrt(SSE6/nrow(LETrain))
RMSE6
## [1] 4.636012
Παρατηρούμε ότι η δαπάνη υγείας δεν έχει στατιστικά σημαντική επίδραση στο προσδόκιμο ζωής.
Το R² = 0.7277 αυτό σημαίνει ότι εξηγεί το 72.77% της συνολικής διακύμανσης στο προσδόκιμο ζωής.
Το SSE = 40857.45 και το RMSE = 4.636012 δείχνει πώς υπάρχει αρκετά μικρή απόκλιση από το προηγούμενο μοντέλο.
Επομένως, επιλέγουμε να κρατήσουμε το προηγούμενο μοντέλο το οποίο αποτελείται από λιγότερες μεταβλητές.
| Variables | Model_R_squared |
|---|---|
| Income_composition_of_resources | 0.53 |
| Income_composition_of_resources,Adult_Mortality | 0.68 |
| Income_composition_of_resources,Adult_Mortality,Schooling | 0.73 |
| Income_composition_of_resources,Adult_Mortality,Schooling,Total_expenditure | 0.73 |
📌 Συμπερασματκά, το ιδανικό μοντέλο είναι με τις μεταβλητές Income_composition_of_resources, Adult_Mortality, Schooling και μας λέει ότι:
1)Η ποιότητα ζωής (Income composition of resources),
2)Η εκπαίδευση και
3)Η θνησιμότητα ενηλίκων
είναι οι πιο κρίσιμοι παράγοντες για το προσδόκιμο ζωής.
Παρακάτω εφαρμόζουμε πρόβλεψη στο test set.
R2 <- 1 - SSE/SST
R2
## [1] 0.7286081
RMSE <- sqrt(SSE/nrow(LETest2))
RMSE
## [1] 4.827042
Παρατηρούμε ότι στην πρόβλεψη που πραγματοποιήθηκε παραπάνω για το Test Dataset οι αποκλίσεις είναι ελάχιστες.
Για το model5 (το μοντέλο γραμμικής παλινδρόμησης που χρησιμοποιήθηκε) στο Train Dataset είχαμε R² = 0.73 και RMSE = 4.7 ένω στο Test Dataset έχουμε R² = 0.73 και RMSE = 4.8. Αυτές οι τιμές υποδηλώνουν ότι το μοντέλο που δημιουργήθηκε προβλέπει το προσδόκιμο ζωής με καλή ακρίβεια.