Περιγραφή του Dataset

Γενική Περιγραφή

Το επιλεγμένο dataset αφορά τη σχέση μεταξύ του προσδόκιμου ζωής και των κρίσιμων κοινωνικοοικονομικών και υγειονομικών παραγόντων. Περιλαμβάνει δεδομένα από 193 χώρες για την περίοδο 2000 έως 2015 και προέρχεται από αξιόπιστες πηγές όπως ο Παγκόσμιος Οργανισμός Υγείας (WHO).

Πηγή δεδομένων:https://www.kaggle.com/datasets/kumarajarshi/life-expectancy-who

Η συγκεκριμένη βάση δεδομένων συγκεντρώνει μεταβλητές που σχετίζονται με:

✅ Εμβολιαστική κάλυψη (Hepatitis B, Polio, Diphtheria)

✅ Θνησιμότητα (βρεφική, ενήλικη, υπό διαχείριση παθήσεων)

✅ Οικονομικούς δείκτες (GDP, δαπάνες υγείας, εισοδηματικοί δείκτες)

✅ Κοινωνικούς παράγοντες (εκπαίδευση, υποδομές, πρόσβαση σε υγεία)

✅ Συνήθειες ζωής (αλκοόλ, κάπνισμα, τρόπος ζωής)

Στόχος είναι να βοηθήσει τις χώρες να καταλάβουν ποιοι παράγοντες επηρεάζουν αρνητικά ή θετικά το προσδόκιμο ζωής και πού οφείλουν να επικεντρώσουν την πολιτική τους.

Μεταβλητές του Dataset

Έχει 22 στήλες (1 εξαρτημένη και 21 ανεξάρτητες μεταβλητές). Παρακάτω παρουσιάζονται αναλυτικά:

Variable Description Variable_Type Variable_Range
Country Όνομα χώρας Κατηγορική 193 διαφορετικές χώρες
Year Έτος παρατήρησης Αριθμητική 2000 – 2015
Status Ανάπτυξη χώρας Κατηγορική 2 επίπεδα: Developed, Developing
Life_expectancy Προσδόκιμο ζωής Αριθμητική 36.3 – 89.0
Adult_Mortality Θάνατοι ενηλίκων (15–60 ετών) ανά 1.000 άτομα Αριθμητική 1 – 692
Infant_deaths Θάνατοι βρεφών Αριθμητική 0 – 180
Alcohol Κατανάλωση αλκοόλ ανά άτομο Αριθμητική 0 – 17.87
Percentage_expenditure Ποσοστιαίες δαπάνες για υγεία Αριθμητική 0.005 – 19479.91
Hepatitis_B Εμβολιαστική κάλυψη για ηπατίτιδα Β (%) Αριθμητική 3 – 99
Measles Κρούσματα ιλαράς Αριθμητική 0 – 212183
BMI Δείκτης Μάζας Σώματος Αριθμητική 1.0 – 70.7
Under_five_deaths Θάνατοι κάτω των 5 ετών Αριθμητική 0 – 250
Polio Εμβολιαστική κάλυψη για πολιομυελίτιδα (%) Αριθμητική 3 – 99
Total_expenditure Δαπάνες υγείας ως ποσοστό του ΑΕΠ Αριθμητική 0 – 17.9
Diphtheria Εμβολιαστική κάλυψη για διφθερίτιδα (%) Αριθμητική 2 – 99
HIV_AIDS Θάνατοι από HIV/AIDS ανά 1.000 άτομα Αριθμητική 0.1 – 40.0
GDP Ακαθάριστο Εγχώριο Προϊόν (σε USD) Αριθμητική 0 – 1.7e+05
Population Πληθυσμός Αριθμητική 34 – 1.3e+09
thinness_1_19_years Ποσοστό λεπτών ατόμων ηλικίας 1–19 Αριθμητική 0.1 – 27.7
thinness_5_9_years Ποσοστό λεπτών ατόμων ηλικίας 5–9 Αριθμητική 0.1 – 28.6
Income_composition_of_resources Δείκτης εισοδηματικής ευημερίας (0–1) Αριθμητική 0.0 – 0.95
Schooling Μέσος όρος ετών εκπαίδευσης Αριθμητική 0 – 20.7

Εισαγωγή του dataset

Εισάγω τα δεδομένα του dataset για επεξεργασία.

library(readr)
life_expectancy <- read.csv("Life_Expectancy_Data.csv")

Διερεύνυση του συνόλου dataset

Χρησιμοποιούμε την συνάρτηση str() για να εμφανίσουμε τη δομή του dataset life_expectancy με συνοπτικό και χρήσιμο τρόπο.

  str(life_expectancy)
## 'data.frame':    2938 obs. of  22 variables:
##  $ Country                        : chr  "Afghanistan" "Afghanistan" "Afghanistan" "Afghanistan" ...
##  $ Year                           : int  2015 2014 2013 2012 2011 2010 2009 2008 2007 2006 ...
##  $ Status                         : chr  "Developing" "Developing" "Developing" "Developing" ...
##  $ Life_expectancy                : num  65 59.9 59.9 59.5 59.2 58.8 58.6 58.1 57.5 57.3 ...
##  $ Adult_Mortality                : int  263 271 268 272 275 279 281 287 295 295 ...
##  $ infant_deaths                  : int  62 64 66 69 71 74 77 80 82 84 ...
##  $ Alcohol                        : num  0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.03 0.02 0.03 ...
##  $ percentage_expenditure         : num  71.3 73.5 73.2 78.2 7.1 ...
##  $ Hepatitis_B                    : int  65 62 64 67 68 66 63 64 63 64 ...
##  $ Measles                        : int  1154 492 430 2787 3013 1989 2861 1599 1141 1990 ...
##  $ BMI                            : num  19.1 18.6 18.1 17.6 17.2 16.7 16.2 15.7 15.2 14.7 ...
##  $ under.five_deaths              : int  83 86 89 93 97 102 106 110 113 116 ...
##  $ Polio                          : int  6 58 62 67 68 66 63 64 63 58 ...
##  $ Total_expenditure              : num  8.16 8.18 8.13 8.52 7.87 9.2 9.42 8.33 6.73 7.43 ...
##  $ Diphtheria                     : int  65 62 64 67 68 66 63 64 63 58 ...
##  $ HIV.AIDS                       : num  0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 ...
##  $ GDP                            : num  584.3 612.7 631.7 670 63.5 ...
##  $ Population                     : num  33736494 327582 31731688 3696958 2978599 ...
##  $ thinness._1.19_years           : num  17.2 17.5 17.7 17.9 18.2 18.4 18.6 18.8 19 19.2 ...
##  $ thinness_5.9_years             : num  17.3 17.5 17.7 18 18.2 18.4 18.7 18.9 19.1 19.3 ...
##  $ Income_composition_of_resources: num  0.479 0.476 0.47 0.463 0.454 0.448 0.434 0.433 0.415 0.405 ...
##  $ Schooling                      : num  10.1 10 9.9 9.8 9.5 9.2 8.9 8.7 8.4 8.1 ...

Χρησιμοποιούμε την συνάρτηση summary() για να μας δώσει μια περιγραφική στατιστική περίληψη του dataset life_expectancy.

  summary(life_expectancy)
##    Country               Year         Status          Life_expectancy
##  Length:2938        Min.   :2000   Length:2938        Min.   :36.30  
##  Class :character   1st Qu.:2004   Class :character   1st Qu.:63.10  
##  Mode  :character   Median :2008   Mode  :character   Median :72.10  
##                     Mean   :2008                      Mean   :69.22  
##                     3rd Qu.:2012                      3rd Qu.:75.70  
##                     Max.   :2015                      Max.   :89.00  
##                                                       NA's   :10     
##  Adult_Mortality infant_deaths       Alcohol        percentage_expenditure
##  Min.   :  1.0   Min.   :   0.0   Min.   : 0.0100   Min.   :    0.000     
##  1st Qu.: 74.0   1st Qu.:   0.0   1st Qu.: 0.8775   1st Qu.:    4.685     
##  Median :144.0   Median :   3.0   Median : 3.7550   Median :   64.913     
##  Mean   :164.8   Mean   :  30.3   Mean   : 4.6029   Mean   :  738.251     
##  3rd Qu.:228.0   3rd Qu.:  22.0   3rd Qu.: 7.7025   3rd Qu.:  441.534     
##  Max.   :723.0   Max.   :1800.0   Max.   :17.8700   Max.   :19479.912     
##  NA's   :10                       NA's   :194                             
##   Hepatitis_B       Measles              BMI        under.five_deaths
##  Min.   : 1.00   Min.   :     0.0   Min.   : 1.00   Min.   :   0.00  
##  1st Qu.:77.00   1st Qu.:     0.0   1st Qu.:19.30   1st Qu.:   0.00  
##  Median :92.00   Median :    17.0   Median :43.50   Median :   4.00  
##  Mean   :80.94   Mean   :  2419.6   Mean   :38.32   Mean   :  42.04  
##  3rd Qu.:97.00   3rd Qu.:   360.2   3rd Qu.:56.20   3rd Qu.:  28.00  
##  Max.   :99.00   Max.   :212183.0   Max.   :87.30   Max.   :2500.00  
##  NA's   :553                        NA's   :34                       
##      Polio       Total_expenditure   Diphtheria       HIV.AIDS     
##  Min.   : 3.00   Min.   : 0.370    Min.   : 2.00   Min.   : 0.100  
##  1st Qu.:78.00   1st Qu.: 4.260    1st Qu.:78.00   1st Qu.: 0.100  
##  Median :93.00   Median : 5.755    Median :93.00   Median : 0.100  
##  Mean   :82.55   Mean   : 5.938    Mean   :82.32   Mean   : 1.742  
##  3rd Qu.:97.00   3rd Qu.: 7.492    3rd Qu.:97.00   3rd Qu.: 0.800  
##  Max.   :99.00   Max.   :17.600    Max.   :99.00   Max.   :50.600  
##  NA's   :19      NA's   :226       NA's   :19                      
##       GDP              Population        thinness._1.19_years
##  Min.   :     1.68   Min.   :3.400e+01   Min.   : 0.10       
##  1st Qu.:   463.94   1st Qu.:1.958e+05   1st Qu.: 1.60       
##  Median :  1766.95   Median :1.387e+06   Median : 3.30       
##  Mean   :  7483.16   Mean   :1.275e+07   Mean   : 4.84       
##  3rd Qu.:  5910.81   3rd Qu.:7.420e+06   3rd Qu.: 7.20       
##  Max.   :119172.74   Max.   :1.294e+09   Max.   :27.70       
##  NA's   :448         NA's   :652         NA's   :34          
##  thinness_5.9_years Income_composition_of_resources   Schooling    
##  Min.   : 0.10      Min.   :0.0000                  Min.   : 0.00  
##  1st Qu.: 1.50      1st Qu.:0.4930                  1st Qu.:10.10  
##  Median : 3.30      Median :0.6770                  Median :12.30  
##  Mean   : 4.87      Mean   :0.6276                  Mean   :11.99  
##  3rd Qu.: 7.20      3rd Qu.:0.7790                  3rd Qu.:14.30  
##  Max.   :28.60      Max.   :0.9480                  Max.   :20.70  
##  NA's   :34         NA's   :167                     NA's   :163

Διαχωρισμός του dataset σε training και testing sets

Το training set είναι το 65% της βάσης και το υπόλοιπο 35% είναι για το testing set.

Πριν διαχωρίσω το dataset ορίζω το ίδιο seed για να εξασφαλιστεί ότι όλα τα sets θα είναι ίδια.

library(caTools)
set.seed(906)

Και στην συνέχεια δημιουργώ τα δύο καινούργια datasets.

split <- sample.split(life_expectancy$Life_expectancy,SplitRatio=0.65)

Ονομάζω τα sets ως train και test.

  LETrain = subset(life_expectancy, split==TRUE)
  LETest = subset(life_expectancy, split==FALSE)

Και καταγράφω το πόσες είναι οι καταχωρήσεις σε κάθε set.

  nrow(LETrain)
## [1] 1901
  nrow(LETest) 
## [1] 1037

Ερευνητικά Ερωτήματα

Το dataset επιχειρεί να απαντήσει σε κρίσιμα ερωτήματα, όπως:

🔹Ποιοι παράγοντες επηρεάζουν σημαντικά το προσδόκιμο ζωής;

🔹Έχει θετική ή αρνητική σχέση η κατανάλωση αλκοόλ με το προσδόκιμο ζωής;

🔹Πόσο επηρεάζει η εμβολιαστική κάλυψη;

🔹Θα ωφεληθούν χώρες με χαμηλό προσδόκιμο (<65) αν αυξήσουν τις δαπάνες υγείας;

🔹Ποια η σημασία της εκπαίδευσης και της κοινωνικοοικονομικής ανάπτυξης;



Διαγράμματα

Scatterplot

1o Διάγραμμα

Το παρακάτω διάγραμμα δείχνει ότι υπάρχει θετική συσχέτιση μεταξύ των ετών εκπαίδευσης και του προσδόκιμου ζωής. Παρατηρείται ότι τα περισσότερα χρόνια σχολικής φοίτησης συνδέονται με μεγαλύτερη διάρκεια ζωής. Αυτό μπορεί να συμβαίνει γιατί η εκπαίδευση οδηγεί σε καλύτερη γνώση για την υγεία και πιο υγιεινές συνήθειες, συμβάλλοντας έτσι σε μια πιο υγιή και μακρόχρονη ζωή.

library(ggplot2)
ggplot(life_expectancy, aes(Schooling, Life_expectancy)) +
  geom_point(alpha = 0.5, color = "darkblue") +
  labs(title = "Σχέση Εκπαίδευσης και Προσδόκιμου Ζωής",
       x = "Έτη Εκπαίδευσης",
       y = "Προσδόκιμο Ζωής")+
  theme_minimal()

2o Διάγραμμα

Το παρακάτω διάγραμμα δείχνει ότι υπάρχει έντονη θετική συσχέτιση μεταξύ του δείκτη εισοδήματος και του προσδόκιμου ζωής.Καθώς ο δείκτης πλησιάζει τη μέγιστη τιμή (1.0), το προσδόκιμο ζωής τείνει να αυξάνεται σημαντικά, ξεπερνώντας ακόμα και τα 80 έτη σε πολλές περιπτώσεις. Αυτό φανερώνει ότι χώρες με καλύτερη κατανομή και διαχείριση των οικονομικών πόρων, που εξασφαλίζουν πρόσβαση σε παιδεία, περίθαλψη και κοινωνικές υπηρεσίες, απολαμβάνουν υψηλότερη ποιότητα ζωής και συνεπώς μεγαλύτερη διάρκεια ζωής.Αντίθετα, χαμηλές τιμές του δείκτη (κάτω από 0.5) σχετίζονται με προσδόκιμο ζωής κάτω των 60 ετών, δείχνοντας οικονομική και κοινωνική ανεπάρκεια.

ggplot(life_expectancy, aes(x = Income_composition_of_resources, y = Life_expectancy)) +
  geom_point(alpha = 0.6, color = "darkred") +
  labs(title = "Σχέση Δείκτη Εισοδηματικής Σύνθεσης και Προσδόκιμου Ζωής",
       x = "Δείκτη Εισοδήματος", y = "Προσδόκιμου Ζωής") +
  theme_minimal()

Boxplot

Το παρακάτω διάγραμμα δείχνει ότι οι αναπτυγμένες χώρες έχουν σαφώς υψηλότερο προσδόκιμο ζωής σε σύγκριση με τις αναπτυσσόμενες. Αυτό οφείλεται στη βελτιωμένη υγειονομική περίθαλψη, την εκπαίδευση και τις κοινωνικές υποδομές. Οι αναπτυσσόμενες χώρες εμφανίζουν μεγαλύτερη διακύμανση, δείχνοντας ανισότητες στις συνθήκες διαβίωσης και στην πρόσβαση σε βασικές υπηρεσίες.

ggplot(life_expectancy, aes(Status, Life_expectancy, fill = Status)) +
  geom_boxplot() +
  labs(title = "Σχέση Κατηγορίας Χώρας και Προσδόκιμου Ζωής",
       x = "Κατηγορία Χώρας",
       y = "Προσδόκιμο Ζωής")+
  theme_minimal()



Fitted μοντέλα γραμμικής παλινδρόμησης

Life_expectancy ~ GDP

## 
## Call:
## lm(formula = Life_expectancy ~ GDP, data = LETrain)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -30.855  -4.990   1.941   5.874  21.925 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 6.694e+01  2.427e-01  275.80   <2e-16 ***
## GDP         3.274e-04  1.585e-05   20.66   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 8.64 on 1629 degrees of freedom
##   (270 observations deleted due to missingness)
## Multiple R-squared:  0.2076, Adjusted R-squared:  0.2071 
## F-statistic: 426.7 on 1 and 1629 DF,  p-value: < 2.2e-16
##  (Intercept)          GDP 
## 6.693863e+01 3.274327e-04

Η γραμμική εξίσωση που προκύπτει είναι:

Life_Expectancy = 66.9386 + 0.0003274 × GDP

Δηλαδή:

Σταθερά (Intercept): Όταν το GDP είναι μηδέν, το προσδόκιμο ζωής είναι ~67 έτη.

Συντελεστής GDP: Για κάθε 1 μονάδα αύξησης στο GDP, το προσδόκιμο ζωής αυξάνεται κατά 0.0003274 έτη, δηλαδή περίπου 3 ώρες.

📌 Συμπερασματικά:

Υπάρχει θετική σχέση μεταξύ GDP και προσδόκιμου ζωής.

Όσο υψηλότερο είναι το ΑΕΠ μιας χώρας, τόσο μεγαλύτερο είναι κατά μέσο όρο και το προσδόκιμο ζωής των κατοίκων της.

Life_expectancy ~ Income_composition_of_resources

## 
## Call:
## lm(formula = Life_expectancy ~ Income_composition_of_resources, 
##     data = LETrain)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -27.8683  -2.7997   0.5092   3.0133  30.1726 
## 
## Coefficients:
##                                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                      48.8274     0.4760  102.59   <2e-16 ***
## Income_composition_of_resources  32.6400     0.7217   45.23   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 6.481 on 1809 degrees of freedom
##   (90 observations deleted due to missingness)
## Multiple R-squared:  0.5307, Adjusted R-squared:  0.5304 
## F-statistic:  2045 on 1 and 1809 DF,  p-value: < 2.2e-16
##                     (Intercept) Income_composition_of_resources 
##                        48.82745                        32.64003

Η γραμμική εξίσωση που προκύπτει είναι:

Life_Expectancy = 48.82 + 32.64 × Income_Composition_of_Resources

Δηλαδή:

Σταθερά (Intercept): Όταν ο δείκτης εισοδήματος είναι 0, το προσδόκιμο ζωής προβλέπεται να είναι περίπου 49 έτη.

Συντελεστής εισοδήματος: Για κάθε μονάδα αύξησης στον δείκτη (που κυμαίνεται από 0 έως 1), το προσδόκιμο ζωής αυξάνεται κατά περίπου 32 — μια πολύ ισχυρή θετική σχέση.

Επομένως,μια αύξηση από 0.5 σε 0.6 στον δείκτη ισοδυναμεί με ~3 επιπλέον έτη προσδόκιμου ζωής.

📌 Συμπερασματικά, ο δείκτης εισοδήματος έχει:

Ισχυρή θετική σχέση με το προσδόκιμο ζωής.

Επομένως, ο δείκτης αυτός αποτυπώνει πιο ρεαλιστικά την πραγματική οικονομική και κοινωνική ευημερία των πολιτών από το ΑΕΠ.

Life_expectancy ~ Income_composition_of_resources + Adult_Mortality

## 
## Call:
## lm(formula = Life_expectancy ~ Income_composition_of_resources + 
##     Adult_Mortality, data = LETrain)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -25.5092  -1.9955   0.2276   2.2434  24.9914 
## 
## Coefficients:
##                                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                     59.918736   0.543362  110.27   <2e-16 ***
## Income_composition_of_resources 23.715941   0.666529   35.58   <2e-16 ***
## Adult_Mortality                 -0.033580   0.001141  -29.43   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5.33 on 1808 degrees of freedom
##   (90 observations deleted due to missingness)
## Multiple R-squared:  0.6827, Adjusted R-squared:  0.6823 
## F-statistic:  1945 on 2 and 1808 DF,  p-value: < 2.2e-16
##                     (Intercept) Income_composition_of_resources 
##                     59.91873564                     23.71594113 
##                 Adult_Mortality 
##                     -0.03358048

Η γραμμική εξίσωση που προκύπτει είναι:

Life_Expectancy= 59.91 + 23.71 × Income_composition_of_resources − 0.034 × Adult_Mortality

Δηλαδή:

Σταθερά (Intercept): Όταν οι άλλες δύο μεταβλητές είναι 0, το προσδόκιμο ζωής είναι περίπου 60 έτη.

Income_composition_of_resources: Για κάθε μονάδα αύξησης (0 → 1, γιατί είναι δείκτης), το προσδόκιμο ζωής αυξάνεται κατά 23 έτη περίπου.

Adult_Mortality: Για κάθε 1 επιπλέον θάνατο ανά 1000 ενήλικες, το προσδόκιμο ζωής μειώνεται κατά 0.034 έτη (~12 ημέρες).

Είναι αρνητικός δείκτης : περισσότερη θνησιμότητα => χαμηλότερη προσδόκιμο ζωής.

Life_expectancy ~ Income_composition_of_resources + Adult_Mortality + Schooling

## 
## Call:
## lm(formula = Life_expectancy ~ Income_composition_of_resources + 
##     Adult_Mortality + Schooling, data = LETrain)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -23.8888  -2.1983   0.2631   2.6030  24.5854 
## 
## Coefficients:
##                                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                     54.343251   0.580123   93.67   <2e-16 ***
## Income_composition_of_resources 10.906990   0.917708   11.88   <2e-16 ***
## Adult_Mortality                 -0.030394   0.001059  -28.71   <2e-16 ***
## Schooling                        1.091349   0.058392   18.69   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.881 on 1807 degrees of freedom
##   (90 observations deleted due to missingness)
## Multiple R-squared:  0.7341, Adjusted R-squared:  0.7337 
## F-statistic:  1663 on 3 and 1807 DF,  p-value: < 2.2e-16
##                     (Intercept) Income_composition_of_resources 
##                     54.34325129                     10.90698996 
##                 Adult_Mortality                       Schooling 
##                     -0.03039385                      1.09134920

Η γραμμική εξίσωση που προκύπτει είναι:

Life_Expectancy = 54.34 + 10.90 × Income_composition_of_resources − 0.0303 × Adult_Mortality + 1.09 × Schooling

Δηλαδή:

Σταθερά (Intercept): Αν όλες οι άλλες μεταβλητές ήταν μηδέν, το προσδόκιμο ζωής θα ήταν περίπου 55 έτη.

Income_composition_of_resources (10.90): Η θετική του επίδραση παραμένει ισχυρή αλλά μειωμένη σε σχέση με το προηγούμενο μοντέλο (από ~23 → ~10).

Adult_Mortality (-0.0303): Όπως και πριν, για κάθε επιπλέον μονάδα στη θνησιμότητα ενηλίκων, το προσδόκιμο ζωής μειώνεται κατά ~0.031 έτη.

Παραμένει σημαντικός και αρνητικός παράγοντας.

Schooling (1.09): Για κάθε επιπλέον χρόνο εκπαίδευσης, το προσδόκιμο ζωής αυξάνεται κατά ~1 έτος.

📌 Συμπερασματικά,η προσθήκη της μεταβλητής Schooling βελτίωσε σημαντικά το μοντέλο.

Το προσδόκιμο ζωής εξαρτάται ισχυρά από:

1)Την οικονομική πρόσβαση σε πόρους

2)Τη θνησιμότητα ενηλίκων

3)Την εκπαίδευση

Επομένως, θα μπορούσαμε να πούμε ότι ένα παιδί που ζει σε μια χώρα με υψηλότερο εισόδημα, λιγότερη θνησιμότητα και καλύτερη εκπαίδευση έχει πολύ περισσότερες πιθανότητες να ζήσει περισσότερο.



Αξιολόγηση μοντέλου παλινδρόμησης

Διερεύνηση συσχετίσεων, SSE και R-squared

Life_expectancy ~ GDP

## 
## Call:
## lm(formula = Life_expectancy ~ GDP, data = LETrain)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -30.855  -4.990   1.941   5.874  21.925 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 6.694e+01  2.427e-01  275.80   <2e-16 ***
## GDP         3.274e-04  1.585e-05   20.66   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 8.64 on 1629 degrees of freedom
##   (270 observations deleted due to missingness)
## Multiple R-squared:  0.2076, Adjusted R-squared:  0.2071 
## F-statistic: 426.7 on 1 and 1629 DF,  p-value: < 2.2e-16
##  (Intercept)          GDP 
## 6.693863e+01 3.274327e-04
SSE2 <- sum(model2$residuals^2) 
SSE2
## [1] 121613.5
RMSE2 <- sqrt(SSE2/nrow(LETrain))
RMSE2
## [1] 7.998338

Υπάρχει θετική συσχέτιση μεταξύ GDP και προσδόκιμου ζωής, άλλά δεν είναι τόσο ισχυρή.

Το R² = 0.2071 σημαίνει ότι το 20.7% της διακύμανσης στο προσδόκιμο ζωής εξηγείται από το ΑΕΠ.

Αυτό υποδηλώνει μέτρια επίδραση — το ΑΕΠ επηρεάζει το προσδόκιμο ζωής, αλλά δεν είναι ο μοναδικός παράγοντας.

Το SSE = 121613.5 είναι το σφάλμα του μοντέλου, το οποίο θεωρείται σχετικά υψηλό.

Το RMSE = 7.998338 σημαίνει ότι, κατά μέσο όρο, οι προβλέψεις του μοντέλου διαφέρουν από τις πραγματικές τιμές του προσδόκιμου ζωής κατά περίπου 8 χρόνια, το οποίο θεωρείται σχετικά υψηλό.

Life_expectancy ~ Income_composition_of_resources

## 
## Call:
## lm(formula = Life_expectancy ~ Income_composition_of_resources, 
##     data = LETrain)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -27.8683  -2.7997   0.5092   3.0133  30.1726 
## 
## Coefficients:
##                                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                      48.8274     0.4760  102.59   <2e-16 ***
## Income_composition_of_resources  32.6400     0.7217   45.23   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 6.481 on 1809 degrees of freedom
##   (90 observations deleted due to missingness)
## Multiple R-squared:  0.5307, Adjusted R-squared:  0.5304 
## F-statistic:  2045 on 1 and 1809 DF,  p-value: < 2.2e-16
##                     (Intercept) Income_composition_of_resources 
##                        48.82745                        32.64003
SSE3 <- sum(model3$residuals^2) 
SSE3
## [1] 75976.53
RMSE3 <- sqrt(SSE3/nrow(LETrain))
RMSE3
## [1] 6.321915

Η συσχέτιση μεταξύ του προσδόκιμου ζωής και του δείκτη εισοδηματικής ευημερίας είναι θετική. Αυτό σημαίνει ότι όταν αυξάνεται ο δείκτης εισοδήματος, αυξάνεται και το προσδόκιμο ζωής.

Το R² = 0.5304 σημαίνει ότι περίπου το 53% της διακύμανσης στο προσδόκιμο ζωής εξηγείται από τον δείκτη εισοδήματος. Αυτό είναι πολύ καλό για ένα μοντέλο με μία μόνο μεταβλητή.

Το SSE = 75976.53 είναι σαφώς μικρότερο από αυτό του μοντέλου με το GDP (που ήταν 121613.5), άρα το μοντέλο με το δείκτη εισοδήματος είναι πιο ακριβές.Επιλέγω να συνεχίσω με αυτόν τον συνδυασμό.

Το RMSE = 6.321915 σημαίνει ότι, κατά μέσο όρο, οι προβλέψεις του μοντέλου διαφέρουν από τις πραγματικές τιμές του προσδόκιμου ζωής κατά περίπου 6 χρόνια, το οποίο θεωρείται σχετικά υψηλό αλλά καλύτερο από το προηγούμενο μοντέλο.

Life_expectancy ~ Income_composition_of_resources + Adult_Mortality

## 
## Call:
## lm(formula = Life_expectancy ~ Income_composition_of_resources + 
##     Adult_Mortality, data = LETrain)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -25.5092  -1.9955   0.2276   2.2434  24.9914 
## 
## Coefficients:
##                                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                     59.918736   0.543362  110.27   <2e-16 ***
## Income_composition_of_resources 23.715941   0.666529   35.58   <2e-16 ***
## Adult_Mortality                 -0.033580   0.001141  -29.43   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5.33 on 1808 degrees of freedom
##   (90 observations deleted due to missingness)
## Multiple R-squared:  0.6827, Adjusted R-squared:  0.6823 
## F-statistic:  1945 on 2 and 1808 DF,  p-value: < 2.2e-16
##                     (Intercept) Income_composition_of_resources 
##                     59.91873564                     23.71594113 
##                 Adult_Mortality 
##                     -0.03358048
SSE4 <- sum(model4$residuals^2) 
SSE4
## [1] 51365.43
RMSE4 <- sqrt(SSE4/nrow(LETrain))
RMSE4
## [1] 5.198097

Παρατηρούμε ότι το προσδόκιμο ζωής επηρεάζεται έντονα από:

1)Το εισόδημα (θετική συσχέτιση),

2)Τη θνησιμότητα ενηλίκων (αρνητική συσχέτιση).

Το συγκεκριμένο μοντέλο έχει καλύτερη προβλεπτική ισχύ με R²= 0.6823 ή 68%.

Το SSE = 51365.43 είναι σημαντικά χαμηλότερο σε σύγκριση με τα προηγούμενα μοντέλα που βασίζονταν μόνο σε 1 μεταβλητή, άρα το νέο μοντέλο αποδίδει καλύτερες προβλέψεις.

Το RMSE = 5.198097 σημαίνει ότι, κατά μέσο όρο, οι προβλέψεις του μοντέλου διαφέρουν από τις πραγματικές τιμές του προσδόκιμου ζωής κατά περίπου 5 χρόνια, το οποίο θεωρείται καλύτερο από όλα τα προηγούμενα μοντέλα.

Life_expectancy ~ Income_composition_of_resources + Adult_Mortality + Schooling

## 
## Call:
## lm(formula = Life_expectancy ~ Income_composition_of_resources + 
##     Adult_Mortality + Schooling, data = LETrain)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -23.8888  -2.1983   0.2631   2.6030  24.5854 
## 
## Coefficients:
##                                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                     54.343251   0.580123   93.67   <2e-16 ***
## Income_composition_of_resources 10.906990   0.917708   11.88   <2e-16 ***
## Adult_Mortality                 -0.030394   0.001059  -28.71   <2e-16 ***
## Schooling                        1.091349   0.058392   18.69   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.881 on 1807 degrees of freedom
##   (90 observations deleted due to missingness)
## Multiple R-squared:  0.7341, Adjusted R-squared:  0.7337 
## F-statistic:  1663 on 3 and 1807 DF,  p-value: < 2.2e-16
##                     (Intercept) Income_composition_of_resources 
##                     54.34325129                     10.90698996 
##                 Adult_Mortality                       Schooling 
##                     -0.03039385                      1.09134920
SSE5 <- sum(model5$residuals^2) 
SSE5
## [1] 43044.44
RMSE5 <- sqrt(SSE5/nrow(LETrain))
RMSE5
## [1] 4.758471

Παρατηρούμε ότι το προσδόκιμο ζωής έχει θετική συσχέτιση με τα έτη εκπαίδευσης.

Το R² είναι 0.7337 και σημαίνει ότι το 73.37% της συνολικής διακύμανσης στο προσδόκιμο ζωής μπορεί να εξηγηθεί από αυτές τις 3 μεταβλητές.

Το συνολικό σφάλμα του μοντέλου SSE = 43044.44 είναι χαμηλό σε σχέση με την έκταση και το εύρος των δεδομένων, υποδηλώνοντας ότι οι προβλέψεις του μοντέλου είναι αρκετά κοντά στις πραγματικές τιμές του προσδόκιμου ζωής. Αυτό ενισχύει την αξιοπιστία του μοντέλου και το καθιστά κατάλληλο για περαιτέρω ανάλυση ή εφαρμογή σε πολιτικές υγείας.

Το RMSE = 4.758471 σημαίνει ότι, κατά μέσο όρο, οι προβλέψεις του μοντέλου διαφέρουν από τις πραγματικές τιμές του προσδόκιμου ζωής κατά περίπου 4 χρόνια, το οποίο θεωρείται καλύτερο από όλα τα προηγούμενα μοντέλα.

Life_expectancy ~ Income_composition_of_resources + Adult_Mortality + Schooling + Total_expenditure

## 
## Call:
## lm(formula = Life_expectancy ~ Income_composition_of_resources + 
##     Adult_Mortality + Schooling + Total_expenditure, data = LETrain)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -23.7659  -2.1785   0.2861   2.6344  25.1894 
## 
## Coefficients:
##                                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                     53.56410    0.64023  83.663   <2e-16 ***
## Income_composition_of_resources 10.58475    0.93846  11.279   <2e-16 ***
## Adult_Mortality                 -0.03046    0.00109 -27.959   <2e-16 ***
## Schooling                        1.14649    0.06230  18.402   <2e-16 ***
## Total_expenditure                0.04409    0.05158   0.855    0.393    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.933 on 1679 degrees of freedom
##   (217 observations deleted due to missingness)
## Multiple R-squared:  0.7283, Adjusted R-squared:  0.7277 
## F-statistic:  1125 on 4 and 1679 DF,  p-value: < 2.2e-16
##                     (Intercept) Income_composition_of_resources 
##                     53.56410105                     10.58475462 
##                 Adult_Mortality                       Schooling 
##                     -0.03046373                      1.14648886 
##               Total_expenditure 
##                      0.04408975
SSE6 <- sum(model6$residuals^2) 
SSE6
## [1] 40857.45
RMSE6 <- sqrt(SSE6/nrow(LETrain))
RMSE6
## [1] 4.636012

Παρατηρούμε ότι η δαπάνη υγείας δεν έχει στατιστικά σημαντική επίδραση στο προσδόκιμο ζωής.

Το R² = 0.7277 αυτό σημαίνει ότι εξηγεί το 72.77% της συνολικής διακύμανσης στο προσδόκιμο ζωής.

Το SSE = 40857.45 και το RMSE = 4.636012 δείχνει πώς υπάρχει αρκετά μικρή απόκλιση από το προηγούμενο μοντέλο.

Επομένως, επιλέγουμε να κρατήσουμε το προηγούμενο μοντέλο το οποίο αποτελείται από λιγότερες μεταβλητές.

Variables Model_R_squared
Income_composition_of_resources 0.53
Income_composition_of_resources,Adult_Mortality 0.68
Income_composition_of_resources,Adult_Mortality,Schooling 0.73
Income_composition_of_resources,Adult_Mortality,Schooling,Total_expenditure 0.73

📌 Συμπερασματκά, το ιδανικό μοντέλο είναι με τις μεταβλητές Income_composition_of_resources, Adult_Mortality, Schooling και μας λέει ότι:

1)Η ποιότητα ζωής (Income composition of resources),

2)Η εκπαίδευση και

3)Η θνησιμότητα ενηλίκων

είναι οι πιο κρίσιμοι παράγοντες για το προσδόκιμο ζωής.

Εφαρμογή πρόβλεψης στο μοντέλο παλινδρόμησης

Παρακάτω εφαρμόζουμε πρόβλεψη στο test set.

R2 <- 1 - SSE/SST
R2
## [1] 0.7286081
RMSE <- sqrt(SSE/nrow(LETest2))
RMSE
## [1] 4.827042

Παρατηρούμε ότι στην πρόβλεψη που πραγματοποιήθηκε παραπάνω για το Test Dataset οι αποκλίσεις είναι ελάχιστες.

Για το model5 (το μοντέλο γραμμικής παλινδρόμησης που χρησιμοποιήθηκε) στο Train Dataset είχαμε R² = 0.73 και RMSE = 4.7 ένω στο Test Dataset έχουμε R² = 0.73 και RMSE = 4.8. Αυτές οι τιμές υποδηλώνουν ότι το μοντέλο που δημιουργήθηκε προβλέπει το προσδόκιμο ζωής με καλή ακρίβεια.