Περιγραφή του Dataset

Γενική Περιγραφή

Το επιλεγμένο dataset αφορά τη σχέση μεταξύ του προσδόκιμου ζωής και των κρίσιμων κοινωνικοοικονομικών και υγειονομικών παραγόντων. Περιλαμβάνει δεδομένα από 193 χώρες για την περίοδο 2000 έως 2015 και προέρχεται από αξιόπιστες πηγές όπως ο Παγκόσμιος Οργανισμός Υγείας (WHO).

Πηγή δεδομένων:https://www.kaggle.com/datasets/kumarajarshi/life-expectancy-who

Η συγκεκριμένη βάση δεδομένων συγκεντρώνει μεταβλητές που σχετίζονται με:

✅ Εμβολιαστική κάλυψη (Hepatitis B, Polio, Diphtheria)

✅ Θνησιμότητα (βρεφική, ενήλικη, υπό διαχείριση παθήσεων)

✅ Οικονομικούς δείκτες (GDP, δαπάνες υγείας, εισοδηματικοί δείκτες)

✅ Κοινωνικούς παράγοντες (εκπαίδευση, υποδομές, πρόσβαση σε υγεία)

✅ Συνήθειες ζωής (αλκοόλ, κάπνισμα, τρόπος ζωής)

Στόχος είναι να βοηθήσει τις χώρες να καταλάβουν ποιοι παράγοντες επηρεάζουν αρνητικά ή θετικά το προσδόκιμο ζωής και πού οφείλουν να επικεντρώσουν την πολιτική τους.

Μεταβλητές του Dataset

Έχει 22 στήλες (1 εξαρτημένη και 21 ανεξάρτητες μεταβλητές). Παρακάτω παρουσιάζονται αναλυτικά:

Variable Description Variable_Type Variable_Range
Country Όνομα χώρας Κατηγορική 193 διαφορετικές χώρες
Year Έτος παρατήρησης Αριθμητική 2000 – 2015
Status Ανάπτυξη χώρας Κατηγορική 2 επίπεδα: Developed, Developing
Life_expectancy Προσδόκιμο ζωής Αριθμητική 36.3 – 89.0
Adult_Mortality Θάνατοι ενηλίκων (15–60 ετών) ανά 1.000 άτομα Αριθμητική 1 – 692
Infant_deaths Θάνατοι βρεφών Αριθμητική 0 – 180
Alcohol Κατανάλωση αλκοόλ ανά άτομο Αριθμητική 0 – 17.87
Percentage_expenditure Ποσοστιαίες δαπάνες για υγεία Αριθμητική 0.005 – 19479.91
Hepatitis_B Εμβολιαστική κάλυψη για ηπατίτιδα Β (%) Αριθμητική 3 – 99
Measles Κρούσματα ιλαράς Αριθμητική 0 – 212183
BMI Δείκτης Μάζας Σώματος Αριθμητική 1.0 – 70.7
Under_five_deaths Θάνατοι κάτω των 5 ετών Αριθμητική 0 – 250
Polio Εμβολιαστική κάλυψη για πολιομυελίτιδα (%) Αριθμητική 3 – 99
Total_expenditure Δαπάνες υγείας ως ποσοστό του ΑΕΠ Αριθμητική 0 – 17.9
Diphtheria Εμβολιαστική κάλυψη για διφθερίτιδα (%) Αριθμητική 2 – 99
HIV_AIDS Θάνατοι από HIV/AIDS ανά 1.000 άτομα Αριθμητική 0.1 – 40.0
GDP Ακαθάριστο Εγχώριο Προϊόν (σε USD) Αριθμητική 0 – 1.7e+05
Population Πληθυσμός Αριθμητική 34 – 1.3e+09
thinness_1_19_years Ποσοστό λεπτών ατόμων ηλικίας 1–19 Αριθμητική 0.1 – 27.7
thinness_5_9_years Ποσοστό λεπτών ατόμων ηλικίας 5–9 Αριθμητική 0.1 – 28.6
Income_composition_of_resources Δείκτης εισοδηματικής ευημερίας (0–1) Αριθμητική 0.0 – 0.95
Schooling Μέσος όρος ετών εκπαίδευσης Αριθμητική 0 – 20.7

Ερευνητικά Ερωτήματα

Το dataset επιχειρεί να απαντήσει σε κρίσιμα ερωτήματα, όπως:

🔹Ποιοι παράγοντες επηρεάζουν σημαντικά το προσδόκιμο ζωής;

🔹Έχει θετική ή αρνητική σχέση η κατανάλωση αλκοόλ με το προσδόκιμο ζωής;

🔹Πόσο επηρεάζει η εμβολιαστική κάλυψη;

🔹Θα ωφεληθούν χώρες με χαμηλό προσδόκιμο (<65) αν αυξήσουν τις δαπάνες υγείας;

🔹Ποια η σημασία της εκπαίδευσης και της κοινωνικοοικονομικής ανάπτυξης;



Διαγράμματα

Scatterplot

1o Διάγραμμα

Το παρακάτω διάγραμμα δείχνει ότι υπάρχει θετική συσχέτιση μεταξύ των ετών εκπαίδευσης και του προσδόκιμου ζωής. Παρατηρείται ότι τα περισσότερα χρόνια σχολικής φοίτησης συνδέονται με μεγαλύτερη διάρκεια ζωής. Αυτό μπορεί να συμβαίνει γιατί η εκπαίδευση οδηγεί σε καλύτερη γνώση για την υγεία και πιο υγιεινές συνήθειες, συμβάλλοντας έτσι σε μια πιο υγιή και μακρόχρονη ζωή.

library(ggplot2)
ggplot(life_expectancy, aes(Schooling, Life_expectancy)) +
  geom_point(alpha = 0.5, color = "darkblue") +
  labs(title = "Σχέση Εκπαίδευσης και Προσδόκιμου Ζωής",
       x = "Έτη Εκπαίδευσης",
       y = "Προσδόκιμο Ζωής")+
  theme_minimal()

2o Διάγραμμα

Το παρακάτω διάγραμμα δείχνει ότι υπάρχει έντονη θετική συσχέτιση μεταξύ του δείκτη εισοδήματος και του προσδόκιμου ζωής.Καθώς ο δείκτης πλησιάζει τη μέγιστη τιμή (1.0), το προσδόκιμο ζωής τείνει να αυξάνεται σημαντικά, ξεπερνώντας ακόμα και τα 80 έτη σε πολλές περιπτώσεις. Αυτό φανερώνει ότι χώρες με καλύτερη κατανομή και διαχείριση των οικονομικών πόρων, που εξασφαλίζουν πρόσβαση σε παιδεία, περίθαλψη και κοινωνικές υπηρεσίες, απολαμβάνουν υψηλότερη ποιότητα ζωής και συνεπώς μεγαλύτερη διάρκεια ζωής.Αντίθετα, χαμηλές τιμές του δείκτη (κάτω από 0.5) σχετίζονται με προσδόκιμο ζωής κάτω των 60 ετών, δείχνοντας οικονομική και κοινωνική ανεπάρκεια.

ggplot(life_expectancy, aes(x = Income_composition_of_resources, y = Life_expectancy)) +
  geom_point(alpha = 0.6, color = "darkred") +
  labs(title = "Σχέση Δείκτη Εισοδηματικής Σύνθεσης και Προσδόκιμου Ζωής",
       x = "Δείκτη Εισοδήματος", y = "Προσδόκιμου Ζωής") +
  theme_minimal()

Boxplot

Το παρακάτω διάγραμμα δείχνει ότι οι αναπτυγμένες χώρες έχουν σαφώς υψηλότερο προσδόκιμο ζωής σε σύγκριση με τις αναπτυσσόμενες. Αυτό οφείλεται στη βελτιωμένη υγειονομική περίθαλψη, την εκπαίδευση και τις κοινωνικές υποδομές. Οι αναπτυσσόμενες χώρες εμφανίζουν μεγαλύτερη διακύμανση, δείχνοντας ανισότητες στις συνθήκες διαβίωσης και στην πρόσβαση σε βασικές υπηρεσίες.

ggplot(life_expectancy, aes(Status, Life_expectancy, fill = Status)) +
  geom_boxplot() +
  labs(title = "Σχέση Κατηγορίας Χώρας και Προσδόκιμου Ζωής",
       x = "Κατηγορία Χώρας",
       y = "Προσδόκιμο Ζωής")+
  theme_minimal()



Fitted μοντέλα γραμμικής παλινδρόμησης

Life_expectancy ~ GDP

## 
## Call:
## lm(formula = Life_expectancy ~ GDP, data = life_expectancy)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -30.941  -4.966   2.011   5.824  21.835 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 6.704e+01  1.939e-01  345.70   <2e-16 ***
## GDP         3.117e-04  1.202e-05   25.92   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 8.559 on 2483 degrees of freedom
##   (453 observations deleted due to missingness)
## Multiple R-squared:  0.2129, Adjusted R-squared:  0.2126 
## F-statistic: 671.8 on 1 and 2483 DF,  p-value: < 2.2e-16
##  (Intercept)          GDP 
## 6.703504e+01 3.116567e-04

Η γραμμική εξίσωση που προκύπτει είναι:

Life_Expectancy = 67.035 + 0.0003117 × GDP

Δηλαδή:

Σταθερά (Intercept): Όταν το GDP είναι μηδέν, το προσδόκιμο ζωής είναι ~67 έτη.

Συντελεστής GDP: Για κάθε 1 μονάδα αύξησης στο GDP, το προσδόκιμο ζωής αυξάνεται κατά 0.0003117 έτη, δηλαδή περίπου 3 ώρες.

📌 Συμπερασματικά:

Υπάρχει θετική σχέση μεταξύ GDP και προσδόκιμου ζωής.

Όσο υψηλότερο είναι το ΑΕΠ μιας χώρας, τόσο μεγαλύτερο είναι κατά μέσο όρο και το προσδόκιμο ζωής των κατοίκων της.

Life_expectancy ~ Income_composition_of_resources

## 
## Call:
## lm(formula = Life_expectancy ~ Income_composition_of_resources, 
##     data = life_expectancy)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -27.9874  -2.7623   0.5191   2.9716  29.8265 
## 
## Coefficients:
##                                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                      49.1735     0.3847  127.81   <2e-16 ***
## Income_composition_of_resources  32.1572     0.5812   55.33   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 6.451 on 2766 degrees of freedom
##   (170 observations deleted due to missingness)
## Multiple R-squared:  0.5253, Adjusted R-squared:  0.5251 
## F-statistic:  3061 on 1 and 2766 DF,  p-value: < 2.2e-16
##                     (Intercept) Income_composition_of_resources 
##                        49.17351                        32.15724

Η γραμμική εξίσωση που προκύπτει είναι:

Life_Expectancy = 49.17 + 32.16 × Income_Composition_of_Resources

Δηλαδή:

Σταθερά (Intercept): Όταν ο δείκτης εισοδήματος είναι 0, το προσδόκιμο ζωής προβλέπεται να είναι περίπου 49 έτη.

Συντελεστής εισοδήματος: Για κάθε μονάδα αύξησης στον δείκτη (που κυμαίνεται από 0 έως 1), το προσδόκιμο ζωής αυξάνεται κατά περίπου 32 — μια πολύ ισχυρή θετική σχέση.

Επομένως,μια αύξηση από 0.5 σε 0.6 στον δείκτη ισοδυναμεί με ~3 επιπλέον έτη προσδόκιμου ζωής.

📌 Συμπερασματικά, ο δείκτης εισοδήματος έχει:

Ισχυρή θετική σχέση με το προσδόκιμο ζωής.

Επομένως, ο δείκτης αυτός αποτυπώνει πιο ρεαλιστικά την πραγματική οικονομική και κοινωνική ευημερία των πολιτών από το ΑΕΠ.

Life_expectancy ~ Income_composition_of_resources + Adult_Mortality

## 
## Call:
## lm(formula = Life_expectancy ~ Income_composition_of_resources + 
##     Adult_Mortality, data = life_expectancy)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -25.6824  -1.9431   0.2657   2.2606  24.9200 
## 
## Coefficients:
##                                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                     60.401144   0.436721  138.31   <2e-16 ***
## Income_composition_of_resources 23.093606   0.534437   43.21   <2e-16 ***
## Adult_Mortality                 -0.033985   0.000917  -37.06   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5.274 on 2765 degrees of freedom
##   (170 observations deleted due to missingness)
## Multiple R-squared:  0.6828, Adjusted R-squared:  0.6826 
## F-statistic:  2976 on 2 and 2765 DF,  p-value: < 2.2e-16
##                     (Intercept) Income_composition_of_resources 
##                     60.40114406                     23.09360589 
##                 Adult_Mortality 
##                     -0.03398482

Η γραμμική εξίσωση που προκύπτει είναι:

Life_Expectancy= 60.40 +23.09 × Income_composition_of_resources − 0.034 × Adult_Mortality

Δηλαδή:

Σταθερά (Intercept): Όταν οι άλλες δύο μεταβλητές είναι 0, το προσδόκιμο ζωής είναι περίπου 60 έτη.

Income_composition_of_resources: Για κάθε μονάδα αύξησης (0 → 1, γιατί είναι δείκτης), το προσδόκιμο ζωής αυξάνεται κατά 23 έτη περίπου.

Adult_Mortality: Για κάθε 1 επιπλέον θάνατο ανά 1000 ενήλικες, το προσδόκιμο ζωής μειώνεται κατά 0.034 έτη (~12 ημέρες).

Είναι αρνητικός δείκτης : περισσότερη θνησιμότητα => χαμηλότερη προσδόκιμο ζωής.

Life_expectancy ~ Income_composition_of_resources + Adult_Mortality + Schooling

## 
## Call:
## lm(formula = Life_expectancy ~ Income_composition_of_resources + 
##     Adult_Mortality + Schooling, data = life_expectancy)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -24.0929  -2.0715   0.2809   2.5585  24.0660 
## 
## Coefficients:
##                                   Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                     55.0551090  0.4642121  118.60   <2e-16 ***
## Income_composition_of_resources 10.5052648  0.7382435   14.23   <2e-16 ***
## Adult_Mortality                 -0.0307561  0.0008532  -36.05   <2e-16 ***
## Schooling                        1.0598468  0.0464622   22.81   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.839 on 2764 degrees of freedom
##   (170 observations deleted due to missingness)
## Multiple R-squared:  0.7331, Adjusted R-squared:  0.7328 
## F-statistic:  2530 on 3 and 2764 DF,  p-value: < 2.2e-16
##                     (Intercept) Income_composition_of_resources 
##                     55.05510897                     10.50526480 
##                 Adult_Mortality                       Schooling 
##                     -0.03075609                      1.05984676

Η γραμμική εξίσωση που προκύπτει είναι:

Life_Expectancy = 55.06 + 10.51 × Income_composition_of_resources − 0.0308 × Adult_Mortality + 1.06 × Schooling

Δηλαδή:

Σταθερά (Intercept): Αν όλες οι άλλες μεταβλητές ήταν μηδέν, το προσδόκιμο ζωής θα ήταν περίπου 55 έτη.

Income_composition_of_resources (10.51): Η θετική του επίδραση παραμένει ισχυρή αλλά μειωμένη σε σχέση με το προηγούμενο μοντέλο (από ~23 → ~10).

Adult_Mortality (-0.0308): Όπως και πριν, για κάθε επιπλέον μονάδα στη θνησιμότητα ενηλίκων, το προσδόκιμο ζωής μειώνεται κατά ~0.031 έτη.

Παραμένει σημαντικός και αρνητικός παράγοντας.

Schooling (1.06): Για κάθε επιπλέον χρόνο εκπαίδευσης, το προσδόκιμο ζωής αυξάνεται κατά ~1 έτος.

📌 Συμπερασματικά,η προσθήκη της μεταβλητής Schooling βελτίωσε σημαντικά το μοντέλο.

Το προσδόκιμο ζωής εξαρτάται ισχυρά από:

1)Την οικονομική πρόσβαση σε πόρους

2)Τη θνησιμότητα ενηλίκων

3)Την εκπαίδευση

Επομένως, θα μπορούσαμε να πούμε ότι ένα παιδί που ζει σε μια χώρα με υψηλότερο εισόδημα, λιγότερη θνησιμότητα και καλύτερη εκπαίδευση έχει πολύ περισσότερες πιθανότητες να ζήσει περισσότερο.



Διερεύνηση συσχετίσεων, SSE και R-squared

## 
## Call:
## lm(formula = Life_expectancy ~ GDP, data = life_expectancy)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -30.941  -4.966   2.011   5.824  21.835 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 6.704e+01  1.939e-01  345.70   <2e-16 ***
## GDP         3.117e-04  1.202e-05   25.92   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 8.559 on 2483 degrees of freedom
##   (453 observations deleted due to missingness)
## Multiple R-squared:  0.2129, Adjusted R-squared:  0.2126 
## F-statistic: 671.8 on 1 and 2483 DF,  p-value: < 2.2e-16
##  (Intercept)          GDP 
## 6.703504e+01 3.116567e-04
SSE2 <- sum(model2$residuals^2) 
SSE2
## [1] 181905.6

Υπάρχει θετική συσχέτιση μεταξύ GDP και προσδόκιμου ζωής, άλλά δεν είναι τόσο ισχυρή.

Το R² = 0.2129 σημαίνει ότι το 21.3% της διακύμανσης στο προσδόκιμο ζωής εξηγείται από το ΑΕΠ.

Αυτό υποδηλώνει μέτρια επίδραση — το ΑΕΠ επηρεάζει το προσδόκιμο ζωής, αλλά δεν είναι ο μοναδικός παράγοντας.

Το SSE = 181,905.6 είναι το σφάλμα του μοντέλου, το οποίο θεωρείται σχετικά υψηλό.

## 
## Call:
## lm(formula = Life_expectancy ~ Income_composition_of_resources, 
##     data = life_expectancy)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -27.9874  -2.7623   0.5191   2.9716  29.8265 
## 
## Coefficients:
##                                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                      49.1735     0.3847  127.81   <2e-16 ***
## Income_composition_of_resources  32.1572     0.5812   55.33   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 6.451 on 2766 degrees of freedom
##   (170 observations deleted due to missingness)
## Multiple R-squared:  0.5253, Adjusted R-squared:  0.5251 
## F-statistic:  3061 on 1 and 2766 DF,  p-value: < 2.2e-16
##                     (Intercept) Income_composition_of_resources 
##                        49.17351                        32.15724
SSE3 <- sum(model3$residuals^2) 
SSE3
## [1] 115094

Η συσχέτιση μεταξύ του προσδόκιμου ζωής και του δείκτη εισοδηματικής ευημερίας είναι θετική. Αυτό σημαίνει ότι όταν αυξάνεται ο δείκτης εισοδήματος, αυξάνεται και το προσδόκιμο ζωής.

Το R² = 0.5253 σημαίνει ότι περίπου το 52.5% της διακύμανσης στο προσδόκιμο ζωής εξηγείται από τον δείκτη εισοδήματος. Αυτό είναι πολύ καλό για ένα μοντέλο με μία μόνο μεταβλητή.

Το SSE = 115,094 είναι σαφώς μικρότερο από αυτό του μοντέλου με το GDP (που ήταν 181905.6), άρα το μοντέλο με το δείκτη εισοδήματος είναι πιο ακριβές.Επιλέγω να συνεχίσω με αυτόν τον συνδυασμό.

## 
## Call:
## lm(formula = Life_expectancy ~ Income_composition_of_resources + 
##     Adult_Mortality, data = life_expectancy)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -25.6824  -1.9431   0.2657   2.2606  24.9200 
## 
## Coefficients:
##                                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                     60.401144   0.436721  138.31   <2e-16 ***
## Income_composition_of_resources 23.093606   0.534437   43.21   <2e-16 ***
## Adult_Mortality                 -0.033985   0.000917  -37.06   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5.274 on 2765 degrees of freedom
##   (170 observations deleted due to missingness)
## Multiple R-squared:  0.6828, Adjusted R-squared:  0.6826 
## F-statistic:  2976 on 2 and 2765 DF,  p-value: < 2.2e-16
##                     (Intercept) Income_composition_of_resources 
##                     60.40114406                     23.09360589 
##                 Adult_Mortality 
##                     -0.03398482
SSE4 <- sum(model4$residuals^2) 
SSE4
## [1] 76898.45

Παρατηρούμε ότι το προσδόκιμο ζωής επηρεάζεται έντονα από:

1)Το εισόδημα (θετική συσχέτιση),

2)Τη θνησιμότητα ενηλίκων (αρνητική συσχέτιση).

Το συγκεκριμένο μοντέλο έχει καλύτερη προβλεπτική ισχύ με R²= 0.6828 ή 68%.

Το SSE είναι σημαντικά χαμηλότερο σε σύγκριση με τα προηγούμενα μοντέλα που βασίζονταν μόνο σε 1 μεταβλητή, άρα το νέο μοντέλο αποδίδει καλύτερες προβλέψεις.

## 
## Call:
## lm(formula = Life_expectancy ~ Income_composition_of_resources + 
##     Adult_Mortality + Schooling, data = life_expectancy)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -24.0929  -2.0715   0.2809   2.5585  24.0660 
## 
## Coefficients:
##                                   Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                     55.0551090  0.4642121  118.60   <2e-16 ***
## Income_composition_of_resources 10.5052648  0.7382435   14.23   <2e-16 ***
## Adult_Mortality                 -0.0307561  0.0008532  -36.05   <2e-16 ***
## Schooling                        1.0598468  0.0464622   22.81   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.839 on 2764 degrees of freedom
##   (170 observations deleted due to missingness)
## Multiple R-squared:  0.7331, Adjusted R-squared:  0.7328 
## F-statistic:  2530 on 3 and 2764 DF,  p-value: < 2.2e-16
##                     (Intercept) Income_composition_of_resources 
##                     55.05510897                     10.50526480 
##                 Adult_Mortality                       Schooling 
##                     -0.03075609                      1.05984676
SSE5 <- sum(model5$residuals^2) 
SSE5
## [1] 64715.41

Παρατηρούμε ότι το προσδόκιμο ζωής έχει θετική συσχέτιση με τα έτη εκπαίδευσης.

Το R² είναι 0.7331 και σημαίνει ότι το 73.31% της συνολικής διακύμανσης στο προσδόκιμο ζωής μπορεί να εξηγηθεί από αυτές τις 3 μεταβλητές.

Το συνολικό σφάλμα του μοντέλου SSE = 64,715 είναι χαμηλό σε σχέση με την έκταση και το εύρος των δεδομένων, υποδηλώνοντας ότι οι προβλέψεις του μοντέλου είναι αρκετά κοντά στις πραγματικές τιμές του προσδόκιμου ζωής. Αυτό ενισχύει την αξιοπιστία του μοντέλου και το καθιστά κατάλληλο για περαιτέρω ανάλυση ή εφαρμογή σε πολιτικές υγείας.

## 
## Call:
## lm(formula = Life_expectancy ~ Income_composition_of_resources + 
##     Adult_Mortality + Schooling + Total_expenditure, data = life_expectancy)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -23.9753  -2.1203   0.3186   2.6156  24.4619 
## 
## Coefficients:
##                                   Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                     54.3669488  0.5095324 106.700   <2e-16 ***
## Income_composition_of_resources 10.2328923  0.7543657  13.565   <2e-16 ***
## Adult_Mortality                 -0.0308185  0.0008795 -35.043   <2e-16 ***
## Schooling                        1.0935868  0.0494717  22.105   <2e-16 ***
## Total_expenditure                0.0683720  0.0421321   1.623    0.105    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.895 on 2577 degrees of freedom
##   (356 observations deleted due to missingness)
## Multiple R-squared:  0.7285, Adjusted R-squared:  0.728 
## F-statistic:  1728 on 4 and 2577 DF,  p-value: < 2.2e-16
##                     (Intercept) Income_composition_of_resources 
##                     54.36694877                     10.23289229 
##                 Adult_Mortality                       Schooling 
##                     -0.03081852                      1.09358678 
##               Total_expenditure 
##                      0.06837205
SSE6 <- sum(model6$residuals^2) 
SSE6
## [1] 61754.57

Παρατηρούμε ότι η δαπάνη υγείας δεν έχει στατιστικά σημαντική επίδραση στο προσδόκιμο ζωής.

Το R² = 0.7285 αυτό σημαίνει ότι εξηγεί το 72.85% της συνολικής διακύμανσης στο προσδόκιμο ζωής.

Το SSE = 61,754.57 δείχνει πώς υπάρχει μικρότερη απόκλιση από το προηγούμενο μοντέλο.

Variables Model_R_squared
Income_composition_of_resources 0.52
Income_composition_of_resources,Adult_Mortality 0.68
Income_composition_of_resources,Adult_Mortality,Schooling 0.73
Income_composition_of_resources,Adult_Mortality,Schooling,Total_expenditure 0.73

📌 Συμπερασματκά, το ιδανικό μοντέλο είναι με τις μεταβλητές Income_composition_of_resources, Adult_Mortality, Schooling και μας λέει ότι:

1)Η ποιότητα ζωής (Income composition of resources),

2)Η εκπαίδευση και

3)Η θνησιμότητα ενηλίκων

είναι οι πιο κρίσιμοι παράγοντες για το προσδόκιμο ζωής.