Για την παρουσίαση της γραμμικής παλινρόμησης στην συγκεκριμένη εργασία χρησιμοποιήθηκε το 10ο dataset από το παρακάτω link: Πηγή
Το dataset προέρχεται από τον Παγκόσμιο Οργανισμό Υγείας (WHO) και καλύπτει την χρονική περίοδο 2000–2015 για 193 χώρες.
Να εντοπιστούν οι βασικοί παράγοντες που επηρεάζουν το προσδόκιμο ζωής, δίνοντας έμφαση:
Στην ανοσοποίηση (π.χ. Ηπατίτιδα Β, Πολιομυελίτιδα)
Στη θνησιμότητα (βρεφική και ενήλικη)
Σε κοινωνικούς (εκπαίδευση), οικονομικούς (κατά κεφαλήν εισόδημα, δαπάνες υγείας) και συμπεριφορικούς παράγοντες (αλκοόλ, κάπνισμα)
Αποτελείται από 22 στήλες και **2938 γραμμές*.** Διαιρείται σε 4 βασικές κατηγορίες:
Ποιοι παράγοντες επηρεάζουν το προσδόκιμο ζωής;
Πώς επηρεάζει η θνησιμότητα βρεφών/ενηλίκων;
Υπάρχει συσχέτιση με το κάπνισμα, το αλκοόλ ή την εκπαίδευση;
Βοηθά η αύξηση των δαπανών υγείας σε χώρες με προσδόκιμο <65 ετών;
Κατά τη διαδικασία δημιουργίας γραφημάτων παρατηρήθηκε ότι ορισμένες στήλες περιείχαν κενά (whitespace) στα ονόματά τους, γεγονός που προκαλούσε προβλήματα στην εκτέλεση του κώδικα, καθώς οι στήλες δεν αναγνωρίζονταν σωστά.
Για την αντιμετώπιση του προβλήματος πραγματοποιήθηκαν τροποποιήσεις στα ονόματα των στηλών, με χρήση του εργαλείου OpenRefine, ώστε να αφαιρεθούν τα κενά και να διασφαλιστεί η ομαλή επεξεργασία των δεδομένων όπως φαίνεται παρακάτω.
Το summary του dataset φαίνεται παρακάτω για όλες τις μεταβλητές.
## Country Year Status LifeExpectancy
## Length:2938 Min. :2000 Length:2938 Min. :36.30
## Class :character 1st Qu.:2004 Class :character 1st Qu.:63.10
## Mode :character Median :2008 Mode :character Median :72.10
## Mean :2008 Mean :69.22
## 3rd Qu.:2012 3rd Qu.:75.70
## Max. :2015 Max. :89.00
## NA's :10
## AdultMortality InfantDeaths Alcohol PercentageExpenditure
## Min. : 1.0 Min. : 0.0 Min. : 0.0100 Min. : 0.000
## 1st Qu.: 74.0 1st Qu.: 0.0 1st Qu.: 0.8775 1st Qu.: 4.685
## Median :144.0 Median : 3.0 Median : 3.7550 Median : 64.913
## Mean :164.8 Mean : 30.3 Mean : 4.6029 Mean : 738.251
## 3rd Qu.:228.0 3rd Qu.: 22.0 3rd Qu.: 7.7025 3rd Qu.: 441.534
## Max. :723.0 Max. :1800.0 Max. :17.8700 Max. :19479.912
## NA's :10 NA's :194
## HepatitisB Measles BMI Under.five.deaths
## Min. : 1.00 Min. : 0.0 Min. : 1.00 Min. : 0.00
## 1st Qu.:77.00 1st Qu.: 0.0 1st Qu.:19.30 1st Qu.: 0.00
## Median :92.00 Median : 17.0 Median :43.50 Median : 4.00
## Mean :80.94 Mean : 2419.6 Mean :38.32 Mean : 42.04
## 3rd Qu.:97.00 3rd Qu.: 360.2 3rd Qu.:56.20 3rd Qu.: 28.00
## Max. :99.00 Max. :212183.0 Max. :87.30 Max. :2500.00
## NA's :553 NA's :34
## Polio TotalExpenditure Diphtheria HIVAIDS
## Min. : 3.00 Min. : 0.370 Min. : 2.00 Min. : 0.100
## 1st Qu.:78.00 1st Qu.: 4.260 1st Qu.:78.00 1st Qu.: 0.100
## Median :93.00 Median : 5.755 Median :93.00 Median : 0.100
## Mean :82.55 Mean : 5.938 Mean :82.32 Mean : 1.742
## 3rd Qu.:97.00 3rd Qu.: 7.492 3rd Qu.:97.00 3rd Qu.: 0.800
## Max. :99.00 Max. :17.600 Max. :99.00 Max. :50.600
## NA's :19 NA's :226 NA's :19
## GDP Population Thinness1.19.years Thinness5.9.years
## Min. : 1.68 Min. :3.400e+01 Min. : 0.10 Min. : 0.10
## 1st Qu.: 463.94 1st Qu.:1.958e+05 1st Qu.: 1.60 1st Qu.: 1.50
## Median : 1766.95 Median :1.387e+06 Median : 3.30 Median : 3.30
## Mean : 7483.16 Mean :1.275e+07 Mean : 4.84 Mean : 4.87
## 3rd Qu.: 5910.81 3rd Qu.:7.420e+06 3rd Qu.: 7.20 3rd Qu.: 7.20
## Max. :119172.74 Max. :1.294e+09 Max. :27.70 Max. :28.60
## NA's :448 NA's :652 NA's :34 NA's :34
## IncomeCompositionOfResources Schooling
## Min. :0.0000 Min. : 0.00
## 1st Qu.:0.4930 1st Qu.:10.10
## Median :0.6770 Median :12.30
## Mean :0.6276 Mean :11.99
## 3rd Qu.:0.7790 3rd Qu.:14.30
## Max. :0.9480 Max. :20.70
## NA's :167 NA's :163
Το παρακάτω διάγραμμα απεικονίζει τη μεταβολή του Life expectancy ανά χώρα για τα έτη 2000 έως 2015. Παρατηρείται γενική ανοδική τάση, με αύξηση των τιμών στις περισσότερες χώρες κατά την πάροδο του χρόνου.
Το γράφημα ενισχύει το επιχείρημα ότι η πρόοδος στον τομέα της υγείας και οι κοινωνικοοικονομικές εξελίξεις συνέβαλαν σημαντικά στη βελτίωση της ποιότητας ζωής παγκοσμίως.
## Warning: Removed 10 rows containing missing values or values outside the scale range
## (`geom_point()`).
Το παρακάτω διάγραμμα απεικονίζει τη μεταβολή του Life expectancy ανάλογα με την μόρφωση. Παρατηρείται γενική ανοδική τάση, με αύξηση των τιμών του Life Expectancy με την άνοδο και της μεταβλητής Schooling. Το γράφημα δείχνει πως ενδεχομένως η μόρφωση να συμβάλει σημαντικά στη βελτίωση της ποιότητας ζωής.
## Warning: Removed 170 rows containing missing values or values outside the scale range
## (`geom_point()`).
Μοντέλο 1
##
## Call:
## lm(formula = LifeExpectancy ~ Alcohol, data = LifeData)
##
## Residuals:
## Min 1Q Median 3Q Max
## -33.962 -4.722 1.622 6.408 20.757
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 64.76334 0.25321 255.76 <2e-16 ***
## Alcohol 0.95464 0.04124 23.15 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 8.735 on 2733 degrees of freedom
## (203 observations deleted due to missingness)
## Multiple R-squared: 0.1639, Adjusted R-squared: 0.1636
## F-statistic: 535.8 on 1 and 2733 DF, p-value: < 2.2e-16
Μοντέλο 2
##
## Call:
## lm(formula = LifeExpectancy ~ Alcohol + BMI, data = LifeData)
##
## Residuals:
## Min 1Q Median 3Q Max
## -35.012 -4.236 0.759 3.855 27.631
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 57.677698 0.321664 179.31 <2e-16 ***
## Alcohol 0.559536 0.037998 14.73 <2e-16 ***
## BMI 0.235550 0.007748 30.40 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 7.56 on 2717 degrees of freedom
## (218 observations deleted due to missingness)
## Multiple R-squared: 0.375, Adjusted R-squared: 0.3746
## F-statistic: 815.2 on 2 and 2717 DF, p-value: < 2.2e-16
Μοντέλο 3
##
## Call:
## lm(formula = LifeExpectancy ~ Alcohol + BMI + Schooling, data = LifeData)
##
## Residuals:
## Min 1Q Median 3Q Max
## -27.0992 -2.9448 0.4659 3.5452 31.3794
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 43.309525 0.471804 91.796 < 2e-16 ***
## Alcohol -0.108684 0.035310 -3.078 0.00211 **
## BMI 0.104648 0.007231 14.473 < 2e-16 ***
## Schooling 1.870962 0.049572 37.743 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 6.011 on 2565 degrees of freedom
## (369 observations deleted due to missingness)
## Multiple R-squared: 0.5908, Adjusted R-squared: 0.5904
## F-statistic: 1235 on 3 and 2565 DF, p-value: < 2.2e-16
Μοντέλο 4
m4 <- lm(LifeExpectancy ~ Alcohol + BMI + Schooling + IncomeCompositionOfResources, LifeData)
summary(m4)##
## Call:
## lm(formula = LifeExpectancy ~ Alcohol + BMI + Schooling + IncomeCompositionOfResources,
## data = LifeData)
##
## Residuals:
## Min 1Q Median 3Q Max
## -27.029 -2.634 0.291 3.226 31.867
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 43.008078 0.452956 94.950 < 2e-16 ***
## Alcohol -0.125261 0.033884 -3.697 0.000223 ***
## BMI 0.091045 0.006994 13.017 < 2e-16 ***
## Schooling 1.255880 0.062820 19.992 < 2e-16 ***
## IncomeCompositionOfResources 13.229853 0.883143 14.980 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5.765 on 2564 degrees of freedom
## (369 observations deleted due to missingness)
## Multiple R-squared: 0.6238, Adjusted R-squared: 0.6232
## F-statistic: 1063 on 4 and 2564 DF, p-value: < 2.2e-16
Μοντέλο 5
m5 <- lm(LifeExpectancy ~ Alcohol + BMI + Schooling + IncomeCompositionOfResources + HIVAIDS, LifeData)
summary(m5)##
## Call:
## lm(formula = LifeExpectancy ~ Alcohol + BMI + Schooling + IncomeCompositionOfResources +
## HIVAIDS, data = LifeData)
##
## Residuals:
## Min 1Q Median 3Q Max
## -27.6957 -2.5169 -0.1844 2.5388 26.5321
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 47.703573 0.379532 125.691 <2e-16 ***
## Alcohol -0.008500 0.027075 -0.314 0.754
## BMI 0.061399 0.005606 10.952 <2e-16 ***
## Schooling 1.168324 0.049936 23.397 <2e-16 ***
## IncomeCompositionOfResources 10.386243 0.705123 14.730 <2e-16 ***
## HIVAIDS -0.685205 0.017674 -38.770 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4.578 on 2563 degrees of freedom
## (369 observations deleted due to missingness)
## Multiple R-squared: 0.7628, Adjusted R-squared: 0.7624
## F-statistic: 1649 on 5 and 2563 DF, p-value: < 2.2e-16
Μοντέλο 6
m6 <- lm(LifeExpectancy ~ Alcohol + BMI + Schooling + IncomeCompositionOfResources + HIVAIDS + Polio, LifeData)
summary(m6)##
## Call:
## lm(formula = LifeExpectancy ~ Alcohol + BMI + Schooling + IncomeCompositionOfResources +
## HIVAIDS + Polio, data = LifeData)
##
## Residuals:
## Min 1Q Median 3Q Max
## -26.9593 -2.5232 -0.0583 2.4786 25.0321
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 44.764487 0.420403 106.480 <2e-16 ***
## Alcohol -0.013096 0.025981 -0.504 0.614
## BMI 0.050798 0.005422 9.368 <2e-16 ***
## Schooling 1.142453 0.049124 23.257 <2e-16 ***
## IncomeCompositionOfResources 9.983328 0.677592 14.734 <2e-16 ***
## HIVAIDS -0.667877 0.016962 -39.375 <2e-16 ***
## Polio 0.046616 0.004183 11.145 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4.383 on 2555 degrees of freedom
## (376 observations deleted due to missingness)
## Multiple R-squared: 0.783, Adjusted R-squared: 0.7825
## F-statistic: 1537 on 6 and 2555 DF, p-value: < 2.2e-16
results <- data.frame(
Model = c(
"Alcohol",
"Alcohol + BMI",
"Alcohol + BMI + Schooling",
"Alcohol + BMI + Schooling + IncomeCompositionOfResources",
"Alcohol + BMI + Schooling + IncomeCompositionOfResources + HIVAIDS",
"Alcohol + BMI + Schooling + IncomeCompositionOfResources + HIVAIDS + Polio"
),
R_squared = c(
summary(m1)$r.squared,
summary(m2)$r.squared,
summary(m3)$r.squared,
summary(m4)$r.squared,
summary(m5)$r.squared,
summary(m6)$r.squared
),
SSE = c(
sum(residuals(m1)^2),
sum(residuals(m2)^2),
sum(residuals(m3)^2),
sum(residuals(m4)^2),
sum(residuals(m5)^2),
sum(residuals(m6)^2)
)
)
knitr::kable(results, digits = 4, caption = "Σύγκριση Μοντέλων: R-squared και SSE")| Model | R_squared | SSE |
|---|---|---|
| Alcohol | 0.1639 | 208521.92 |
| Alcohol + BMI | 0.3750 | 155296.68 |
| Alcohol + BMI + Schooling | 0.5908 | 92666.83 |
| Alcohol + BMI + Schooling + IncomeCompositionOfResources | 0.6238 | 85208.95 |
| Alcohol + BMI + Schooling + IncomeCompositionOfResources + HIVAIDS | 0.7628 | 53710.42 |
| Alcohol + BMI + Schooling + IncomeCompositionOfResources + HIVAIDS + Polio | 0.7830 | 49072.48 |
Η σταδιακή προσθήκη μεταβλητών βελτιώνει σημαντικά το μοντέλο, αυξάνοντας το R² και μειώνοντας το SSE.
Η εκπαίδευση και η οικονομική σύνθεση πόρων φαίνεται να έχουν σημαντική συνεισφορά στη βελτίωση της προβλεπτικής ικανότητας.
Οι υγειονομικοί δείκτες όπως το HIV/AIDS και η εμβολιαστική κάλυψη για πολιομυελίτιδα οδηγούν σε ακόμα μεγαλύτερη μείωση του σφάλματος (SSE).
Το τελικό μοντέλο εξηγεί πάνω από 78% της διακύμανσης στο προσδόκιμο ζωής, υποδεικνύοντας καλή εφαρμογή.