Για την παρουσίαση της γραμμικής παλινρόμησης στην συγκεκριμένη εργασία χρησιμοποιήθηκε το 10ο dataset από το παρακάτω link: Πηγή

Περιγραφή Dataset

Το dataset προέρχεται από τον Παγκόσμιο Οργανισμό Υγείας (WHO) και καλύπτει την χρονική περίοδο 2000–2015 για 193 χώρες.

Στόχος Μελέτης

Να εντοπιστούν οι βασικοί παράγοντες που επηρεάζουν το προσδόκιμο ζωής, δίνοντας έμφαση:

Περιγραφή Dataset

Αποτελείται από 22 στήλες και **2938 γραμμές*.** Διαιρείται σε 4 βασικές κατηγορίες:

Ερευνητικά Ερωτήματα

Μετατροπές πάνω στο Dataset

Κατά τη διαδικασία δημιουργίας γραφημάτων παρατηρήθηκε ότι ορισμένες στήλες περιείχαν κενά (whitespace) στα ονόματά τους, γεγονός που προκαλούσε προβλήματα στην εκτέλεση του κώδικα, καθώς οι στήλες δεν αναγνωρίζονταν σωστά.

Για την αντιμετώπιση του προβλήματος πραγματοποιήθηκαν τροποποιήσεις στα ονόματα των στηλών, με χρήση του εργαλείου OpenRefine, ώστε να αφαιρεθούν τα κενά και να διασφαλιστεί η ομαλή επεξεργασία των δεδομένων όπως φαίνεται παρακάτω.

Ενδεικτικά Διαγράμματα/Summary

Το summary του dataset φαίνεται παρακάτω για όλες τις μεταβλητές.

summary(LifeData)
##    Country               Year         Status          LifeExpectancy 
##  Length:2938        Min.   :2000   Length:2938        Min.   :36.30  
##  Class :character   1st Qu.:2004   Class :character   1st Qu.:63.10  
##  Mode  :character   Median :2008   Mode  :character   Median :72.10  
##                     Mean   :2008                      Mean   :69.22  
##                     3rd Qu.:2012                      3rd Qu.:75.70  
##                     Max.   :2015                      Max.   :89.00  
##                                                       NA's   :10     
##  AdultMortality   InfantDeaths       Alcohol        PercentageExpenditure
##  Min.   :  1.0   Min.   :   0.0   Min.   : 0.0100   Min.   :    0.000    
##  1st Qu.: 74.0   1st Qu.:   0.0   1st Qu.: 0.8775   1st Qu.:    4.685    
##  Median :144.0   Median :   3.0   Median : 3.7550   Median :   64.913    
##  Mean   :164.8   Mean   :  30.3   Mean   : 4.6029   Mean   :  738.251    
##  3rd Qu.:228.0   3rd Qu.:  22.0   3rd Qu.: 7.7025   3rd Qu.:  441.534    
##  Max.   :723.0   Max.   :1800.0   Max.   :17.8700   Max.   :19479.912    
##  NA's   :10                       NA's   :194                            
##    HepatitisB       Measles              BMI        Under.five.deaths
##  Min.   : 1.00   Min.   :     0.0   Min.   : 1.00   Min.   :   0.00  
##  1st Qu.:77.00   1st Qu.:     0.0   1st Qu.:19.30   1st Qu.:   0.00  
##  Median :92.00   Median :    17.0   Median :43.50   Median :   4.00  
##  Mean   :80.94   Mean   :  2419.6   Mean   :38.32   Mean   :  42.04  
##  3rd Qu.:97.00   3rd Qu.:   360.2   3rd Qu.:56.20   3rd Qu.:  28.00  
##  Max.   :99.00   Max.   :212183.0   Max.   :87.30   Max.   :2500.00  
##  NA's   :553                        NA's   :34                       
##      Polio       TotalExpenditure   Diphtheria       HIVAIDS      
##  Min.   : 3.00   Min.   : 0.370   Min.   : 2.00   Min.   : 0.100  
##  1st Qu.:78.00   1st Qu.: 4.260   1st Qu.:78.00   1st Qu.: 0.100  
##  Median :93.00   Median : 5.755   Median :93.00   Median : 0.100  
##  Mean   :82.55   Mean   : 5.938   Mean   :82.32   Mean   : 1.742  
##  3rd Qu.:97.00   3rd Qu.: 7.492   3rd Qu.:97.00   3rd Qu.: 0.800  
##  Max.   :99.00   Max.   :17.600   Max.   :99.00   Max.   :50.600  
##  NA's   :19      NA's   :226      NA's   :19                      
##       GDP              Population        Thinness1.19.years Thinness5.9.years
##  Min.   :     1.68   Min.   :3.400e+01   Min.   : 0.10      Min.   : 0.10    
##  1st Qu.:   463.94   1st Qu.:1.958e+05   1st Qu.: 1.60      1st Qu.: 1.50    
##  Median :  1766.95   Median :1.387e+06   Median : 3.30      Median : 3.30    
##  Mean   :  7483.16   Mean   :1.275e+07   Mean   : 4.84      Mean   : 4.87    
##  3rd Qu.:  5910.81   3rd Qu.:7.420e+06   3rd Qu.: 7.20      3rd Qu.: 7.20    
##  Max.   :119172.74   Max.   :1.294e+09   Max.   :27.70      Max.   :28.60    
##  NA's   :448         NA's   :652         NA's   :34         NA's   :34       
##  IncomeCompositionOfResources   Schooling    
##  Min.   :0.0000               Min.   : 0.00  
##  1st Qu.:0.4930               1st Qu.:10.10  
##  Median :0.6770               Median :12.30  
##  Mean   :0.6276               Mean   :11.99  
##  3rd Qu.:0.7790               3rd Qu.:14.30  
##  Max.   :0.9480               Max.   :20.70  
##  NA's   :167                  NA's   :163

Το παρακάτω διάγραμμα απεικονίζει τη μεταβολή του Life expectancy ανά χώρα για τα έτη 2000 έως 2015. Παρατηρείται γενική ανοδική τάση, με αύξηση των τιμών στις περισσότερες χώρες κατά την πάροδο του χρόνου.

Το γράφημα ενισχύει το επιχείρημα ότι η πρόοδος στον τομέα της υγείας και οι κοινωνικοοικονομικές εξελίξεις συνέβαλαν σημαντικά στη βελτίωση της ποιότητας ζωής παγκοσμίως.

ggplot(LifeData, aes(x=Year, y=LifeExpectancy, color = Year)) + geom_point() 
## Warning: Removed 10 rows containing missing values or values outside the scale range
## (`geom_point()`).

Το παρακάτω διάγραμμα απεικονίζει τη μεταβολή του Life expectancy ανάλογα με την μόρφωση. Παρατηρείται γενική ανοδική τάση, με αύξηση των τιμών του Life Expectancy με την άνοδο και της μεταβλητής Schooling. Το γράφημα δείχνει πως ενδεχομένως η μόρφωση να συμβάλει σημαντικά στη βελτίωση της ποιότητας ζωής.

ggplot(LifeData, aes(x=Schooling, y=LifeExpectancy, color = Schooling)) + geom_point() 
## Warning: Removed 170 rows containing missing values or values outside the scale range
## (`geom_point()`).

Γραμμική Παλινδρόμηση

Μοντέλο 1

m1 <- lm(LifeExpectancy ~ Alcohol, LifeData)
summary(m1)
## 
## Call:
## lm(formula = LifeExpectancy ~ Alcohol, data = LifeData)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -33.962  -4.722   1.622   6.408  20.757 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 64.76334    0.25321  255.76   <2e-16 ***
## Alcohol      0.95464    0.04124   23.15   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 8.735 on 2733 degrees of freedom
##   (203 observations deleted due to missingness)
## Multiple R-squared:  0.1639, Adjusted R-squared:  0.1636 
## F-statistic: 535.8 on 1 and 2733 DF,  p-value: < 2.2e-16
tidy(m1)
SSE1 <- sum(m1$residuals^2)

Μοντέλο 2

m2 <- lm(LifeExpectancy ~ Alcohol + BMI, LifeData)
summary(m2)
## 
## Call:
## lm(formula = LifeExpectancy ~ Alcohol + BMI, data = LifeData)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -35.012  -4.236   0.759   3.855  27.631 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 57.677698   0.321664  179.31   <2e-16 ***
## Alcohol      0.559536   0.037998   14.73   <2e-16 ***
## BMI          0.235550   0.007748   30.40   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 7.56 on 2717 degrees of freedom
##   (218 observations deleted due to missingness)
## Multiple R-squared:  0.375,  Adjusted R-squared:  0.3746 
## F-statistic: 815.2 on 2 and 2717 DF,  p-value: < 2.2e-16
tidy(m2)
SSE2 <- sum(m2$residuals^2)

Μοντέλο 3

m3 <- lm(LifeExpectancy ~ Alcohol + BMI + Schooling, LifeData)
summary(m3)
## 
## Call:
## lm(formula = LifeExpectancy ~ Alcohol + BMI + Schooling, data = LifeData)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -27.0992  -2.9448   0.4659   3.5452  31.3794 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 43.309525   0.471804  91.796  < 2e-16 ***
## Alcohol     -0.108684   0.035310  -3.078  0.00211 ** 
## BMI          0.104648   0.007231  14.473  < 2e-16 ***
## Schooling    1.870962   0.049572  37.743  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 6.011 on 2565 degrees of freedom
##   (369 observations deleted due to missingness)
## Multiple R-squared:  0.5908, Adjusted R-squared:  0.5904 
## F-statistic:  1235 on 3 and 2565 DF,  p-value: < 2.2e-16
tidy(m3)
SSE3 <- sum(m3$residuals^2)

Μοντέλο 4

m4 <- lm(LifeExpectancy ~ Alcohol + BMI + Schooling + IncomeCompositionOfResources, LifeData)
summary(m4)
## 
## Call:
## lm(formula = LifeExpectancy ~ Alcohol + BMI + Schooling + IncomeCompositionOfResources, 
##     data = LifeData)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -27.029  -2.634   0.291   3.226  31.867 
## 
## Coefficients:
##                               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                  43.008078   0.452956  94.950  < 2e-16 ***
## Alcohol                      -0.125261   0.033884  -3.697 0.000223 ***
## BMI                           0.091045   0.006994  13.017  < 2e-16 ***
## Schooling                     1.255880   0.062820  19.992  < 2e-16 ***
## IncomeCompositionOfResources 13.229853   0.883143  14.980  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5.765 on 2564 degrees of freedom
##   (369 observations deleted due to missingness)
## Multiple R-squared:  0.6238, Adjusted R-squared:  0.6232 
## F-statistic:  1063 on 4 and 2564 DF,  p-value: < 2.2e-16
tidy(m4)
SSE4 <- sum(m4$residuals^2)

Μοντέλο 5

m5 <- lm(LifeExpectancy ~ Alcohol + BMI + Schooling + IncomeCompositionOfResources + HIVAIDS, LifeData)
summary(m5)
## 
## Call:
## lm(formula = LifeExpectancy ~ Alcohol + BMI + Schooling + IncomeCompositionOfResources + 
##     HIVAIDS, data = LifeData)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -27.6957  -2.5169  -0.1844   2.5388  26.5321 
## 
## Coefficients:
##                               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                  47.703573   0.379532 125.691   <2e-16 ***
## Alcohol                      -0.008500   0.027075  -0.314    0.754    
## BMI                           0.061399   0.005606  10.952   <2e-16 ***
## Schooling                     1.168324   0.049936  23.397   <2e-16 ***
## IncomeCompositionOfResources 10.386243   0.705123  14.730   <2e-16 ***
## HIVAIDS                      -0.685205   0.017674 -38.770   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.578 on 2563 degrees of freedom
##   (369 observations deleted due to missingness)
## Multiple R-squared:  0.7628, Adjusted R-squared:  0.7624 
## F-statistic:  1649 on 5 and 2563 DF,  p-value: < 2.2e-16
tidy(m5)
SSE5 <- sum(m5$residuals^2)

Μοντέλο 6

m6 <- lm(LifeExpectancy ~ Alcohol  + BMI + Schooling + IncomeCompositionOfResources + HIVAIDS + Polio, LifeData)
summary(m6)
## 
## Call:
## lm(formula = LifeExpectancy ~ Alcohol + BMI + Schooling + IncomeCompositionOfResources + 
##     HIVAIDS + Polio, data = LifeData)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -26.9593  -2.5232  -0.0583   2.4786  25.0321 
## 
## Coefficients:
##                               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                  44.764487   0.420403 106.480   <2e-16 ***
## Alcohol                      -0.013096   0.025981  -0.504    0.614    
## BMI                           0.050798   0.005422   9.368   <2e-16 ***
## Schooling                     1.142453   0.049124  23.257   <2e-16 ***
## IncomeCompositionOfResources  9.983328   0.677592  14.734   <2e-16 ***
## HIVAIDS                      -0.667877   0.016962 -39.375   <2e-16 ***
## Polio                         0.046616   0.004183  11.145   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.383 on 2555 degrees of freedom
##   (376 observations deleted due to missingness)
## Multiple R-squared:  0.783,  Adjusted R-squared:  0.7825 
## F-statistic:  1537 on 6 and 2555 DF,  p-value: < 2.2e-16
tidy(m6)
SSE6 <- sum(m6$residuals^2)

Συμπεράσματα

results <- data.frame(
  Model = c(
    "Alcohol",
    "Alcohol + BMI",
    "Alcohol + BMI + Schooling",
    "Alcohol + BMI + Schooling + IncomeCompositionOfResources",
    "Alcohol + BMI + Schooling + IncomeCompositionOfResources + HIVAIDS",
    "Alcohol + BMI + Schooling + IncomeCompositionOfResources + HIVAIDS + Polio"
  ),
  R_squared = c(
    summary(m1)$r.squared,
    summary(m2)$r.squared,
    summary(m3)$r.squared,
    summary(m4)$r.squared,
    summary(m5)$r.squared,
    summary(m6)$r.squared
  ),
  SSE = c(
    sum(residuals(m1)^2),
    sum(residuals(m2)^2),
    sum(residuals(m3)^2),
    sum(residuals(m4)^2),
    sum(residuals(m5)^2),
    sum(residuals(m6)^2)
  )
)

knitr::kable(results, digits = 4, caption = "Σύγκριση Μοντέλων: R-squared και SSE")
Σύγκριση Μοντέλων: R-squared και SSE
Model R_squared SSE
Alcohol 0.1639 208521.92
Alcohol + BMI 0.3750 155296.68
Alcohol + BMI + Schooling 0.5908 92666.83
Alcohol + BMI + Schooling + IncomeCompositionOfResources 0.6238 85208.95
Alcohol + BMI + Schooling + IncomeCompositionOfResources + HIVAIDS 0.7628 53710.42
Alcohol + BMI + Schooling + IncomeCompositionOfResources + HIVAIDS + Polio 0.7830 49072.48