Περιγραφή του Dataset

Το Dataset Ασφάλισης περιλαμβάνει δεδομένα που σχετίζονται με το κόστος ασφάλισης υγείας για άτομα στις Ηνωμένες Πολιτείες. Κάθε γραμμή αντιστοιχεί σε έναν ασφαλισμένο και περιέχει δημογραφικά χαρακτηριστικά και πληροφορίες για τον τρόπο ζωής του, καθώς και το ποσό που πληρώνει σε ετήσια βάση για την ασφάλειά του. Το dataset χρησιμοποιείται ευρέως για σκοπούς στατιστικής ανάλυσης, εκπαίδευσης μηχανικής μάθησης και αναλυτικής προβλεπτικών μοντέλων.

Πίνακας των μεταβλητών του Dataset
Μεταβλητή Περιγραφή
age Ηλικία του ασφαλισμένου
sex Φύλο (male/female)
bmi Δείκτης Μάζας Σώματος (BMI)
children Αριθμός εξαρτώμενων παιδιών
smoker Καπνιστής (yes/no)
region Γεωγραφική περιοχή (π.χ. southeast)
charges Ετήσιο κόστος ασφάλισης ($)

Υπολογισμός και παρουσίαση περιγραφικών στατιστικών

##       age            sex                 bmi           children    
##  Min.   :18.00   Length:1338        Min.   :15.96   Min.   :0.000  
##  1st Qu.:27.00   Class :character   1st Qu.:26.30   1st Qu.:0.000  
##  Median :39.00   Mode  :character   Median :30.40   Median :1.000  
##  Mean   :39.21                      Mean   :30.66   Mean   :1.095  
##  3rd Qu.:51.00                      3rd Qu.:34.69   3rd Qu.:2.000  
##  Max.   :64.00                      Max.   :53.13   Max.   :5.000  
##     smoker             region             charges     
##  Length:1338        Length:1338        Min.   : 1122  
##  Class :character   Class :character   1st Qu.: 4740  
##  Mode  :character   Mode  :character   Median : 9382  
##                                        Mean   :13270  
##                                        3rd Qu.:16640  
##                                        Max.   :63770

Δημιουργία διαγραμμάτων

Scatterplot Age - BMI

ggplot(insurance, aes(x = age, y = bmi)) +
  geom_point(color = "#0073C2", alpha = 0.6, size = 2.5) +
  theme_minimal(base_size = 14) +
  labs(
    x = "Ηλικία (έτη)",
    y = "Δείκτης Μάζας Σώματος (BMI)"
  )

Παρατηρήσεις

  1. Δεν παρατηρείται σαφής γραμμική συσχέτιση μεταξύ ηλικίας και BMI, γεγονός που δείχνει πως το βάρος δεν αυξάνεται απαραίτητα με την ηλικία.

  2. Υπάρχει συγκέντρωση παρατηρήσεων γύρω από ηλικίες 20–60 και τιμές BMI 25–35, δηλαδή στο εύρος υπέρβαρου/παχυσαρκίας.

Boxplot Children - Age

ggplot(insurance, aes(x=children, y=age, fill=factor(children))) + geom_boxplot() +labs(x="Children", y="Age")

Παρατηρήσεις

  1. Τα άτομα χωρίς παιδιά παρουσιάζουν τη μεγαλύτερη διασπορά ηλικιών, με παρατηρήσεις από περίπου 20 έως και 65 ετών, γεγονός που υποδηλώνει μεγαλύτερη ποικιλομορφία σε αυτή την ομάδα.

  2. Οι ασφαλισμένοι με 3 ή περισσότερα παιδιά φαίνεται να έχουν κατά μέσο όρο μεγαλύτερη ηλικία συγκριτικά με όσους έχουν 0–2 παιδιά, κάτι που είναι αναμενόμενο καθώς η ηλικία σχετίζεται με το χρόνο απόκτησης οικογένειας.

Histogram Age - Frequency

ggplot(insurance, aes(x=age)) + geom_histogram(binwidth=0.9, fill="pink", color="black") + labs(x="Age", y="Frequency")

Παρατηρήσεις

  1. Παρατηρείται μία σταθερή τάση των τιμών από 20 έως 60. Αυτό σημαίνει πως άνθρωποι όλων των ηλικιών έχουν ιατρική ασφάλιση. Με εξαίρεση την κορύφωση στα 18 έως 20 έτη.

Γενικά, φαίνετα να υπάρχει μία ομοιόμορφη κατανομή σε όλο το εύρος των ηλικιακών ομάδων.

Bar chart Region - Frequency

ggplot(insurance, aes(region)) + geom_bar(width=0.4, fill="grey", color="black") + labs( x="Region", y="Frequency")

Παρατηρήσεις

Το διάγραμμα δείχνει τη συχνότητα των ασφαλισμένων ανά περιοχή, με τη νοτιοανατολική (southeast) να έχει τη μεγαλύτερη συγκέντρωση. Οι υπόλοιπες περιοχές παρουσιάζουν παρόμοιο αριθμό παρατηρήσεων, με μικρές διαφορές μεταξύ τους.

Γραμμική παλινδρόμηση

Μοντέλο 1:

m1 <- lm(age ~ bmi, data= insurance)
summary(m1)
## 
## Call:
## lm(formula = age ~ bmi, data = insurance)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -26.8632 -12.5477   0.3053  11.6915  26.7248 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 31.48728    1.95884  16.074  < 2e-16 ***
## bmi          0.25176    0.06266   4.018 6.19e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 13.97 on 1336 degrees of freedom
## Multiple R-squared:  0.01194,    Adjusted R-squared:  0.0112 
## F-statistic: 16.15 on 1 and 1336 DF,  p-value: 6.194e-05
coef(m1)
## (Intercept)         bmi 
##  31.4872787   0.2517577

Διάγραμμα διασποράς με γραμμική παλινδρόμηση

ggplot(insurance, aes(age, bmi)) + geom_point()+ geom_abline(aes(intercept = coef(m1) [1], slope = coef(m1) [2], colour = "red"))

Σχόλιο: Υπάρχει θετική αλλά ασθενής συσχέτιση ανάμεσα στην ηλικία και τον δείκτη μάζας σώματος. Το Adjusted R-squared είναι 0.0112 — πολύ χαμηλή τιμή, που δείχνει ότι το μοντέλο εξηγεί μόλις το 1.2% της διακύμανσης της ηλικίας μέσω του BMI. Αυτό σημαίνει ότι υπάρχουν άλλοι, πιο σημαντικοί παράγοντες που επηρεάζουν την ηλικία.

Μοντέλο 2:

m2 <- lm(age ~ bmi + smoker, data= insurance)
summary(m2)
## 
## Call:
## lm(formula = age ~ bmi + smoker, data = insurance)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -27.0493 -12.5652   0.6323  11.6789  27.4303 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 31.66178    1.96781  16.090  < 2e-16 ***
## bmi          0.25198    0.06266   4.021 6.11e-05 ***
## smokeryes   -0.88502    0.94653  -0.935     0.35    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 13.97 on 1335 degrees of freedom
## Multiple R-squared:  0.01259,    Adjusted R-squared:  0.01111 
## F-statistic: 8.509 on 2 and 1335 DF,  p-value: 0.0002128
coef(m2)
## (Intercept)         bmi   smokeryes 
##  31.6617774   0.2519774  -0.8850153

Σχόλιο: Η μεταβλητή “smoker” δεν είναι στατιστικά σημαντική στο μοντέλο 2, άρα δεν προσφέρει ουσιαστική βελτίωση στην πρόβλεψη της ηλικίας. Το R-squared μειώνεται ελαφρώς, πράγμα που σημαίνει ότι η προσθήκη της μεταβλητής “smoker” δεν βελτιώνει το μοντέλο.

Μοντέλο 3:

m3 <- lm(age ~ bmi + smoker + charges, data= insurance)
summary(m3)
## 
## Call:
## lm(formula = age ~ bmi + smoker + charges, data = insurance)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -38.190  -9.203   0.178   9.692  29.685 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  3.515e+01  1.699e+00  20.689   <2e-16 ***
## bmi         -1.393e-01  5.678e-02  -2.454   0.0143 *  
## smokeryes   -2.468e+01  1.363e+00 -18.101   <2e-16 ***
## charges      1.009e-03  4.637e-05  21.748   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 12.01 on 1334 degrees of freedom
## Multiple R-squared:  0.271,  Adjusted R-squared:  0.2694 
## F-statistic: 165.3 on 3 and 1334 DF,  p-value: < 2.2e-16
coef(m3)
##   (Intercept)           bmi     smokeryes       charges 
##  35.150284376  -0.139336958 -24.679607427   0.001008503

Σχόλιο: Η προσθήκη της μεταβλητής “charges” αυξάνει το R-squared κατά 0,2584, Συνεπώς, το μοντέλο 3 βελτιώνεται.

Μοντέλο 4:

m4 <- lm(age ~ bmi + smoker + charges + sex, data= insurance)
summary(m4)
## 
## Call:
## lm(formula = age ~ bmi + smoker + charges + sex, data = insurance)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -37.986  -9.117   0.180   9.700  29.858 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  3.529e+01  1.716e+00  20.563   <2e-16 ***
## bmi         -1.376e-01  5.687e-02  -2.420   0.0156 *  
## smokeryes   -2.463e+01  1.366e+00 -18.026   <2e-16 ***
## charges      1.008e-03  4.639e-05  21.727   <2e-16 ***
## sexmale     -3.917e-01  6.596e-01  -0.594   0.5527    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 12.01 on 1333 degrees of freedom
## Multiple R-squared:  0.2712, Adjusted R-squared:  0.2691 
## F-statistic:   124 on 4 and 1333 DF,  p-value: < 2.2e-16
coef(m4)
##  (Intercept)          bmi    smokeryes      charges      sexmale 
##  35.29333086  -0.13764171 -24.62967040   0.00100795  -0.39173635

Σχόλιο: Η προσθήκη του ανθρώπινου φύλου αυξάνει ελάχιστα το R-squared.

Σύγκριση Μοντέλων R-squared και SSE
Model R_squared SSE
Age, BMI 0.0119 260774.3
Age, BMI, Smoker 0.0126 260603.6
Age, BMI, Smoker, Charges 0.2710 192389.5
Age, BMI, Smoker, Charges, Sex 0.2712 192338.6

Συμπεράσματα

  1. Η επίδραση του Δείκτη Μάζας Σώματος(ΒΜΙ) και του καπνίσματος είναι περιορισμένη: Τα 2πρώτα μοντέλα που περιλάμβαναν μόνο το BMI και το αν κάποιος είναι καπνιστής, παρουσίασαν πολύ χαμηλές τιμές R² (0.0119 και 0.0126 αντίστοιχα). Αυτό υποδηλώνει πως τα μοντέλα αυτά δεν εξηγούν επαρκώς τη μεταβλητότητα της ηλικίας. Το μεγάλο συνολικό σφάλμα (SSE) ενισχύει την αδυναμία πρόβλεψης.

  2. Οι χρεώσεις (charges) παίζουν καθοριστικό ρόλο: Με την προσθήκη της μεταβλητής charges στο τρίτο μοντέλο, παρατηρείται εντυπωσιακή αύξηση του R² στο 0.2710, ενώ το συνολικό σφάλμα μειώνεται σημαντικά. Αυτό δείχνει ότι η ηλικία σχετίζεται ισχυρά με τις ιατρικές δαπάνες, πιθανόν επειδή αυξάνονται με την ηλικία.

  3. Το φύλο (sex) δεν ενισχύει σημαντικά την πρόβλεψη: Η προσθήκη της μεταβλητής sex στο τέταρτο μοντέλο δεν οδήγησε σε ουσιαστική βελτίωση. Το R² αυξήθηκε ελάχιστα (από 0.2710 σε 0.2712) και το σφάλμα επίσης μειώθηκε οριακά. Επομένως, μπορούμε να συμπεράνουμε ότι το φύλο δεν επηρεάζει σημαντικά την πρόβλεψη της ηλικίας σε αυτό το πλαίσιο.