Το Dataset Ασφάλισης περιλαμβάνει δεδομένα που σχετίζονται με το κόστος ασφάλισης υγείας για άτομα στις Ηνωμένες Πολιτείες. Κάθε γραμμή αντιστοιχεί σε έναν ασφαλισμένο και περιέχει δημογραφικά χαρακτηριστικά και πληροφορίες για τον τρόπο ζωής του, καθώς και το ποσό που πληρώνει σε ετήσια βάση για την ασφάλειά του. Το dataset χρησιμοποιείται ευρέως για σκοπούς στατιστικής ανάλυσης, εκπαίδευσης μηχανικής μάθησης και αναλυτικής προβλεπτικών μοντέλων.
| Μεταβλητή | Περιγραφή |
|---|---|
| age | Ηλικία του ασφαλισμένου |
| sex | Φύλο (male/female) |
| bmi | Δείκτης Μάζας Σώματος (BMI) |
| children | Αριθμός εξαρτώμενων παιδιών |
| smoker | Καπνιστής (yes/no) |
| region | Γεωγραφική περιοχή (π.χ. southeast) |
| charges | Ετήσιο κόστος ασφάλισης ($) |
## age sex bmi children
## Min. :18.00 Length:1338 Min. :15.96 Min. :0.000
## 1st Qu.:27.00 Class :character 1st Qu.:26.30 1st Qu.:0.000
## Median :39.00 Mode :character Median :30.40 Median :1.000
## Mean :39.21 Mean :30.66 Mean :1.095
## 3rd Qu.:51.00 3rd Qu.:34.69 3rd Qu.:2.000
## Max. :64.00 Max. :53.13 Max. :5.000
## smoker region charges
## Length:1338 Length:1338 Min. : 1122
## Class :character Class :character 1st Qu.: 4740
## Mode :character Mode :character Median : 9382
## Mean :13270
## 3rd Qu.:16640
## Max. :63770
Scatterplot Age - BMI
ggplot(insurance, aes(x = age, y = bmi)) +
geom_point(color = "#0073C2", alpha = 0.6, size = 2.5) +
theme_minimal(base_size = 14) +
labs(
x = "Ηλικία (έτη)",
y = "Δείκτης Μάζας Σώματος (BMI)"
)
Παρατηρήσεις
Δεν παρατηρείται σαφής γραμμική συσχέτιση μεταξύ ηλικίας και BMI, γεγονός που δείχνει πως το βάρος δεν αυξάνεται απαραίτητα με την ηλικία.
Υπάρχει συγκέντρωση παρατηρήσεων γύρω από ηλικίες 20–60 και τιμές BMI 25–35, δηλαδή στο εύρος υπέρβαρου/παχυσαρκίας.
Boxplot Children - Age
ggplot(insurance, aes(x=children, y=age, fill=factor(children))) + geom_boxplot() +labs(x="Children", y="Age")
Παρατηρήσεις
Τα άτομα χωρίς παιδιά παρουσιάζουν τη μεγαλύτερη διασπορά ηλικιών, με παρατηρήσεις από περίπου 20 έως και 65 ετών, γεγονός που υποδηλώνει μεγαλύτερη ποικιλομορφία σε αυτή την ομάδα.
Οι ασφαλισμένοι με 3 ή περισσότερα παιδιά φαίνεται να έχουν κατά μέσο όρο μεγαλύτερη ηλικία συγκριτικά με όσους έχουν 0–2 παιδιά, κάτι που είναι αναμενόμενο καθώς η ηλικία σχετίζεται με το χρόνο απόκτησης οικογένειας.
Histogram Age - Frequency
ggplot(insurance, aes(x=age)) + geom_histogram(binwidth=0.9, fill="pink", color="black") + labs(x="Age", y="Frequency")
Παρατηρήσεις
Γενικά, φαίνετα να υπάρχει μία ομοιόμορφη κατανομή σε όλο το εύρος των ηλικιακών ομάδων.
Bar chart Region - Frequency
ggplot(insurance, aes(region)) + geom_bar(width=0.4, fill="grey", color="black") + labs( x="Region", y="Frequency")
Παρατηρήσεις
Το διάγραμμα δείχνει τη συχνότητα των ασφαλισμένων ανά περιοχή, με τη νοτιοανατολική (southeast) να έχει τη μεγαλύτερη συγκέντρωση. Οι υπόλοιπες περιοχές παρουσιάζουν παρόμοιο αριθμό παρατηρήσεων, με μικρές διαφορές μεταξύ τους.
Μοντέλο 1:
m1 <- lm(age ~ bmi, data= insurance)
summary(m1)
##
## Call:
## lm(formula = age ~ bmi, data = insurance)
##
## Residuals:
## Min 1Q Median 3Q Max
## -26.8632 -12.5477 0.3053 11.6915 26.7248
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 31.48728 1.95884 16.074 < 2e-16 ***
## bmi 0.25176 0.06266 4.018 6.19e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 13.97 on 1336 degrees of freedom
## Multiple R-squared: 0.01194, Adjusted R-squared: 0.0112
## F-statistic: 16.15 on 1 and 1336 DF, p-value: 6.194e-05
coef(m1)
## (Intercept) bmi
## 31.4872787 0.2517577
Διάγραμμα διασποράς με γραμμική παλινδρόμηση
ggplot(insurance, aes(age, bmi)) + geom_point()+ geom_abline(aes(intercept = coef(m1) [1], slope = coef(m1) [2], colour = "red"))
Σχόλιο: Υπάρχει θετική αλλά ασθενής συσχέτιση ανάμεσα στην ηλικία και τον δείκτη μάζας σώματος. Το Adjusted R-squared είναι 0.0112 — πολύ χαμηλή τιμή, που δείχνει ότι το μοντέλο εξηγεί μόλις το 1.2% της διακύμανσης της ηλικίας μέσω του BMI. Αυτό σημαίνει ότι υπάρχουν άλλοι, πιο σημαντικοί παράγοντες που επηρεάζουν την ηλικία.
Μοντέλο 2:
m2 <- lm(age ~ bmi + smoker, data= insurance)
summary(m2)
##
## Call:
## lm(formula = age ~ bmi + smoker, data = insurance)
##
## Residuals:
## Min 1Q Median 3Q Max
## -27.0493 -12.5652 0.6323 11.6789 27.4303
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 31.66178 1.96781 16.090 < 2e-16 ***
## bmi 0.25198 0.06266 4.021 6.11e-05 ***
## smokeryes -0.88502 0.94653 -0.935 0.35
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 13.97 on 1335 degrees of freedom
## Multiple R-squared: 0.01259, Adjusted R-squared: 0.01111
## F-statistic: 8.509 on 2 and 1335 DF, p-value: 0.0002128
coef(m2)
## (Intercept) bmi smokeryes
## 31.6617774 0.2519774 -0.8850153
Σχόλιο: Η μεταβλητή “smoker” δεν είναι στατιστικά σημαντική στο μοντέλο 2, άρα δεν προσφέρει ουσιαστική βελτίωση στην πρόβλεψη της ηλικίας. Το R-squared μειώνεται ελαφρώς, πράγμα που σημαίνει ότι η προσθήκη της μεταβλητής “smoker” δεν βελτιώνει το μοντέλο.
Μοντέλο 3:
m3 <- lm(age ~ bmi + smoker + charges, data= insurance)
summary(m3)
##
## Call:
## lm(formula = age ~ bmi + smoker + charges, data = insurance)
##
## Residuals:
## Min 1Q Median 3Q Max
## -38.190 -9.203 0.178 9.692 29.685
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.515e+01 1.699e+00 20.689 <2e-16 ***
## bmi -1.393e-01 5.678e-02 -2.454 0.0143 *
## smokeryes -2.468e+01 1.363e+00 -18.101 <2e-16 ***
## charges 1.009e-03 4.637e-05 21.748 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 12.01 on 1334 degrees of freedom
## Multiple R-squared: 0.271, Adjusted R-squared: 0.2694
## F-statistic: 165.3 on 3 and 1334 DF, p-value: < 2.2e-16
coef(m3)
## (Intercept) bmi smokeryes charges
## 35.150284376 -0.139336958 -24.679607427 0.001008503
Σχόλιο: Η προσθήκη της μεταβλητής “charges” αυξάνει το R-squared κατά 0,2584, Συνεπώς, το μοντέλο 3 βελτιώνεται.
Μοντέλο 4:
m4 <- lm(age ~ bmi + smoker + charges + sex, data= insurance)
summary(m4)
##
## Call:
## lm(formula = age ~ bmi + smoker + charges + sex, data = insurance)
##
## Residuals:
## Min 1Q Median 3Q Max
## -37.986 -9.117 0.180 9.700 29.858
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.529e+01 1.716e+00 20.563 <2e-16 ***
## bmi -1.376e-01 5.687e-02 -2.420 0.0156 *
## smokeryes -2.463e+01 1.366e+00 -18.026 <2e-16 ***
## charges 1.008e-03 4.639e-05 21.727 <2e-16 ***
## sexmale -3.917e-01 6.596e-01 -0.594 0.5527
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 12.01 on 1333 degrees of freedom
## Multiple R-squared: 0.2712, Adjusted R-squared: 0.2691
## F-statistic: 124 on 4 and 1333 DF, p-value: < 2.2e-16
coef(m4)
## (Intercept) bmi smokeryes charges sexmale
## 35.29333086 -0.13764171 -24.62967040 0.00100795 -0.39173635
Σχόλιο: Η προσθήκη του ανθρώπινου φύλου αυξάνει ελάχιστα το R-squared.
| Model | R_squared | SSE |
|---|---|---|
| Age, BMI | 0.0119 | 260774.3 |
| Age, BMI, Smoker | 0.0126 | 260603.6 |
| Age, BMI, Smoker, Charges | 0.2710 | 192389.5 |
| Age, BMI, Smoker, Charges, Sex | 0.2712 | 192338.6 |
Η επίδραση του Δείκτη Μάζας Σώματος(ΒΜΙ) και του καπνίσματος είναι περιορισμένη: Τα 2πρώτα μοντέλα που περιλάμβαναν μόνο το BMI και το αν κάποιος είναι καπνιστής, παρουσίασαν πολύ χαμηλές τιμές R² (0.0119 και 0.0126 αντίστοιχα). Αυτό υποδηλώνει πως τα μοντέλα αυτά δεν εξηγούν επαρκώς τη μεταβλητότητα της ηλικίας. Το μεγάλο συνολικό σφάλμα (SSE) ενισχύει την αδυναμία πρόβλεψης.
Οι χρεώσεις (charges) παίζουν καθοριστικό ρόλο: Με την προσθήκη της μεταβλητής charges στο τρίτο μοντέλο, παρατηρείται εντυπωσιακή αύξηση του R² στο 0.2710, ενώ το συνολικό σφάλμα μειώνεται σημαντικά. Αυτό δείχνει ότι η ηλικία σχετίζεται ισχυρά με τις ιατρικές δαπάνες, πιθανόν επειδή αυξάνονται με την ηλικία.
Το φύλο (sex) δεν ενισχύει σημαντικά την πρόβλεψη: Η προσθήκη της μεταβλητής sex στο τέταρτο μοντέλο δεν οδήγησε σε ουσιαστική βελτίωση. Το R² αυξήθηκε ελάχιστα (από 0.2710 σε 0.2712) και το σφάλμα επίσης μειώθηκε οριακά. Επομένως, μπορούμε να συμπεράνουμε ότι το φύλο δεν επηρεάζει σημαντικά την πρόβλεψη της ηλικίας σε αυτό το πλαίσιο.