1. Περιγραφή dataset:

Το επιλεγμένο σύνολο δεδομένων αποτελεί μια προσομοίωση πραγματικών ασφαλιστικών δεδομένων, με σκοπό τη διερέυνση των παραγόντων που διαμορφώνουν το ετήσιο ιατρικό κόστος ανά ασφαλισμένο.

Μεταβλητές:

#ΔΗΜΙΟΥΡΓΙΑ ΠΙΝΑΚΑ:
datasetVar <- data.frame(
  Μεταβλητές = c("age", "sex", "bmi" , "children", "smoker", "region", "charges"), 
  Τύπος = c("double", "character", "double", "double", "character", "character", "double")
)

#ΕΜΦΑΝΙΣΗ ΠΙΝΑΚΑ:
knitr::kable(datasetVar)
Μεταβλητές Τύπος
age double
sex character
bmi double
children double
smoker character
region character
charges double

2. Ενδεικτικά Διαγράμματα:

# ΑΝΑΓΝΩΣΗ DATASET:
Med_Insurance <-read.csv("insurance.csv")

library(ggplot2)

#ΙΣΤΟΓΡΑΜΜΑ:
ggplot(Med_Insurance, aes(x= charges)) + 
  geom_histogram(color = "lightpink") +
  labs(title = "Ιστόγραμμα: Κατανομή Χρεώσεων", x = "Χρεώσεις", y = "Συχνότητα")
## `stat_bin()` using `bins = 30`. Pick better value `binwidth`.

Eρμηνεία:

Το ιστόγραμμα αποκαλύπτει μια κατανομή με έντονη θετική ασυμμετρία. Η πλειονότητα των ασφαλισμένων συγκεντρώνεται σε χαμηλά ποσά χρεώσεων, ενώ η ύπαρξη μιας μακριάς “ουράς” και μιας δευτερεύουσας μικρής κορυφής γύρω στις 40.000 υποδηλώνει την ύπαρξη υποομάδων με σημαντικά υψηλότερο κόστος

#BOXPLOT:
ggplot(Med_Insurance, aes(x = as.factor(children) , y = charges)) +
  geom_boxplot(color = "lightblue") +
  labs(title = "Ιστόγραμμα: Κατανομή χρεώσεων ανάλογα με τον αριθμό των παιδιών", x = "Παιδιά", y = "Χρεώσεις") 

Eρμηνεία:

Στο boxplot παρουσιάζεται ότι η πλειονότητα των ασφαλισμένων συγκεντρώνεται σε χαμηλά επίπεδα χρεώσεων (κάτω από 20.000), ενώ η παρουσία πολυάριθμων ακραίων τιμών υποδηλώνει μια μακριά “ουρά” προς τα πάνω. Οι συγκεντρώσεις τιμών στην περιοχή των 40.000-60.000 φανερώνουν την ύπαρξη ειδικών υποομάδων με σημαντικά υψηλότερο κόστος, ανεξάρτητα από τον αριθμό των παιδιών.

#ΡΑΒΔΟΓΡΑΜΜΑ:
ggplot(Med_Insurance, aes(x = smoker)) +
  geom_bar(color = "lightgreen") +
  labs(title = "Ραβδόγραμμα: Κατανομή ασφαλισμένων σε Καπνιστές και μη Καπνιστές" , x = "Καπνιστές" , y = "Συχνότητα") 

Eρμηνεία:

Το ραβδόγραμμα δείχνει ότι η πλειονότητα των ασφαλισμένων είναι μη καπνιστές, ξεπερνώντας τα 1.000 άτομα. Οι καπνιστές αποτελούν μια σαφή μειονότητα περίπου 300 ατόμων, γεγονός που επιβεβαιώνει ότι το δείγμα μας αποτελείται κυρίως από άτομα που δεν καπνίζουν.

#ΔΙΑΣΠΟΡΑΣ:
ggplot(Med_Insurance, aes(x= bmi, y = charges)) + 
  geom_point(color = "yellow") +
  labs(title = "Διάγραμμα Διασποράς: Συσχέτιση ΔΜΣ και Χρεώσεων" , x = "Δείκτης Μάζας Σώματος", y= "χρεώσεις")

Eρμηνεία:

Το υψηλό BMI δεν οδηγεί πάντα σε μεγάλες δαπάνες, αλλά αποτελεί κρίσιμο παράγοντα για την ακριβότερη ομάδα ασφαλισμένων. Ειδικά μετά την τιμή 30 στο BMI, παρατηρείται μια απότομη άνοδος των χρεώσεων που φτάνουν έως και τις 60.000, γεγονός που υποδηλώνει ότι ο συνδυασμός αυξημένου βάρους και άλλων κινδύνων δημιουργεί τις πιο δαπανηρές περιπτώσεις στο δείγμα.

3. Fitted μοντέλα γραμμικής παλινδρόμησης:

#ΣΥΣΧΕΤΙΣΗ ΗΛΙΚΙΑΣ ΚΑΙ ΧΡΕΩΣΕΩΝ
model1 <- lm(charges ~ age, data = Med_Insurance)

summary(model1)
## 
## Call:
## lm(formula = charges ~ age, data = Med_Insurance)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
##  -8059  -6671  -5939   5440  47829 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   3165.9      937.1   3.378 0.000751 ***
## age            257.7       22.5  11.453  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 11560 on 1336 degrees of freedom
## Multiple R-squared:  0.08941,    Adjusted R-squared:  0.08872 
## F-statistic: 131.2 on 1 and 1336 DF,  p-value: < 2.2e-16
#ΙΣΤΟΓΡΑΜΜΑ:
ggplot(Med_Insurance, aes(x= age, y = charges)) +
  geom_point(color = "red") +
  labs(title = "Διάγραμμα Διασποράς: Συσχέτιση Ηλικίας και Χρεώσεων")

model1: Αποτελεί παράδειγμα απλής παλινδρόμησης. Συγκεκριμένα, ξετάζει μόνο την age και η συσχέτιση δεν είναι απόλυτη. Στο διάγραμμα διακρίνονται τρεις ξεχωριστές “γραμμές” σημείων: * Η κάτω γραμμή: Είναι οι μη καπνιστές (χαμηλές χρεώσεις). * Η μεσαία γραμμή: Είναι άτομα με υψηλό BMI ή κάποιες άλλες ιδιαιτερότητες. * Η πάνω γραμμή: Είναι οι καπνιστές (πολύ υψηλές χρεώσεις). Αυτό σημαίνει ότι η ηλικία δεν είναι ο μόνος παράγοντας που καθορίζει τις χρεώσεις.

Διερεύνηση R-squared

Το Multiple R-squared είναι 0.08941. Συνεπώς, η ηλικία εξηγεί μόλις το 8.9% της διακύμανσης των ιατρικών χρεώσεων. Το υπόλοιπο 91.1% παραμένει ανεξήγητο από το τρέχον μοντέλο, γεγονός που δείχνει ότι η ηλικία δεν είναι ο κύριος παράγοντας διαμόρφωσης του κόστους.

Διερεύνηση SSE

SSE <- sum(model1$residuals^2) 

print(SSE)
## [1] 1.78544e+11

Ο αριθμός αυτός είναι εξαιρετικά υψηλός, γεγονός που αποδεικνύει ότι η πρόβλεψη των χρεώσεων χρησιμοποιώντας μόνο την ηλικία αφήνει τεράστια σφάλματα.Η απόκλιση των πραγματικών τιμών από τη γραμμή παλινδρόμησης είναι πολύ μεγάλη. Αυτό επιβεβαιώνει την ανάγκη για προσθήκη περισσότερων ανεξάρτητων μεταβλητών (όπως το κάπνισμα και το BMI), οι οποίες θα βοηθήσουν στη δραστική μείωση αυτού του σφάλματος και στη βελτίωση της ακρίβειας του μοντέλου.