Contesto Aziendale

Azienda: Neonatal Health Solutions Obiettivo: Creare un modello statistico in grado di prevedere con precisione il peso dei neonati alla nascita, basandosi su variabili cliniche raccolte da tre ospedali. Il progetto mira a migliorare la gestione delle gravidanze ad alto rischio, ottimizzare le risorse ospedaliere e garantire migliori risultati per la salute neonatale.

Il progetto si inserisce all’interno di un contesto di crescente attenzione verso la prevenzione delle complicazioni neonatali. La possibilità di prevedere il peso alla nascita dei neonati rappresenta un’opportunità fondamentale per migliorare la pianificazione clinica e ridurre i rischi associati a nascite problematiche, come parti prematuri o neonati con basso peso.

Librerie

options(repos = c(CRAN = "https://cran.mirror.garr.it/CRAN/"))
install.packages("ggplot2")
## Installazione pacchetto in 'C:/Users/User/AppData/Local/R/win-library/4.4'
## (perché 'lib' non è specificato)
## pacchetto 'ggplot2' aperto con successo con controllo somme MD5
## 
## I pacchetti binari scaricati sono in
##  C:\Users\User\AppData\Local\Temp\RtmpMFYUbH\downloaded_packages
install.packages("gghalves")
## Installazione pacchetto in 'C:/Users/User/AppData/Local/R/win-library/4.4'
## (perché 'lib' non è specificato)
## pacchetto 'gghalves' aperto con successo con controllo somme MD5
## 
## I pacchetti binari scaricati sono in
##  C:\Users\User\AppData\Local\Temp\RtmpMFYUbH\downloaded_packages
install.packages("MASS")
## Installazione pacchetto in 'C:/Users/User/AppData/Local/R/win-library/4.4'
## (perché 'lib' non è specificato)
## pacchetto 'MASS' aperto con successo con controllo somme MD5
## Warning: non è possibile rimuovere una precedente installazione del pacchetto
## 'MASS'
## Warning in file.copy(savedcopy, lib, recursive = TRUE): problema durante la
## copia di
## C:\Users\User\AppData\Local\R\win-library\4.4\00LOCK\MASS\libs\x64\MASS.dll in
## C:\Users\User\AppData\Local\R\win-library\4.4\MASS\libs\x64\MASS.dll:
## Permission denied
## Warning: ripristinato 'MASS'
## 
## I pacchetti binari scaricati sono in
##  C:\Users\User\AppData\Local\Temp\RtmpMFYUbH\downloaded_packages
install.packages("sandwich")
## Installazione pacchetto in 'C:/Users/User/AppData/Local/R/win-library/4.4'
## (perché 'lib' non è specificato)
## pacchetto 'sandwich' aperto con successo con controllo somme MD5
## 
## I pacchetti binari scaricati sono in
##  C:\Users\User\AppData\Local\Temp\RtmpMFYUbH\downloaded_packages
library(sandwich)
## Warning: il pacchetto 'sandwich' è stato creato con R versione 4.4.2
library(MASS)
## Warning: il pacchetto 'MASS' è stato creato con R versione 4.4.2
library(gghalves)
## Warning: il pacchetto 'gghalves' è stato creato con R versione 4.4.2
## Caricamento del pacchetto richiesto: ggplot2
## Warning: il pacchetto 'ggplot2' è stato creato con R versione 4.4.2
library(ggplot2)

1. Raccolta dei dati e Struttura del Dataset

Importare il dataset:

dati <- read.csv("C:/Users/User/Desktop/prog_stat_inf/neonati.csv", stringsAsFactors= T, sep=",")

Read.csv: permette di poter accedere al dataset contenente le variabili e di poter leggere le qualitative come tali e non come stringhe (stringsAsFactors = T).

attach(dati)                     
summary(dati)
##    Anni.madre     N.gravidanze       Fumatrici        Gestazione   
##  Min.   : 0.00   Min.   : 0.0000   Min.   :0.0000   Min.   :25.00  
##  1st Qu.:25.00   1st Qu.: 0.0000   1st Qu.:0.0000   1st Qu.:38.00  
##  Median :28.00   Median : 1.0000   Median :0.0000   Median :39.00  
##  Mean   :28.16   Mean   : 0.9812   Mean   :0.0416   Mean   :38.98  
##  3rd Qu.:32.00   3rd Qu.: 1.0000   3rd Qu.:0.0000   3rd Qu.:40.00  
##  Max.   :46.00   Max.   :12.0000   Max.   :1.0000   Max.   :43.00  
##       Peso        Lunghezza         Cranio    Tipo.parto Ospedale   Sesso   
##  Min.   : 830   Min.   :310.0   Min.   :235   Ces: 728   osp1:816   F:1256  
##  1st Qu.:2990   1st Qu.:480.0   1st Qu.:330   Nat:1772   osp2:849   M:1244  
##  Median :3300   Median :500.0   Median :340              osp3:835           
##  Mean   :3284   Mean   :494.7   Mean   :340                                 
##  3rd Qu.:3620   3rd Qu.:510.0   3rd Qu.:350                                 
##  Max.   :4930   Max.   :565.0   Max.   :390
n <- nrow(dati)
head(dati)
##   Anni.madre N.gravidanze Fumatrici Gestazione Peso Lunghezza Cranio Tipo.parto
## 1         26            0         0         42 3380       490    325        Nat
## 2         21            2         0         39 3150       490    345        Nat
## 3         34            3         0         38 3640       500    375        Nat
## 4         28            1         0         41 3690       515    365        Nat
## 5         20            0         0         38 3700       480    335        Nat
## 6         32            0         0         40 3200       495    340        Nat
##   Ospedale Sesso
## 1     osp3     M
## 2     osp1     F
## 3     osp2     M
## 4     osp2     M
## 5     osp3     F
## 6     osp2     F

2500 ossevazioni 10 variabili:

dati$Fumatrici <- as.factor(dati$Fumatrici)
VARIABILE Unità di misura Tipo Variabile
  • Anni.madre
Misura dell’età in Anni
  • quantitativa continua |
  • N.gravidanze
Quante gravidanze ha avuto la madre
  • quantitativa discreta |
  • Fumatrici
Indicatore binario (0=Non fuma / 1=fuma)
  • qualitativa/dummy |
  • Gestazione
Numero di settimane della gestazione
  • quantitativa continua |
  • Peso
Peso alla nascita in grammi
  • quantitativa continua |
  • Lunghezza
Lunghezza del neonato in mm
  • quantitativa continua |
  • Cranio
Diametro craniale in mm
  • quantitativa continua |
  • Tipo.parto
Naturale o cesario
  • qualitativa su base nominale |
  • Ospedale
Ospedale 1,2,3
  • qualitativa su base nominale |
  • Sesso
Maschio (M) o femmina (F)
  • qualitativa su base nominale |
summary(dati)
##    Anni.madre     N.gravidanze     Fumatrici   Gestazione         Peso     
##  Min.   : 0.00   Min.   : 0.0000   0:2396    Min.   :25.00   Min.   : 830  
##  1st Qu.:25.00   1st Qu.: 0.0000   1: 104    1st Qu.:38.00   1st Qu.:2990  
##  Median :28.00   Median : 1.0000             Median :39.00   Median :3300  
##  Mean   :28.16   Mean   : 0.9812             Mean   :38.98   Mean   :3284  
##  3rd Qu.:32.00   3rd Qu.: 1.0000             3rd Qu.:40.00   3rd Qu.:3620  
##  Max.   :46.00   Max.   :12.0000             Max.   :43.00   Max.   :4930  
##    Lunghezza         Cranio    Tipo.parto Ospedale   Sesso   
##  Min.   :310.0   Min.   :235   Ces: 728   osp1:816   F:1256  
##  1st Qu.:480.0   1st Qu.:330   Nat:1772   osp2:849   M:1244  
##  Median :500.0   Median :340              osp3:835           
##  Mean   :494.7   Mean   :340                                 
##  3rd Qu.:510.0   3rd Qu.:350                                 
##  Max.   :565.0   Max.   :390

La variabile “Fumatrici” è stata trasformata.

L’obiettivo principale è identificare quali di queste variabili sono più predittive del peso alla nascita, con un focus particolare sull’impatto del fumo materno e delle settimane di gestazione, che potrebbero indicare nascite premature.

2. Analisi e Modellizzazione

Analisi Preliminare

Esplorare le variabili attraverso un’analisi descrittiva per comprenderne la distribuzione e identificare eventuali outlier o anomalie. Studiare il rapporto delle singole variabili con la variabile peso.

Variabili Quantitative

Peso

Il primo passo è quello di verificare che la variabile risposta sia approssimativamente Normale.

moments::skewness(Peso)
## [1] -0.6470308
moments::kurtosis(Peso)-3 #leptocurtica
## [1] 2.031532
shapiro.test(Peso)
## 
##  Shapiro-Wilk normality test
## 
## data:  Peso
## W = 0.97066, p-value < 2.2e-16

Dai test non si rifiuta l’ipotesi di normalità per un livello di sognificatività alfa fissato al 5%.

Matrice di collinearità

Analisi della relazione tra la variabile risposta Peso e le variabili esplicative:

?pairs
## avvio in corso del server httpd per la guida ... fatto
    panel.cor <- function(x, y, digits = 2, prefix = "", cex.cor, ...)
    {
      par(usr = c(0, 1, 0, 1))
      r <- abs(cor(x, y))
      txt <- format(c(r, 0.123456789), digits = digits)[1]
      txt <- paste0(prefix, txt)
      if(missing(cex.cor)) cex.cor <- 0.8/strwidth(txt)
      text(0.5, 0.5, txt, cex = 1.5)
    }
    pairs(dati,upper.panel = panel.smooth, lower.panel = panel.cor)

  • Non ci sono multicollinearità

Di seguito approfondisco le singole variabili con analisi descrittiva, e relazione con la variabile risposta “Peso”.

Anni.madre

  summary(dati$Anni.madre)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00   25.00   28.00   28.16   32.00   46.00
  attach(dati)
## I seguenti oggetti sono mascherati da dati (pos = 3):
## 
##     Anni.madre, Cranio, Fumatrici, Gestazione, Lunghezza, N.gravidanze,
##     Ospedale, Peso, Sesso, Tipo.parto
  plot(Anni.madre,  pch= 20)

Con questa analisi si osservano dati impossibili, età della madre di 0 e 1 anni. Questi errori possono dipendere da errata stesura. E’ possiblire circoscrivere le analisi ai soli dati utili:

dati <- subset(dati, Anni.madre>10)
summary(dati)
##    Anni.madre     N.gravidanze     Fumatrici   Gestazione         Peso     
##  Min.   :13.00   Min.   : 0.0000   0:2394    Min.   :25.00   Min.   : 830  
##  1st Qu.:25.00   1st Qu.: 0.0000   1: 104    1st Qu.:38.00   1st Qu.:2990  
##  Median :28.00   Median : 1.0000             Median :39.00   Median :3300  
##  Mean   :28.19   Mean   : 0.9816             Mean   :38.98   Mean   :3284  
##  3rd Qu.:32.00   3rd Qu.: 1.0000             3rd Qu.:40.00   3rd Qu.:3620  
##  Max.   :46.00   Max.   :12.0000             Max.   :43.00   Max.   :4930  
##    Lunghezza         Cranio    Tipo.parto Ospedale   Sesso   
##  Min.   :310.0   Min.   :235   Ces: 728   osp1:816   F:1255  
##  1st Qu.:480.0   1st Qu.:330   Nat:1770   osp2:848   M:1243  
##  Median :500.0   Median :340              osp3:834           
##  Mean   :494.7   Mean   :340                                 
##  3rd Qu.:510.0   3rd Qu.:350                                 
##  Max.   :565.0   Max.   :390
n <- nrow(dati)
n
## [1] 2498
plot(Peso,Anni.madre,  pch= 20)

Lo studio prende in considerazioni madri con una età minima di 14 anni ed una età massima di 46 anni con una media di 28.19.

N.gravidanze

 summary(dati$N.gravidanze)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0000  1.0000  0.9816  1.0000 12.0000
  attach(dati)
## I seguenti oggetti sono mascherati da dati (pos = 3):
## 
##     Anni.madre, Cranio, Fumatrici, Gestazione, Lunghezza, N.gravidanze,
##     Ospedale, Peso, Sesso, Tipo.parto
## I seguenti oggetti sono mascherati da dati (pos = 4):
## 
##     Anni.madre, Cranio, Fumatrici, Gestazione, Lunghezza, N.gravidanze,
##     Ospedale, Peso, Sesso, Tipo.parto
  plot(N.gravidanze,  pch= 20)

  plot(Peso,N.gravidanze,  pch= 20)     

Lo studio prende in considerazione madri che hanno davuto da 0 a 12 gravidanze con una media di 0.98.

Grafico N.Gravidanze : non ci sono anomalie.

Grafico Peso/N.gravidanzeNon: non ci sono anomalie. Non sono presenti correlazioni evidenti con la variabile Peso.

Gestazione

 summary(dati$Gestazione)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   25.00   38.00   39.00   38.98   40.00   43.00
  attach(dati)
## I seguenti oggetti sono mascherati da dati (pos = 3):
## 
##     Anni.madre, Cranio, Fumatrici, Gestazione, Lunghezza, N.gravidanze,
##     Ospedale, Peso, Sesso, Tipo.parto
## I seguenti oggetti sono mascherati da dati (pos = 4):
## 
##     Anni.madre, Cranio, Fumatrici, Gestazione, Lunghezza, N.gravidanze,
##     Ospedale, Peso, Sesso, Tipo.parto
## I seguenti oggetti sono mascherati da dati (pos = 5):
## 
##     Anni.madre, Cranio, Fumatrici, Gestazione, Lunghezza, N.gravidanze,
##     Ospedale, Peso, Sesso, Tipo.parto
  plot(Gestazione,  pch= 20)

  plot(Peso, Gestazione,  pch= 20)

  which(Gestazione==35 & Peso > 4000)
## [1] 1551

Lo studio prende in considerazione gravidanze che partono minimo dalla 25° settimana e che arrivano massimo alla 43° settimana

Grafico Gestazione : non ci sono anomalie

Grafico Gestazione-Peso : l’osservazione 1551 riporta un valore che si discosta dalla nuvola. Variabile correlata alla variabile risposta Peso.

Lunghezza

 summary(dati$Lunghezza)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   310.0   480.0   500.0   494.7   510.0   565.0
Lunghezza
##    [1] 490 490 500 515 480 495 480 510 500 510 480 515 455 485 470 530 450 490
##   [19] 470 480 480 495 490 505 465 505 490 500 500 490 490 530 470 480 510 550
##   [37] 465 500 480 460 500 500 505 490 525 480 450 495 530 485 520 480 500 510
##   [55] 475 495 490 480 540 485 545 470 500 500 530 490 450 465 490 530 530 470
##   [73] 460 510 465 510 460 510 520 500 475 480 500 470 470 470 505 510 500 490
##   [91] 515 515 500 510 500 510 500 490 520 485 390 460 500 505 500 400 470 460
##  [109] 470 505 510 497 500 495 505 475 435 495 550 500 470 490 500 480 520 545
##  [127] 510 500 540 485 450 515 520 500 510 500 520 470 500 530 500 525 500 530
##  [145] 515 500 480 510 500 490 450 495 475 475 410 525 505 435 500 510 540 515
##  [163] 495 485 550 505 500 470 530 480 520 490 510 480 520 490 500 510 520 510
##  [181] 530 485 490 520 525 520 495 500 505 525 495 470 525 505 470 502 495 450
##  [199] 500 485 510 515 495 518 505 405 520 480 460 515 485 480 485 470 500 510
##  [217] 520 490 520 445 495 500 495 480 485 460 505 480 505 455 465 530 490 510
##  [235] 525 485 530 510 480 495 550 485 495 500 515 520 510 510 440 500 460 470
##  [253] 515 475 500 450 530 500 485 480 520 480 505 465 475 490 530 495 510 510
##  [271] 550 510 540 530 495 480 530 515 500 510 480 500 500 520 510 520 510 446
##  [289] 480 490 500 500 520 500 460 500 470 440 515 490 480 510 545 420 450 495
##  [307] 500 475 500 420 475 360 515 510 450 510 550 485 515 485 470 430 500 485
##  [325] 455 490 480 550 540 500 495 495 505 500 465 500 515 495 530 520 510 505
##  [343] 500 500 490 485 500 460 500 500 460 530 460 530 500 520 490 500 520 485
##  [361] 495 520 490 470 510 530 490 540 530 480 450 470 500 495 510 515 460 400
##  [379] 500 495 485 490 550 510 515 510 535 520 470 470 525 525 520 510 500 460
##  [397] 540 500 445 450 490 500 500 490 480 475 525 510 475 490 470 530 480 480
##  [415] 510 470 470 480 480 530 515 470 500 500 515 510 500 550 505 490 480 465
##  [433] 470 475 495 495 495 460 490 495 515 460 480 505 410 485 500 530 490 480
##  [451] 500 500 490 500 505 510 515 450 475 515 530 520 500 520 525 480 510 530
##  [469] 505 475 560 495 495 470 470 520 500 505 500 480 500 490 455 535 480 445
##  [487] 520 480 520 530 510 380 490 510 510 510 490 500 490 480 515 490 470 480
##  [505] 510 475 505 490 510 470 515 500 545 510 480 470 510 505 475 490 505 495
##  [523] 520 500 520 470 490 450 505 500 500 520 500 500 530 490 500 480 530 500
##  [541] 510 520 475 500 500 490 510 480 500 530 510 485 480 495 515 530 470 490
##  [559] 500 490 510 490 460 505 520 500 475 515 490 525 520 510 450 510 495 510
##  [577] 505 510 520 490 500 470 500 510 505 520 440 520 510 490 470 440 500 470
##  [595] 490 500 515 495 500 550 450 475 510 495 505 510 500 500 520 515 505 530
##  [613] 475 500 440 540 490 510 475 500 480 485 500 460 470 520 505 500 475 490
##  [631] 490 510 480 475 500 495 500 420 520 490 500 490 495 510 510 470 515 500
##  [649] 485 495 515 490 500 490 505 450 520 460 460 480 475 500 485 490 480 555
##  [667] 495 530 530 455 480 480 480 500 480 510 500 500 510 520 500 495 500 475
##  [685] 470 490 495 490 505 500 525 510 530 520 520 530 510 490 490 510 530 450
##  [703] 520 490 490 535 470 495 520 505 500 473 505 500 500 520 500 535 520 500
##  [721] 500 475 500 450 470 446 510 440 555 500 520 470 525 500 480 530 535 500
##  [739] 480 515 490 530 500 485 490 490 470 390 465 405 510 505 485 500 530 505
##  [757] 450 490 500 475 480 520 500 520 445 490 500 510 470 520 505 500 525 520
##  [775] 470 490 460 470 450 505 500 510 485 515 490 510 510 500 490 500 510 505
##  [793] 485 500 540 510 465 520 510 500 470 505 490 490 360 460 485 510 540 515
##  [811] 510 500 480 495 515 485 460 490 530 490 495 490 495 470 490 460 520 510
##  [829] 500 480 510 520 500 490 515 440 505 430 525 505 485 500 490 490 500 515
##  [847] 495 470 510 485 520 510 485 500 510 510 505 480 485 500 480 515 510 500
##  [865] 485 480 490 505 480 470 505 485 525 530 535 480 495 485 460 540 510 520
##  [883] 470 510 480 490 535 510 480 490 510 460 495 530 470 520 490 490 510 490
##  [901] 500 490 520 510 505 500 490 460 495 515 500 480 485 500 480 480 505 510
##  [919] 475 535 500 480 475 510 490 520 515 310 480 515 480 490 510 505 515 475
##  [937] 520 490 440 510 520 520 490 515 495 490 390 480 480 500 530 490 490 445
##  [955] 525 430 515 550 525 490 500 500 495 550 490 500 485 470 520 500 510 510
##  [973] 510 460 480 495 530 510 510 500 520 500 475 500 510 500 520 550 490 490
##  [991] 550 520 500 475 490 535 505 535 495 480 515 490 450 530 510 520 480 470
## [1009] 520 530 500 520 505 390 495 480 485 530 500 545 465 495 490 500 510 490
## [1027] 510 490 480 495 510 490 500 485 475 500 495 500 490 460 490 505 520 490
## [1045] 505 470 490 495 500 510 480 500 490 460 490 505 535 475 520 540 495 480
## [1063] 535 460 510 520 420 490 460 500 490 520 450 510 490 485 510 525 510 490
## [1081] 485 500 465 495 535 495 505 470 500 510 410 535 510 485 520 420 480 495
## [1099] 520 500 495 495 475 490 480 470 510 515 545 485 470 470 520 490 505 510
## [1117] 515 490 500 500 480 510 500 500 480 500 480 500 500 475 490 500 500 520
## [1135] 510 490 520 480 500 510 485 460 510 480 510 495 515 525 500 495 490 505
## [1153] 500 495 520 505 490 485 505 492 490 490 510 480 505 500 500 490 490 510
## [1171] 475 485 485 520 455 520 520 520 470 500 520 480 470 510 485 500 550 490
## [1189] 520 455 490 485 450 460 505 500 510 500 525 510 470 485 490 500 490 505
## [1207] 505 505 465 495 460 470 525 550 510 495 480 490 495 520 550 490 490 500
## [1225] 500 495 500 500 470 495 480 470 520 490 490 525 440 460 510 510 500 460
## [1243] 480 495 500 500 370 500 500 505 485 523 480 460 510 515 500 515 525 510
## [1261] 485 510 520 470 485 545 460 470 480 485 500 480 535 430 445 515 505 450
## [1279] 500 515 500 550 470 510 490 485 490 530 495 490 500 485 460 490 490 500
## [1297] 490 510 520 480 495 520 500 510 510 510 485 460 500 430 520 495 480 500
## [1315] 500 500 505 500 480 515 475 555 500 500 490 490 500 485 480 510 520 450
## [1333] 480 505 530 510 510 495 505 480 490 465 510 485 500 510 500 470 520 480
## [1351] 525 510 460 495 525 445 460 520 515 520 500 500 510 480 500 480 500 490
## [1369] 545 480 500 480 480 545 530 490 515 460 480 510 510 475 410 520 500 500
## [1387] 480 520 475 480 535 485 505 520 470 470 525 485 505 460 495 540 460 495
## [1405] 480 505 500 470 480 455 525 510 510 515 500 515 505 530 480 510 510 525
## [1423] 500 460 510 385 390 540 465 540 530 480 525 465 490 495 515 540 515 500
## [1441] 500 450 510 490 510 495 490 480 500 520 510 515 510 485 485 500 525 495
## [1459] 500 490 490 510 495 470 510 500 520 490 500 480 465 480 475 490 520 520
## [1477] 490 465 475 470 525 510 500 500 520 460 480 530 540 470 505 515 540 470
## [1495] 530 515 495 495 500 480 490 485 490 505 495 500 490 465 450 495 560 460
## [1513] 495 480 510 500 500 510 500 455 480 500 490 515 510 500 510 525 510 500
## [1531] 540 500 490 510 530 500 535 520 530 490 510 485 470 510 480 480 500 525
## [1549] 315 470 520 535 480 490 540 460 500 455 490 490 510 525 490 490 495 520
## [1567] 500 525 495 500 540 475 530 470 445 500 510 485 505 490 510 515 500 490
## [1585] 500 510 530 510 505 500 420 530 495 530 515 480 485 480 460 510 510 485
## [1603] 480 460 465 500 485 470 500 505 510 520 470 490 485 510 340 530 525 490
## [1621] 530 460 525 500 480 410 480 490 510 530 510 430 445 490 475 500 550 490
## [1639] 495 470 490 550 500 505 510 470 498 480 520 490 500 465 480 490 510 460
## [1657] 505 515 475 500 510 460 460 470 500 520 490 480 500 475 470 490 455 515
## [1675] 470 460 500 495 480 510 495 470 520 430 465 475 460 520 500 470 500 460
## [1693] 490 500 515 495 500 500 380 495 500 490 460 480 515 500 520 515 500 520
## [1711] 490 510 520 520 495 500 485 500 520 510 480 500 515 510 460 490 510 475
## [1729] 490 480 520 505 440 485 475 500 504 485 510 480 445 500 525 510 460 510
## [1747] 500 455 490 480 500 485 450 445 475 475 500 500 480 510 510 500 490 470
## [1765] 550 505 500 520 510 495 525 520 530 500 490 470 460 325 490 500 520 490
## [1783] 490 470 485 490 475 505 450 490 490 520 500 485 500 470 495 510 520 540
## [1801] 520 515 480 455 500 495 420 495 495 510 500 505 475 520 520 485 490 480
## [1819] 475 530 515 505 510 550 420 490 485 510 495 505 500 500 460 500 500 515
## [1837] 480 535 510 480 500 440 490 460 485 505 480 500 510 500 510 500 510 465
## [1855] 465 520 505 460 494 460 520 500 530 495 500 525 470 510 500 505 490 470
## [1873] 500 510 500 510 460 500 490 510 470 515 530 495 500 500 510 515 525 505
## [1891] 470 515 485 510 500 500 490 490 500 495 485 470 480 510 500 500 490 495
## [1909] 520 515 510 490 500 500 490 460 530 550 500 465 510 490 500 485 480 498
## [1927] 470 500 480 525 485 515 490 525 500 460 480 525 500 545 500 490 485 490
## [1945] 515 480 480 515 455 540 505 505 500 505 500 500 480 445 530 530 540 520
## [1963] 490 530 500 490 490 500 495 510 480 510 530 505 480 490 480 510 475 480
## [1981] 490 510 490 500 505 520 510 490 500 510 510 475 495 480 495 490 510 525
## [1999] 500 495 500 470 500 445 500 535 500 535 540 505 520 500 510 530 450 520
## [2017] 490 505 490 500 510 495 505 505 490 510 510 510 460 500 485 480 490 515
## [2035] 525 510 495 410 500 485 490 485 520 530 505 510 520 520 530 510 500 450
## [2053] 510 450 500 450 500 525 485 460 500 470 510 470 500 495 520 495 490 495
## [2071] 480 510 490 540 485 520 460 470 510 500 490 530 485 500 520 495 400 490
## [2089] 490 460 535 525 470 510 495 475 460 480 485 495 475 450 485 510 475 495
## [2107] 485 490 430 530 480 355 500 500 520 505 510 370 530 480 520 515 510 495
## [2125] 520 450 540 520 505 480 475 490 480 530 510 500 505 410 480 500 500 465
## [2143] 490 520 480 465 380 480 495 455 485 500 475 470 515 490 510 525 510 460
## [2161] 460 460 520 490 480 470 490 500 510 530 510 490 355 490 505 480 500 540
## [2179] 540 515 475 485 515 530 505 500 520 500 520 470 500 500 480 490 480 495
## [2197] 515 410 495 485 480 490 490 485 490 490 460 485 505 485 450 495 465 470
## [2215] 480 500 490 475 495 520 520 425 465 500 510 495 500 490 525 485 460 495
## [2233] 540 490 500 490 480 490 500 505 480 500 530 510 510 500 520 470 500 470
## [2251] 510 495 470 490 400 490 500 525 500 500 500 470 460 480 500 510 535 495
## [2269] 520 500 470 480 500 514 485 460 465 450 480 510 510 520 490 500 470 505
## [2287] 495 510 485 500 470 495 485 495 500 515 495 525 520 520 530 510 505 440
## [2305] 370 490 505 480 515 490 510 470 520 480 460 500 510 510 500 525 530 470
## [2323] 520 470 520 450 510 500 480 480 450 480 520 500 460 485 495 490 540 500
## [2341] 520 490 490 500 490 510 490 510 515 495 465 480 510 490 490 460 430 505
## [2359] 490 470 500 485 495 490 500 480 505 495 520 480 510 490 495 470 455 515
## [2377] 515 485 470 520 520 500 490 500 460 490 500 500 565 540 475 505 485 500
## [2395] 495 500 500 495 520 480 535 495 495 500 505 405 485 485 515 510 500 490
## [2413] 520 485 520 510 510 500 500 485 530 500 485 505 510 500 510 485 495 480
## [2431] 485 525 485 510 320 440 530 485 450 545 465 450 500 515 490 520 510 525
## [2449] 505 345 485 480 500 450 510 430 490 480 450 520 530 510 470 460 510 485
## [2467] 500 480 470 510 480 480 475 520 545 475 495 530 495 460 490 495 510 480
## [2485] 510 500 520 470 490 500 495 470 510 490 500 480 485 510
  plot(Lunghezza,  pch= 20)

  plot(Peso, Lunghezza,  pch= 20) 

Lo studio prende in considerazioni neonati di lunghezza min 310.0mm e max 565.0 mm, con media 494.7mm.

Grafico Lunghezza: non ci sono anomalie.

Grafico Peso-Lunghezza: valore anomalo per il quale ad un peso di circa 4500 grammi viene associata una lunghezza di circa 300 mm. Il grafico presenta una leggera distorsdione nella parte inferiore. Correlazione quasi lineare con la variabile peso.

Cranio

 summary(dati$Cranio)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     235     330     340     340     350     390
Cranio
##    [1] 325 345 375 365 335 340 345 349 335 362 330 343 325 326 298 345 340 335
##   [19] 330 325 340 342 335 320 320 340 335 344 365 351 322 360 315 382 340 373
##   [37] 331 340 355 336 330 310 354 360 336 336 346 336 350 340 340 320 340 370
##   [55] 325 335 345 345 355 338 334 339 350 352 367 325 320 315 335 330 360 332
##   [73] 340 345 345 342 340 345 353 353 340 340 335 332 317 318 344 340 351 333
##   [91] 340 366 375 365 358 376 350 344 355 334 287 334 320 350 349 273 345 330
##  [109] 352 325 340 330 315 325 348 339 303 330 372 340 360 370 315 340 370 370
##  [127] 350 344 345 352 285 352 355 350 345 365 340 325 330 362 360 365 340 350
##  [145] 357 320 345 350 335 343 280 340 334 335 330 346 352 315 330 358 348 323
##  [163] 330 326 360 332 340 345 354 338 321 345 340 318 353 340 325 340 347 350
##  [181] 335 348 330 369 342 355 347 325 320 390 336 344 352 332 310 360 360 325
##  [199] 348 347 347 358 345 340 384 295 357 334 330 330 325 330 345 325 340 360
##  [217] 350 340 340 363 355 344 335 342 340 310 335 342 335 305 325 370 360 345
##  [235] 350 337 355 350 338 337 355 344 340 335 350 345 357 355 338 364 335 320
##  [253] 330 325 330 328 345 363 335 346 355 350 342 355 320 332 340 330 354 340
##  [271] 350 340 370 350 330 320 372 352 335 330 328 330 354 364 348 345 355 332
##  [289] 335 338 355 327 340 330 305 335 320 315 350 335 355 369 360 326 323 340
##  [307] 332 350 330 379 350 276 355 340 355 341 352 320 360 313 331 305 342 338
##  [325] 330 339 330 340 340 338 352 358 320 338 335 335 340 342 350 382 350 350
##  [343] 335 340 350 347 330 360 350 343 322 349 300 345 345 344 332 340 345 325
##  [361] 345 335 336 336 346 350 334 370 350 339 333 322 340 346 353 358 325 274
##  [379] 334 335 335 333 346 340 348 338 342 340 320 320 350 344 360 330 341 340
##  [397] 370 367 326 323 338 345 350 350 338 325 350 318 333 334 341 335 328 333
##  [415] 347 335 319 326 350 370 340 320 335 350 355 335 350 360 358 310 328 340
##  [433] 320 335 328 365 338 327 330 336 348 324 328 325 289 316 345 336 345 340
##  [451] 347 346 332 348 351 350 348 315 346 333 359 355 332 335 349 338 337 355
##  [469] 325 330 346 335 350 323 333 354 353 365 335 337 340 346 321 343 334 310
##  [487] 344 352 360 346 344 295 325 323 335 353 340 335 350 340 342 340 327 326
##  [505] 347 335 350 340 355 330 330 335 357 365 335 341 337 343 317 325 341 330
##  [523] 347 357 357 340 332 325 370 335 335 380 335 328 346 345 350 363 343 305
##  [541] 347 350 328 344 350 327 339 340 350 355 355 335 334 345 357 370 330 330
##  [559] 329 326 334 340 330 345 386 375 324 355 325 345 343 350 340 357 342 350
##  [577] 344 351 360 335 325 316 360 370 325 347 300 347 340 334 355 322 330 328
##  [595] 336 358 359 346 336 370 346 335 338 345 356 358 335 320 356 346 360 364
##  [613] 323 360 345 368 310 340 330 342 344 338 340 335 351 364 346 362 329 367
##  [631] 310 333 338 345 344 350 343 300 350 345 345 335 336 372 351 323 330 360
##  [649] 348 328 350 340 336 345 354 330 318 315 335 340 323 340 315 345 340 345
##  [667] 336 340 335 325 338 335 360 355 334 360 336 358 329 368 343 350 340 390
##  [685] 330 310 340 356 349 330 335 330 350 360 364 358 300 360 320 347 325 320
##  [703] 345 345 334 360 347 347 349 350 328 300 335 355 360 352 340 350 345 338
##  [721] 345 345 335 308 355 344 342 330 355 330 335 322 339 352 340 365 339 326
##  [739] 345 331 335 370 335 340 360 345 315 277 320 280 350 318 341 340 340 347
##  [757] 322 335 350 335 315 343 360 340 300 335 330 345 342 344 346 325 362 357
##  [775] 335 342 330 320 312 346 327 356 335 347 345 345 346 355 340 330 335 332
##  [793] 335 345 350 350 322 337 356 350 325 322 305 330 272 348 313 352 350 344
##  [811] 340 328 334 360 350 345 330 328 355 330 310 332 334 325 345 323 357 350
##  [829] 325 332 325 340 333 335 350 322 355 312 345 350 345 336 329 327 340 342
##  [847] 354 310 340 345 345 320 335 352 336 350 343 322 315 347 342 333 335 336
##  [865] 333 320 368 338 340 310 340 330 362 341 347 334 340 320 355 355 340 347
##  [883] 323 340 342 320 363 356 340 318 360 305 335 355 347 325 330 325 335 324
##  [901] 350 335 352 340 340 330 342 320 354 350 320 340 335 350 320 355 350 350
##  [919] 336 357 344 360 336 345 335 343 352 254 325 340 336 325 330 342 345 338
##  [937] 343 357 305 350 338 350 355 335 358 340 297 322 334 356 345 344 325 323
##  [955] 355 310 362 354 323 348 340 344 343 335 330 368 345 366 361 365 358 340
##  [973] 345 330 333 333 361 358 343 336 368 349 335 344 335 322 355 365 335 352
##  [991] 385 350 357 337 310 367 345 360 350 328 346 322 320 350 325 345 323 333
## [1009] 340 365 340 320 357 295 331 323 315 358 340 357 322 335 335 335 353 323
## [1027] 366 342 330 335 360 325 357 330 351 355 340 360 340 334 332 350 358 323
## [1045] 356 342 345 320 350 357 348 352 350 339 340 343 350 320 345 360 320 334
## [1063] 342 332 355 340 300 335 332 320 330 325 325 365 365 345 340 349 340 350
## [1081] 345 324 359 355 360 353 344 305 360 362 275 340 345 360 355 306 324 325
## [1099] 360 345 335 350 315 348 330 347 364 336 360 330 347 335 380 328 347 326
## [1117] 364 330 355 349 310 321 350 347 345 337 320 341 347 360 355 330 356 375
## [1135] 345 330 340 335 352 360 317 345 350 325 345 332 358 360 342 340 328 355
## [1153] 340 313 360 380 325 340 365 344 335 325 332 340 307 336 330 330 340 346
## [1171] 352 339 320 353 323 345 362 348 335 373 341 345 332 335 343 345 320 324
## [1189] 330 333 323 360 325 325 354 365 348 340 310 330 330 312 325 342 350 350
## [1207] 335 345 352 325 325 346 343 355 360 335 305 344 325 334 372 335 357 337
## [1225] 347 347 347 343 353 346 309 331 340 340 344 350 315 342 325 363 358 322
## [1243] 340 340 320 335 266 327 356 365 325 365 351 332 335 350 332 327 353 360
## [1261] 335 355 350 340 346 343 332 320 347 340 326 307 350 305 313 331 355 330
## [1279] 345 355 346 376 330 356 320 335 332 360 336 320 343 380 360 336 334 343
## [1297] 340 339 357 325 350 325 365 343 352 355 346 326 344 305 350 370 347 340
## [1315] 365 315 325 340 325 383 323 355 355 343 338 328 354 339 340 350 346 326
## [1333] 325 353 350 325 350 358 362 349 357 330 340 326 345 345 340 350 355 339
## [1351] 356 350 345 338 390 304 340 340 337 315 330 336 350 345 345 347 325 340
## [1369] 341 330 325 312 342 352 363 345 355 320 355 343 340 330 292 342 350 336
## [1387] 330 367 330 342 345 324 304 342 341 326 349 314 373 364 346 370 315 336
## [1405] 330 322 330 352 360 308 330 327 335 345 350 342 350 380 322 365 330 365
## [1423] 336 319 352 292 355 355 324 360 364 330 370 316 347 352 357 375 348 353
## [1441] 361 335 334 335 345 330 330 335 360 345 356 360 335 335 314 335 360 335
## [1459] 360 350 340 330 336 339 342 344 360 333 320 355 340 343 340 325 335 332
## [1477] 350 349 315 336 360 338 340 337 343 330 340 340 355 341 347 345 355 345
## [1495] 330 352 325 345 330 325 343 340 337 345 346 345 337 305 310 322 367 350
## [1513] 344 330 350 320 330 332 325 335 340 328 351 361 350 338 370 344 340 355
## [1531] 354 343 326 355 356 355 352 353 343 340 342 326 325 357 305 330 340 360
## [1549] 374 330 360 329 340 300 337 315 349 328 342 325 340 368 326 340 310 345
## [1567] 364 347 347 330 366 350 365 342 310 340 340 320 350 350 375 360 340 315
## [1585] 346 361 340 360 330 333 304 360 330 370 343 335 330 345 332 346 330 350
## [1603] 343 352 320 336 350 293 341 331 345 360 350 315 330 340 278 348 362 340
## [1621] 358 335 323 353 350 312 325 330 360 370 340 328 322 334 333 335 365 338
## [1639] 330 320 338 360 325 360 333 330 330 331 353 320 335 310 327 340 350 320
## [1657] 341 360 348 340 330 327 338 344 333 346 330 335 344 332 345 330 324 340
## [1675] 358 318 342 340 349 345 345 354 344 308 335 319 330 350 357 300 305 334
## [1693] 345 340 375 345 339 340 301 357 335 348 340 340 350 340 363 349 355 300
## [1711] 354 340 350 355 353 320 325 355 360 340 327 360 360 355 334 338 332 343
## [1729] 355 340 330 338 345 338 342 352 345 347 340 348 305 332 378 345 325 350
## [1747] 345 326 353 336 354 337 303 332 346 332 342 350 320 343 346 333 335 340
## [1765] 350 345 366 353 332 345 355 372 380 327 331 325 337 253 335 370 330 340
## [1783] 326 340 355 355 321 355 315 330 340 362 350 335 365 332 312 323 355 330
## [1801] 335 345 334 355 335 353 277 350 333 350 350 350 334 364 355 340 317 344
## [1819] 338 345 362 331 350 360 310 342 362 348 340 340 342 325 317 330 340 360
## [1837] 325 370 340 340 343 310 320 332 340 358 345 352 344 360 340 365 356 300
## [1855] 310 371 333 326 334 327 343 334 340 345 345 390 330 345 335 352 344 354
## [1873] 355 340 343 361 335 355 315 330 320 342 355 322 340 364 332 340 344 340
## [1891] 312 345 331 340 343 352 340 345 360 337 331 343 330 340 345 340 335 345
## [1909] 312 330 337 340 315 340 340 340 340 350 346 318 340 344 340 358 340 327
## [1927] 312 331 330 350 350 360 343 335 358 320 340 362 346 365 335 345 325 325
## [1945] 352 340 337 362 341 352 345 346 340 350 335 325 357 345 348 340 362 350
## [1963] 342 338 340 340 360 325 335 335 332 345 335 325 350 336 320 354 329 330
## [1981] 340 332 354 345 354 350 347 337 352 320 343 327 343 360 350 353 370 366
## [1999] 330 348 325 335 330 309 350 365 355 365 356 333 371 360 353 381 335 355
## [2017] 325 335 339 350 354 315 342 345 323 360 330 340 325 337 348 330 340 333
## [2035] 368 320 340 359 343 345 342 326 345 360 361 370 355 329 350 335 337 342
## [2053] 363 325 350 338 340 336 316 347 328 340 330 355 353 330 360 330 340 320
## [2071] 355 335 330 360 333 360 335 338 345 350 345 355 320 355 355 345 305 335
## [2089] 342 336 348 325 332 339 340 346 338 330 361 362 310 340 340 342 333 359
## [2107] 325 340 325 368 330 270 309 355 330 332 350 267 361 330 330 360 352 345
## [2125] 355 320 365 345 340 350 332 340 345 373 348 330 335 290 345 350 356 345
## [2143] 334 360 310 350 276 360 335 313 363 346 350 320 347 335 330 356 345 326
## [2161] 335 318 348 330 328 325 345 333 332 360 345 335 235 340 360 325 345 370
## [2179] 345 350 326 360 350 355 345 340 335 345 356 345 340 340 335 320 332 323
## [2197] 336 294 338 325 334 360 325 342 340 330 324 335 350 334 299 357 298 330
## [2215] 315 355 352 313 335 350 340 312 290 354 350 335 345 337 365 345 325 326
## [2233] 373 348 327 335 329 336 337 331 326 350 350 365 340 350 368 335 335 326
## [2251] 350 340 332 342 300 342 342 358 346 345 335 336 326 320 335 345 337 334
## [2269] 365 325 300 344 318 340 321 325 312 315 333 348 363 350 350 340 337 320
## [2287] 354 355 322 340 338 330 345 357 350 350 354 370 350 356 356 345 331 315
## [2305] 273 340 328 344 339 357 340 335 340 336 340 307 365 327 310 360 370 346
## [2323] 340 338 354 324 330 350 350 324 324 310 340 327 362 330 325 340 365 343
## [2341] 350 345 356 344 348 340 335 345 349 345 328 350 345 335 342 333 313 354
## [2359] 325 350 338 322 355 330 350 323 350 330 365 332 344 338 325 325 315 351
## [2377] 336 320 335 375 350 330 325 355 330 330 370 323 366 355 340 350 345 355
## [2395] 345 343 328 352 326 362 357 340 325 346 355 290 343 355 355 344 345 345
## [2413] 348 337 378 340 353 334 358 353 356 347 343 335 340 335 368 322 340 340
## [2431] 368 343 347 346 265 315 370 340 320 374 332 325 350 348 334 357 350 346
## [2449] 352 245 326 340 330 323 345 300 334 334 338 342 353 346 345 337 340 360
## [2467] 355 336 345 339 330 315 322 315 340 324 348 350 355 336 340 352 350 339
## [2485] 356 355 353 350 331 331 345 330 360 350 336 330 320 340
  plot(Cranio,  pch= 20)

  plot(Peso, Cranio,  pch= 20)

Lo studio prende in considerazione campioni con diametro craniale da min 235.0mm a max 390.0 mm con media 340.0mm. Grafico Cranio: non ci sono anomalie Grafico Peso-Cranio: sono presenti due valori anomali che associano ad un basso peso un elevato diametro craniale (osservazioni n 310 e 1427). La variabile cranio è correlata alla variabile risposta Peso.

which(Cranio>350 & Peso <2000)
## [1]  310 1427

Variabili qualitative

Fumatrici

freq_ass_fumatrici <- table(dati$Fumatrici)
  freq_rel_fumatrici <- table(dati$Fumatrici)/n
  dist_freq_fumatrici <- cbind(freq_ass_fumatrici,freq_rel_fumatrici)
  dist_freq_fumatrici
##   freq_ass_fumatrici freq_rel_fumatrici
## 0               2394         0.95836669
## 1                104         0.04163331
boxplot(Peso ~ Fumatrici)

    mean(Peso[Fumatrici=="1"])
## [1] 3236.346
    mean(Peso[Fumatrici=="0"])
## [1] 3286.262
    t.test(Peso~Fumatrici)
## 
##  Welch Two Sample t-test
## 
## data:  Peso by Fumatrici
## t = 1.0362, df = 114.12, p-value = 0.3023
## alternative hypothesis: true difference in means between group 0 and group 1 is not equal to 0
## 95 percent confidence interval:
##  -45.5076 145.3399
## sample estimates:
## mean in group 0 mean in group 1 
##        3286.262        3236.346

Lo studio prende in considerazioni 2394 non fumatrici e 104 fumatrici. Il grafico mostra come neonati di madri fumatrici hanno un peso inferiore a neonati di madri non fumatrici. Variaile scientificamente correlata alla variabile peso.

LINK

Tipo.parto

freq_ass_tipo_parto <- table(dati$Tipo.parto)
  freq_rel_tipo_parto <- table(dati$Tipo.parto)/n
  dist_freq_tipo_parto <- cbind(freq_ass_tipo_parto,freq_rel_tipo_parto)
  dist_freq_tipo_parto
##     freq_ass_tipo_parto freq_rel_tipo_parto
## Ces                 728           0.2914331
## Nat                1770           0.7085669
boxplot(Peso ~ Tipo.parto)

    mean(Peso[Tipo.parto=="1"])
## [1] NaN
    mean(Peso[Tipo.parto=="0"])
## [1] NaN
    t.test(Peso~Tipo.parto)
## 
##  Welch Two Sample t-test
## 
## data:  Peso by Tipo.parto
## t = -0.13626, df = 1494.4, p-value = 0.8916
## alternative hypothesis: true difference in means between group Ces and group Nat is not equal to 0
## 95 percent confidence interval:
##  -46.44246  40.40931
## sample estimates:
## mean in group Ces mean in group Nat 
##          3282.047          3285.063

Il 29.14% sono parti cesari il 70.86% sono parti naturali

Variabile statisticamente non rilevante.

Ospedale

attach(dati)     
## I seguenti oggetti sono mascherati da dati (pos = 3):
## 
##     Anni.madre, Cranio, Fumatrici, Gestazione, Lunghezza, N.gravidanze,
##     Ospedale, Peso, Sesso, Tipo.parto
## I seguenti oggetti sono mascherati da dati (pos = 4):
## 
##     Anni.madre, Cranio, Fumatrici, Gestazione, Lunghezza, N.gravidanze,
##     Ospedale, Peso, Sesso, Tipo.parto
## I seguenti oggetti sono mascherati da dati (pos = 5):
## 
##     Anni.madre, Cranio, Fumatrici, Gestazione, Lunghezza, N.gravidanze,
##     Ospedale, Peso, Sesso, Tipo.parto
## I seguenti oggetti sono mascherati da dati (pos = 6):
## 
##     Anni.madre, Cranio, Fumatrici, Gestazione, Lunghezza, N.gravidanze,
##     Ospedale, Peso, Sesso, Tipo.parto
freq_ass_ospedale <- table(dati$Ospedale)
  freq_rel_ospedale <- table(dati$Ospedale)/n
  dist_freq_ospedale <- cbind(freq_ass_ospedale,freq_rel_ospedale)
  dist_freq_ospedale
##      freq_ass_ospedale freq_rel_ospedale
## osp1               816         0.3266613
## osp2               848         0.3394716
## osp3               834         0.3338671
boxplot( Peso ~ Ospedale)

    mean(Peso[Ospedale=="1"])
## [1] NaN
    mean(Peso[Ospedale=="0"])
## [1] NaN

I parti sono equamente distribuiti tra i 3 ospedali. Variabile statisticamente non rilevante.

Sesso

freq_ass_Sesso <- table(dati$Sesso)
freq_rel_Sesso <- table(dati$Sesso)/n
dist_freq_Sesso <- cbind(freq_ass_Sesso,freq_rel_Sesso)
dist_freq_Sesso
##   freq_ass_Sesso freq_rel_Sesso
## F           1255      0.5024019
## M           1243      0.4975981
boxplot(Peso ~ Sesso)

    mean(Peso[Sesso=="M"])
## [1] 3408.496
    mean(Peso[Sesso=="F"])
## [1] 3161.061
    t.test(Peso~Sesso)
## 
##  Welch Two Sample t-test
## 
## data:  Peso by Sesso
## t = -12.115, df = 2488.7, p-value < 2.2e-16
## alternative hypothesis: true difference in means between group F and group M is not equal to 0
## 95 percent confidence interval:
##  -287.4841 -207.3844
## sample estimates:
## mean in group F mean in group M 
##        3161.061        3408.496

Con un pvalue basso si rifiuta l’ipotesi nulla. Le medie sono significativamente diverse. Mi aspetto un beta di regressione significativo, quindi ha senso inserire questa variabile nel modello, utilizzandola come variabile controllo.

1. In aucuni ospedali si fanno più parti cesarei

il test Chi-quadro permette di verificare se c’è una differenza significativa tra le frequenze osservate e attese in due o più categorie .

  • Preparo i dati sottoforma di tabella di condingenza:
tab_proporzioni_ospedale_tipo.parto <-round(prop.table(table(Ospedale, Tipo.parto), margin=1)*100)
tab_proporzioni_ospedale_tipo.parto
##         Tipo.parto
## Ospedale Ces Nat
##     osp1  30  70
##     osp2  30  70
##     osp3  28  72
  • eseguo il test del chi-quadrato
#H0 (ipotesi nulla): Indipendenza tra le variabili 
#H1 (ipotesi alternativa): Associazione tra le variabili

chisq.test(tab_proporzioni_ospedale_tipo.parto)
## 
##  Pearson's Chi-squared test
## 
## data:  tab_proporzioni_ospedale_tipo.parto
## X-squared = 0.12864, df = 2, p-value = 0.9377

Con un p-value di 0.9377 non si rifiuta l’ipotesi nulla, non si può affermare che òla variabile ospedale e la variabile tipo.parto siano dipendenti tra loro.

2. La media del peso e della lunghezza di questo campione di neonati sono significativamente uguali a quelle della popolazione

Per poter verificare questa condizione è necessario stabilire quale sia la media della popolazione. Prendo informazioni dalla letteatura: peso 3300g e lunghezza 500mm

#HO: ipotesi nulla - peso medio = 3300
#H1: ipotesi alternativa - peso medio != 3300

t.test(Peso,
       mu = 3300,
       conf.level = 0.95,
       alternative = "two.sided")
## 
##  One Sample t-test
## 
## data:  Peso
## t = -1.505, df = 2497, p-value = 0.1324
## alternative hypothesis: true mean is not equal to 3300
## 95 percent confidence interval:
##  3263.577 3304.791
## sample estimates:
## mean of x 
##  3284.184
#H0: ipotesi nulla - lunghezza media = 500
#H1: ipotesi alternativa - lunghezza media != 500
t.test(Lunghezza,
       mu = 500,
       conf.level = 0.95,
       alternative = "two.sided")
## 
##  One Sample t-test
## 
## data:  Lunghezza
## t = -10.069, df = 2497, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 500
## 95 percent confidence interval:
##  493.6628 495.7287
## sample estimates:
## mean of x 
##  494.6958

Non si rifiuta l’ipotesi nulla, il valore della media del peso di questo campione è significativamente uguale alla media del peso della popolazione. Il valore della media della linghezza differisce dalla media della popolazione, anche se di poco.

3. Le misure antropometriche sono significativamente diverse tra i due sessi

Per poter indagare questa ipotesi alternativa creo delle distribuzione di Peso, Lunghezza e Cranio (uniche misure antropometriche) in relazione al sesso del neonato.

->PESO

ggplot(data = dati)+
          geom_half_boxplot (aes(y=Peso,x=Sesso),
                            side="l",fill="pink")+
          geom_half_violin (aes(y=Peso,x=Sesso),
                           side="r", fill = "lightblue")+
           labs(x="",
               y="Peso (g)",
               title = "Distribuzione del peso \nin relazione al sesso del neonato")+
          theme_classic()+
          theme(plot.title = element_text(size=14, hjust = 0.5, face = "bold"))+
          theme(legend.title = element_text(face="bold"))+
          scale_fill_discrete(
            labels = c("F" = "Femmina", "M" = "Maschio"),
            name = "Sesso")

->LUNGHEZZA

ggplot(data = dati)+
  geom_half_boxplot(aes(y=Lunghezza,x=Sesso),
                    side="l",fill="pink")+
  geom_half_violin(aes(y=Lunghezza,x=Sesso),
                   side="r", fill = "lightblue")+
   labs(x="",
       y="Lunghezza (mm)",
       title = "Distribuzione della lunghezza \nin relazione al sesso del neonato")+
  theme_classic()+
  theme(plot.title = element_text(size=14, hjust = 0.5, face = "bold"))+
  theme(legend.title = element_text(face="bold"))+
  scale_fill_discrete(
    labels = c("F" = "Femmina", "M" = "Maschio"),
    name = "Sesso")

-> CRANIO

ggplot(data = dati)+
  geom_half_boxplot(aes(y=Cranio,x=Sesso),
                    side="l",fill="pink")+
  geom_half_violin(aes(y=Cranio,x=Sesso),
                   side="r", fill = "lightblue")+
   labs(x="",
       y="Cranio (mm)",
       title = "Distribuzione della circonferenza del cranio \nin relazione al sesso del neonato")+
  theme_classic()+
  theme(plot.title = element_text(size=14, hjust = 0.5, face = "bold"))+
  theme(legend.title = element_text(face="bold"))+
  scale_fill_discrete(
    labels = c("F" = "Femmina", "M" = "Maschio"),
    name = "Sesso")

Peso, lunghezza e circonferenza del cranio sono maggiori nei maschi.

Creazione del modello di regressione

Riprendendo la matrice di collinearità:

?pairs
    
    panel.cor <- function(x, y, digits = 2, prefix = "", cex.cor, ...)
    {
      par(usr = c(0, 1, 0, 1))
      r <- abs(cor(x, y))
      txt <- format(c(r, 0.123456789), digits = digits)[1]
      txt <- paste0(prefix, txt)
      if(missing(cex.cor)) cex.cor <- 0.8/strwidth(txt)
      text(0.5, 0.5, txt, cex = 1.5)
    }
    pairs(dati,upper.panel = panel.smooth, lower.panel = panel.cor)

Dalla matrice di correlazione e le analisi descrittive svolte, le variabili maggiormente rilevanti sono: - Geestazione - Lunghezza - Cranio - Fumatrici (per letteratura)

ci sono non linearità nelle relazioni : - Peso/Cranio - Peso/Lunghezza - Peso/Gestazione

All’interno della creazione del modello non verranno prese in considerazione. a priori , le variabili : - Ospedale di nascita - Tipo di Parto

MOD1

Prendo in considerazione tutte le variabili.

mod1<- lm (Peso ~ Anni.madre + N.gravidanze + Fumatrici + Gestazione + Lunghezza + Cranio + Sesso ,
             data= dati)
  summary(mod1)
## 
## Call:
## lm(formula = Peso ~ Anni.madre + N.gravidanze + Fumatrici + Gestazione + 
##     Lunghezza + Cranio + Sesso, data = dati)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1160.6  -181.3   -15.7   163.6  2630.7 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -6712.2405   141.3339 -47.492  < 2e-16 ***
## Anni.madre       0.8803     1.1491   0.766    0.444    
## N.gravidanze    11.3789     4.6767   2.433    0.015 *  
## Fumatrici1     -30.3958    27.6080  -1.101    0.271    
## Gestazione      32.9472     3.8288   8.605  < 2e-16 ***
## Lunghezza       10.2316     0.3011  33.979  < 2e-16 ***
## Cranio          10.5198     0.4271  24.633  < 2e-16 ***
## SessoM          78.0787    11.2132   6.963 4.24e-12 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 274.7 on 2490 degrees of freedom
## Multiple R-squared:  0.7272, Adjusted R-squared:  0.7264 
## F-statistic: 948.3 on 7 and 2490 DF,  p-value: < 2.2e-16

Considerazioni

Variabili statisticamente rilevanti con p-value tendente a 0:

  • Gestazione: per ogni settimna di gestazione il feto aumenta il proprio peso di 32.93 grammi

  • Cranio: per ogni centimetro di circonferenza del cranio il peso del feto aumenta di 10.52 grammi

  • Lunghezza: per ogni mm il feto aumenta di 10.23 grammi

La variabile N.Gravidante, con un p-vaue 0.0158, è rilevante e positivo. All’aumentare delle graidanze sostenute aumenta il peso del neonato.

La variabile Anni.madre, con un coefficiente +, ha un effetto positivo sull’aumento del peso ma non è statisticamente rilevante.

La variabile Fumatrici ha un p-value alto e quindi una bassa significatività. La letteratura scientifica considera il fumo come una variabile essenziale nello sviluppo del feto e quindi anche del suo peso, per questa ragione non scarterò la variabile.

l’Rquadro = 0.7264 , valido.

Essendo Anni.madre una variabile non rilevante la elimino dal modello:

MOD2

mod2 <- update(mod1, ~. -Anni.madre)
  summary(mod2)
## 
## Call:
## lm(formula = Peso ~ N.gravidanze + Fumatrici + Gestazione + Lunghezza + 
##     Cranio + Sesso, data = dati)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1150.24  -181.32   -15.73   162.95  2635.69 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -6682.2637   135.7983 -49.207  < 2e-16 ***
## N.gravidanze    12.6996     4.3470   2.921  0.00352 ** 
## Fumatrici1     -30.5728    27.6048  -1.108  0.26818    
## Gestazione      32.6437     3.8079   8.573  < 2e-16 ***
## Lunghezza       10.2309     0.3011  33.979  < 2e-16 ***
## Cranio          10.5366     0.4265  24.707  < 2e-16 ***
## SessoM          78.1596    11.2117   6.971 4.01e-12 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 274.7 on 2491 degrees of freedom
## Multiple R-squared:  0.7271, Adjusted R-squared:  0.7265 
## F-statistic:  1106 on 6 and 2491 DF,  p-value: < 2.2e-16

Non ci sono variazioni rilevanti. Questo conferma che la variabile Anni.madre non è rilevante.

Rimuovendo N.grvidanze, la variabile meno rievante di quelle rimaste (Ad esclusione della varianile Fumatici che, come specificato, mantengo all’intero del modello):

MOD3

mod3<- update(mod2, ~. - N.gravidanze)
  summary(mod3)
## 
## Call:
## lm(formula = Peso ~ Fumatrici + Gestazione + Lunghezza + Cranio + 
##     Sesso, data = dati)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1138.71  -182.48   -17.35   162.80  2623.54 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -6651.6294   135.5974 -49.054  < 2e-16 ***
## Fumatrici1    -26.4825    27.6109  -0.959    0.338    
## Gestazione     31.5343     3.7947   8.310  < 2e-16 ***
## Lunghezza      10.1890     0.3012  33.828  < 2e-16 ***
## Cranio         10.6691     0.4247  25.122  < 2e-16 ***
## SessoM         79.2767    11.2221   7.064 2.09e-12 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 275.1 on 2492 degrees of freedom
## Multiple R-squared:  0.7262, Adjusted R-squared:  0.7257 
## F-statistic:  1322 on 5 and 2492 DF,  p-value: < 2.2e-16

Non ci sono variazioni rilevanti. La variabile N.Gravidanze non ha rilevanza statistica sulla variabile peso ma dovendo predirre il peso del neonato anche in base alla variabile N.gravidanza, come richiesto dal progetto, lascio la variabile nel modello e scarto il MOD3.

Aggiungendo effetTi quadratici sul MOD2 :

MOD4 effetto quadratico Gestazione

mod4 <-  lm (Peso ~ Fumatrici + I(Gestazione^2) + Lunghezza + Cranio + Sesso + N.gravidanze ,
             data= dati)
          summary(mod4)
## 
## Call:
## lm(formula = Peso ~ Fumatrici + I(Gestazione^2) + Lunghezza + 
##     Cranio + Sesso + N.gravidanze, data = dati)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1147.66  -181.39   -15.11   164.55  2639.94 
## 
## Coefficients:
##                   Estimate Std. Error t value Pr(>|t|)    
## (Intercept)     -6.096e+03  1.237e+02 -49.302  < 2e-16 ***
## Fumatrici1      -3.042e+01  2.759e+01  -1.103   0.2702    
## I(Gestazione^2)  4.420e-01  5.066e-02   8.725  < 2e-16 ***
## Lunghezza        1.024e+01  2.991e-01  34.250  < 2e-16 ***
## Cranio           1.056e+01  4.258e-01  24.796  < 2e-16 ***
## SessoM           7.748e+01  1.121e+01   6.914 5.98e-12 ***
## N.gravidanze     1.278e+01  4.345e+00   2.941   0.0033 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 274.5 on 2491 degrees of freedom
## Multiple R-squared:  0.7274, Adjusted R-squared:  0.7268 
## F-statistic:  1108 on 6 and 2491 DF,  p-value: < 2.2e-16

L’effetto quadratico sulla variabile Gestazione ha fatto calare notevolmente l’effetto delle altre variabili sul peso e non ha apportato migliramenti statisticamente significativi degli altri paramentri. Mod4 è da scartare.

MOD5 effetto quadratico Lunghezza

mod5 <- lm (Peso ~ Fumatrici + Gestazione + I(Lunghezza^2) + Cranio + Sesso + N.gravidanze,
             data= dati)
         summary(mod5)
## 
## Call:
## lm(formula = Peso ~ Fumatrici + Gestazione + I(Lunghezza^2) + 
##     Cranio + Sesso + N.gravidanze, data = dati)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1162.20  -179.73   -11.76   165.24  2379.14 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    -4.338e+03  1.442e+02 -30.075  < 2e-16 ***
## Fumatrici1     -2.762e+01  2.732e+01  -1.011  0.31222    
## Gestazione      3.504e+01  3.720e+00   9.419  < 2e-16 ***
## I(Lunghezza^2)  1.080e-02  3.078e-04  35.077  < 2e-16 ***
## Cranio          1.046e+01  4.212e-01  24.836  < 2e-16 ***
## SessoM          7.472e+01  1.110e+01   6.729 2.12e-11 ***
## N.gravidanze    1.336e+01  4.303e+00   3.104  0.00193 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 271.9 on 2491 degrees of freedom
## Multiple R-squared:  0.7327, Adjusted R-squared:  0.7321 
## F-statistic:  1138 on 6 and 2491 DF,  p-value: < 2.2e-16

Le variaili Gestazione, Lunghezza, Cranio e Sesso hanno una elevta importanza statistica; Per la variabile lunghezza il coefficiente Etimate diminuisce di molto. La variabile Fumatrici non è statisticamente rilevante ma la mantengo per la sua importanza dimostrata scientificamente. Ad ora il miglior R2 .

MOD6 effetto quadratico Cranio

mod6 <-  lm (Peso ~ Fumatrici + Gestazione + Lunghezza + I(Cranio^2) + Sesso + N.gravidanze  ,
             data= dati)
          summary(mod6)
## 
## Call:
## lm(formula = Peso ~ Fumatrici + Gestazione + Lunghezza + I(Cranio^2) + 
##     Sesso + N.gravidanze, data = dati)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1147.39  -180.64   -15.01   163.99  2621.39 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -4.995e+03  1.243e+02 -40.182  < 2e-16 ***
## Fumatrici1   -2.953e+01  2.752e+01  -1.073  0.28343    
## Gestazione    3.413e+01  3.787e+00   9.012  < 2e-16 ***
## Lunghezza     1.026e+01  2.990e-01  34.307  < 2e-16 ***
## I(Cranio^2)   1.575e-02  6.279e-04  25.085  < 2e-16 ***
## SessoM        7.682e+01  1.118e+01   6.871    8e-12 ***
## N.gravidanze  1.265e+01  4.333e+00   2.919  0.00354 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 273.9 on 2491 degrees of freedom
## Multiple R-squared:  0.7288, Adjusted R-squared:  0.7281 
## F-statistic:  1116 on 6 and 2491 DF,  p-value: < 2.2e-16

Miglioramenti non rilevanti . Modello da scartare.

MOD 7

mod7 <- lm (Peso ~ Fumatrici + Gestazione + Lunghezza* Cranio + Sesso + N.gravidanze,
             data= dati)
         summary(mod7)
## 
## Call:
## lm(formula = Peso ~ Fumatrici + Gestazione + Lunghezza * Cranio + 
##     Sesso + N.gravidanze, data = dati)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1151.5  -180.2   -12.5   165.5  2861.5 
## 
## Coefficients:
##                    Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      -1.820e+03  1.018e+03  -1.788  0.07393 .  
## Fumatrici1       -2.843e+01  2.749e+01  -1.034  0.30112    
## Gestazione        3.837e+01  3.973e+00   9.658  < 2e-16 ***
## Lunghezza        -2.830e-01  2.203e+00  -0.128  0.89778    
## Cranio           -4.706e+00  3.192e+00  -1.474  0.14060    
## SessoM            7.342e+01  1.121e+01   6.553 6.85e-11 ***
## N.gravidanze      1.316e+01  4.329e+00   3.040  0.00239 ** 
## Lunghezza:Cranio  3.146e-02  6.531e-03   4.817 1.54e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 273.5 on 2490 degrees of freedom
## Multiple R-squared:  0.7297, Adjusted R-squared:  0.7289 
## F-statistic: 960.1 on 7 and 2490 DF,  p-value: < 2.2e-16

L’R2 non è diminuito e le variabili Lunghezza e Cranio hanno ora un effetto negativo. Modello da scartare.

Controllo con MASS:

stepwise.mod <- MASS :: stepAIC(mod1,
                                direction = "both",
                                k=log(n))
## Start:  AIC=28110.64
## Peso ~ Anni.madre + N.gravidanze + Fumatrici + Gestazione + Lunghezza + 
##     Cranio + Sesso
## 
##                Df Sum of Sq       RSS   AIC
## - Anni.madre    1     44292 187949505 28103
## - Fumatrici     1     91474 187996688 28104
## - N.gravidanze  1    446756 188351970 28109
## <none>                      187905214 28111
## - Sesso         1   3658879 191564093 28151
## - Gestazione    1   5587942 193493156 28176
## - Cranio        1  45789523 233694736 28648
## - Lunghezza     1  87128339 275033553 29054
## 
## Step:  AIC=28103.4
## Peso ~ N.gravidanze + Fumatrici + Gestazione + Lunghezza + Cranio + 
##     Sesso
## 
##                Df Sum of Sq       RSS   AIC
## - Fumatrici     1     92548 188042054 28097
## <none>                      187949505 28103
## - N.gravidanze  1    643981 188593487 28104
## + Anni.madre    1     44292 187905214 28111
## - Sesso         1   3666800 191616305 28144
## - Gestazione    1   5544825 193494331 28168
## - Cranio        1  46056754 234006260 28643
## - Lunghezza     1  87116561 275066067 29047
## 
## Step:  AIC=28096.81
## Peso ~ N.gravidanze + Gestazione + Lunghezza + Cranio + Sesso
## 
##                Df Sum of Sq       RSS   AIC
## <none>                      188042054 28097
## - N.gravidanze  1    621053 188663107 28097
## + Fumatrici     1     92548 187949505 28103
## + Anni.madre    1     45366 187996688 28104
## - Sesso         1   3650790 191692844 28137
## - Gestazione    1   5477493 193519547 28161
## - Cranio        1  46098547 234140601 28637
## - Lunghezza     1  87532691 275574744 29044
summary(stepwise.mod)
## 
## Call:
## lm(formula = Peso ~ N.gravidanze + Gestazione + Lunghezza + Cranio + 
##     Sesso, data = dati)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1149.37  -180.98   -15.57   163.69  2639.09 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -6681.7251   135.8036 -49.201  < 2e-16 ***
## N.gravidanze    12.4554     4.3416   2.869  0.00415 ** 
## Gestazione      32.3827     3.8008   8.520  < 2e-16 ***
## Lunghezza       10.2455     0.3008  34.059  < 2e-16 ***
## Cranio          10.5410     0.4265  24.717  < 2e-16 ***
## SessoM          77.9807    11.2111   6.956 4.47e-12 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 274.7 on 2492 degrees of freedom
## Multiple R-squared:  0.727,  Adjusted R-squared:  0.7265 
## F-statistic:  1327 on 5 and 2492 DF,  p-value: < 2.2e-16

Il stepwise.mod riprende il MOD2 eliminando la varaiabile Fumatrici, con R2 uguale. A parità di R2 si predilige il modello più semplice ma mantendo il modello MOD2 e approfondisco con i vari esami.

Ad ora predo in considerazione MOD2, MOD5 e stepwise.mod.

anova

Un ulteriore studio che possiamo fare su questi modelli prevede di applicare ANOVA test per comprendere se sia necessario aggiungere o meno una variabile.

anova(mod2,stepwise.mod)
## Analysis of Variance Table
## 
## Model 1: Peso ~ N.gravidanze + Fumatrici + Gestazione + Lunghezza + Cranio + 
##     Sesso
## Model 2: Peso ~ N.gravidanze + Gestazione + Lunghezza + Cranio + Sesso
##   Res.Df       RSS Df Sum of Sq      F Pr(>F)
## 1   2491 187949505                           
## 2   2492 188042054 -1    -92548 1.2266 0.2682

Non ci sono differenze significative quindi, come già dedotto in precedenza, la variabile Fumatrici non è statisticamente rilevante.

anova(mod5,stepwise.mod)
## Analysis of Variance Table
## 
## Model 1: Peso ~ Fumatrici + Gestazione + I(Lunghezza^2) + Cranio + Sesso + 
##     N.gravidanze
## Model 2: Peso ~ N.gravidanze + Gestazione + Lunghezza + Cranio + Sesso
##   Res.Df       RSS Df Sum of Sq      F    Pr(>F)    
## 1   2491 184123318                                  
## 2   2492 188042054 -1  -3918735 53.017 4.414e-13 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Il valore F è elevato, suggerendo che l’aggiunta delle variabili in MOD5 ha migliorato significativamente l’adattamento del modello ai dati. Il p-value = 4.268e-13 è estremamente basso e molto inferiore a 0.05. Questo implica che la differenza tra i due modelli è statisticamente significativa. In altre parole, l’inclusione di “Fumatrici” e “I(Lunghezza^2)” nel Modello 1 ha migliorato significativamente la previsione del Peso rispetto al stepwise.mod.

Conclusioni:

MOD5 è significativamente migliore di stepwise.mod nel predire il Peso, come dimostrato dal p-value molto basso (4.268e-13). L’inclusione di variabili come “Fumatrici” e la trasformazione di “Lunghezza” hanno apportato una miglior adattamento al modello. L’F alto (53.084) e il p-value basso confermano che la differenza tra i modelli è statisticamente significativa.

#Selzione del Modello Ottimale

AIC(mod5, mod2, stepwise.mod)
##              df      AIC
## mod5          8 35102.28
## mod2          8 35153.66
## stepwise.mod  7 35152.89
BIC(mod5, mod2, stepwise.mod)
##              df      BIC
## mod5          8 35148.86
## mod2          8 35200.24
## stepwise.mod  7 35193.65

Per entrambi i test il modello migliore è MOD5.

Analisi della Qualità del modello

RMSE

RMSE_mod5 <- sqrt(mean(mod5$residuals^2))
RMSE_mod2 <- sqrt(mean( mod2$residuals^2))
RMSE_stepwise.mod <- sqrt(mean(stepwise.mod$residuals^2))
RMSE_mod5
## [1] 271.4927
RMSE_mod2
## [1] 274.2991
RMSE_stepwise.mod
## [1] 274.3666

mod5 ha l’RMSE più basso.

Analisi dei residui

par(mfrow=c(2,2))
plot(mod5)

Analisi dei grafici:

Residual vs Fitted -> i punti sono sparsi intorno alla media 0. La casualità della distribuzione conferma l’indipendenza dei residui. 3 osservazioni fuori dalla nuvola(1551,155,1306);

Q-Q Residuals -> I residui seguono una distribuzione normale. 2 osservazioni fuori dalla diagonale(15510, 1306);

Scale-Location -> la distribuzion casuale dei punti indica che i residui sono distribuiti uniformemente quindi la varianza dei residui è costante. Questo suggerisce che il modello si adatta bene ai dati e l’omoschedasticità è soddisfatta. 3 osservazioni fuori dalla nuvola (1551,155,1306);

Residuals vs Leverage -> è utile per identificare i punti influenti che hanno sia leva alta che residui grandi. il valore 1551 è potenzialmente outlier influente che può distorcere i dati.

Analisi del punto 1551

#leverage
lev_mod5 <- hatvalues (mod5)
plot(lev_mod5)
p = sum(lev_mod5)

soglia_mod5= 2*p/n
abline(h= 0.5, col=2)

lev_mod5[lev_mod5>soglia_mod5]
##          13          15          34          67          89          99 
## 0.005708118 0.006876023 0.006805688 0.005897668 0.012911543 0.010469422 
##         101         105         106         120         128         131 
## 0.006995041 0.010612657 0.014530510 0.010038850 0.011340574 0.007166816 
##         134         140         151         155         161         182 
## 0.007564272 0.011483026 0.010934886 0.006717198 0.020759563 0.011308828 
##         194         204         206         220         234         242 
## 0.010835388 0.014649349 0.009408266 0.007226828 0.010862119 0.010244585 
##         251         279         294         296         306         310 
## 0.010913892 0.010508036 0.005977337 0.010169868 0.010841256 0.028819542 
##         312         321         335         378         391         413 
## 0.011812437 0.010726975 0.010943883 0.016022432 0.011010308 0.010554973 
##         424         442         445         473         492         516 
## 0.010772445 0.016105662 0.007473159 0.011302894 0.007456568 0.013221302 
##         538         557         567         572         582         587 
## 0.012134118 0.010689949 0.010345352 0.010610553 0.011647137 0.008331578 
##         592         593         638         656         658         668 
## 0.006387031 0.010420920 0.006668711 0.005887875 0.011309887 0.011647155 
##         684         697         699         703         748         750 
## 0.008879980 0.005841554 0.011084457 0.010805276 0.008235443 0.006738061 
##         757         758         765         805         828         913 
## 0.008203240 0.011576460 0.006045418 0.013733220 0.007256773 0.005650518 
##         928         932         946         947         956         984 
## 0.019619554 0.010460717 0.006835243 0.008027827 0.007494537 0.010406217 
##         985        1014        1017        1026        1037        1051 
## 0.007136621 0.007473135 0.011220946 0.011627703 0.010358098 0.010780865 
##        1067        1091        1106        1110        1118        1130 
## 0.008477274 0.008914795 0.006050317 0.010415817 0.010366902 0.031872704 
##        1170        1175        1181        1188        1200        1219 
## 0.010784806 0.010532957 0.005682812 0.007032049 0.005624950 0.030882105 
##        1227        1238        1248        1262        1271        1273 
## 0.011905467 0.005935261 0.014189562 0.012911611 0.010125077 0.006779989 
##        1282        1285        1291        1293        1311        1321 
## 0.010436405 0.012206236 0.006086713 0.006171431 0.009669681 0.009331054 
##        1326        1333        1357        1368        1379        1385 
## 0.011063939 0.011332006 0.006898447 0.011059164 0.010737712 0.012659895 
##        1397        1398        1400        1410        1411        1415 
## 0.011253321 0.010901097 0.005703189 0.012142596 0.008165863 0.010404715 
##        1425        1426        1428        1429        1443        1449 
## 0.010289707 0.012998554 0.007177508 0.021172744 0.011274989 0.010967066 
##        1450        1458        1473        1480        1505        1512 
## 0.015262068 0.010508036 0.010727016 0.011548073 0.013427484 0.011234739 
##        1525        1537        1551        1553        1556        1576 
## 0.010443866 0.012080832 0.036570061 0.008459145 0.005955036 0.010643589 
##        1583        1610        1619        1626        1652        1660 
## 0.012614712 0.008438076 0.012675126 0.011094706 0.011297869 0.011261592 
##        1672        1686        1691        1701        1712        1718 
## 0.010907732 0.009356735 0.010794350 0.010017120 0.007039542 0.007047609 
##        1720        1727        1761        1763        1780        1781 
## 0.011001247 0.013394323 0.011318772 0.010747495 0.024672155 0.016884165 
##        1789        1809        1827        1902        1906        1920 
## 0.010769543 0.008725469 0.006031084 0.010552566 0.010385456 0.014882601 
##        1929        1933        1962        1971        1977        2003 
## 0.012515212 0.011011070 0.005693979 0.012303694 0.006873821 0.011146571 
##        2016        2040        2046        2049        2086        2089 
## 0.013517920 0.010567428 0.014399868 0.010469422 0.013303644 0.015336698 
##        2101        2110        2114        2115        2120        2140 
## 0.011528353 0.010609524 0.012080653 0.011278073 0.018637509 0.006182295 
##        2145        2146        2148        2149        2157        2175 
## 0.010269333 0.005876224 0.008021279 0.013328172 0.005997243 0.032763925 
##        2200        2202        2216        2220        2221        2224 
## 0.011668460 0.010361113 0.007951572 0.013758565 0.021754488 0.005836658 
##        2237        2238        2244        2245        2256        2257 
## 0.010683235 0.010919952 0.006995664 0.013703553 0.010585938 0.005796903 
##        2270        2282        2285        2307        2317        2337 
## 0.011002384 0.010985936 0.010718038 0.013433560 0.007766744 0.014259427 
##        2353        2359        2361        2408        2412        2422 
## 0.012937995 0.010104024 0.010614721 0.009655121 0.010414054 0.021705852 
##        2437        2450        2452        2458        2459        2465 
## 0.021501089 0.010703602 0.023729942 0.008490468 0.010218607 0.011327410 
##        2471 
## 0.021077922
length(lev_mod5[lev_mod5>soglia_mod5])
## [1] 211
  • OutlierTest(mod5)
plot(rstudent(mod5))
abline(h=c(-2,2),col=2)

car::outlierTest(mod5)
##       rstudent unadjusted p-value Bonferroni p
## 1551  9.059343         2.5851e-19   6.4575e-16
## 155   4.985543         6.6037e-07   1.6496e-03
## 1306  4.845468         1.3407e-06   3.3491e-03
## 1399 -4.294996         1.8139e-05   4.5312e-02

Sono le stesse osservazioni che sono emerse dai grafici precedenti. Approfonsiamo con Cook:

#distanza di cook
cook <- cooks.distance(mod5)
plot(cook, type = "h", main ="Distanza di Cook", ylab = "Cook's Distance" )
abline(h=1, col = "red", lty = 2)

max(cook)
## [1] 0.4310142

Il valore massimo della distanza di Cook è 0.4, sotto la soglia quindi poco influente sul modello.

par(mfrow=c(1,2))
plot(residuals(mod5), pch=20, col="royalblue3")
abline(h=mean(residuals(mod5)), col="turquoise3",lwd=1.5)

plot(density(residuals(mod5)), col="royalblue3")

La distribuzione è molto simile ad una normale, poco simmetrica nelle code.

library(lmtest)
## Warning: il pacchetto 'lmtest' è stato creato con R versione 4.4.2
## Caricamento del pacchetto richiesto: zoo
## 
## Caricamento pacchetto: 'zoo'
## I seguenti oggetti sono mascherati da 'package:base':
## 
##     as.Date, as.Date.numeric
bptest(mod5)
## 
##  studentized Breusch-Pagan test
## 
## data:  mod5
## BP = 56.291, df = 6, p-value = 2.542e-10
dwtest(mod5)
## 
##  Durbin-Watson test
## 
## data:  mod5
## DW = 1.9525, p-value = 0.1173
## alternative hypothesis: true autocorrelation is greater than 0
shapiro.test(residuals(mod5))
## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(mod5)
## W = 0.97839, p-value < 2.2e-16
plot(density(residuals(mod5)))

Questi test servono per verificare che vengano rispettati:

Shapiro-Wilk normality test: normalità della distribuzione;

studentized Breusch-Pagan test: omoschedasticità ;

Durbin-Watson test : ipotesi di non correlazione dei resiui.

robust_se <- sqrt(diag(vcovHC(mod5, type = "HC3")))
coeftest(mod5, vcov = vcovHC(mod5, type = "HC3"))
## 
## t test of coefficients:
## 
##                   Estimate  Std. Error  t value  Pr(>|t|)    
## (Intercept)    -4.3383e+03  1.9314e+02 -22.4618 < 2.2e-16 ***
## Fumatrici1     -2.7620e+01  2.6515e+01  -1.0417  0.297665    
## Gestazione      3.5041e+01  4.7172e+00   7.4283 1.503e-13 ***
## I(Lunghezza^2)  1.0798e-02  6.2046e-04  17.4037 < 2.2e-16 ***
## Cranio          1.0462e+01  7.0603e-01  14.8181 < 2.2e-16 ***
## SessoM          7.4722e+01  1.1015e+01   6.7836 1.459e-11 ***
## N.gravidanze    1.3359e+01  4.5673e+00   2.9249  0.003477 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Sintesi:

  • Eterocedasticità: I residui non hanno varianza costante, il che potrebbe compromettere la validità dei test di significatività dei parametri. Potresti considerare l’uso di errori standard robusti.

  • Autocorrelazione: Non c’è evidenza di autocorrelazione nei residui, il che è positivo, soprattutto per modelli con dati temporali o sequenziali.

  • Normalità: I residui non seguono una distribuzione normale, il che potrebbe rendere problematiche le inferenze statistiche, soprattutto se il modello si basa su assunzioni di normalità. Potresti dover considerare trasformazioni dei dati o tecniche alternative.