Neonatal Health Solutions ha analizzato i dati clinici raccolti da tre ospedali da un campione di 2.500 neonati e ha sviluppato un modello statistico per prevedere il peso dei neonati alla nascita. L’obiettivo del progetto è quello di migliorare la gestione delle gravidanze ad alto rischio, ottimizzare le risorse ospedaliere e migliorare la salute neonatale, prevenendo complicazioni come parti prematuri o neonati sottopeso.
I benefici attesi sono i seguenti:
Migliori previsioni cliniche per intervenire tempestivamente in caso di anomalie.
Ottimizzazione delle risorse ospedaliere prevedendo la necessità di terapie intensive, con conseguente riduzione dei costi e migliore gestione delle strutture.
Prevenzione e identificazione dei fattori di rischio come fumo materno o gravidanze multiple, per un intervento proattivo.
Valutazione delle pratiche ospedaliere, permettendo il confronto tra i tre ospedali e l’armonizzazione delle procedure.
Supporto alla pianificazione strategica aziendale e sanitaria, favorendo politiche più efficaci contro mortalità e morbilità neonatali. Il dataset presenta informazioni sulle seguenti variabili:
Di seguito un’estrazione delle prime 20 righe del dataset:
dati<- read.csv("neonati.csv",sep=",")
if ("dati" %in% search()) {
detach(dati)
}
head(dati,20) #vedo le prime cinque righe
## Anni.madre N.gravidanze Fumatrici Gestazione Peso Lunghezza Cranio
## 1 26 0 0 42 3380 490 325
## 2 21 2 0 39 3150 490 345
## 3 34 3 0 38 3640 500 375
## 4 28 1 0 41 3690 515 365
## 5 20 0 0 38 3700 480 335
## 6 32 0 0 40 3200 495 340
## 7 26 1 0 39 3100 480 345
## 8 25 0 0 40 3580 510 349
## 9 22 1 0 40 3670 500 335
## 10 23 0 0 41 3700 510 362
## 11 29 2 0 38 3410 480 330
## 12 21 2 0 40 3450 515 343
## 13 36 5 0 38 3060 455 325
## 14 24 0 0 40 2960 485 326
## 15 33 3 0 34 2400 470 298
## 16 21 2 0 40 3720 530 345
## 17 36 2 0 36 2950 450 340
## 18 32 3 0 40 3030 490 335
## 19 20 0 0 41 2780 470 330
## 20 22 2 0 38 2950 480 325
## Tipo.parto Ospedale Sesso
## 1 Nat osp3 M
## 2 Nat osp1 F
## 3 Nat osp2 M
## 4 Nat osp2 M
## 5 Nat osp3 F
## 6 Nat osp2 F
## 7 Nat osp3 F
## 8 Nat osp1 M
## 9 Ces osp2 F
## 10 Ces osp2 F
## 11 Ces osp2 M
## 12 Nat osp2 F
## 13 Ces osp1 F
## 14 Ces osp1 F
## 15 Ces osp3 M
## 16 Ces osp1 M
## 17 Nat osp3 M
## 18 Ces osp3 M
## 19 Nat osp3 F
## 20 Nat osp3 M
attach(dati)
All’interno del campione la proporzione tra maschi e femmine risulta sostanzialmente equivalente. Anche la distribuzione dei neonati tra i diversi ospedali appare omogenea: il 33% dei neonati è nato nell’ospedale 1, il 34% nell’ospedale 2 e il restante 33% nell’ospedale 3.
| Sesso | Freq_assoluta | Freq_relativa | Percentuale |
|---|---|---|---|
| F | 1256 | 0.5 | 50.2% |
| M | 1244 | 0.5 | 49.8% |
| Ospedale | Freq_assoluta | Freq_relativa | Percentuale |
|---|---|---|---|
| osp1 | 816 | 0.33 | 32.6% |
| osp2 | 849 | 0.34 | 34% |
| osp3 | 835 | 0.33 | 33.4% |
Anche la presenza di maschi e femmine all’interno di ciascun ospedale,è pressoché equilibrata, con percentuali simili per entrambi i gruppi in ogni struttura.
| osp1 | osp2 | osp3 | |
|---|---|---|---|
| F | 0.164 | 0.174 | 0.165 |
| M | 0.163 | 0.166 | 0.169 |
| osp1 | osp2 | osp3 | |
|---|---|---|---|
| F | 16.4 | 17.4 | 16.5 |
| M | 16.3 | 16.6 | 16.9 |
Il 29.12% dei parti è avvenuto tramite taglio cesareo, contro il 70.88% di parti naturali. Ciò indica che nel campione il parto naturale è nettamente prevalente.
| Livello | Freq_assoluta | Freq_relativa | Percentuale |
|---|---|---|---|
| Ces | 728 | 0.29 | 29.1% |
| Nat | 1772 | 0.71 | 70.9% |
Analizzando la distribuzione del tipo di parto nei diversi ospedali, si osserva che la percentuale di cesarei oscilla tra il 9.28% (ospedale 3), il 9.68% (ospedale 1) e il 10.2% (ospedale 2). La percentuale di parti naturali è simile tra i tre ospedali: 23% (ospedale 1), 23.80% (ospedale 2) e 24.1% (ospedale 3). Questi dati suggeriscono che la gestione dei parti (sia cesarei sia naturali) è simile nei tre ospedali, senza evidenza di particolari differenze o preferenze legate alla tipologia di parto tra le strutture. Questa distribuzione omogenea conferma che non vi sono ospedali con una predilezione marcata per il parto cesareo o naturale.
È stato utilizzato il test chi quadrato per verificare l’ipotesi di indipendenza tra queste due variabili.
| osp1 | osp2 | osp3 | |
|---|---|---|---|
| Ces | 0.097 | 0.102 | 0.093 |
| Nat | 0.230 | 0.238 | 0.241 |
| osp1 | osp2 | osp3 | |
|---|---|---|---|
| Ces | 9.7 | 10.2 | 9.3 |
| Nat | 23.0 | 23.8 | 24.1 |
Il balloon plot riportato di seguito non evidenzia alcun pattern diagonale tra queste due variabili, a conferma dell’assenza di una relazione significativa.
##
## === Test chi-quadro per l'indipendenza ===
## Statistica Chi-quadro: 1.097
## Gradi di libertà: 2
## p-value: 0.5778
L’applicazione del test chi quadrato di indipendenza ha restituito un p-value pari a 0.58. Questo valore risulta ampiamente superiore alla soglia di significatività statistica comunemente utilizzata, fissata a 0.05. Tale evidenza statistica indica che non sussistono elementi sufficienti per rifiutare l’ipotesi nulla, la quale assume che il tipo di parto (cesareo o naturale) sia indipendente dalla struttura ospedaliera presso cui il parto avviene. La frequenza relativa dei diversi tipi di parto risulta omogenea nelle strutture analizzate, suggerendo l’assenza di pratiche o protocolli divergenti che possano influenzare la scelta del tipo di parto in maniera sistematica all’interno del contesto considerato.
Peso Neonatale
Gli indici di posizione relativi al peso dei neonati alla nascita mostrano che il peso minimo osservato è di 830 grammi, mentre il peso massimo raggiunge i 4.930 grammi. Il peso medio si attesta a circa 3.284 grammi, mentre il valore mediano, ossia il peso che divide a metà la distribuzione, è di 3.300 grammi. Un quarto del campione (25%) presenta un peso uguale o inferiore a 2.990 grammi, mentre il 75% dei neonati pesa fino a 3.620 grammi.
summary(Peso)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 830 2990 3300 3284 3620 4930
plot(density(Peso))
abline(v=192.3,col=2)
Gli indici di forma calcolati per questa variabile restituiscono una skewness di -0.65, che indica una distribuzione leggermente asimmetrica a sinistra che sta ad indicare la presenza di alcuni valori di peso particolarmente bassi rispetto alla norma. La kurtosis di 2.03 segnala una distribuzione più appuntita rispetto a una normale, cioè caratterizzata da un picco centrale più pronunciato e da una maggior presenza di valori estremi (outlier) rispetto a una distribuzione normale.
## [1] -0.6470308
## [1] 2.031532
Per valutare se la media del peso dei neonati nel campione sia rappresentativa di quella della popolazione, viene applicato un test z per la verifica dell’ipotesi nulla di uguaglianza tra la media campionaria e la media teorica della popolazione.
Secondo le fonti consultate per questa analisi:
il peso alla nascita dei neonati segue una distribuzione che si avvicina molto a quella normale, pur presentando una coda particolarmente accentuata verso i valori più bassi. Da tali fonti si ricava che la media del peso alla nascita è pari a 3295 grammi, con una deviazione standard di 570 grammi.
Il test z viene condotto utilizzando questi valori come parametri della popolazione di riferimento, adottando un livello di significatività pari a 0,05.
## Warning: il pacchetto 'TeachingDemos' è stato creato con R versione 4.5.1
##
## === Z-test per un campione ===
## Numero di osservazioni : 3295
## Media campionaria : 3284.08
## Deviazione standard pop.:
## Valor medio atteso (mu) :
## Statistica z : -0.958
## P-value : 0.3382
## Intervallo confidenza : [3261.74; 3306.42]
## Livello confidenza : 95 %
## Risultato: Nessuna differenza statisticamente significativa rispetto al valore atteso di
Si osserva un p-value superiore alla soglia di 0,05; di conseguenza, non si può rifiutare l’ipotesi nulla di uguaglianza tra i due valori. Questo significa che la media campionaria può essere considerata rappresentativa della media della popolazione, e la differenza osservata è attribuibile esclusivamente all’errore di campionamento.
Il grafico seguente mostra come varia la distribuzione del peso dei neonati alla nascita in funzione della variabile “Fumatrici”: questa variabile assume valore 0 per le madri non fumatrici e valore 1 per le madri fumatrici.
##
## Caricamento pacchetto: 'dplyr'
## Il seguente oggetto è mascherato da 'package:kableExtra':
##
## group_rows
## I seguenti oggetti sono mascherati da 'package:stats':
##
## filter, lag
## I seguenti oggetti sono mascherati da 'package:base':
##
## intersect, setdiff, setequal, union
| Fumatrici | Peso medio |
|---|---|
| Non fumatrice | 3286.15 |
| Fumatrice | 3236.35 |
Dall’analisi dei dati emerge che il peso medio dei neonati è leggermente superiore nel gruppo delle madri non fumatrici rispetto a quello delle madri fumatrici. Tuttavia, è importante sottolineare che la composizione del campione è fortemente sbilanciata: infatti, il numero di madri non fumatrici (livello 0) è di 2396, mentre le madri fumatrici (livello 1) sono soltanto 104. Questa marcata differenza nella numerosità dei gruppi può influenzare le analisi e l’interpretazione dei risultati, poiché campioni di dimensione molto diversa possono portare a stime meno precise e meno rappresentative per il gruppo minoritario (in questo caso, le madri fumatrici).
| Livello | Frequenza assoluta | Frequenza relativa | Percentuale |
|---|---|---|---|
| 0 | 2396 | 0.96 | 95.8% |
| 1 | 104 | 0.04 | 4.2% |
Come osservato in precedenza, nel campione analizzato, il numero di maschi e femmine è simile, caratteristica che consente un confronto equilibrato tra i gruppi. Di seguito sono presentate le statistiche descrittive della variabile Peso per ciascun sesso.
| Sesso | Peso | Deviazione Standard |
|---|---|---|
| F | 3161.132 | 526.3091 |
| M | 3408.215 | 493.8043 |
Si può osservare un peso medio maggiore nel gruppo dei maschi con una
media di 3,408 kg rispetto ad una media di 3,161 kg per le femmine.
Entrambi i gruppi presentano una variabilità moderata.
Si riportano inoltre i seguenti boxplot, che illustrano la distribuzione
del peso suddivisa per i due gruppi.
Dal grafico emergono diversi outlier in entrambi i gruppi,
prevalentemente situati nella parte bassa del boxplot. Questo dato
rafforza l’evidenza di un’asimmetria della variabile verso valori
inferiori, già riscontrata in precedenza.
Per controllare se le due medie sono tra loro significativamente diverse, viene rappresentato di seguito il risultato del test t tramite il quale viene testata l’ipotesi nulla di uguaglianza delle medie della variabile peso tra i due gruppi.
| Media.F | Media.M | Differenza | T | p.value | IC.95..inf | IC.95..sup | |
|---|---|---|---|---|---|---|---|
| mean in group F | 3161.132 | 3408.215 | 247.083 | -12.106 | 0 | -287.105 | -207.061 |
Il test t di Welch mostra che la media del peso neonatale nei maschi (M = 3408,22 g) è significativamente superiore rispetto alle femmine (F = 3161,13 g), con una differenza media compresa tra 207 e 287 grammi. Il risultato è altamente significativo con un p-value minore del 0.001.
Lunghezza dei neonati
Nel campione analizzato di neonati, la lunghezza alla nascita varia da un minimo di 310 mm a un massimo di 565 mm. La mediana delle lunghezze misurate è pari a 500 mm. Il 25% dei neonati presenta una lunghezza fino a 480 mm (primo quartile), mentre il 75% del campione mostra una lunghezza fino a 510 mm (terzo quartile).
summary(Lunghezza)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 310.0 480.0 500.0 494.7 510.0 565.0
plot(density(Lunghezza))
abline(v=192.3,col=2)
## [1] -1.514699
## [1] 6.487174
Dal grafico della funzione di densità e dagli indici di forma calcolati si osserva una marcata asimmetria a sinistra: ci sono alcuni neonati con lunghezza molto inferiore alla media che allungano la coda della distribuzione verso i valori bassi. La distribuzione è inoltre caratterizzata da leptocurtosi indicando la presenza tante osservazioni molto vicine alla media ma anche più outlier rispetto ad una distribuzione normale.
Anche in questo caso per valutare se la media della lunghezza dei neonati nel campione sia rappresentativa di quella della popolazione, viene applicato un test z per la verifica dell’ipotesi nulla di uguaglianza tra la media campionaria e la media teorica della popolazione.
Secondo le fonti consultate per questa analisi:
Cacciari E, et al. (2006) Ann Ig. “Reference percentiles for birth weight, length, and head circumference in Italy.” WHO Child Growth Standards *Kramer, M. S. et al. (2001). “Fetal/infant body length distributions in different populations”.
La lunghezza alla nascita dei neonati segue una distribuzione normale con una media di 500 mm e una deviazione standard di 20 mm.
Il test z viene condotto utilizzando questi valori come parametri della popolazione di riferimento, adottando un livello di significatività pari a 0,05.
##
## === Z-test per un campione (Lunghezza) ===
## Numero di osservazioni : 500
## Media campionaria : 494.69
## Deviazione standard pop.:
## Valor medio atteso (mu) :
## Statistica z : -13.27
## P-value : 0
## Intervallo confidenza : [493.91; 495.48]
## Livello confidenza : 95 %
## Risultato: Differenza statisticamente significativa rispetto al valore atteso
Un p-value inferiore a 0,05 indica che la differenza osservata tra la media del campione (494,7 mm) e la media della popolazione (500 mm) è statisticamente significativa. Questo suggerisce che la media del campione potrebbe non essere rappresentativa della media della popolazione, e che la differenza osservata difficilmente è dovuta al caso.
Di seguito si può osservare la distribuzione della Lunghezza condizionata ai due gruppi Maschi e Femmine.
| Sesso | Lunghezza | Deviazione Standard |
|---|---|---|
| F | 489.7643 | 27.53415 |
| M | 499.6672 | 24.03809 |
Anche in questo caso si osserva una media più elevata per il gruppo dei maschi, con un valore medio di 499,66 e un coefficiente di variazione pari al 5%. Le femmine presentano invece una lunghezza media di 489,76, accompagnata da una variabilità leggermente superiore, pari al 5,62%. Dall’osservazione dei boxplot emerge inoltre una maggiore presenza di outlier inferiori, che risultano particolarmente concentrati nella popolazione femminile.
| Media.F | Media.M | Differenza | T | p.value | IC.95..inf | IC.95..sup | |
|---|---|---|---|---|---|---|---|
| mean in group F | 489.764 | 499.667 | 9.903 | -9.582 | 0 | -11.929 | -7.876 |
L’esecuzione di un test t tra i due campioni evidenzia, anche per questa variabile, una differenza significativa nelle medie delle lunghezze tra il gruppo dei maschi e quello delle femmine. In particolare, i neonati maschi presentano una lunghezza media significativamente superiore rispetto alle femmine.
Diametro del cranio dei neonati
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 235 330 340 340 350 390
Per la variabile relativa al diametro del cranio si osserva un valore minimo di 235 mm e un massimo di 390 mm. Il 25% dei neonati del campione presenta un diametro del cranio fino a 330 mm, il 50% (mediana) fino a 340 mm, mentre il 75% fino a 350 mm.
plot(density(Cranio))
abline(v=192.3,col=2)
## [1] -0.7850527
## [1] 2.946206
Analizzando gli indici di forma si può osservare come la variabile Cranio presenta una distribuzione moderatamente asimmetrica a sinistra e una curtosi simile a quella di una distribuzione normale, indicando bassa presenza di valori anomali e una forma dei dati ordinaria.
| Sesso | Diametro del Cranio | Deviazione Standard |
|---|---|---|
| F | 337.6330 | 16.73772 |
| M | 342.4486 | 15.74448 |
La presenza di outlier prevalentemente al di sotto del primo quartile evidenzia una leggera asimmetria negativa nella distribuzione. Anche in questo caso, la maggior parte degli outlier si osserva nel gruppo delle femmine. Il gruppo dei maschi presenta una media più elevata pari a 342 mm mentre il valore medio del diametro delle cranio nelle bambine è 338 mm.
| Media.F | Media.M | Differenza | T | p.value | IC.95..inf | IC.95..sup | |
|---|---|---|---|---|---|---|---|
| mean in group F | 337.633 | 342.449 | 4.816 | -7.41 | 0 | -6.09 | -3.541 |
Anche per questa variabile antropometrica, il t test evidenzia una differenza significativa tra maschi e femmine: la media del diametro cranico nei maschi risulta significativamente superiore rispetto alle femmine. Questa differenza è statisticamente significativa e non può essere attribuita al solo errore di campionamento.
Età della madre al parto
L’analisi della distribuzione di frequenza relativa all’età della madre al momento del parto evidenzia una struttura del campione fortemente concentrata nell’ intervallo specifico tra i 23 e i 35 anni. Le classi di età con le frequenze assolute più elevate si collocano infatti tra i 24 ed i 32 anni, con un picco massimo rilevato a 30 anni. Esaminando la frequenza relativa cumulata (Fi), si nota che già all’età di 25 anni si raggiunge circa il 31% dei parti, mentre entro i 35 anni la quota cumulativa sale oltre il 91%, a indicare che la quasi totalità delle nascite si concentra in questa fascia d’età. Viceversa, sono estremamente rari i parti sia in età molto precoce (inferiore ai 18 anni) che in età avanzata (oltre i 40 anni): ciascuna di queste fasce rappresenta meno dell’1% dei casi totali. Nel complesso la distribuzione appare lievemente asimmetrica, con una coda che si estende verso le età più avanzate rispetto a quelle più giovani. Questo pattern riflette le tendenze demografiche e sociali attuali, che vedono la maggior parte delle gravidanze portate a termine da donne adulti giovani, con una diminuzione progressiva delle nascite sia nelle adolescenti sia nelle donne in età più matura. Queste informazioni sono di particolare rilievo dal momento che sia la gravidanza in età molto precoce che quella in età avanzata sono spesso associate a un rischio aumentato di complicanze perinatali.
Un elemento degno di nota riguarda la presenza, nel campione, delle età 0 e 1 tra i dati raccolti. Poiché non è realistico che esistano gravidanze concluse con parto a queste età, tali rilevazioni devono ragionevolmente essere attribuite a errori di inserimento o di battitura.
| Anni madre | Frequenza assoluta |
|---|---|
| 0 | 1 |
| 1 | 1 |
| 13 | 1 |
| 14 | 2 |
| 15 | 6 |
| 16 | 13 |
| 17 | 18 |
| 18 | 24 |
| 19 | 45 |
| 20 | 66 |
| 21 | 74 |
| 22 | 100 |
| 23 | 115 |
| 24 | 131 |
| 25 | 180 |
| 26 | 184 |
| 27 | 197 |
| 28 | 172 |
| 29 | 174 |
| 30 | 200 |
| 31 | 147 |
| 32 | 159 |
| 33 | 110 |
| 34 | 96 |
| 35 | 66 |
| 36 | 64 |
| 37 | 41 |
| 38 | 38 |
| 39 | 27 |
| 40 | 19 |
| 41 | 13 |
| 42 | 8 |
| 43 | 2 |
| 44 | 4 |
| 45 | 1 |
| 46 | 1 |
Di seguito vengono riportati i boxplot che illustrano la distribuzione delle variabili antropometriche rilevate nel campione (peso e lunghezza del neonato, diametro cranico), in relazione all’età materna al momento del parto. Per facilitare la lettura dei dati, l’età della madre è stata suddivisa in classi. Nota: il valore NA associato a una delle classi indica la presenza di due valori anomali precedentemente segnalati (0 e 1), che sono stati esclusi dalla creazione delle classi stesse.
Né per il peso, né per la lunghezza, né per il diametro del cranio si osservano trend significativi in relazione alle fasce d’età materna. In generale, l’andamento di questi parametri risulta abbastanza costante nelle diverse fasce d’età, con solo lievi variazioni (aumenti o diminuzioni) in alcune classi rispetto ad altre:
Per quanto riguarda il peso alla nascita, si osserva un valore medio più basso nella fascia di età materna 13-19 anni. Il peso medio aumenta nelle fasce di età 19-25 e 26-31 anni, per poi diminuire nuovamente tra i 32 e i 37 anni, e risalire nella classe 38-46 anni. Le tre fasce centrali (20-37 anni) presentano inoltre un numero maggiore di outlier, prevalentemente concentrati verso i valori più bassi. Si nota una maggiore variabilità del peso nella fascia 38-46 anni.
Per la lunghezza del neonato, i valori medi risultano più elevati nelle fasce di età 20-31 anni, con la classe 26-31 che mostra un numero particolarmente elevato di outlier, soprattutto tra i valori più bassi. Anche le classi 20-25 e 32-37 anni presentano diversi outlier. Nelle fasce d’età tra 32 e 46 anni si osserva un progressivo calo della lunghezza media, accompagnato da un aumento della variabilità. La classe di età 13-19 anni ha una media simile a quella delle fasce 20-31 anni, ma con una variabilità maggiore rispetto a queste ultime.
Infine, per il diametro cranico, i valori risultano simili tra tutte le fasce di età, eccetto la classe 13-19 anni, che evidenzia una media più bassa e una maggiore variabilità. La fascia 26-37 anni è inoltre caratterizzata da un numero più elevato di outlier tra i valori più bassi della distribuzione.
Mesi di gestazione
Di seguito sono riportate le frequenze assolute della variabile relativa ai mesi di gestazione.
| Settimane di gestazione | Frequenza assoluta (ni) |
|---|---|
| 25 | 1 |
| 26 | 1 |
| 27 | 2 |
| 28 | 4 |
| 29 | 3 |
| 30 | 5 |
| 31 | 8 |
| 32 | 9 |
| 33 | 18 |
| 34 | 16 |
| 35 | 33 |
| 36 | 62 |
| 37 | 192 |
| 38 | 437 |
| 39 | 581 |
| 40 | 741 |
| 41 | 329 |
| 42 | 56 |
| 43 | 2 |
Si osserva di seguito il grafico della distribuzione.
I mesi di gestazione con la frequenza più elevata sono 40, seguiti da 39
e 38 settimane. La distribuzione risulta asimmetrica, con frequenze
progressivamente decrescenti verso la coda sinistra, fino a raggiungere
un minimo di 25 settimane, che si registra una sola volta. Dopo le 40
settimane si osserva un ulteriore calo delle frequenze, con due soli
casi documentati a 43 settimane.
A seguire, si presentano i boxplot che illustrano la distribuzione di peso, lunghezza e diametro del cranio rispetto ai mesi di gestazione.
Per tutte e tre le misure antropometriche considerate—peso, lunghezza e
diametro del cranio—si osserva un andamento crescente in corrispondenza
dell’aumento dei mesi di gestazione: all’aumentare delle settimane di
gestazione, infatti, aumentano sia il peso che la lunghezza e il
diametro cranico del neonato. Tuttavia, per la lunghezza, si nota una
lieve flessione alla 43ª settimana, indicando che, oltre le 42 settimane
di gestazione, la crescita in lunghezza tende a stabilizzarsi o a non
progredire ulteriormente.
Numero di gravidanze
Si osserva la ditribuzione di frequenze assolute e relative della variabile “Numero di gravidanze”.
| Numero di gravidanze | Frequenza assoluta | Frequenza relativa |
|---|---|---|
| 0 | 1096 | 0.438 |
| 1 | 818 | 0.327 |
| 2 | 340 | 0.136 |
| 3 | 150 | 0.060 |
| 4 | 48 | 0.019 |
| 5 | 21 | 0.008 |
| 6 | 11 | 0.004 |
| 7 | 1 | 0.000 |
| 8 | 8 | 0.003 |
| 9 | 2 | 0.001 |
| 10 | 3 | 0.001 |
| 11 | 1 | 0.000 |
| 12 | 1 | 0.000 |
Di seguito il grafico:
La maggior parte del campione è costituita da neonati nati da madri alla prima gravidanza. Si osserva una diminuzione progressiva delle frequenze all’aumentare del numero di gravidanze. Il campione, infatti, è prevalentemente composto da madri alla prima o alla seconda gravidanza.
La tabella di contingenza riportata di seguito mostra la distribuzione del numero di gravidanze in relazione all’età materna. Questa analisi permette di individuare eventuali valori anomali, come ad esempio la presenza di madri molto giovani con un elevato numero di gravidanze, che potrebbero rappresentare outlier dovuti a errori di inserimento dei dati.
| Numero_gravidanze | [13,19] | (19,25] | (25,31] | (31,37] | (37,46] |
|---|---|---|---|---|---|
| 0 | 89 | 397 | 462 | 129 | 18 |
| 1 | 19 | 194 | 393 | 186 | 25 |
| 2 | 1 | 54 | 151 | 106 | 28 |
| 3 | 0 | 15 | 47 | 65 | 23 |
| 4 | 0 | 3 | 15 | 20 | 10 |
| 5 | 0 | 1 | 1 | 14 | 5 |
| 6 | 0 | 2 | 1 | 6 | 2 |
| 7 | 0 | 0 | 1 | 0 | 0 |
| 8 | 0 | 0 | 3 | 4 | 1 |
| 9 | 0 | 0 | 0 | 2 | 0 |
| 10 | 0 | 0 | 0 | 3 | 0 |
| 11 | 0 | 0 | 0 | 1 | 0 |
| 12 | 0 | 0 | 0 | 0 | 1 |
Non emergono valori anomali evidenti: nelle prime due classi di età, la maggioranza delle madri si concentra sulla prima o seconda gravidanza. Con l’aumentare dell’età materna, cresce anche la frequenza relativa a un numero maggiore di gravidanze, in linea con quanto atteso.
Si riportano a seguire i boxplot della distribuzione del peso, lunghezza e diametro del cranio in funzione del numero di gravidanze.
Non si osservano particolari trend in relazione all’aumentare del numero
di gravidanze materne per nessuna delle tre variabili considerate. Fino
a cinque gravidanze, i valori rimangono relativamente stabili, mentre a
partire da sei gravidanze si registrano oscillazioni più marcate. In
generale, sia per il peso, che per la lunghezza, che per il diametro del
cranio, i dati mostrano una certa variabilità.
E’ stato sviluppato un modello di regressione multiplo per spiegare la variabilità della variabile risposta Peso. Nel paragrafo precedente è stata osservata una distribuzione quasi normale della variabile con code un po’ più appuntita e una forma leggermente asimmetrica rispetto ad una distribuzione normale. Viene utilizzato il test di Shapiro Wilk per testare la normalità della variabile risposta:
## Risultato test di normalità Shapiro-Wilk:
## Statistica W: 0.9707
## p-value: < 1e-04
## Conclusione: I dati NON seguono una distribuzione normale (p < 0.05)
A seguito di un test di normalità condotto sulla variabile Peso, l’ottenimento di un p-value estremamente basso (inferiore sia alla soglia di significatività di 0,05 che a quella di 0,01) porta al rigetto dell’ipotesi nulla di normalità. Questo risultato indica che la variabile Peso non segue una distribuzione normale nel campione analizzato. Tale deviazione dalla normalità non rappresenta necessariamente un problema per la regressione multipla, in quanto l’assunzione di normalità in regressione si riferisce principalmente ai residui (cioè alla differenza tra i valori osservati e quelli stimati dal modello), e non direttamente alla variabile dipendente. Tuttavia, una forte non normalità della variabile risposta può riflettersi nei residui, soprattutto se il modello non riesce a spiegare adeguatamente la struttura dei dati o vi sono relazioni non lineari, presenza di outlier o variabili omesse. È quindi importante, successivamente alla stima del modello, verificare che anche i residui abbiano una distribuzione compatibile con la normalità, condizione necessaria per la correttezza delle inferenze statistiche ottenute tramite la regressione.
Il grafico sottostante mostra la matrice di correlazione, in cui per ogni coppia di variabili numeriche vengono visualizzati sia il coefficiente di correlazione sia lo scatterplot con la relativa linea di regressione.
| Anni.madre | N.gravidanze | Gestazione | Peso | Lunghezza | Cranio | |
|---|---|---|---|---|---|---|
| Anni.madre | 1.00 | 0.38 | -0.14 | -0.02 | -0.06 | 0.02 |
| N.gravidanze | 0.38 | 1.00 | -0.10 | 0.00 | -0.06 | 0.04 |
| Gestazione | -0.14 | -0.10 | 1.00 | 0.59 | 0.62 | 0.46 |
| Peso | -0.02 | 0.00 | 0.59 | 1.00 | 0.80 | 0.70 |
| Lunghezza | -0.06 | -0.06 | 0.62 | 0.80 | 1.00 | 0.60 |
| Cranio | 0.02 | 0.04 | 0.46 | 0.70 | 0.60 | 1.00 |
Le variabili che mostrano la correlazione più elevata con il peso sono la lunghezza e il diametro del cranio, seguite dai mesi di gestazione. In particolare, il grafico relativo alla lunghezza evidenzia una nuvola di punti che segue un chiaro trend lineare crescente. Anche il diametro del cranio presenta un andamento lineare crescente, sebbene con una dispersione dei punti leggermente superiore rispetto alla lunghezza. Per quanto riguarda i mesi di gestazione, la distribuzione dei punti mostra una tendenza di crescita piuttosto definita ma non perfettamente lineare, con una concentrazione maggiore nella parte centrale del grafico. Al contrario, per le variabili “Anni della madre” e “Numero di gravidanze” non si osservano pattern particolari: i punti risultano distribuiti in modo piuttosto sparso, senza evidenziare nessun andamento specifico. Tuttavia, per gli anni della madre si nota un leggero accenno di relazione quadratica, sebbene non particolarmente marcato. Si osserva nel grafico una correlazione lineare tra le variabili Lunghezza e Cranio: all’aumentare dell’uno aumenta l’altra. Questa correlazione potrebbe causare nel mdoello fenomeni di multicollinearità, ovvero una forte dipendenza lineare tra predittori, che può rendere instabili le stime dei coefficienti di regressione e ridurre l’affidabilità nell’interpretazione degli effetti delle singole variabili. Infine, si osserva una correlazione significativa tra la durata della gestazione e il peso: all’aumentare delle settimane di gestazione, cresce anche il peso del neonato. Tuttavia, questa tendenza risulta meno accentuata per le gestazioni più lunghe, suggerendo un possibile effetto di saturazione nelle settimane finali.
Viene calcolato un primo modello di regressione lineare multipla prendendo in considerazione tutte le variabili in forma additiva senza interazioni.
##
## Call:
## lm(formula = Peso ~ ., data = dati)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1124.40 -181.66 -14.42 160.91 2611.89
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -6738.4762 141.3087 -47.686 < 2e-16 ***
## Anni.madre 0.8921 1.1323 0.788 0.4308
## N.gravidanze 11.2665 4.6608 2.417 0.0157 *
## FumatriciFumatrice -30.1631 27.5386 -1.095 0.2735
## Gestazione 32.5696 3.8187 8.529 < 2e-16 ***
## Lunghezza 10.2945 0.3007 34.236 < 2e-16 ***
## Cranio 10.4707 0.4260 24.578 < 2e-16 ***
## Tipo.partoNat 29.5254 12.0844 2.443 0.0146 *
## Ospedaleosp2 -11.2095 13.4379 -0.834 0.4043
## Ospedaleosp3 28.0958 13.4957 2.082 0.0375 *
## SessoM 77.5409 11.1776 6.937 5.08e-12 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 273.9 on 2489 degrees of freedom
## Multiple R-squared: 0.7289, Adjusted R-squared: 0.7278
## F-statistic: 669.2 on 10 and 2489 DF, p-value: < 2.2e-16
Nel modello calcolato si osserva che alcune variabili presentano un’elevata significatività statistica. Queste presentano un p-value inferiore alla soglia di significatività del 0.1%. In particolare, le variabili Gestazione, Lunghezza, Cranio e Sesso risultano fortemente associate al peso alla nascita. Le variabili Ospedale, Numero di gravidanze e tipo di parto presentano una significatività più moderata con p value inferiore alla soglia del 5%. Per le variabili categoriche Sesso, Tipo di parto, Ospedale e Fumatrici, sono utilizzate come baseline (ovvero la categoria di riferimento rispetto alla quale si effettuano i confronti), rispettivamente: sesso femminile, parto cesareo, ospedale 1 e madre non fumatrice.
Di seguito viene illustrato il contributo di ciascuna variabile nel modello, assumendo che tutte le altre variabili rimangano invariate: le variabili quantitative sono tenute costanti, mentre le qualitative sono fissate alla rispettiva baseline (categoria di riferimento).
Anni madre: a ogni anno in più della madre il peso del neonato aumenta di 0.89 grammi. Questa variabile non risulta essere significativa nel modello.
Gestazione: ogni settimana in più di gestazione è associata a un aumento del peso previsto del neonato di circa 32,57 grammi (variabile molto significativa).
Lunghezza: ogni millimetro in più di lunghezza alla nascita comporta un aumento del peso previsto del neonato di circa 10,29 grammi (variabile molto significativa).
Cranio: ogni millimetro in più della circonferenza cranica corrisponde a un incremento di circa 10,47 grammi nel peso previsto (variabile molto significativa).
Sesso (M vs F): I neonati maschi hanno un peso superiore di circa 77,54 grammi rispetto alle femmine (variabile molto significativa).
Numero di gravidanze (N.gravidanze): per ogni gravidanza precedente in più della madre, il peso alla nascita aumenta di circa 11,27 grammi (variabile moderatamente significativa).
Tipo di parto (Tipo.partoNat): I neonati nati con parto naturale presentano, mediamente, un peso superiore di circa 29,53 grammi rispetto ai nati con parto cesareo (variabile moderatamente significativa).
Ospedale 3 (Ospedaleosp3): I neonati dell’Ospedale 3 mostrano, in media, un peso superiore di circa 28.10 grammi rispetto ai nati nell’ospedale di riferimento (variabile moderatamente significativa).
Ospedale 2 (Ospedaleosp2): I neonati dell’Ospedale 2 mostrano, in media, un peso inferiore di circa 11 grammi rispetto ai nati nell’ospedale di riferimento (variabile non significativa nel modello).
Il modello di regressione lineare ha un valore di R quadro aggiustato (Adjusted R-squared) pari a 0,7278. Questo significa che circa il 72,8% della variabilità del peso alla nascita è spiegato complessivamente dalle variabili presenti nel modello, tenendo conto del numero di variabili incluse. Un valore così elevato indica una buona capacità del modello di adattarsi ai dati osservati, evitando la sovrastima dovuta all’inserimento di predittori poco rilevanti.
Considerando l’assenza di significatività della variabile “Fumatrici” si procede alla stima di un secondo modello escludendo questa variabile.
##
## Call:
## lm(formula = Peso ~ Anni.madre + N.gravidanze + Gestazione +
## Lunghezza + Cranio + Tipo.parto + Ospedale + Sesso, data = dati)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1123.8 -182.1 -14.8 161.5 2615.1
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -6738.0867 141.3139 -47.682 < 2e-16 ***
## Anni.madre 0.9004 1.1323 0.795 0.4265
## N.gravidanze 11.0086 4.6550 2.365 0.0181 *
## Gestazione 32.3146 3.8117 8.478 < 2e-16 ***
## Lunghezza 10.3086 0.3004 34.314 < 2e-16 ***
## Cranio 10.4751 0.4260 24.588 < 2e-16 ***
## Tipo.partoNat 29.2718 12.0826 2.423 0.0155 *
## Ospedaleosp2 -11.1520 13.4383 -0.830 0.4067
## Ospedaleosp3 28.3667 13.4940 2.102 0.0356 *
## SessoM 77.3617 11.1768 6.922 5.66e-12 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 273.9 on 2490 degrees of freedom
## Multiple R-squared: 0.7288, Adjusted R-squared: 0.7278
## F-statistic: 743.3 on 9 and 2490 DF, p-value: < 2.2e-16
Si riscontrano gli stessi livelli di significatività per le variabili rimaste nel modello. La rimozione della variabile “Fumatrici” non ha prodotto cambiamenti nella significatività delle altre variabili. Inoltre, l’R quadro aggiustato è rimasto invariato, permettendo così di ottenere un modello più semplice senza perdere capacità esplicativa, grazie all’eliminazione di una variabile poco rilevante.
Con particolare riferimento alla variabile “Tipo di parto”, va sottolineato che questa non rappresenta una causa del peso alla nascita, ma piuttosto ne è spesso una conseguenza. Infatti, la scelta di ricorrere al parto cesareo viene generalmente effettuata in presenza di fattori di rischio, come un basso peso del neonato o altre condizioni cliniche materne o fetali. Di conseguenza, “tipo di parto” riflette una risposta a una situazione già determinata dall’esito che intendiamo predire, e non costituisce un fattore predittivo indipendente. Includere questa variabile nel modello rischierebbe quindi di alterare l’interpretazione dei risultati. Per queste ragioni, si ritiene poco opportuno inserire “Tipo di parto” tra i predittori del modello, nonostante la sua significatività.
Di seguito viene riportato il modello privo di tale variabile.
##
## Call:
## lm(formula = Peso ~ Anni.madre + N.gravidanze + Gestazione +
## Lunghezza + Cranio + Ospedale + Sesso, data = dati)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1143.2 -184.6 -15.9 165.1 2615.6
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -6712.7569 141.0643 -47.587 < 2e-16 ***
## Anni.madre 0.9029 1.1334 0.797 0.4258
## N.gravidanze 10.7256 4.6581 2.303 0.0214 *
## Gestazione 32.3702 3.8154 8.484 < 2e-16 ***
## Lunghezza 10.2720 0.3003 34.202 < 2e-16 ***
## Cranio 10.5085 0.4262 24.655 < 2e-16 ***
## Ospedaleosp2 -11.2038 13.4514 -0.833 0.4050
## Ospedaleosp3 28.9240 13.5052 2.142 0.0323 *
## SessoM 77.4170 11.1877 6.920 5.73e-12 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 274.2 on 2491 degrees of freedom
## Multiple R-squared: 0.7281, Adjusted R-squared: 0.7272
## F-statistic: 833.9 on 8 and 2491 DF, p-value: < 2.2e-16
L’R quadro aggiustato di questo modello, ottenuto escludendo la variabile “tipo di parto”, è rimasto sostanzialmente invariato, indicando che l’eliminazione di questa variabile non ha influenzato la capacità esplicativa del modello. Per la variabile “Ospedale” si osserva una discreta significatività complessiva, con particolare rilievo per il livello “Ospedale 3”, che risulta associato in modo statisticamente significativo a un peso neonatale diverso rispetto alla categoria di riferimento (“Ospedale 1”). Al contrario, “Ospedale 2” non mostra alcuna differenza significativa rispetto alla baseline. Questo risultato potrebbe suggerire la presenza di pratiche o protocolli specifici adottati presso “Ospedale 3” che possono favorire un peso alla nascita maggiore rispetto agli altri due ospedali. Dal momento che la significatività individuata riguarda soltanto uno dei livelli della variabile (Ospedale 3, p-value compreso tra 0.01 e 0.05), si propone di stimare anche un modello alternativo senza la variabile “Ospedale” e di confrontarlo tramite un test ANOVA. Tale confronto consentirà di valutare se la varianza spiegata cambia in modo significativo e quindi se “Ospedale” apporta un contributo effettivamente rilevante nella spiegazione della variabilità del peso neonatale.
##
## Call:
## lm(formula = Peso ~ Anni.madre + N.gravidanze + Gestazione +
## Lunghezza + Cranio + Sesso, data = dati)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1160.80 -181.84 -14.91 164.28 2634.06
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -6714.1927 141.1571 -47.565 < 2e-16 ***
## Anni.madre 0.9674 1.1347 0.853 0.3940
## N.gravidanze 11.0199 4.6634 2.363 0.0182 *
## Gestazione 32.6784 3.8198 8.555 < 2e-16 ***
## Lunghezza 10.2486 0.3006 34.088 < 2e-16 ***
## Cranio 10.5218 0.4268 24.652 < 2e-16 ***
## SessoM 77.9061 11.2032 6.954 4.52e-12 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 274.6 on 2493 degrees of freedom
## Multiple R-squared: 0.7271, Adjusted R-squared: 0.7264
## F-statistic: 1107 on 6 and 2493 DF, p-value: < 2.2e-16
Per i regressori del modello 3 si riscontrano livelli di significatività analoghi a quelli osservati nel modello precedente. Inoltre il modello presenta un R quadro aggiustato di 0,726, praticamente identico al precedente valore di 0,727. Si verifica tramite il test anova la differenza di variabilità tra questo modello e il precedente:
## Analysis of Variance Table
##
## Model 1: Peso ~ Anni.madre + N.gravidanze + Gestazione + Lunghezza + Cranio +
## Ospedale + Sesso
## Model 2: Peso ~ Anni.madre + N.gravidanze + Gestazione + Lunghezza + Cranio +
## Sesso
## Res.Df RSS Df Sum of Sq F Pr(>F)
## 1 2491 187292968
## 2 2493 188010731 -2 -717763 4.7731 0.008531 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Diversamente da quanto osservato per l’R quadro, il test ANOVA tra i due modelli indica che aggiungere la variabile “Ospedale” permette di spiegare in modo significativamente migliore la variabilità del peso neonatale (F = 4.63, p-value = 0.0098). Anche se solo “Ospedale 3” è risultato significativo nell’analisi dei singoli coefficienti, secondo il test F, la variabile “Ospedale” nel suo insieme migliora la qualità del modello.
La variabile “Anni della madre” anche in quest’ultimo modello non mostra un effetto significativo sulla variabile risposta. Tuttavia, dall’analisi della matrice di correlazione emergeva un possibile legame di tipo quadratico tra il peso e l’età della madre. Pertanto, si procede a costruire un quarto modello includendo anche il termine quadratico della variabile “Anni.madre”.
##
## Call:
## lm(formula = Peso ~ Anni.madre + N.gravidanze + Gestazione +
## Lunghezza + Cranio + Ospedale + Sesso + I(Anni.madre^2),
## data = dati)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1108.63 -183.95 -14.98 161.08 2617.37
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -6863.7577 167.5221 -40.972 < 2e-16 ***
## Anni.madre 12.9842 7.3239 1.773 0.0764 .
## N.gravidanze 11.4169 4.6748 2.442 0.0147 *
## Gestazione 32.1529 3.8162 8.425 < 2e-16 ***
## Lunghezza 10.2580 0.3003 34.153 < 2e-16 ***
## Cranio 10.5135 0.4261 24.675 < 2e-16 ***
## Ospedaleosp2 -10.9516 13.4474 -0.814 0.4155
## Ospedaleosp3 28.8162 13.5005 2.134 0.0329 *
## SessoM 78.0177 11.1895 6.972 3.98e-12 ***
## I(Anni.madre^2) -0.2150 0.1288 -1.670 0.0951 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 274.1 on 2490 degrees of freedom
## Multiple R-squared: 0.7284, Adjusted R-squared: 0.7274
## F-statistic: 742.1 on 9 and 2490 DF, p-value: < 2.2e-16
Per quanto riguarda il parametro “Anni madre” che rappresenta l’effetto lineare dell’età della madre sul peso neonatale, si osserva che, tenendo costanti tutte le altre variabili, un anno in più di età materna è associato a un aumento medio di circa 13.4 grammi del peso alla nascita (non considerando la curvatura data dal termine quadratico). Per il termine quadratico il coefficiente negativo indica che la relazione tra l’età materna e il peso neonatale non è strettamente lineare: l’effetto positivo dell’età materna tende a dimininuire man mano che l’età aumenta. In pratica, il peso alla nascita aumenta con l’età materna fino a un certo punto, ma per le età più avanzate questo aumento rallenta, fino a potenzialmente diventare negativo per età molto alte. Si osserva che entrambi i parametri si avvicinano alla soglia di significatività statistica del 5%. Tuttavia, né il termine lineare né quello quadratico risultano statisticamente significativi, a indicare che non emerge un effetto rilevante di questa variabile sull’outcome considerato. Anche il valore dell’R quadro del modello rimane sostanzialmente invariato rispetto al modello precedente, indicando che la capacità esplicativa complessiva del modello non è migliorata in modo apprezzabile con l’inclusione della forma quadratica dell’età materna. Per gli altri regressori del modello il livello di significatività è rimasto invariato. Il test ANOVA riportato di seguito mostra che il termine di interazione non fornisce un contributo significativo alla spiegazione della variabilità del peso neonatale.
## Analysis of Variance Table
##
## Model 1: Peso ~ Anni.madre + N.gravidanze + Gestazione + Lunghezza + Cranio +
## Ospedale + Sesso + I(Anni.madre^2)
## Model 2: Peso ~ Anni.madre + N.gravidanze + Gestazione + Lunghezza + Cranio +
## Sesso
## Res.Df RSS Df Sum of Sq F Pr(>F)
## 1 2490 187083506
## 2 2493 188010731 -3 -927225 4.1137 0.006385 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Si procede quindi alla costruzione di un sesto modello omettendo la componente quadratica dell’età materna e includendo un termine di interazione tra le variabili “Età della madre” e “Numero di gravidanze”. Questa scelta deriva dall’ipotesi che le madri di età più avanzata con un elevato numero di gravidanze possano presentare rischi diversi rispetto sia alle madri più giovani con poche gravidanze, sia alle madri più anziane ma con un numero limitato di gravidanze. L’inclusione di questo termine di interazione consente di esplorare in modo più approfondito come la combinazione di questi due fattori influisca sul peso neonatale. La decisione di mantenere nel modello la variabile relativa all’età materna, pur non risultando statisticamente significativa, è motivata dalla sua rilevanza in ambito medico. L’età materna, infatti, rappresenta una variabile di controllo fondamentale, universalmente riconosciuta nella pratica clinica come un dato di base da considerare nell’analisi dei fattori che influenzano gli esiti alla nascita. La sua inclusione nel modello garantisce una maggiore aderenza agli standard utilizzati nella ricerca e nell’interpretazione clinica dei risultati, permettendo inoltre il confronto con altri studi presenti in letteratura.
##
## Call:
## lm(formula = Peso ~ Anni.madre + N.gravidanze + Gestazione +
## Lunghezza + Cranio + Ospedale + Sesso + Anni.madre:N.gravidanze,
## data = dati)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1143.23 -184.65 -15.89 165.14 2615.55
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -6.713e+03 1.424e+02 -47.127 < 2e-16 ***
## Anni.madre 8.997e-01 1.338e+00 0.672 0.5015
## N.gravidanze 1.061e+01 2.682e+01 0.395 0.6925
## Gestazione 3.237e+01 3.816e+00 8.482 < 2e-16 ***
## Lunghezza 1.027e+01 3.005e-01 34.180 < 2e-16 ***
## Cranio 1.051e+01 4.265e-01 24.637 < 2e-16 ***
## Ospedaleosp2 -1.120e+01 1.345e+01 -0.833 0.4051
## Ospedaleosp3 2.892e+01 1.351e+01 2.141 0.0324 *
## SessoM 7.742e+01 1.119e+01 6.918 5.81e-12 ***
## Anni.madre:N.gravidanze 3.758e-03 8.342e-01 0.005 0.9964
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 274.3 on 2490 degrees of freedom
## Multiple R-squared: 0.7281, Adjusted R-squared: 0.7271
## F-statistic: 741 on 9 and 2490 DF, p-value: < 2.2e-16
Nel nuovo modello di regressione, il termine di interazione non apporta alcun contributo significativo: il suo coefficiente è prossimo allo zero e il p-value associato è molto elevato (p = 0,967), indicando l’assenza di un effetto statisticamente rilevante. Inoltre, con l’inclusione del termine di interazione, anche il predittore “numero di gravidanze” perde la sua significatività statistica; la sua precedente rilevanza è stata annullata dall’inserimento dell’interazione con “anni madre”. L’R quadro aggiustato (0,7263) resta praticamente identico ai valori ottenuti nei modelli precedenti, confermando che l’assenza di un effettivo miglioramento nella capacità del modello di spiegare la variabilità del peso alla nascita. Il coefficiente di “Numero di gravidanze” inoltre perde di significatività. Le altre variabili invece continuano ad essere altamente significative, confermando il loro ruolo cruciale nella spiegazione del peso alla nascita.
AIC e BIC
Si confrontano i modelli appena calcolati utilizzando i criteri AIC
(Akaike Information Criterion) e BIC (Bayesian Information
Criterion).
Entrambi i metodi misurano quanto bene un modello si adatta ai dati e
tengono conto anche di quanti parametri usa (cioè, quanto è complesso).
La loro funzione principale è aiutare a scegliere tra modelli
alternativi: quello con il valore di AIC o BIC più basso è preferito
perché rappresenta il miglior compromesso tra accuratezza e semplicità.
La differenza principale tra i due è che il BIC penalizza di più i
modelli complessi rispetto all’AIC, quindi tende a preferire modelli più
semplici, soprattutto quando il numero di dati è grande. Non indicano
quanto è “buono” un modello in assoluto, ma solo quale modello è
migliore rispetto agli altri tra quelli considerati.
## df AIC
## mod1 12 35171.95
## mod2 11 35171.15
## mod3 10 35175.04
## mod4 8 35180.60
## mod5 11 35174.24
## mod6 11 35177.04
Il modello con l’AIC più basso è il modello 2 di cui si riporta di seguito il summary.
##
## Call:
## lm(formula = Peso ~ Anni.madre + N.gravidanze + Gestazione +
## Lunghezza + Cranio + Tipo.parto + Ospedale + Sesso, data = dati)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1123.8 -182.1 -14.8 161.5 2615.1
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -6738.0867 141.3139 -47.682 < 2e-16 ***
## Anni.madre 0.9004 1.1323 0.795 0.4265
## N.gravidanze 11.0086 4.6550 2.365 0.0181 *
## Gestazione 32.3146 3.8117 8.478 < 2e-16 ***
## Lunghezza 10.3086 0.3004 34.314 < 2e-16 ***
## Cranio 10.4751 0.4260 24.588 < 2e-16 ***
## Tipo.partoNat 29.2718 12.0826 2.423 0.0155 *
## Ospedaleosp2 -11.1520 13.4383 -0.830 0.4067
## Ospedaleosp3 28.3667 13.4940 2.102 0.0356 *
## SessoM 77.3617 11.1768 6.922 5.66e-12 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 273.9 on 2490 degrees of freedom
## Multiple R-squared: 0.7288, Adjusted R-squared: 0.7278
## F-statistic: 743.3 on 9 and 2490 DF, p-value: < 2.2e-16
Secondo questo criterio di selezione, il modelli che meglio si adattano ai dati è il modello che comprende tutte le variabili tranne la variabile categorica “Fumatrici”.
Tuttavia, poiché l’AIC tende a favorire modelli con un maggior numero di parametri, risulta preferibile valutare la bontà dell’adattamento anche in base ai valori restiuiti dal criterio BIC, che applica una penalizzazione più severa per la complessità del modello. Di seguito sono riportati i valori di BIC associati ai sei modelli considerati.
## df BIC
## mod1 12 35241.84
## mod2 11 35235.22
## mod3 10 35233.28
## mod4 8 35227.19
## mod5 11 35238.31
## mod6 11 35241.10
Secondo il criterio BIC il modello che descrive meglio i dati riulsta essere il modello 4:
##
## Call:
## lm(formula = Peso ~ Anni.madre + N.gravidanze + Gestazione +
## Lunghezza + Cranio + Sesso, data = dati)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1160.80 -181.84 -14.91 164.28 2634.06
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -6714.1927 141.1571 -47.565 < 2e-16 ***
## Anni.madre 0.9674 1.1347 0.853 0.3940
## N.gravidanze 11.0199 4.6634 2.363 0.0182 *
## Gestazione 32.6784 3.8198 8.555 < 2e-16 ***
## Lunghezza 10.2486 0.3006 34.088 < 2e-16 ***
## Cranio 10.5218 0.4268 24.652 < 2e-16 ***
## SessoM 77.9061 11.2032 6.954 4.52e-12 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 274.6 on 2493 degrees of freedom
## Multiple R-squared: 0.7271, Adjusted R-squared: 0.7264
## F-statistic: 1107 on 6 and 2493 DF, p-value: < 2.2e-16
A questo segue il modello 3 con un bic di 6.09 inferiore. I due modelli differiscono per la variabile “Ospedale”. Come visto precedentemente quest’ultima presenta una discreta significatività solo per la categoria riferita all’ospedale 3. Il test anova evidenziava un aumento sginficativo della variabilità speigata dal modello con l’aggiunta di qeusta variabile, mentre l’R quadro rimaneva praricamente invariato. I modelli che includono la componente quadratica dell’età materna e la componente di interazione tra età materna e numero di gravidanza, non risultano preferibili: come osservato precedentemente, essi non sono risultato statisticamente significativi. Questo indica che aggiungere questa complessità non porta a un miglioramento sostanziale nella capacità esplicativa del modello.
R Quadro Aggiustato
Il valore R², detto anche coefficiente di determinazione, indica la percentuale di variabilità della variabile dipendente (in questo caso, il peso dei neonati) spiegata dalle variabili indipendenti inserite nel modello. Nel nostro caso, tutti i modelli analizzati mostrano valori di R² molto simili, compresi tra 0.72 e 0.73; ciò significa che circa il 72-73% della variabilità osservata nei pesi dei neonati è spiegata dalle variabili considerate. Anche i valori di R² aggiustato, che tengono conto sia del numero di variabili indipendenti sia del numero di osservazioni (penalizzando l’aggiunta di variabili non realmente utili), risultano molto vicini ai rispettivi valori di R². Questo suggerisce un buon adattamento del modello ai dati e che i modelli non soffrono di overfitting, avendo buone probabilità di generalizzare su nuovi dati. Alla luce di questi risultati, e considerando che le performance in termini di R² sono praticamente equivalenti, è opportuno privilegiare il modello più semplice, ovvero quello che utilizza meno variabili. Questa scelta segue il principio di parsimonia (o rasoio di Occam): a parità di capacità esplicativa, un modello meno complesso è preferibile perché è più facile da interpretare, richiede meno dati per essere applicato, ed è meno soggetto a problemi di overfitting in presenza di nuovi dati. In sintesi, il modello di regressione lineare 4 risulta un buon strumento per predire il peso dei neonati e fornire indicazioni utili per la comprensione delle relazioni tra le variabili. Tuttavia, è sempre importante considerare la validità del modello nei dati futuri e fare test con nuovi dati per confermare la sua stabilità.
Analisi della multicollinearità
Viene ora utilizzata la funzione vif() (Variance Inflation Factor) per diagnosticare la multicollinearità tra le variabili indipendenti del modello di regressione. La multicollinearità consiste nella correlazione tra le variabili indipendenti del modello. Può creare problemi perché rende instabili e non interpretabili i coefficienti della regressione. Un VIF calcola quanto la varianza dei coefficienti stimati sia aumentata a causa della collinearità.
Un valore di vif vicino a 1: indica che la variabile non è correlata linearmente con le altre. un valore tra 1 e 5: è generalmente considerato accettabile, la collinearità non è un problema grave. Quando il valore è superiore a 5 la collinearità risulta problematica e potrebbe essere necessario intervenire. In questo caso tutti i VIF sono sotto la soglia di preoccupazione (nessuno superiore a 5), quindi non ci sono problemi significativi di multicollinearità nel modello 4.
## Anni.madre N.gravidanze Gestazione Lunghezza Cranio Sesso
## 1.186622 1.181758 1.688288 2.074689 1.628621 1.040140
Diagnostica sui residui
Si valutano tramite metodi di diagnostica sui residui la bontà dell’adattamento del modello, tramite l’analisi dei residui (le differenze tra valori osservati e predetti). In particolare, con la diagnostica sui residui si controllano:
Modello 4
Dai grafici riportati si possono fare le seguenti osservazioni:
1.Grafico Residuals vs Fitted: E’ il grafico che mostra i residui in funzione dei valori predetti. In questo grafico si dovrebbe osservare una nuvola casuale attorno allo 0: si osserva una leggera curvatura. La linea rossa mostra una certa asimmetria all’inizio (per fitted bassi) e alcuni punti estremi (ad esempio l’ osservazione 1551). La maggior parte dei punti è comunque abbastanza centrata: il modello non sembra gravemente violare l’assunzione di linearità, ma c’è qualche segnale di eteroschedasticità (ovvero varianza non costante dei residui). Parte delle inforomazioni non è stata filtrata bene dai regressori ed è finita sui residui.
Q-Q Plot: In questo grafico vengono confrontati i residui standardizzati con una distribuzione normale teorica. I punti dovrebbero distribuirsi lungo la bisettrice del grafico. La maggior parte dei punti segue la diagonale, ma nelle code (soprattutto a destra) si notano delle deviazioni: i residui non sono perfettamente normali, inoltre si osservano alcuni outlier (ad esempio le osservazioni 1551, 1306).
Scale-Location: Serve a controllare un presupposto importante della regressione lineare ovvero l’omoschedasticità che consiste nella varianza costante dei residui per tutti i valori predetti. Se i punti sono distribuiti casualmente e non mostrano una struttura particolare (ad esempio, non formano un “imbuto” o una forma a ventaglio), allora l’assunzione di omoschedasticità è soddisfatta. Se invece i punti si allargano/schiacciano all’aumentare dei fitted values (ad esempio si vede una banda che cambia di ampiezza), indica che c’è eteroschedasticità (la varianza dei residui non è costante) e questo può invalidare alcune inferenze statistiche del modello. In questo caso si nota una leggera curvatura: sembra che la maggior parte dei punti sia concentrata in una fascia orizzontale, leggermente più sparsa in alcuni punti, ma non si notano espansioni o contrazioni sistemiche.
Residuals vs Leverage (in basso a destra) Il grafico consente di individuare osservazioni che hanno un grande impatto sul modello di regressione. Mostra la relazione tra i residui e la leva (quanto ciascun punto influenza il modello). Punti con leva alta e residui grandi sono potenzialmente pericolosi perché possono distorcere significativamente i risultati del modello e devono essere esaminati con attenzione. Alcuni punti, come il 1551, il 1780 e il 310, presentano residui elevati o un leverage significativo; tuttavia, solo il punto 1551 si avvicina alla curva della distanza di Cook, trovandosi quasi leggermente al di sopra della soglia di 0.5, ma comunque al di sotto di 1.
Si effettuano ulteriori analisi di tipo numerico da affiancare alle considerazioni grafiche appena effettuate.
Per verificare la normalità dei residui si utilizza il test di Shapiro-Wilk, che assume come ipotesi nulla che i residui provengano da una distribuzione normale.
## ==== Test di normalità Shapiro-Wilk sui residui ====
## Statistica W: 0.9741
## p-value: < 1e-04
## Conclusione: I residui NON seguono una distribuzione normale (p < 0.05)
Il p-value molto piccolo indica che occorre rifiutare l’ipotesi nulla di normalità dei residui.
Viene utilizzato il bptest (Breusch-Pagan test) che serve a verificare se la varianza degli errori in un modello di regressione è costante (omoschedasticità) o meno (eteroschedasticità). Se il p-value è maggiore di 0.05: la varianza è costante, quindi NON c’è eteroschedasticità. Se il p-value è minore di 0.05: la varianza non è costante, quindi C’È eteroschedasticità e il modello potrebbe necessitare di aggiustamenti.
## Warning: il pacchetto 'lmtest' è stato creato con R versione 4.5.1
## Caricamento del pacchetto richiesto: zoo
##
## Caricamento pacchetto: 'zoo'
## I seguenti oggetti sono mascherati da 'package:base':
##
## as.Date, as.Date.numeric
## ==== Test di eteroschedasticità di Breusch-Pagan ====
## Statistica BP: 92.668
## Gradi di libertà: 6
## p-value: < 1e-04
## Conclusione: Presenza di eteroschedasticità (varianza dei residui NON costante, p < 0.05)
Il p-value estremamente piccolo indica che occorre rigettare l’ipotesi nulla di omoschedasticità: quindi, i residui del tuo modello 4 mostrano eteroschedasticità, ovvero la varianza degli errori non è costante.
Viene effettuato ora il test di Durbin Watson per rilevare se gli errori della regressione sono correlati tra loro nel tempo o rispetto all’ordine dei dati. L’assenza di autocorrelazione è uno degli assunti fondamentali della regressione lineare classica.
## ==== Test di Durbin-Watson per autocorrelazione dei residui ====
## Statistica DW: 1.9521
## p-value: 0.1153
## Conclusione: Non si evidenzia autocorrelazione tra i residui (p ≥ 0.05)
Con un p value maggiore di 0.05 i residui del modello 4 risultano essere indipendenti tra loro. Si può ritenere soddisfatto l’assunto di indipendenza dei residui nella regressione lineare per questo modello.
Si identificano ora le osservazioni con leverage elevato, ovvero quei punti che, rispetto alle variabili predittive, si trovano lontani dalla maggior parte delle altre osservazioni nel dataset.
## 13 15 34 61 67 70
## 0.005684347 0.007060519 0.006747369 0.005664249 0.005895931 0.005612823
## 89 96 101 106 131 134
## 0.012966743 0.006042837 0.007745118 0.015033667 0.007338390 0.007583673
## 151 155 161 189 190 204
## 0.011289124 0.007304937 0.020643649 0.005798343 0.005740905 0.015669489
## 205 206 220 230 260 294
## 0.008732982 0.010786029 0.007859452 0.006505071 0.006048045 0.005915388
## 304 305 310 312 335 378
## 0.006144441 0.006963312 0.029108905 0.013381509 0.006554957 0.016026324
## 408 411 442 445 446 486
## 0.006110755 0.005792516 0.007732411 0.007533035 0.005739232 0.005824264
## 492 516 582 587 592 638
## 0.008433653 0.013092597 0.012822336 0.011877860 0.006385723 0.006854179
## 656 684 697 748 750 757
## 0.006954864 0.008833096 0.006154282 0.009502586 0.007088886 0.008923975
## 765 805 828 855 928 946
## 0.006294047 0.014420805 0.007398786 0.006178106 0.023008513 0.006910812
## 947 951 956 985 1014 1067
## 0.008432363 0.006175882 0.007786248 0.008445882 0.010011594 0.009364299
## 1072 1075 1091 1096 1106 1130
## 0.005805811 0.006181114 0.008945797 0.006116493 0.007866262 0.033179618
## 1152 1166 1181 1188 1194 1200
## 0.014053872 0.006026149 0.005677759 0.006901542 0.005895406 0.005870628
## 1219 1238 1248 1273 1291 1293
## 0.031495526 0.007417126 0.014903156 0.007179160 0.006450744 0.006168427
## 1311 1321 1323 1357 1380 1385
## 0.009802029 0.009293849 0.007113784 0.007677691 0.013304831 0.012869661
## 1400 1411 1428 1429 1450 1505
## 0.006544304 0.008339480 0.008241753 0.024434421 0.015169586 0.014596639
## 1551 1553 1556 1560 1593 1610
## 0.049353528 0.008845028 0.008277042 0.006092914 0.007010111 0.009082760
## 1619 1686 1692 1701 1712 1718
## 0.015189307 0.009416569 0.007069515 0.011563400 0.007069180 0.007092916
## 1727 1735 1780 1781 1806 1809
## 0.013525504 0.007569348 0.026634410 0.017423335 0.006322689 0.009556466
## 1827 1962 1967 1977 2026 2037
## 0.006147505 0.005965789 0.005994098 0.007252882 0.006354152 0.006435075
## 2040 2086 2089 2098 2114 2115
## 0.011554118 0.015940304 0.006389663 0.006593767 0.014361960 0.012189225
## 2120 2140 2146 2148 2149 2157
## 0.018762407 0.006256453 0.005838802 0.008144160 0.014148145 0.006125118
## 2175 2200 2216 2220 2221 2224
## 0.032750743 0.011932710 0.008943401 0.006252941 0.022368287 0.007961185
## 2244 2257 2307 2317 2318 2359
## 0.006944292 0.008765853 0.014264552 0.009747025 0.006030803 0.012649781
## 2408 2422 2437 2452 2458 2471
## 0.010185054 0.022811910 0.024108318 0.023876497 0.008593048 0.022057423
## 2478
## 0.005844481
Sono presenti 107 osservazioni con leverage alto. Questo significa che questi punti si trovano in posizioni insolite rispetto alle variabili predittive e possono avere un’influenza potenzialmente significativa sulla stima dei parametri del modello di regressione. In modo analogo si vanno ad identificare gli outlier, ovvero le informazioni anomale nella variabile risposta:
## Warning: il pacchetto 'car' è stato creato con R versione 4.5.1
## Caricamento del pacchetto richiesto: carData
## Warning: il pacchetto 'carData' è stato creato con R versione 4.5.1
##
## Caricamento pacchetto: 'car'
## Il seguente oggetto è mascherato da 'package:dplyr':
##
## recode
## rstudent unadjusted p-value Bonferroni p
## 1551 10.032207 3.0190e-23 7.5475e-20
## 155 5.019213 5.5545e-07 1.3886e-03
## 1306 4.838644 1.3871e-06 3.4677e-03
Nel modello sono stati individuati 3 valori outlier. Il modello 4 rileva la presenza di 107 osservazioni con leverage elevato e di 3 outlier. La distanza di Cook permette di individuare le osservazioni che esercitano un’influenza rilevante sul modello di regressione.
Dall’analisi emerge che solo l’osservazione numero 1551 supera la soglia critica della distanza di Cook (0,72), segnalando così una particolare importanza di questo punto nella determinazione dei coefficienti del modello di regressione.
## [1] 0.7177501
Il modello identifica l’osservazione 1551 sia come un outlier sia come un punto ad alto leverage. Questo implica che tale osservazione esercita un’influenza significativa sulla stima dei parametri del modello, con il rischio di alterare i risultati delle analisi e comprometterne la validità complessiva. Per questo motivo, si è deciso di procedere eliminando questa osservazione dal dataset e ricalcolando il modello di regressione senza questa osservazione.
dati <- dati[- 1551, ]
Modello 4 senza outlier 1551
Si calcola nuovamente il modello 4 sui dati puliti dal valore outlier.
##
## Call:
## lm(formula = Peso ~ . - Fumatrici - Tipo.parto - Ospedale, data = dati)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1173.83 -178.95 -12.93 161.81 1409.17
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -6707.0076 138.4198 -48.454 < 2e-16 ***
## Anni.madre 0.6908 1.1131 0.621 0.53493
## N.gravidanze 12.1253 4.5742 2.651 0.00808 **
## Gestazione 29.8407 3.7564 7.944 2.94e-15 ***
## Lunghezza 10.8918 0.3017 36.101 < 2e-16 ***
## Cranio 9.9065 0.4230 23.419 < 2e-16 ***
## SessoM 78.0727 10.9858 7.107 1.55e-12 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 269.3 on 2492 degrees of freedom
## Multiple R-squared: 0.7372, Adjusted R-squared: 0.7366
## F-statistic: 1165 on 6 and 2492 DF, p-value: < 2.2e-16
Si eseguono nuovamente i test diagnostici sui residui per verificare come questi siano variati con l’esclusione dell’osservazione 1551:
## ==== Test di normalità Shapiro-Wilk sui residui ====
## Statistica W: 0.98882
## p-value: < 1e-04
## Conclusione: I residui NON seguono una distribuzione normale (p < 0.05)
## ==== Test di Breusch-Pagan per l'eteroschedasticità dei residui ====
## Statistica di test: 12.8869
## p-value: 0.044868
## Conclusione: Presenza di eteroschedasticità tra i residui (p < 0.05)
## ==== Test di Durbin-Watson per l'autocorrelazione dei residui ====
## Statistiche DW: 1.953
## p-value: 0.11976
## Conclusione: Non si evidenzia autocorrelazione seriale dei residui (p ≥ 0.05)
Anche togliendo il valore di outlier dal set di dati non si riscontrano differenze per quanto riguarda i test diagnostici sui residui. Questi ad eccezione del Durbin-Watson test continuano a presentare dei p- value molto piccoli al di sotto dei valori soglia mostrando una non normalità nella loro distribuzione e la presenza di eteroschedasticità.
###Previsioni del modello
Il modello selezionato sarà impiegato per effettuare delle previsioni. A tal fine, viene costruito un nuovo dataframe contenente un singolo record con le seguenti caratteristiche: Sesso = “F”, Numero di gravidanze = 2 (terza gravidanza), Settimane di gestazione = 39, Fumatrice = “NO”. Per le variabili relative alle misure del cranio e della lunghezza, vengono utilizzati i valori medi riscontrati nel gruppo delle femmine. Analogamente, per l’età della madre viene impiegato il valore medio rilevato per questa variabile all’interno del dataset.
| media_lunghezza | media_cranio | media_anni_madre |
|---|---|---|
| 489.9 | 337.6 | 28 |
Si costruisce un dataframe contenente un record con i dati appena elencati. Per poter utilizzare la funzione predict senza errori, vengono aggiunti anche i livelli delle variabili Fumatrici, Tipo parto e Ospedale, pur essendo state escluse dal modello. Questo accorgimento è necessario perché il modello, durante il processo di predizione, richiede comunque la presenza di tutte le variabili indicate originalmente nella formula (poi sottratte), anche se poi non vengono utilizzate nei calcoli finali.
new_data <- data.frame(
Anni.madre = 28,
N.gravidanze = 2,
Gestazione = 39,
Lunghezza = 489.9036,
Cranio = 337.6040,
Sesso = factor("F", levels = c("F", "M")),
Fumatrici = factor("Non fumatrice", levels = c("Non fumatrice", "Fumatrice")),
Tipo.parto = factor("Nat", levels = c("Nat", "Ces")), # usa i livelli giusti
Ospedale = factor("osp3", levels = c("osp1", "osp2", "osp3")) # inserisci i livelli reali usati nel tuo dataset
)
## Anni.madre N.gravidanze Gestazione Lunghezza Cranio Sesso Fumatrici
## 1 28 2 39 489.9036 337.604 F Non fumatrice
## Tipo.parto Ospedale
## 1 Nat osp3
peso_new <- predict(mod4,new_data)
Il modello prevede un peso della neonata di 3180.77 g.
Nel grafico sono rappresentati sia la distribuzione delle osservazioni sia i modelli stimati. I punti rosa indicano le osservazioni relative al gruppo delle femmine, mentre i punti verdi si riferiscono al gruppo dei maschi; lo stesso codice colore viene utilizzato per le rispettive linee di regressione. La linea nera rappresenta invece il modello generale, calcolato senza distinguere per sesso. Si evidenzia un andamento crescente del peso all’aumentare delle settimane di gestazione. Inoltre, la linea relativa ai maschi si colloca costantemente al di sopra di quella delle femmine, indicando che, a parità di settimane di gestazione, i maschi presentano mediamente un peso maggiore rispetto alle femmine.
library(ggplot2)
ggplot(data=dati)+
geom_point(aes(x=Gestazione,y=Peso,col=Sesso), position="jitter")+ #scatterplot
geom_smooth(aes(x=Gestazione,y=Peso,col=Sesso), se=F,method="lm")+
geom_smooth(aes(x=Gestazione,y=Peso), col="black",se=F,method="lm")
## `geom_smooth()` using formula = 'y ~ x'
## `geom_smooth()` using formula = 'y ~ x'
# modelli di regressione lineari sul grafico
Per quanto riguarda le variabili “Lunghezza” e “Cranio”, si osserva che il peso aumenta all’aumentare sia della lunghezza che della circonferenza cranica. Tuttavia, per queste due variabili, la differenza di peso tra il gruppo dei maschi e quello delle femmine risulta meno accentuata rieptto a quanto osservato per la variabile gestazione. In particolare, rispetto alla lunghezza, la retta dei maschi si trova solo lievemente al di sopra di quella delle femmine; per la variabile cranio, invece, le due rette, quella dei maschi e quella delle femmine, risultano praticamente sovrapposte, entrambe molto vicine anche alla linea del modello generale.
ggplot(data=dati)+
geom_point(aes(x=Lunghezza,y=Peso,col=Sesso), position="jitter")+ #scatterplot
geom_smooth(aes(x=Lunghezza,y=Peso,col=Sesso), se=F,method="lm")+
geom_smooth(aes(x=Lunghezza,y=Peso), col="black",se=F,method="lm")
## `geom_smooth()` using formula = 'y ~ x'
## `geom_smooth()` using formula = 'y ~ x'
# modelli di regressione lineari sul grafico
ggplot(data=dati)+
geom_point(aes(x=Peso,y=Cranio,col=Sesso), position="jitter")+ #scatterplot
geom_smooth(aes(x=Peso,y=Cranio,col=Sesso), se=F,method="lm")+
geom_smooth(aes(x=Peso,y=Cranio), col="black",se=F,method="lm")
## `geom_smooth()` using formula = 'y ~ x'
## `geom_smooth()` using formula = 'y ~ x'
# modelli di regressione lineari sul grafico
Il progetto di previsione del peso neonatale proposto si configura come un passo importante nel miglioramento della salute materno-infantile, offrendo uno strumento pratico e fondato su solide analisi statistiche a supporto della gestione clinica delle nascite. I risultati ottenuti hanno confermato l’influenza determinante di variabili quali la durata della gestazione, le misure antropometriche del neonato e il sesso sul peso alla nascita, in linea con quanto riportato dalla letteratura internazionale. La costruzione di modelli statistici parsimoniosi ed interpretabili ha consentito una buona capacità di previsione; tuttavia, va evidenziato che i residui del modello non superano la maggior parte dei test diagnostici comunemente utilizzati per la valutazione dell’adeguatezza dei modelli statistici, ad eccezione della verifica relativa all’autocorrelazione, che risulta invece soddisfatta. Questa limitazione suggerisce la presenza di potenziali problematiche, quali eteroschedasticità o non normalità dei residui, che possono influire sulla piena affidabilità delle stime e sulle conclusioni tratte dal modello. Pertanto, pur riconoscendo la solidità generale della struttura predittiva e la significativa variabilità spiegata dal modello (72-73%), i risultati vanno interpretati con cautela e, ove possibile, approfonditi tramite modelli alternativi o ulteriori controlli diagnostici. Dal punto di vista clinico, la durata della gestazione emerge come principale determinante del peso neonatale, rafforzando l’importanza del monitoraggio delle gravidanze per la prevenzione dei parti pretermine. Le misure biometriche del feto (lunghezza e diametro del cranio), già disponibili in epoca prenatale, si confermano fortemente predittive, e l’inclusione del sesso fetale permette una valutazione più accurata dei profili di crescita attesi. Per contro, nel campione in esame, né l’età materna né la condizione di fumatrici hanno mostrato effetti significativi, verosimilmente a causa della specifica composizione del campione.
Nel complesso, pur in presenza di limiti metodologici dovuti alle caratteristiche dei residui, il modello consente di offrire uno strumento utile per la stratificazione del rischio e per l’ottimizzazione delle risorse nell’assistenza neonatale. L’integrazione di tali modelli nella pratica ospedaliera può aiutare a identificare precocemente i neonati a maggior rischio e a indirizzare meglio gli interventi preventivi, segnando un ulteriore passo avanti verso una medicina perinatale più predittiva e personalizzata.