Modello Statistico per la Previsione del Peso Neonatale

Neonatal Health Solutions ha analizzato i dati clinici raccolti da tre ospedali da un campione di 2.500 neonati e ha sviluppato un modello statistico per prevedere il peso dei neonati alla nascita. L’obiettivo del progetto è quello di migliorare la gestione delle gravidanze ad alto rischio, ottimizzare le risorse ospedaliere e migliorare la salute neonatale, prevenendo complicazioni come parti prematuri o neonati sottopeso.

I benefici attesi sono i seguenti:

  1. Migliori previsioni cliniche per intervenire tempestivamente in caso di anomalie.

  2. Ottimizzazione delle risorse ospedaliere prevedendo la necessità di terapie intensive, con conseguente riduzione dei costi e migliore gestione delle strutture.

  3. Prevenzione e identificazione dei fattori di rischio come fumo materno o gravidanze multiple, per un intervento proattivo.

  4. Valutazione delle pratiche ospedaliere, permettendo il confronto tra i tre ospedali e l’armonizzazione delle procedure.

  5. Supporto alla pianificazione strategica aziendale e sanitaria, favorendo politiche più efficaci contro mortalità e morbilità neonatali.

Descrizione del Dataset

Il dataset è composto da 2500 osservazioni e presenta informazioni sulle seguenti variabili relativi ai neonati e alle loro madri:

Di seguito un’estrazione delle prime 20 righe del dataset:

##    Anni.madre N.gravidanze Fumatrici Gestazione Peso Lunghezza Cranio
## 1          26            0         0         42 3380       490    325
## 2          21            2         0         39 3150       490    345
## 3          34            3         0         38 3640       500    375
## 4          28            1         0         41 3690       515    365
## 5          20            0         0         38 3700       480    335
## 6          32            0         0         40 3200       495    340
## 7          26            1         0         39 3100       480    345
## 8          25            0         0         40 3580       510    349
## 9          22            1         0         40 3670       500    335
## 10         23            0         0         41 3700       510    362
## 11         29            2         0         38 3410       480    330
## 12         21            2         0         40 3450       515    343
## 13         36            5         0         38 3060       455    325
## 14         24            0         0         40 2960       485    326
## 15         33            3         0         34 2400       470    298
## 16         21            2         0         40 3720       530    345
## 17         36            2         0         36 2950       450    340
## 18         32            3         0         40 3030       490    335
## 19         20            0         0         41 2780       470    330
## 20         22            2         0         38 2950       480    325
##    Tipo.parto Ospedale Sesso
## 1         Nat     osp3     M
## 2         Nat     osp1     F
## 3         Nat     osp2     M
## 4         Nat     osp2     M
## 5         Nat     osp3     F
## 6         Nat     osp2     F
## 7         Nat     osp3     F
## 8         Nat     osp1     M
## 9         Ces     osp2     F
## 10        Ces     osp2     F
## 11        Ces     osp2     M
## 12        Nat     osp2     F
## 13        Ces     osp1     F
## 14        Ces     osp1     F
## 15        Ces     osp3     M
## 16        Ces     osp1     M
## 17        Nat     osp3     M
## 18        Ces     osp3     M
## 19        Nat     osp3     F
## 20        Nat     osp3     M

A seguire si rappresentano statistiche di sintesi delle variabili del dataset:

Statistiche descrittive variabili numeriche
Anni.madre N.gravidanze Gestazione Peso Lunghezza Cranio
Min. : 0.00 Min. : 0.0000 Min. :25.00 Min. : 830 Min. :310.0 Min. :235
1st Qu.:25.00 1st Qu.: 0.0000 1st Qu.:38.00 1st Qu.:2990 1st Qu.:480.0 1st Qu.:330
Median :28.00 Median : 1.0000 Median :39.00 Median :3300 Median :500.0 Median :340
Mean :28.16 Mean : 0.9812 Mean :38.98 Mean :3284 Mean :494.7 Mean :340
3rd Qu.:32.00 3rd Qu.: 1.0000 3rd Qu.:40.00 3rd Qu.:3620 3rd Qu.:510.0 3rd Qu.:350
Max. :46.00 Max. :12.0000 Max. :43.00 Max. :4930 Max. :565.0 Max. :390
## 
## Caricamento pacchetto: 'dplyr'
## Il seguente oggetto è mascherato da 'package:kableExtra':
## 
##     group_rows
## I seguenti oggetti sono mascherati da 'package:stats':
## 
##     filter, lag
## I seguenti oggetti sono mascherati da 'package:base':
## 
##     intersect, setdiff, setequal, union
Distribuzione variabili categoriche
Variabile Livello Frequenza
Fumatrici 0 2396
Fumatrici 1 104
Tipo.parto Ces 728
Tipo.parto Nat 1772
Ospedale osp1 816
Ospedale osp2 849
Ospedale osp3 835
Sesso F 1256
Sesso M 1244

Età della madre

Dall’analisi descrittiva del dataset emerge che per la variabile Anni.madre il valore minimo osservato è 0, un dato chiaramente anomalo, poiché non è possibile che l’età di una madre sia pari a zero. Per individuare meglio i casi anomali, si rappresenta graficamente la distribuzione dell’età delle madri nel campione.

Sono stati individuati due valori anomali per l’età materna al parto: 0 e 1. È molto probabile che si tratti di errori di inserimento o di digitazione. Per correggere questi valori errati, sono stati sostituiti con il valore modale dell’età materna, ovvero il valore più frequente all’interno del campione. Di conseguenza, le età 0 e 1 sono vengono sostituite con 30 anni.

L’analisi della distribuzione di frequenza relativa all’età della madre al momento del parto evidenzia una struttura del campione fortemente concentrata nell’ intervallo specifico tra i 23 e i 35 anni. Le classi di età con le frequenze assolute più elevate si collocano infatti tra i 24 ed i 32 anni, con un picco massimo rilevato a 30 anni. Viceversa, sono estremamente rari i parti sia in età molto precoce (inferiore ai 18 anni) che in età avanzata (oltre i 40 anni). Nel complesso la distribuzione appare lievemente asimmetrica, con una coda che si estende verso le età più avanzate rispetto a quelle più giovani. Questo pattern riflette le tendenze demografiche e sociali attuali, che vedono la maggior parte delle gravidanze portate a termine da donne adulti giovani, con una diminuzione progressiva delle nascite sia nelle adolescenti sia nelle donne in età più matura. Queste informazioni sono di particolare rilievo dal momento che sia la gravidanza in età molto precoce che quella in età avanzata sono spesso associate a un rischio aumentato di complicanze perinatali.

Sesso

All’interno del campione la proporzione tra maschi e femmine risulta sostanzialmente equivalente.

Distribuzione del Sesso nel Campione
Sesso Freq_assoluta Freq_relativa Percentuale
F 1256 0.5 50.2%
M 1244 0.5 49.8%

Ospedale

Anche la distribuzione dei neonati tra i diversi ospedali appare omogenea: il 33% dei neonati è nato nell’ospedale 1, il 34% nell’ospedale 2 e il restante 33% nell’ospedale 3.

Distribuzione per Ospedale
Ospedale Freq_assoluta Freq_relativa Percentuale
osp1 816 0.33 32.6%
osp2 849 0.34 34%
osp3 835 0.33 33.4%

Tipo parto

Il 29.12% dei parti è avvenuto tramite taglio cesareo, contro il 70.88% di parti naturali. Ciò indica che nel campione il parto naturale è nettamente prevalente.

Distribuzione per Tipo di Parto
Livello Freq_assoluta Freq_relativa Percentuale
Ces 728 0.29 29.1%
Nat 1772 0.71 70.9%

Fumatrici

Si osserva che il campione risulta fortemente sbilanciato rispetto alla variabile “fumatrici”: la quasi totalità delle madri appartiene al gruppo delle non fumatrici, mentre solo circa il 4% del campione è costituito da fumatrici. Questo marcato squilibrio tra i due gruppi dovrà essere considerato nell’analisi, poiché una così pronunciata disparità può influire sulla robustezza e sull’affidabilità delle stime ottenute.

Distribuzione di Fumatrici
Livello Frequenza assoluta Frequenza relativa Percentuale
0 2396 0.96 95.8%
1 104 0.04 4.2%

Peso Neonatale

Gli indici di posizione relativi al peso dei neonati alla nascita mostrano che il peso minimo osservato è di 830 grammi, mentre il peso massimo raggiunge i 4.930 grammi. Il peso medio si attesta a circa 3.284 grammi, mentre il valore mediano, ossia il peso che divide a metà la distribuzione, è di 3.300 grammi. Un quarto del campione (25%) presenta un peso uguale o inferiore a 2.990 grammi, mentre il 75% dei neonati pesa fino a 3.620 grammi.

Statistiche di sintesi (Summary) di Peso
Statistica Valore
Min. 830.000
1st Qu. 2990.000
Median 3300.000
Mean 3284.081
3rd Qu. 3620.000
Max. 4930.000
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

Gli indici di forma calcolati per questa variabile restituiscono una skewness di -0.65, che indica una distribuzione leggermente asimmetrica a sinistra che sta ad indicare la presenza di alcuni valori di peso particolarmente bassi rispetto alla norma. La kurtosis di 2.03 segnala una distribuzione più appuntita rispetto a una normale, cioè caratterizzata da un picco centrale più pronunciato e da una maggior presenza di valori estremi (outlier) rispetto a una distribuzione normale.

Skewness ed Excess Kurtosis di Peso
Statistica Valore
Skewness -0.65
Kurtosis 2.03

Viene utilizzato il test di Shapiro Wilk per testare la normalità di questa variabile:

Risultato del Test di normalità Shapiro-Wilk
Statistica_W p_value Conclusione
W 0.9707 < 1e-04 I dati NON seguono una distribuzione normale (p < 0.05)

A seguito di un test di normalità condotto sulla variabile Peso, l’ottenimento di un p-value estremamente basso (inferiore sia alla soglia di significatività di 0,05 che a quella di 0,01) porta al rigetto dell’ipotesi nulla di normalità.

Lunghezza dei neonati

Nel campione analizzato di neonati, la lunghezza alla nascita varia da un minimo di 310 mm a un massimo di 565 mm. La mediana delle lunghezze misurate è pari a 500 mm. Il 25% dei neonati presenta una lunghezza fino a 480 mm (primo quartile), mentre il 75% del campione mostra una lunghezza fino a 510 mm (terzo quartile).

Statistiche di sintesi (Summary) di Lunghezza
Statistica Valore
Min. 310.000
1st Qu. 480.000
Median 500.000
Mean 494.692
3rd Qu. 510.000
Max. 565.000

Skewness ed Excess Kurtosis di Lunghezza
Statistica Valore
Skewness -1.51
Kurtosis 6.49

Dal grafico della funzione di densità e dagli indici di forma calcolati si osserva una marcata asimmetria a sinistra: ci sono alcuni neonati con lunghezza molto inferiore alla media che allungano la coda della distribuzione verso i valori bassi. La distribuzione è inoltre caratterizzata da leptocurtosi indicando la presenza tante osservazioni molto vicine alla media ma anche più outlier rispetto ad una distribuzione normale.

Diametro del cranio dei neonati

Statistiche di sintesi (Summary) di Cranio
Statistica Valore
Min. 235.0000
1st Qu. 330.0000
Median 340.0000
Mean 340.0292
3rd Qu. 350.0000
Max. 390.0000

Per la variabile relativa al diametro del cranio si osserva un valore minimo di 235 mm e un massimo di 390 mm. Il 25% dei neonati del campione presenta un diametro del cranio fino a 330 mm, il 50% (mediana) fino a 340 mm, mentre il 75% fino a 350 mm.

Skewness ed Excess Kurtosis di Cranio
Statistica Valore
Skewness -0.79
Kurtosis 2.95

Analizzando gli indici di forma si può osservare come la variabile Cranio presenta una distribuzione moderatamente asimmetrica a sinistra e una curtosi simile a quella di una distribuzione normale, indicando bassa presenza di valori anomali e una forma dei dati ordinaria.

Mesi di gestazione

Il grafico seguente rappresenta la distribuzione dei mesi di gestazione delle madri dei neonati.

I mesi di gestazione con la frequenza più elevata sono 40, seguiti da 39 e 38 settimane. La distribuzione risulta asimmetrica, con frequenze progressivamente decrescenti verso la coda sinistra, fino a raggiungere un minimo di 25 settimane, che si registra una sola volta. Dopo le 40 settimane si osserva un ulteriore calo delle frequenze, con due soli casi documentati a 43 settimane.

Numero di gravidanze

Si osserva la ditribuzione della variabile “Numero di gravidanze”.

La maggior parte del campione è costituita da neonati nati da madri alla prima gravidanza. Si osserva una diminuzione progressiva delle frequenze all’aumentare del numero di gravidanze. Il campione, infatti, è prevalentemente composto da madri alla prima o alla seconda gravidanza.

Analisi sulle variabili

Distribuzione di Sesso e di Tipo.parto rispetto a Ospedale

La presenza di maschi e femmine all’interno di ciascun ospedale,è pressoché equilibrata, con percentuali simili per entrambi i gruppi in ogni struttura.

Analizzando la distribuzione del tipo di parto nei diversi ospedali, si osserva che la percentuale di cesarei oscilla tra il 9.28% (ospedale 3), il 9.68% (ospedale 1) e il 10.2% (ospedale 2). La percentuale di parti naturali è simile tra i tre ospedali: 23% (ospedale 1), 23.80% (ospedale 2) e 24.1% (ospedale 3). Questi dati suggeriscono che la gestione dei parti (sia cesarei sia naturali) è simile nei tre ospedali, senza evidenza di particolari differenze o preferenze legate alla tipologia di parto tra le strutture. Questa distribuzione omogenea conferma che non vi sono ospedali con una predilezione marcata per il parto cesareo o naturale.

È stato utilizzato il test chi quadrato per verificare l’ipotesi di indipendenza tra queste due variabili.

Il balloon plot riportato di seguito non evidenzia alcun pattern diagonale tra queste due variabili, a conferma dell’assenza di una relazione significativa.

Risultati Test Chi-quadro per l’indipendenza
Statistica_Chi_Quadro Gradi_di_liberta P_value
X-squared 1.097 2 0.5778

L’applicazione del test chi quadrato di indipendenza ha restituito un p-value pari a 0.58. Questo valore risulta ampiamente superiore alla soglia di significatività statistica comunemente utilizzata, fissata a 0.05. Tale evidenza statistica indica che non sussistono elementi sufficienti per rifiutare l’ipotesi nulla, la quale assume che il tipo di parto (cesareo o naturale) sia indipendente dalla struttura ospedaliera presso cui il parto avviene. La frequenza relativa dei diversi tipi di parto risulta omogenea nelle strutture analizzate, suggerendo l’assenza di pratiche o protocolli divergenti che possano influenzare la scelta del tipo di parto in maniera sistematica all’interno del contesto considerato.

Verifica della rappresentatività delle medie campionarie di Peso e Lunghezza rispetto alla popolazione di riferimento

Per valutare se la media del peso e della lunghezza dei neonati nel campione sia rappresentativa di quella della popolazione, viene applicato un test t per la verifica dell’ipotesi nulla di uguaglianza tra la media campionaria e la media teorica della popolazione. Viene utilizzato il test t in quanto non è nota la deviazione standard nella popolazione.

Secondo le fonti consultate per questa analisi:

il peso alla nascita dei neonati segue una distribuzione che si avvicina molto a quella normale, pur presentando una coda particolarmente accentuata verso i valori più bassi. Da tali fonti si ricava che la media del peso alla nascita è pari a 3295 grammi. Per quanto riguarda la lunghezza dalle fonti consultate emerge che la lughezza alla nascita dei neonati segue una distribuzione normale con una media di 500 mm.

Il test t viene condotto utilizzando questi valori come parametri della popolazione di riferimento, adottando un livello di significatività pari a 0,05.

Risultati t-test sulla variabile Peso
Parametro Valore
Numero di osservazioni 2500
Media campionaria 3284.08
Deviazione standard campionaria 525.04
Valore medio atteso (mu) 3295
Statistica t -1.04
P-value 0.2985
Intervallo di confidenza [3263.49; 3304.67]
Livello di confidenza %
Risultati t-test sulla variabile Lunghezza
Parametro Valore
Numero di osservazioni 2500
Media campionaria 494.69
Deviazione standard campionaria 26.32
Valore medio atteso (mu) 500
Statistica t -10.084
P-value 0
Intervallo di confidenza [493.66; 495.72]
Livello di confidenza %

Si osserva per la variabile Peso un p-value superiore alla soglia di 0,05; di conseguenza, non si può rifiutare l’ipotesi nulla di uguaglianza tra i due valori. Questo significa che la media campionaria può essere considerata rappresentativa della media della popolazione, e la differenza osservata è attribuibile esclusivamente all’errore di campionamento. Per quel che riguarda invece la lunghezza, un p-value inferiore a 0,05 indica che la differenza osservata tra la media del campione (494,7 mm) e la media della popolazione (500 mm) è statisticamente significativa. Questo suggerisce che la media del campione potrebbe non essere rappresentativa della media della popolazione, e che la differenza osservata difficilmente è dovuta al caso.

Distribuzione delle variabili antropometriche rispetto al sesso

Come osservato in precedenza, nel campione analizzato, il numero di maschi e femmine è simile, caratteristica che consente un confronto equilibrato tra i gruppi. Di seguito sono presentate le statistiche descrittive delle variabili Peso, Lunghezza e Cranio per ciascun sesso.

Peso alla nascita
Sesso Peso medio Deviazione Standard
F 3161.132 526.3091
M 3408.215 493.8043
Lunghezza alla nascita
Sesso Lunghezza media Deviazione Standard
F 489.7643 27.53415
M 499.6672 24.03809
Diametro cranio
Sesso Diametro cranio medio Deviazione Standard
F 337.6330 16.73772
M 342.4486 15.74448

Si può osservare un peso medio maggiore nel gruppo dei maschi con una media di 3,408 kg rispetto ad una media di 3,161 kg per le femmine. Entrambi i gruppi presentano una variabilità moderata.
Si riportano inoltre i seguenti linechart che raffigurano i valori medi delle tre variabili per il gruppo dei maschi e delle femmine nel corso dei mesi di gestazione. Anche per la variabile Lunghezza si osserva una media più elevata per il gruppo dei maschi, con un valore medio di 499,66 e un coefficiente di variazione pari al 5%. Le femmine presentano invece una lunghezza media di 489,76, accompagnata da una variabilità leggermente superiore, pari al 5,62%. Per quanto riguarda il diametro del cranio, il gruppo dei maschi presenta una media più elevata pari a 342 mm mentre il valore medio del diametro delle cranio nelle bambine è 338 mm.

Si nota che per tutte e tre le variabili i valori mediani sono maggiori nel sesso maschile rispetto al sesso femminile. La differenza risulta particolarmente evidente per la variabile Peso, mentre è più contenuta per Lunghezza e Cranio. Tutti i gruppi mostrano la presenza di diversi outlier, in particolare per valori bassi, confermando la distribuzione asimmetrica osservata in precedenza.

Per controllare se le medie tra i due gruppi sono tra loro significativamente diverse, viene rappresentato di seguito i risultati del test t tramite il quale viene testata l’ipotesi nulla di uguaglianza delle medie delle variabili tra i due gruppi.

Sintesi t-test Peso per Sesso
Media.F Media.M Differenza T p.value IC.95..inf IC.95..sup
mean in group F 3161.132 3408.215 247.083 -12.106 0 -287.105 -207.061
Sintesi t-test Lunghezza per Sesso
Media.F Media.M Differenza T p.value IC.95..inf IC.95..sup
mean in group F 489.764 499.667 9.903 -9.582 0 -11.929 -7.876
Sintesi t-test Diametro del cranio per Sesso
Media.F Media.M Differenza T p.value IC.95..inf IC.95..sup
mean in group F 337.633 342.449 4.816 -7.41 0 -6.09 -3.541

Il test t di Welch mostra che la media del peso neonatale nei maschi è significativamente superiore rispetto alle femmine, con una differenza media compresa tra 207 e 287 grammi. Il risultato è altamente significativo con un p-value minore del 0.001. Anche per la Lunghezza si osserva una differenza significativa nelle medie delle lunghezze tra il gruppo dei maschi e quello delle femmine. In particolare, i neonati maschi presentano una lunghezza media significativamente superiore rispetto alle femmine. Il t test evidenzia inoltre una differenza significativa tra i due gruppi anche per la variabile Cranio: la media del diametro cranico nei maschi risulta significativamente superiore rispetto alle femmine. Questa differenza è statisticamente significativa e non può essere attribuita al solo errore di campionamento.

Variabili antropometriche rispetto ai mesi di gestazione

A seguire, si presentano i linechart che illustrano la distribuzione di peso, lunghezza e diametro del cranio rispetto ai mesi di gestazione.

Per tutte e tre le misure antropometriche considerate, si osserva un andamento crescente in corrispondenza dell’aumento dei mesi di gestazione: all’aumentare delle settimane di gestazione, infatti, aumentano sia il peso che la lunghezza e il diametro cranico del neonato.

Variabili antropometriche rispetto all’età della madre

Con i seguenti boxplot si osserva la distribuzione delle variabili antropometriche Peso, Lunghezza e Diametro del cranio al crescere dell’età della madre, si suddivide per classi quest’ultima variabile.

Non si osservano trend significativi tra le fasce d’età materna e le variabili Peso, Lunghezza o Diametro del cranio. In generale, l’andamento di questi parametri rimane abbastanza costante nelle diverse fasce d’età. La distribuzione dei valori di Cranio, Peso e Lunghezza non differisce in modo significativo tra i diversi gruppi di età delle madri.

Numero di gravidanze rispetto ai mesi di gestazione

Si riporta a seguire la l’andamento del numero di gravidanze in funzione delle classi di età delle madri.

Il grafico mostra che la maggior parte delle donne nelle fasce d’età più giovani (13-15 e 16-20 anni) è alla prima gravidanza. Con l’aumentare dell’età, cresce gradualmente la percentuale di donne con una o più gravidanze pregresse, mentre diminuiscono le primipare. Nelle fasce più avanzate (36-40 e 41+ anni) diventano frequenti i casi di gravidanze multiple. Quanto osservato è in linea con le attese e riflette l’andamento riscontrato nella popolazione generale.

Matrice di correlazione tra le variabili

Il grafico sottostante mostra la matrice di correlazione, in cui viene mostrata la relazione delle variabili a due a due. Per ogni coppia di variabili numeriche vengono visualizzati sia il coefficiente di correlazione sia lo scatterplot con la relativa linea di regressione.

Si osserva una forte correlazione tra le variabili Lunghezza e Peso con un coefficiente di correlazione molto alto di 0.80 e tra le variabili Lunghezza e Cranio (coefficiente di correlazione pari a 0,60): all’aumentare della lunghezza, tende ad aumentare anche il diametro cranico. Una correlazione simile si riscontra tra Gestazione e Lunghezza (coefficiente 0,62), evidenziando che a maggiori valori di lunghezza corrispondono, in media, periodi di gestazione più lunghi. Infine, anche tra Gestazione e Cranio la relazione è positiva (coefficiente 0,46): all’aumentare dei mesi di gestazione, aumenta generalmente anche il valore medio del diametro cranico.

Per quanto riguarda il peso neonatale le variabili che mostrano la correlazione più elevata con esso sono la lunghezza e il diametro del cranio, seguite dai mesi di gestazione. In particolare, il grafico relativo alla lunghezza evidenzia una nuvola di punti che sembra la cui linea di regressione sembra avere una curvatura verso l’alto. Il diametro del cranio presenta un andamento lineare crescente, sebbene con una dispersione dei punti leggermente superiore rispetto alla lunghezza. Per quanto riguarda i mesi di gestazione, la distribuzione dei punti mostra una tendenza di crescita piuttosto definita ma che sembra non essere perfettamente lineare. Nell’area sottostante sono riportati i grafici che descrivono in dettaglio la relazione tra il peso e le due variabili considerate. In ciascun grafico sono visibili le distribuzioni puntiformi corrispondenti alle singole osservazioni (“nuvole di punti”), sulle quali sono state sovrapposte le rispettive linee di regressione di tipo quadratico, che evidenziano l’andamento della relazione.

Nei grafici è possibile osservare che la linea di regressione di tipo quadratico tra peso e gestazione presenta una curvatura molto debole, a conferma di una relazione prevalentemente lineare tra queste due variabili. Al contrario, la relazione tra lunghezza e peso mostra una marcata curvatura, evidenziando un andamento di tipo non lineare.

Al contrario, per le variabili “Anni della madre” e “Numero di gravidanze” non si osservano pattern particolari: i punti risultano distribuiti in modo piuttosto sparso, senza evidenziare nessun andamento specifico. Si osserva nel grafico una correlazione lineare tra le variabili Lunghezza e Cranio: all’aumentare dell’uno aumenta l’altra. Questa correlazione potrebbe causare nel modello che verrà stimato fenomeni di multicollinearità, ovvero una forte dipendenza lineare tra predittori, che può rendere instabili le stime dei coefficienti di regressione e ridurre l’affidabilità nell’interpretazione degli effetti delle singole variabili.

Costruzione del modello

Viene stimato un primo modello di regressione lineare multipla considerando tutte le variabili in forma additiva, ovvero senza interazioni tra di esse. Tuttavia, già in questa fase preliminare, vengono escluse dal modello alcune variabili che, dal punto di vista logico ed epidemiologico, non apportano informazioni utili alla previsione del peso alla nascita. Ad esempio, la variabile “Tipo di parto” non rappresenta una causa del peso del neonato, ma ne è frequentemente una conseguenza. La decisione di procedere con un parto cesareo, infatti, è spesso presa proprio a fronte di un basso peso del neonato o in presenza di specifiche condizioni cliniche materne o fetali. In altre parole, il “tipo di parto” riflette una risposta ad una situazione già influenzata dall’esito che intendiamo predire e, pertanto, non costituisce un predittore indipendente. Includere questa variabile nel modello rischierebbe di confondere o alterare l’interpretazione dei risultati, introducendo una relazione inversa non adatta allo scopo predittivo. Allo stesso modo, la variabile “Ospedale” non ha un legame causale diretto con il peso alla nascita, ma può riflettere semplicemente differenze nelle popolazioni servite o nelle procedure adottate dai singoli ospedali. Il rischio è che questa variabile introduca effetti legati al contesto specifico piuttosto che ai reali determinanti del peso neonatale, rendendo il modello meno generalizzabile e più difficile da interpretare. Per questi motivi, l’inclusione di “Ospedale” non è giustificata se non si intende analizzare specifiche differenze tra strutture. In conclusione, sia “Tipo di parto” che “Ospedale” vengono omessi dall’analisi in modo da costruire un modello focalizzato sui reali fattori predittivi del peso alla nascita.

Stima dei coefficienti con significatività
Stima Errore Std. t value Pr(>|t|) Significatività
(Intercept) -6711.269 141.251 -47.513 0.000 ***
Anni.madre 0.869 1.149 0.757 0.449
N.gravidanze 11.415 4.674 2.442 0.015
Fumatrici1 -30.286 27.598 -1.097 0.273
Gestazione 32.890 3.826 8.597 0.000 ***
Lunghezza 10.235 0.301 34.010 0.000 ***
Cranio 10.519 0.427 24.644 0.000 ***
SessoM 78.090 11.204 6.970 0.000 ***
Statistiche complessive del modello
Parametro Valore
Residual Standard Error 274.620
Multiple R-squared 0.727
Adjusted R-squared 0.726
F-statistic 949.000
p-value F-statistic 0.000
Gradi di Libertà Residuali 2492.000

Nel modello calcolato si osserva che alcune variabili presentano un’elevata significatività statistica. Queste presentano un p-value inferiore alla soglia di significatività del 0.1%. In particolare, le variabili Gestazione, Lunghezza, Cranio e Sesso risultano fortemente associate al peso alla nascita. La variabile Numero di gravidanze presenta una significatività più moderata con p value inferiore alla soglia del 5%. Per le variabili categoriche Sesso e Fumatrici, sono utilizzate come baseline (ovvero la categoria di riferimento rispetto alla quale si effettuano i confronti), rispettivamente: sesso femminile e madre non fumatrice.
Il modello di regressione lineare ha un valore di R quadro pari a 0,73. Questo significa che circa il 73% della variabilità del peso alla nascita è spiegato complessivamente dalle variabili presenti nel modello, tenendo conto del numero di variabili incluse. Un valore così elevato indica una buona capacità del modello di adattarsi ai dati osservati, evitando la sovrastima dovuta all’inserimento di predittori poco rilevanti. Considerando l’assenza di significatività della variabile “Fumatrici” si procede alla stima di un secondo modello escludendo questa variabile.

Stima dei coefficienti con significatività
Stima Errore Std. t value Pr(>|t|) Significatività
(Intercept) -6711.109 141.256 -47.510 0.000 ***
Anni.madre 0.880 1.149 0.766 0.444
N.gravidanze 11.157 4.669 2.390 0.017
Gestazione 32.636 3.819 8.546 0.000 ***
Lunghezza 10.249 0.301 34.089 0.000 ***
Cranio 10.523 0.427 24.654 0.000 ***
SessoM 77.912 11.204 6.954 0.000 ***
Statistiche complessive del modello
Parametro Valore
Residual Standard Error 274.630
Multiple R-squared 0.727
Adjusted R-squared 0.726
F-statistic 1106.800
p-value F-statistic 0.000
Gradi di Libertà Residuali 2493.000

L’esclusione della variabile “Fumatrici” non ha modificato i livelli di significatività delle restanti variabili incluse nel modello. Inoltre, il valore di R² è rimasto invariato, indicando che il modello mantiene la stessa capacità esplicativa pur con una struttura più semplice, grazie all’eliminazione di una variabile poco rilevante. Anche in questo secondo modello, la variabile “Anni della madre” non risulta statisticamente significativa rispetto alla variabile risposta. Nonostante l’assenza di significatività statistica, si è scelto di mantenere questa variabile nel modello in virtù della sua rilevanza clinica. L’età materna rappresenta infatti un importante fattore di controllo, ampiamente riconosciuto nella pratica medica e considerato un dato di base per l’analisi degli esiti neonatali. La sua inclusione assicura una maggiore aderenza agli standard della ricerca e facilita il confronto con altri studi presenti in letteratura.

Si utilizza ora la funzione vif() (Variance Inflation Factor) per diagnosticare la multicollinearità tra le variabili indipendenti del modello di regressione. La multicollinearità consiste nella correlazione tra le variabili indipendenti del modello. Può creare problemi perché rende instabili e non interpretabili i coefficienti della regressione. Un VIF calcola quanto la varianza dei coefficienti stimati sia aumentata a causa della collinearità.

Un valore di vif vicino a 1: indica che la variabile non è correlata linearmente con le altre. un valore tra 1 e 5: è generalmente considerato accettabile, la collinearità non è un problema grave. Quando il valore è superiore a 5 la collinearità risulta problematica e potrebbe essere necessario intervenire. In questo caso tutti i VIF sono sotto la soglia di preoccupazione (nessuno superiore a 5), quindi non ci sono problemi significativi di multicollinearità in questo modello.

## Warning: il pacchetto 'car' è stato creato con R versione 4.5.1
## Caricamento del pacchetto richiesto: carData
## Warning: il pacchetto 'carData' è stato creato con R versione 4.5.1
## 
## Caricamento pacchetto: 'car'
## Il seguente oggetto è mascherato da 'package:dplyr':
## 
##     recode
Variance Inflation Factors (VIF) per modello
Variabile VIF
4 Lunghezza 2.07
3 Gestazione 1.69
5 Cranio 1.63
1 Anni.madre 1.19
2 N.gravidanze 1.18
6 Sesso 1.04

Sulla base di quanto emerso nel paragrafo precedente, viene inserito nel modello il termine quadratico della variabile Lunghezza, avendo riscontrato una relazione di tipo quadratico tra la lunghezza e il peso del neonato. Si osserva così come l’aggiunta di questo termine migliora l’a qualità del modello’adattamento del modello ai dati.

Stima dei coefficienti con significatività
Stima Errore Std. t value Pr(>|t|) Significatività
(Intercept) 183.946 725.117 0.254 0.800
Anni.madre 0.759 1.128 0.673 0.501
N.gravidanze 12.960 4.588 2.825 0.005 **
Gestazione 42.759 3.893 10.985 0.000 ***
Lunghezza -20.249 3.162 -6.404 0.000 ***
Cranio 10.636 0.419 25.367 0.000 ***
SessoM 69.944 11.031 6.341 0.000 ***
I(Lunghezza^2) 0.032 0.003 9.688 0.000 ***
Statistiche complessive del modello
Parametro Valore
Residual Standard Error 269.650
Multiple R-squared 0.737
Adjusted R-squared 0.736
F-statistic 997.500
p-value F-statistic 0.000
Gradi di Libertà Residuali 2492.000

Nel nuovo modello di regressione, l’introduzione del termine di interazione si traduce in un miglioramento nella stima dei coefficienti. La variabile N.gravidanze, precedentemente caratterizzata da una bassa significatività statistica, risulta ora maggiormente significativa, con un p-value < 0,01. Il termine quadratico Lunghezza² mostra un’elevata significatività (p-value < 0,001). Per il termine lineare della Lunghezza e per le altre variabili, la significatività rispetto al modello precedente rimane invariata. L’R-quadro aumenta dal 72,7% al 73,7%. La significatività di questa differenza viene verificata tramite il test ANOVA.

Confronto ANOVA tra mod2 e mod3
Res.Df RSS Df Sum of Sq F Pr(>F)
2493 188021276 NA NA NA NA
2492 181197117 1 6824160 93.85252 0

L’analisi del p-value, risultato essere inferiore a 0.01, indica che l’aggiunta del termine quadratico di Lunghezza produce un miglioramento altamente significativo del modello. Questo suggerisce che il nuovo parametro ha un impatto rilevante nella spiegazione della variabilità del peso e incrementa sensibilmente la qualità dell’adattamento del modello ai dati. Sebbene l’aumento dell’R² sia quantitativamente modesto (1%), il test ANOVA dimostra che l’aggiunta del termine quadratico migliora significativamente la capacità esplicativa del modello. Inoltre, il fatto che il termine quadratico sia fortemente significativo, conferma che la relazione tra lunghezza e peso non sia del tutto lineare: includere il termine quadratico permette di catturare questa relazione.

Si verifica anche per questo modello se è presente multicollinearità nel modello:

Variance Inflation Factors (VIF) per modello
Variabile VIF
4 Lunghezza 238.01
7 I(Lunghezza^2) 230.04
3 Gestazione 1.82
5 Cranio 1.63
1 Anni.madre 1.19
2 N.gravidanze 1.19
6 Sesso 1.05

Si riscontra un valore di VIF molto elevato per il termine quadratico della lunghezza. Tuttavia, l’elevata multicollinearità dovuta all’inclusione di termini polinomiali è un fenomeno ben noto, in quanto la variabile elevata al quadrato risulta, per costruzione, fortemente correlata con la variabile originale. Nella maggior parte dei casi, questa situazione può essere considerata un compromesso accettabile: la presenza di multicollinearità, infatti, non rappresenta necessariamente un problema che richiede la rimozione del termine quadratico dal modello.

Si aggiunge al modello appena stimato l’effetto di interazione tra lunghezza e gestazione. Questa scelta nasce dalla riflessione che la crescita neonatale e lo sviluppo corporeo sono processi complessi, influenzati non solo dagli effetti indipendenti delle singole misure antropometriche, ma anche dalla loro combinazione. In particolare, l’interazione tra la lunghezza del corpo e i mesi di gestazione consente di indagare se l’effetto della lunghezza sul peso alla nascita varia a seconda della durata della gestazione. Tale interazione potrebbe infatti riflettere dinamiche di crescita differenziate (ad esempio, una maggiore lunghezza potrebbe avere un impatto più marcato sul peso nei nati a termine rispetto a quelli pretermine), offrendo così una comprensione più approfondita dei fattori che influenzano il peso neonatale.

Stima dei coefficienti con significatività
Stima Errore Std. t value Pr(>|t|) Significatività
(Intercept) -2549.900 905.923 -2.815 0.005 **
Anni.madre 0.484 1.124 0.430 0.667
N.gravidanze 13.634 4.568 2.985 0.003 **
Gestazione 264.760 44.639 5.931 0.000 ***
Lunghezza -25.813 3.338 -7.732 0.000 ***
Cranio 10.352 0.421 24.581 0.000 ***
SessoM 73.623 11.003 6.691 0.000 ***
I(Lunghezza^2) 0.056 0.006 9.591 0.000 ***
Gestazione:Lunghezza -0.463 0.093 -4.992 0.000 ***
Statistiche complessive del modello
Parametro Valore
Residual Standard Error 268.370
Multiple R-squared 0.740
Adjusted R-squared 0.739
F-statistic 884.300
p-value F-statistic 0.000
Gradi di Libertà Residuali 2491.000

Si rileva un’elevata significatività statistica per il termine di interazione appena introdotto, il cui p-value risulta inferiore alla soglia di 0,01. Ciò indica che l’effetto di una delle due variabili sull’outcome di interesse dipende dal valore assunto dall’altra, e viceversa. In altre parole, la combinazione tra Lunghezza e Gestazione sembra apportare al modello informazioni aggiuntive e più precise rispetto a quelle ottenute considerando ciascuna variabile separatamente. I coefficienti degli altri regressori presenti nel modello mantengono livelli di significatività sostanzialmente invariati rispetto alla versione precedente del modello. Tuttavia, l’R² rimane pressoché stabile, passando a 0,74. Questo evidenzia un miglioramento marginale (praticamente nullo) nella quota di variabilità del peso spiegata dal modello. Si procede anche in questo caso con un test ANOVA:

Confronto ANOVA tra mod2 e mod3
Res.Df RSS Df Sum of Sq F Pr(>F)
2492 181197117 NA NA NA NA
2491 179402276 1 1794841 24.92136 6e-07

L’analisi del p-value, risultato inferiore a 0,01, indica che l’aggiunta del termine di interazione Lunghezza × Gestazione apporterebbe un miglioramento statisticamente significativo al modello. Tuttavia, è importante ricordare che tra le variabili Lunghezza e Gestazione si è osservata un’elevata correlazione, come evidenziato nella matrice di correlazione presentata all’inizio del paragrafo. Tale condizione può favorire la comparsa di multicollinearità, che potrebbe influire sulla stabilità e l’interpretabilità dei coefficienti stimati dal modello.

## there are higher-order terms (interactions) in this model
## consider setting type = 'predictor'; see ?vif
Variance Inflation Factors (VIF) per modello
Variabile VIF
8 Gestazione:Lunghezza 836.17
7 I(Lunghezza^2) 731.77
4 Lunghezza 267.87
3 Gestazione 241.43
5 Cranio 1.66
1 Anni.madre 1.19
2 N.gravidanze 1.19
6 Sesso 1.05

L’aggiunta del termine di interazione (Gestazione:Lunghezza) come nel caso del termine quadratico (I(Lunghezza^2)), ha provocato una forte multicollinearità tra questi predittori, anche questo fenomeno comune nei modelli con polinomi e interazioni perché le variabili coinvolte risultano molto correlate. Questo rende i coefficienti instabili e i relativi test meno affidabili. La collinearità elevata è attesa in questi casi e rappresenta un problema soprattutto nell’interpretabilità dei coefficienti.

AIC e BIC

Si confrontano i modelli appena calcolati utilizzando i criteri AIC (Akaike Information Criterion) e BIC (Bayesian Information Criterion).
Entrambi i metodi misurano quanto bene un modello si adatta ai dati e tengono conto anche di quanti parametri usa (cioè, quanto è complesso). La loro funzione principale è aiutare a scegliere tra modelli alternativi: quello con il valore di AIC o BIC più basso è preferito perché rappresenta il miglior compromesso tra accuratezza e semplicità. La differenza principale tra i due è che il BIC penalizza di più i modelli complessi rispetto all’AIC, quindi tende a preferire modelli più semplici, soprattutto quando il numero di dati è grande. Non indicano quanto è “buono” un modello in assoluto, ma solo quale modello è migliore rispetto agli altri tra quelli considerati.

Confronto AIC tra modelli
Modello df AIC
4 mod4 10 35067.43
3 mod3 9 35090.32
2 mod2 8 35180.74
1 mod1 9 35181.53

Il modello con l’AIC più basso è il modello 4.

Tuttavia, poiché l’AIC tende a favorire modelli con un maggior numero di parametri, risulta preferibile valutare la bontà dell’adattamento anche in base ai valori restiuiti dal criterio BIC, che applica una penalizzazione più severa per la complessità del modello. Di seguito sono riportati i valori di BIC associati ai sei modelli considerati.

Confronto BIC tra modelli
Modello df BIC
4 mod4 10 35125.67
3 mod3 9 35142.73
2 mod2 8 35227.33
1 mod1 9 35233.95

Anche secondo il criterio BIC il modello che descrive meglio i dati riulsta essere anche in questo caso il modello 4.

Confronto dell’R Quadro Aggiustato

Il valore R², detto anche coefficiente di determinazione, indica la percentuale di variabilità della variabile dipendente (in questo caso, il peso dei neonati) spiegata dalle variabili indipendenti inserite nel modello. Nel nostro caso, tutti i modelli analizzati mostrano valori di R² molto simili, compresi tra 0.73 e 0.74; ciò significa che circa il 73-74% della variabilità osservata nei pesi dei neonati è spiegata dalle variabili considerate. Anche i valori di R² aggiustato, che tengono conto sia del numero di variabili indipendenti sia del numero di osservazioni (penalizzando l’aggiunta di variabili non realmente utili), risultano molto vicini ai rispettivi valori di R². Questo suggerisce un buon adattamento del modello ai dati e che i modelli non soffrono di overfitting, avendo buone probabilità di generalizzare su nuovi dati.

L’inserimento del termine quadratico relativo alla lunghezza non determina un incremento significativo dell’R², che rimane pressoché invariato, ma comporta invece un miglioramento rilevante dei valori di BIC. Questo stesso effetto si osserva anche con l’aggiunta del termine di interazione tra lunghezza e gestazione: pur registrandosi un’ulteriore riduzione del criterio informativo BIC, l’elevata correlazione tra le variabili lunghezza e gestazione potrebbe compromettere la stabilità delle stime dei coefficienti e rendere più complessa l’interpretazione dei parametri del modello. Per queste ragioni, e al fine di mantenere il modello il più possibile parsimonioso e facilmente interpretabile, si ritiene preferibile adottare il modello 3, che prevede l’inclusione del solo termine quadratico. Questa scelta riflette un ragionevole compromesso tra qualità dell’adattamento, semplicità del modello e trasparenza interpretativa. Va inoltre sottolineato che, pur avendo validato il modello sui dati a disposizione, sarà cruciale verificarne la robustezza e la capacità predittiva anche su dati indipendenti o futuri.

Si riportano a seguire le stime dei coefficienti del modello 3:

Stima dei coefficienti con significatività
Stima Errore Std. t value Pr(>|t|) Significatività
(Intercept) 183.946 725.117 0.254 0.800
Anni.madre 0.759 1.128 0.673 0.501
N.gravidanze 12.960 4.588 2.825 0.005 **
Gestazione 42.759 3.893 10.985 0.000 ***
Lunghezza -20.249 3.162 -6.404 0.000 ***
Cranio 10.636 0.419 25.367 0.000 ***
SessoM 69.944 11.031 6.341 0.000 ***
I(Lunghezza^2) 0.032 0.003 9.688 0.000 ***

Ciascun coefficiente esprime come cambia in media il peso del neonato quando aumenta di una unità la variabile indipendente, mantenendo tutte le altre costanti (ovvero tenendole “in media fisse”). Ecco l’interpretazione per ciascun coefficiente presente nel modello:

*(Intercept) — 183.95: Questo è il valore del peso medio previsto quando tutte le variabili nel modello sono pari a zero. Questo valore in questo contesto non ha un significato reale pratico (non potendo esserci madri con 0 anni o neonati nati alla settimana 0 di gestazione, o neonati con lunghezza o diametro pari a 0, ecc…)

*Anni.madre — 0.76: Aumentando di 1 anno l’età della madre, in media (cioè a parità di gestazione, numero di gravidanze, lunghezza, cranio e sesso) il peso previsto aumenta di circa 0.76 grammi (coefficiente che si è visto non essere statisticamente significativo).

*N.gravidanze — 12.96: Aumentando di 1 unità il numero di gravidanze precedenti, in media il peso previsto del neonato aumenta di circa 13 grammi, a parità delle altre variabili.

*Gestazione — 42.76: Aumentando di 1 settimana la durata della gestazione, in media il peso del neonato aumenta di circa 43 grammi, mantenendo invariate tutte le altre variabili.

*Cranio — 10.64: Aumentando di 1 cm la circonferenza cranica, in media e a parità delle altre variabili, il peso previsto aumenta di circa 10.6 grammi.

*SessoM — 69.94: Essere maschio (rispetto a essere femmina), in media e a parità degli altri fattori, è associato a un peso del neonato superiore di circa 70 grammi.

*Lunghezza - effetto combinato del termine lineare (-20.25) e termine quadratico (0.032): L’effetto della lunghezza sul peso del neonato non è costante, ma dipende dalla lunghezza stessa a causa della presenza sia del termine lineare che di quello quadratico nel modello. Se si considerasse soltanto il termine lineare, un aumento di 1 cm nella lunghezza porterebbe, a parità delle altre variabili, a una riduzione media del peso di circa 20.25 grammi. Tuttavia, l’inclusione del termine quadratico fa sì che questo effetto negativo si attenui man mano che la lunghezza aumenta, poiché la componente quadratica (+0.064 per ogni centimetro aggiuntivo) controbilancia parzialmente il termine lineare negativo. In sintesi, l’effetto marginale di un aumento di 1 cm nella lunghezza (ossia la variazione attesa nel peso al variare della lunghezza, tenendo costanti le altre variabili) si calcola con la formula: -20.25 + 2 × 0.032 × lunghezza attuale. Questo implica che, per valori bassi di lunghezza, l’effetto è fortemente negativo; per valori crescenti diventa meno negativo, fino a diventare positivo per lunghezze sufficientemente elevate. La relazione stimata dal modello si applica ai valori osservati di lunghezza nel campione, che vanno da un minimo di 310 mm a un massimo di 565 mm.

Diagnostica sui residui

Diagnostica sui residui

Si valutano tramite metodi di diagnostica sui residui la bontà dell’adattamento del modello, tramite l’analisi dei residui (le differenze tra valori osservati e predetti). In particolare, con la diagnostica sui residui si controllano:

  1. Linearità: se la relazione reale tra le variabili è lineare;
  2. Normalità dei residui: se questi sono distribuiti in modo normale;
  3. Omogeneità delle varianze: se la varianza dei residui è costante;
  4. Presenza di outlier o punti influenti: se ci sono dati anomali che influenzano il modello;

Dai grafici riportati si possono fare le seguenti osservazioni:

1.Grafico Residuals vs Fitted: E’ il grafico che mostra i residui in funzione dei valori predetti. In questo grafico si dovrebbe osservare una nuvola casuale attorno allo 0: si osserva una leggera curvatura. La linea rossa mostra una certa asimmetria all’inizio (per fitted bassi) e alcuni punti estremi (ad esempio l’ osservazione 1551). La maggior parte dei punti è comunque abbastanza centrata: il modello non sembra gravemente violare l’assunzione di linearità, ma c’è qualche segnale di eteroschedasticità (ovvero varianza non costante dei residui). Parte delle inforomazioni non è stata filtrata bene dai regressori ed è finita sui residui.

  1. Q-Q Plot: In questo grafico vengono confrontati i residui standardizzati con una distribuzione normale teorica. I punti dovrebbero distribuirsi lungo la bisettrice del grafico. La maggior parte dei punti segue la diagonale, ma nelle code (soprattutto a destra) si notano delle deviazioni: i residui non sono perfettamente normali, inoltre si osservano alcuni outlier (ad esempio le osservazioni 1551, 1306). Questo risultato indica che la variabile Peso non segue una distribuzione normale nel campione analizzato.

  2. Scale-Location: Serve a controllare un presupposto importante della regressione lineare ovvero l’omoschedasticità che consiste nella varianza costante dei residui per tutti i valori predetti. Se i punti sono distribuiti casualmente e non mostrano una struttura particolare (ad esempio, non formano un “imbuto” o una forma a ventaglio), allora l’assunzione di omoschedasticità è soddisfatta. Se invece i punti si allargano/schiacciano all’aumentare dei fitted values (ad esempio si vede una banda che cambia di ampiezza), indica che c’è eteroschedasticità (la varianza dei residui non è costante) e questo può invalidare alcune inferenze statistiche del modello. In questo caso si nota una leggera curvatura: sembra che la maggior parte dei punti sia concentrata in una fascia orizzontale, leggermente più sparsa in alcuni punti, ma non si notano espansioni o contrazioni sistemiche.

  3. Residuals vs Leverage (in basso a destra) Il grafico consente di individuare osservazioni che hanno un grande impatto sul modello di regressione. Mostra la relazione tra i residui e la leva (quanto ciascun punto influenza il modello). Punti con leva alta e residui grandi sono potenzialmente pericolosi perché possono distorcere significativamente i risultati del modello e devono essere esaminati con attenzione. Alcuni punti, come il 1551, il 1780 e il 310, presentano residui elevati o un leverage significativo; tuttavia, solo il punto 1551 si avvicina alla curva della distanza di Cook, trovandosi quasi leggermente al di sopra della soglia di 0.5, ma comunque al di sotto di 1.

Si effettuano ulteriori analisi di tipo numerico da affiancare alle considerazioni grafiche appena effettuate.

Per verificare la normalità dei residui si utilizza il test di Shapiro-Wilk, che assume come ipotesi nulla che i residui provengano da una distribuzione normale.

Test di Shapiro-Wilk sulla normalità dei residui
Statistica_W p_value Conclusione
W 0.9857 < 1e-04 NON normale (p < 0.05)

Il p-value molto piccolo indica che occorre rifiutare l’ipotesi nulla di normalità dei residui.

Viene utilizzato il bptest (Breusch-Pagan test) che serve a verificare se la varianza degli errori in un modello di regressione è costante (omoschedasticità) o meno (eteroschedasticità). Se il p-value è maggiore di 0.05: la varianza è costante, quindi NON c’è eteroschedasticità. Se il p-value è minore di 0.05: la varianza non è costante, quindi C’È eteroschedasticità e il modello potrebbe necessitare di aggiustamenti.

## Warning: il pacchetto 'lmtest' è stato creato con R versione 4.5.1
## Caricamento del pacchetto richiesto: zoo
## 
## Caricamento pacchetto: 'zoo'
## I seguenti oggetti sono mascherati da 'package:base':
## 
##     as.Date, as.Date.numeric
Test di eteroschedasticità di Breusch-Pagan
Statistica_BP Gradi_di_libertà p_value Conclusione
BP 129.1534 7 < 1e-04 Presenza di eteroschedasticità (p < 0.05)

Il p-value estremamente piccolo indica che occorre rigettare l’ipotesi nulla di omoschedasticità: quindi, i residui del tuo modello 4 mostrano eteroschedasticità, ovvero la varianza degli errori non è costante.

Viene effettuato ora il test di Durbin Watson per rilevare se gli errori della regressione sono correlati tra loro nel tempo o rispetto all’ordine dei dati. L’assenza di autocorrelazione è uno degli assunti fondamentali della regressione lineare classica.

Test di Durbin-Watson sui residui
Statistica_DW p_value Conclusione
DW 1.9469 0.092005 Non si evidenzia autocorrelazione (p ≥ 0.05)

Con un p value maggiore di 0.05 i residui del modello 4 risultano essere indipendenti tra loro. Si può ritenere soddisfatto l’assunto di indipendenza dei residui nella regressione lineare per questo modello.

Si identificano ora le osservazioni con leverage elevato, ovvero quei punti che, rispetto alle variabili predittive, si trovano lontani dalla maggior parte delle altre osservazioni nel dataset.

Sono presenti diverse osservazioni con leverage alto. Questo significa che questi punti si trovano in posizioni insolite rispetto alle variabili predittive e possono avere un’influenza potenzialmente significativa sulla stima dei parametri del modello di regressione. In modo analogo si vanno ad identificare gli outlier, ovvero le informazioni anomale nella variabile risposta:

Risultati Outlier Test (mod3)
Osservazione Rstudent P_value P_Bonferroni
1551 1551 7.2696 0 0.0000
1306 1306 4.8434 0 0.0034
155 155 4.7415 0 0.0056
1399 1399 -4.3977 0 0.0285
1694 1694 4.3357 0 0.0378

Nel modello sono stati individuati 5 valori outlier. La distanza di Cook permette di individuare le osservazioni che esercitano un’influenza rilevante sul modello di regressione.

Dall’analisi emerge che solo l’osservazione numero 1551 supera la soglia critica della distanza di Cook (2.18), segnalando così una particolare importanza di questo punto nella determinazione dei coefficienti del modello di regressione.

## [1] 2.180808

Il modello identifica l’osservazione 1551 sia come un outlier sia come un punto ad alto leverage. Questo implica che tale osservazione esercita un’influenza significativa sulla stima dei parametri del modello, con il rischio di alterare i risultati delle analisi e comprometterne la validità complessiva. Si analizza il punto in questione:

Osservazione 1551
Anni.madre N.gravidanze Fumatrici Gestazione Peso Lunghezza Cranio Tipo.parto Ospedale Sesso FasceEta
1551 35 1 0 38 4370 315 374 Nat osp3 F 31-35

Si osserva che l’outlier corrisponde all’osservazione relativa a una neonata alla 38ª settimana di gestazione, caratterizzata da una lunghezza di 315 mm (un valore estremamente basso, vicino al minimo di 310 mm nel dataset), un peso piuttosto elevato di 4370 grammi (posizionato nel terzo quartile della distribuzione dei pesi) e un diametro cranico anch’esso elevato, pari a 374 mm (terzo quartile nella rispettiva distribuzione). Questa combinazione di valori risulta piuttosto atipica: la presenza di una lunghezza così ridotta associata a peso e circonferenza cranica elevati non appare biologicamente plausibile alla 38ª settimana. Sebbene non sia possibile stabilire con certezza la causa di tale outlier, che potrebbe essere dovuto a un errore di inserimento dati oppure riflettere una condizione clinica rara e grave (ad esempio una malformazione fetale o una grave patologia), le informazioni a disposizione non permettono di stabilire se la neonata sia nata viva o in quali condizioni cliniche si trovasse alla nascita. In assenza di informazioni aggiuntive circa la correttezza dei dati, la scelta adottata è quella di mantenere inalterato il valore anomalo. La sostituzione del valore anomalo con la mediana (o altri valori imputati) non viene ritenuta metodologicamente appropriata senza evidenze chiare di un errore di trascrizione.

Previsioni del modello

Il modello selezionato sarà impiegato per effettuare delle previsioni. A tal fine, viene costruito un nuovo dataframe contenente un singolo record con le seguenti caratteristiche: Sesso = “F”, Numero di gravidanze = 2 (terza gravidanza), Settimane di gestazione = 39, Fumatrice = “NO”. Per le variabili relative alle misure del cranio e della lunghezza, vengono utilizzati i valori medi riscontrati nel gruppo delle femmine. Analogamente, per l’età della madre viene impiegato il valore medio rilevato per questa variabile all’interno del dataset.

Tabella dei valori medi
media_lunghezza media_cranio media_anni_madre
489.9 337.6 28

Si costruisce un dataframe contenente un record con i dati appena elencati. Per poter utilizzare la funzione predict senza errori, vengono aggiunti anche i livelli delle variabili Fumatrici, Tipo parto e Ospedale, pur essendo state escluse dal modello. Questo accorgimento è necessario perché il modello, durante il processo di predizione, richiede comunque la presenza di tutte le variabili indicate originalmente nella formula (poi sottratte), anche se poi non vengono utilizzate nei calcoli finali.

Età madre N. gravidanze Settimane gestazionali Lunghezza (mm) Cranio (mm) Sesso Fumatrice Tipo parto Ospedale
28 2 39 489.9 337.6 F Non fumatrice Nat osp3
##        1 
## 3163.262

Il modello prevede un peso della neonata di 3163.26 g.

Visualizzazioni e Conclusioni

Nel grafico sono rappresentati sia la distribuzione delle osservazioni sia i modelli stimati. I punti rosa indicano le osservazioni relative al gruppo delle femmine, mentre i punti verdi si riferiscono al gruppo dei maschi; lo stesso codice colore viene utilizzato per le rispettive linee di regressione. La linea nera rappresenta invece il modello generale, calcolato senza distinguere per sesso. Si evidenzia un andamento crescente del peso all’aumentare delle settimane di gestazione. Inoltre, la linea relativa ai maschi si colloca costantemente al di sopra di quella delle femmine, indicando che, a parità di settimane di gestazione, i maschi presentano mediamente un peso maggiore rispetto alle femmine.

## `geom_smooth()` using formula = 'y ~ x'
## `geom_smooth()` using formula = 'y ~ x'

Per quanto concerne le variabili “Lunghezza” e “Cranio”, si osserva che il peso tende ad aumentare sia all’aumentare della lunghezza sia della circonferenza cranica. Analizzando in particolare la relazione tra peso e lunghezza, si nota che per valori più bassi di lunghezza la curva dei maschi si posiziona nettamente al di sotto di quella delle femmine, indicando che in questo intervallo le femmine presentano un peso mediamente maggiore. Le due curve si incontrano a valori intermedi di lunghezza, oltre i quali la curva dei maschi supera leggermente quella delle femmine. Si evidenzia inoltre la presenza di un outlier relativo a una femmina nell’area superiore sinistra del grafico: questa osservazione potrebbe aver contribuito a innalzare la linea di tendenza delle femmine nei valori più bassi della lunghezza.

Per la variabile cranio, la differenza di peso tra il gruppo dei maschi e quello delle femmine risulta meno accentuata rieptto a quanto osservato per le altre variabili. Le due rette, quella dei maschi e quella delle femmine, risultano praticamente sovrapposte, entrambe molto vicine anche alla linea del modello generale.

## `geom_smooth()` using formula = 'y ~ x'
## `geom_smooth()` using formula = 'y ~ x'

Il presente progetto ha permesso di sviluppare un modello di previsione del peso neonatale solido, fondato su un’analisi approfondita di dati osservazionali provenienti da più strutture ospedaliere. L’approccio seguito ha privilegiato la costruzione di modelli parsimoniosi e facilmente interpretabili, nel rispetto sia della letteratura clinica di riferimento che delle evidenze emergenti dai dati. In particolare, sono state confermate come determinanti principali del peso alla nascita la durata della gestazione, le misurazioni antropometriche (lunghezza e circonferenza cranica) e il sesso del neonato. L’analisi dei modelli ha mostrato che l’inclusione di un termine quadratico per la lunghezza consente di catturare la non linearità della relazione tra lunghezza e peso, migliorando la capacità di adattamento del modello ai dati rispetto a formule puramente lineari. Nonostante l’esistenza di alcune problematiche relative ai residui, in particolare eteroschedasticità e deviazioni dalla normalità, il modello spiega una quota rilevante della variabilità del peso neo-natale (il 73% secondo il coefficiente di determinazione aggiustato). La presenza di un outlier influente è stata discussa attentamente, optando, in assenza di informazioni aggiuntive, per il mantenimento dell’osservazione anomala nel campione. Nel complesso, pur in presenza di limiti metodologici dovuti alle caratteristiche dei residui, il modello consente di offrire uno strumento utile per la stratificazione del rischio e per l’ottimizzazione delle risorse nell’assistenza neonatale. L’integrazione di tali modelli nella pratica ospedaliera può aiutare a identificare precocemente i neonati a maggior rischio e a indirizzare meglio gli interventi preventivi, segnando un ulteriore passo avanti verso una medicina perinatale più predittiva e personalizzata.