Azienda: Neonatal Health Solutions Obiettivo: Creare un modello
statistico in grado di prevedere con precisione il peso dei neonati alla
nascita, basandosi su variabili cliniche raccolte da tre ospedali. Il
progetto mira a migliorare la gestione delle gravidanze ad alto rischio,
ottimizzare le risorse ospedaliere e garantire migliori risultati per la
salute neonatale.
Il progetto si inserisce all’interno di un contesto di crescente
attenzione verso la prevenzione delle complicazioni neonatali. La
possibilità di prevedere il peso alla nascita dei neonati rappresenta
un’opportunità fondamentale per migliorare la pianificazione clinica e
ridurre i rischi associati a nascite problematiche, come parti prematuri
o neonati con basso peso. Di seguito, i principali benefici che questo
progetto porterà all’azienda e al settore sanitario:
1.Miglioramento delle previsioni cliniche:
2.Ottimizzazione delle risorse ospedaliere:
3.Prevenzione e identificazione dei fattori di
rischio:
4.Valutazione delle pratiche ospedaliere:
5.Supporto alla pianificazione strategica:
Ipotesi 1
in alcuni ospedali si fanno più parti cesarei
Step 1: Analizziamo prima la distribuzione dei tipi di parto tra
parto naturale e parto cesareo

Step 2: Calcoliamo distribuzione dei tipi di parto tra parto naturale
e parto cesareo tra ospedali
table(dati$Tipo.parto, dati$Ospedale)
osp1 osp2 osp3
Ces 242 254 232
Nat 574 595 603
Step 3 Visualizziamo graficamente

Step 4 effettuiamo il test
# Parti cesarei per ospedale
chisq.test(table(dati$Tipo.parto, dati$Ospedale))
Pearson's Chi-squared test
data: table(dati$Tipo.parto, dati$Ospedale)
X-squared = 1.0972, df = 2, p-value = 0.5778
Commenti:
Il p-value è maggiore di 0.05, quindi non ci sono differenze
statisticamente significative nella distribuzione dei tipi di parto tra
gli ospedali. La scelta tra parto naturale e cesareo non sembra
dipendere dall’ospedale in cui avviene l’evento per cui si rifiuta
l’ipotesi.
Ipotesi 2
La media del peso e della lunghezza di questo campione di neonati
sono significativamente uguali a quelle della popolazione
Step 1: Analizziamo la distribuzione delle variabili peso e
lunghezza

Step 2: Effettuiamo un test di confronto delle variabili con le medie
di riferimento della popolazione (con mu Peso=3300g e mu
lunghezza=500cm)
# Test t per il peso
t.test(dati$Peso, mu = 3300)
One Sample t-test
data: dati$Peso
t = -1.516, df = 2499, p-value = 0.1296
alternative hypothesis: true mean is not equal to 3300
95 percent confidence interval:
3263.490 3304.672
sample estimates:
mean of x
3284.081
# Test t per la lunghezza con valore di riferimento (es. 500cm)
t.test(dati$Lunghezza, mu = 500)
One Sample t-test
data: dati$Lunghezza
t = -10.084, df = 2499, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 500
95 percent confidence interval:
493.6598 495.7242
sample estimates:
mean of x
494.692
Commenti:
Peso: Il p-value è maggiore di 0.05, quindi non
c’è evidenza statistica che la media del peso sia diversa da quella
della popolazione. La media del campione è compatibile con 3300
g
lunghezza: Il p-value è molto inferiore a 0.05,
quindi la media della lunghezza è significativamente diversa da quella
della popolazione. Il campione mostra una lunghezza media inferiore
rispetto al valore atteso
Ipotesi 3
Le misure antropometriche sono significativamente diverse tra i due
sessi
Step 1: Analizziamo la distribuzione M/F
Il grafico mostra una distribuzione delle osservazioni tra maschi e
femmine quasi perfettamente bilanciata

Step 2: Analizziamo la distribuzione delle variabili peso e
lunghezza

Step 3: Effettuiamo il test condizionato
# Peso
t.test(Peso ~ Sesso, data = dati)
Welch Two Sample t-test
data: Peso by Sesso
t = -12.106, df = 2490.7, p-value < 2.2e-16
alternative hypothesis: true difference in means between group F and group M is not equal to 0
95 percent confidence interval:
-287.1051 -207.0615
sample estimates:
mean in group F mean in group M
3161.132 3408.215
# Lunghezza
t.test(Lunghezza ~ Sesso, data = dati)
Welch Two Sample t-test
data: Lunghezza by Sesso
t = -9.582, df = 2459.3, p-value < 2.2e-16
alternative hypothesis: true difference in means between group F and group M is not equal to 0
95 percent confidence interval:
-11.929470 -7.876273
sample estimates:
mean in group F mean in group M
489.7643 499.6672
# Cranio
t.test(Cranio ~ Sesso, data = dati)
Welch Two Sample t-test
data: Cranio by Sesso
t = -7.4102, df = 2491.4, p-value = 1.718e-13
alternative hypothesis: true difference in means between group F and group M is not equal to 0
95 percent confidence interval:
-6.089912 -3.541270
sample estimates:
mean in group F mean in group M
337.6330 342.4486
Commenti:
- Tutte le variabili mostrano differenze statisticamente significative
tra i sessi
- I maschi hanno in media:
- Peso maggiore di circa 247 g
- Lunghezza maggiore di circa 10 mm
- Circonferenza cranica maggiore di circa 5 mm
Focus particolare sull’impatto del fumo materno sul peso e sulle
settimane di gestazione, che potrebbero indicare nascite premature
L’obiettivo di questa analisi è verificare un eventuale correlazione
e impatto tra il fumo e la nascita prematura dei neonati ed il relativo
peso alla nascita.


t.test(Peso~ Fumatrici)
Welch Two Sample t-test
data: Peso by Fumatrici
t = 1.034, df = 114.1, p-value = 0.3033
alternative hypothesis: true difference in means between group 0 and group 1 is not equal to 0
95 percent confidence interval:
-45.61354 145.22674
sample estimates:
mean in group 0 mean in group 1
3286.153 3236.346

Commenti:
- Le settimane di gestazione sono fortemente correllate al peso, come
mostrato dal grafico
- Nel campione, le fumatrici sembrano avere meno parti prematuri
rispetto alle non fumatrici
- non ci sono evidenze statisticamente significative che il peso
differisca tra i due gruppi (fumatrici vs non fumatrici)
- Questo risultato è controintuitivo rispetto alla letteratura medica
Nota:Con così pochi casi, l’effetto statistico può essere instabile e
non rappresentativo e inoltre potrebbero esserci variabili confondenti
che influenzano il risultato
2 - Creazione del Modello di Regressione
Step 1 Analisi delle correlazioni tra le variabili quantitative
round(cor(variabili),2)
Anni.madre N.gravidanze Fumatrici Gestazione Peso Lunghezza Cranio
Anni.madre 1.00 0.38 0.01 -0.14 -0.02 -0.06 0.02
N.gravidanze 0.38 1.00 0.05 -0.10 0.00 -0.06 0.04
Fumatrici 0.01 0.05 1.00 0.03 -0.02 -0.02 -0.01
Gestazione -0.14 -0.10 0.03 1.00 0.59 0.62 0.46
Peso -0.02 0.00 -0.02 0.59 1.00 0.80 0.70
Lunghezza -0.06 -0.06 -0.02 0.62 0.80 1.00 0.60
Cranio 0.02 0.04 -0.01 0.46 0.70 0.60 1.00
Matrice di correlazione tra tutte le variabili

Osservazioni sulla matrice
- Correlazioni forti:
- Peso vs Sesso:: i neaonati maschi pesano mediamente
di più delle femmine
- Peso Vs Gestazione: 0.59 la durata della gravidanza
incide significativamente sul peso alla nascita
- Peso vs Lunghezza: 0.80 → fortissima correlazione
positiva. Più lungo è il neonato, maggiore è il peso
- Peso vs Cranio::0.70 anche la circonferenza cranica
è fortemente associata al peso
- Gestazione vs Lunghezza:: 0.62 più lunga è la
gestazione, maggiore è la lunghezza del neonato
- Correlazioni deboli o nulle:
- Fumatrici vs tutte le altre: valori vicini a 0 (es.
−0.02, 0.03) → il fumo materno non mostra una correlazione forte con le
variabili neonatali in questo dataset
- Correlazioni negative:
- Anni.madre vs Gestazione: leggerissima tendenza:
madri più anziane potrebbero avere gestazioni leggermente più brevi
- Gestazione vs N.gravidanze: più gravidanze sembrano
associate a gestazioni leggermente più brevi
Creazione del primo modello di regressione lineare multipla con
tutte le variabili (Mod1)
# Mod1= Modello completo
mod1 <- lm(Peso ~ ., data = dati)
summary(mod1)
Call:
lm(formula = Peso ~ ., data = dati)
Residuals:
Min 1Q Median 3Q Max
-1124.40 -181.66 -14.42 160.91 2611.89
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -6738.4762 141.3087 -47.686 < 2e-16 ***
Anni.madre 0.8921 1.1323 0.788 0.4308
N.gravidanze 11.2665 4.6608 2.417 0.0157 *
Fumatrici -30.1631 27.5386 -1.095 0.2735
Gestazione 32.5696 3.8187 8.529 < 2e-16 ***
Lunghezza 10.2945 0.3007 34.236 < 2e-16 ***
Cranio 10.4707 0.4260 24.578 < 2e-16 ***
Tipo.partoNat 29.5254 12.0844 2.443 0.0146 *
Ospedaleosp2 -11.2095 13.4379 -0.834 0.4043
Ospedaleosp3 28.0958 13.4957 2.082 0.0375 *
SessoM 77.5409 11.1776 6.937 5.08e-12 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 273.9 on 2489 degrees of freedom
Multiple R-squared: 0.7289, Adjusted R-squared: 0.7278
F-statistic: 669.2 on 10 and 2489 DF, p-value: < 2.2e-16
Creazione di un secondo modello ottimizzato di regressione lineare
multipla con le variabili escludendo le variabili poco significative
come Fumatrici e Ospedale (Mod2)
# Mod2= Modello ottimizzato
mod2 <- update(mod1,~ .- Ospedale - Fumatrici)
summary(mod2)
Call:
lm(formula = Peso ~ Anni.madre + N.gravidanze + Gestazione +
Lunghezza + Cranio + Tipo.parto + Sesso, data = dati)
Residuals:
Min 1Q Median 3Q Max
-1140.63 -181.17 -15.31 160.36 2633.22
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -6740.2053 141.4004 -47.668 < 2e-16 ***
Anni.madre 0.9637 1.1336 0.850 0.3953
N.gravidanze 11.3062 4.6600 2.426 0.0153 *
Gestazione 32.6164 3.8160 8.547 < 2e-16 ***
Lunghezza 10.2865 0.3007 34.205 < 2e-16 ***
Cranio 10.4874 0.4266 24.583 < 2e-16 ***
Tipo.partoNat 30.0205 12.0976 2.482 0.0131 *
SessoM 77.8423 11.1916 6.955 4.48e-12 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 274.3 on 2492 degrees of freedom
Multiple R-squared: 0.7278, Adjusted R-squared: 0.727
F-statistic: 951.6 on 7 and 2492 DF, p-value: < 2.2e-16
Creazione di un terzo modello ancora più parsimonioso, con il
principio del Rasoio di Occam, di regressione lineare multipla
escludendo un ulteriorie variabili come il tipo parto (Mod3)
mod3 <- update(mod2,~ .- Tipo.parto)
summary(mod3)
Call:
lm(formula = Peso ~ Anni.madre + N.gravidanze + Gestazione +
Lunghezza + Cranio + Sesso, data = dati)
Residuals:
Min 1Q Median 3Q Max
-1160.80 -181.84 -14.91 164.28 2634.06
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -6714.1927 141.1571 -47.565 < 2e-16 ***
Anni.madre 0.9674 1.1347 0.853 0.3940
N.gravidanze 11.0199 4.6634 2.363 0.0182 *
Gestazione 32.6784 3.8198 8.555 < 2e-16 ***
Lunghezza 10.2486 0.3006 34.088 < 2e-16 ***
Cranio 10.5218 0.4268 24.652 < 2e-16 ***
SessoM 77.9061 11.2032 6.954 4.52e-12 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 274.6 on 2493 degrees of freedom
Multiple R-squared: 0.7271, Adjusted R-squared: 0.7264
F-statistic: 1107 on 6 and 2493 DF, p-value: < 2.2e-16
3 - Selezione del Modello di Regressione
migliore
Per selezionare il modello migliore vengono messi a confronto i tre
modelli con la tecnica di Bayes (BIC), applicando ANOVA e VIF
anova(mod3,mod1)
Analysis of Variance Table
Model 1: Peso ~ Anni.madre + N.gravidanze + Gestazione + Lunghezza + Cranio +
Sesso
Model 2: Peso ~ Anni.madre + N.gravidanze + Fumatrici + Gestazione + Lunghezza +
Cranio + Tipo.parto + Ospedale + Sesso
Res.Df RSS Df Sum of Sq F Pr(>F)
1 2493 188010731
2 2489 186762521 4 1248209 4.1587 0.002325 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
vif<5
vif(mod3)
Anni.madre N.gravidanze Gestazione Lunghezza Cranio Sesso
1.186622 1.181758 1.688288 2.074689 1.628621 1.040140
Commenti:
mod3 risulta il modello ottimale secondo il BIC: più
semplice (7 parametri) e con il miglior equilibrio tra complessità e
adattamento.
In termini di selezione di variabili, significa che togliere
ulteriori predittori rispetto a mod2 ha reso il modello ancora più
parsimonioso senza peggiorare la capacità di spiegare i dati.
4- Analisi della qualità del Modello di Regressione
selezionato
Analisi dei residui

shapiro.test(residuals(mod3))
Shapiro-Wilk normality test
data: residuals(mod3)
W = 0.97413, p-value < 2.2e-16

#leverage
lev<-hatvalues(mod3)
plot(lev)
p<-sum(lev)
n<-length(lev)
soglia=2*p/n
abline(h=soglia,col=2)
lev[lev>soglia]
13 15 34 61 67 70 89 96 101 106
0.005684347 0.007060519 0.006747369 0.005664249 0.005895931 0.005612823 0.012966743 0.006042837 0.007745118 0.015033667
131 134 151 155 161 189 190 204 205 206
0.007338390 0.007583673 0.011289124 0.007304937 0.020643649 0.005798343 0.005740905 0.015669489 0.008732982 0.010786029
220 230 260 294 304 305 310 312 335 378
0.007859452 0.006505071 0.006048045 0.005915388 0.006144441 0.006963312 0.029108905 0.013381509 0.006554957 0.016026324
408 411 442 445 446 486 492 516 582 587
0.006110755 0.005792516 0.007732411 0.007533035 0.005739232 0.005824264 0.008433653 0.013092597 0.012822336 0.011877860
592 638 656 684 697 748 750 757 765 805
0.006385723 0.006854179 0.006954864 0.008833096 0.006154282 0.009502586 0.007088886 0.008923975 0.006294047 0.014420805
828 855 928 946 947 951 956 985 1014 1067
0.007398786 0.006178106 0.023008513 0.006910812 0.008432363 0.006175882 0.007786248 0.008445882 0.010011594 0.009364299
1072 1075 1091 1096 1106 1130 1152 1166 1181 1188
0.005805811 0.006181114 0.008945797 0.006116493 0.007866262 0.033179618 0.014053872 0.006026149 0.005677759 0.006901542
1194 1200 1219 1238 1248 1273 1291 1293 1311 1321
0.005895406 0.005870628 0.031495526 0.007417126 0.014903156 0.007179160 0.006450744 0.006168427 0.009802029 0.009293849
1323 1357 1380 1385 1400 1411 1428 1429 1450 1505
0.007113784 0.007677691 0.013304831 0.012869661 0.006544304 0.008339480 0.008241753 0.024434421 0.015169586 0.014596639
1551 1553 1556 1560 1593 1610 1619 1686 1692 1701
0.049353528 0.008845028 0.008277042 0.006092914 0.007010111 0.009082760 0.015189307 0.009416569 0.007069515 0.011563400
1712 1718 1727 1735 1780 1781 1806 1809 1827 1962
0.007069180 0.007092916 0.013525504 0.007569348 0.026634410 0.017423335 0.006322689 0.009556466 0.006147505 0.005965789
1967 1977 2026 2037 2040 2086 2089 2098 2114 2115
0.005994098 0.007252882 0.006354152 0.006435075 0.011554118 0.015940304 0.006389663 0.006593767 0.014361960 0.012189225
2120 2140 2146 2148 2149 2157 2175 2200 2216 2220
0.018762407 0.006256453 0.005838802 0.008144160 0.014148145 0.006125118 0.032750743 0.011932710 0.008943401 0.006252941
2221 2224 2244 2257 2307 2317 2318 2359 2408 2422
0.022368287 0.007961185 0.006944292 0.008765853 0.014264552 0.009747025 0.006030803 0.012649781 0.010185054 0.022811910
2437 2452 2458 2471 2478
0.024108318 0.023876497 0.008593048 0.022057423 0.005844481


# R² e RMSE
pred <- predict(mod3)
rmse(dati$Peso, pred)
Commenti sulla qualità del modello:
Il modello mod3 presenta residui quasi normali, con qualche
deviazione alle code.
La violazione della normalità è confermata dal test, ma non così
grave mostrate nei grafici.
La eteroscedasticità è lieve.
Alcuni outlier/influential points meritano attenzione, ma non
invalidano il modello
Il modello mod3 sbaglia di circa 275 g rispetto al peso reale dei
neonati (RMSE: 274.234)
Considerando che il peso medio è intorno ai 3200–3400 g,
l’errore è circa l’8% del valore medio → un livello di accuratezza
piuttosto buono per dati biologici, che hanno sempre variabilità
naturale.
5- Previsioni dei risultati
Testiamo il modello per effettuare delle previsioni
Previsione test: Proviamo a stimare il peso di una neonata
considerando una madre alla terza gravidanza che partorirà alla 39esima
settimana.
# Esempio: madre alla terza gravidanza, 39 settimane, non fumatrice
nuovo <- data.frame(
Anni.madre = 30,
Gestazione = 39,
N.gravidanze= 3,
Lunghezza = 500,
Cranio = 340,
Sesso = factor("F", levels = levels(dati$Sesso))
)
predict(mod3, nuovo, interval = "prediction")
fit lwr upr
1 3324.071 2785.035 3863.107
Commenti:
Il modello di regressione multipla mostra una buona capacità
predittiva, con un RMSE di circa 275 g. Questo significa che, in media,
la stima del peso neonatale differisce di meno di 300 g dal valore
osservato, un margine accettabile considerando la variabilità naturale
dei dati antropometrici.
6- Conclusioni finali
In questo lavoro sono state analizzate le misure antropometriche
neonatali con l’obiettivo di comprendere relazioni tra le diverse
variabili e di costruire un modello predittivo del peso alla
nascita.
I risultati dei test statistici hanno mostrato chiaramente che i
neonati maschi tendono ad avere valori medi più elevati rispetto alle
femmine in tutte le variabili considerate: peso, lunghezza e
circonferenza cranica.
Queste differenze non sono casuali, ma statisticamente significative,
e confermano quanto già osservato in letteratura.
Successivamente, è stato costruito un modello di regressione multipla
per stimare il peso neonatale in funzione di variabili come lunghezza,
cranio, sesso, numero di gravidanze e settimana di gestazione
Il modello ha mostrato una buona capacità
esplicativa: le variabili antropometriche e ostetriche
contribuiscono in modo significativo alla previsione del peso, e
l’errore medio di stima (RMSE) è risultato di circa 275 grammi. Questo
valore, se confrontato con il peso medio dei neonati del campione (circa
3200–3400 g), rappresenta un margine di errore contenuto e
accettabile
Infine, abbiamo applicato il modello a un caso pratico: una neonata,
figlia di una madre alla terza gravidanza, partorita alla 39ª settimana.
La previsione ha stimato un peso di circa 3300 g, con un intervallo di
predizione compreso tra 2785 e 3863 g.
