Contesto Aziendale

Azienda: Neonatal Health Solutions Obiettivo: Creare un modello statistico in grado di prevedere con precisione il peso dei neonati alla nascita, basandosi su variabili cliniche raccolte da tre ospedali. Il progetto mira a migliorare la gestione delle gravidanze ad alto rischio, ottimizzare le risorse ospedaliere e garantire migliori risultati per la salute neonatale.

Il progetto si inserisce all’interno di un contesto di crescente attenzione verso la prevenzione delle complicazioni neonatali. La possibilità di prevedere il peso alla nascita dei neonati rappresenta un’opportunità fondamentale per migliorare la pianificazione clinica e ridurre i rischi associati a nascite problematiche, come parti prematuri o neonati con basso peso. Di seguito, i principali benefici che questo progetto porterà all’azienda e al settore sanitario:

1.Miglioramento delle previsioni cliniche:

2.Ottimizzazione delle risorse ospedaliere:

3.Prevenzione e identificazione dei fattori di rischio:

4.Valutazione delle pratiche ospedaliere:

5.Supporto alla pianificazione strategica:



1 - Raccolta dei Dati e Struttura del Dataset

Per costruire il modello predittivo, sono stati raccolti dati su 2500 neonati provenienti da tre ospedali. Le variabili raccolte includono:

L’obiettivo principale è identificare quali di queste variabili sono più predittive del peso alla nascita, con un focus particolare sull’impatto del fumo materno e delle settimane di gestazione, che potrebbero indicare nascite premature.


Esplorazione dati

Tabella- Indici di posizione, variabilità e asimmetria per variabili quantitative
Variabile Media Deviazione_Standard Coeff_Variazione Minimo Massimo Skewness Kurtosis
Anni.madre 28.16 5.27 0.19 0 46 0.04 3.38
N.gravidanze 0.98 1.28 1.31 0 12 2.51 13.99
Fumatrici 0.04 0.20 4.80 0 1 4.59 22.08
Gestazione 38.98 1.87 0.05 25 43 -2.07 11.26
Peso 3284.08 525.04 0.16 830 4930 -0.65 5.03
Lunghezza 494.69 26.32 0.05 310 565 -1.51 9.49
Cranio 340.03 16.43 0.05 235 390 -0.79 5.95


Analisi distribuzione delle variabili quantitative:

Anni.madre

N.gravidanze

Fumatrici

Gestazione

Peso

Lunghezza

Cranio

Sintesi



Ipotesi 1

in alcuni ospedali si fanno più parti cesarei

Step 1: Analizziamo prima la distribuzione dei tipi di parto tra parto naturale e parto cesareo

Step 2: Calcoliamo distribuzione dei tipi di parto tra parto naturale e parto cesareo tra ospedali

table(dati$Tipo.parto, dati$Ospedale)
     
      osp1 osp2 osp3
  Ces  242  254  232
  Nat  574  595  603

Step 3 Visualizziamo graficamente

Step 4 effettuiamo il test

# Parti cesarei per ospedale
chisq.test(table(dati$Tipo.parto, dati$Ospedale))

    Pearson's Chi-squared test

data:  table(dati$Tipo.parto, dati$Ospedale)
X-squared = 1.0972, df = 2, p-value = 0.5778

Commenti:

Il p-value è maggiore di 0.05, quindi non ci sono differenze statisticamente significative nella distribuzione dei tipi di parto tra gli ospedali. La scelta tra parto naturale e cesareo non sembra dipendere dall’ospedale in cui avviene l’evento per cui si rifiuta l’ipotesi.


Ipotesi 2

La media del peso e della lunghezza di questo campione di neonati sono significativamente uguali a quelle della popolazione

Step 1: Analizziamo la distribuzione delle variabili peso e lunghezza

Step 2: Effettuiamo un test di confronto delle variabili con le medie di riferimento della popolazione (con mu Peso=3300g e mu lunghezza=500cm)

# Test t per il peso
t.test(dati$Peso, mu = 3300)

    One Sample t-test

data:  dati$Peso
t = -1.516, df = 2499, p-value = 0.1296
alternative hypothesis: true mean is not equal to 3300
95 percent confidence interval:
 3263.490 3304.672
sample estimates:
mean of x 
 3284.081 
# Test t per la lunghezza con valore di riferimento (es. 500cm)
t.test(dati$Lunghezza, mu = 500)

    One Sample t-test

data:  dati$Lunghezza
t = -10.084, df = 2499, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 500
95 percent confidence interval:
 493.6598 495.7242
sample estimates:
mean of x 
  494.692 

Commenti:


Ipotesi 3

Le misure antropometriche sono significativamente diverse tra i due sessi

Step 1: Analizziamo la distribuzione M/F

Il grafico mostra una distribuzione delle osservazioni tra maschi e femmine quasi perfettamente bilanciata

Step 2: Analizziamo la distribuzione delle variabili peso e lunghezza

Step 3: Effettuiamo il test condizionato

# Peso
t.test(Peso ~ Sesso, data = dati)

    Welch Two Sample t-test

data:  Peso by Sesso
t = -12.106, df = 2490.7, p-value < 2.2e-16
alternative hypothesis: true difference in means between group F and group M is not equal to 0
95 percent confidence interval:
 -287.1051 -207.0615
sample estimates:
mean in group F mean in group M 
       3161.132        3408.215 
# Lunghezza
t.test(Lunghezza ~ Sesso, data = dati)

    Welch Two Sample t-test

data:  Lunghezza by Sesso
t = -9.582, df = 2459.3, p-value < 2.2e-16
alternative hypothesis: true difference in means between group F and group M is not equal to 0
95 percent confidence interval:
 -11.929470  -7.876273
sample estimates:
mean in group F mean in group M 
       489.7643        499.6672 
# Cranio
t.test(Cranio ~ Sesso, data = dati)

    Welch Two Sample t-test

data:  Cranio by Sesso
t = -7.4102, df = 2491.4, p-value = 1.718e-13
alternative hypothesis: true difference in means between group F and group M is not equal to 0
95 percent confidence interval:
 -6.089912 -3.541270
sample estimates:
mean in group F mean in group M 
       337.6330        342.4486 

Commenti:


Focus particolare sull’impatto del fumo materno sul peso e sulle settimane di gestazione, che potrebbero indicare nascite premature

L’obiettivo di questa analisi è verificare un eventuale correlazione e impatto tra il fumo e la nascita prematura dei neonati ed il relativo peso alla nascita.

t.test(Peso~ Fumatrici)

    Welch Two Sample t-test

data:  Peso by Fumatrici
t = 1.034, df = 114.1, p-value = 0.3033
alternative hypothesis: true difference in means between group 0 and group 1 is not equal to 0
95 percent confidence interval:
 -45.61354 145.22674
sample estimates:
mean in group 0 mean in group 1 
       3286.153        3236.346 

Commenti:


2 - Creazione del Modello di Regressione


Step 1 Analisi delle correlazioni tra le variabili quantitative

round(cor(variabili),2)
             Anni.madre N.gravidanze Fumatrici Gestazione  Peso Lunghezza Cranio
Anni.madre         1.00         0.38      0.01      -0.14 -0.02     -0.06   0.02
N.gravidanze       0.38         1.00      0.05      -0.10  0.00     -0.06   0.04
Fumatrici          0.01         0.05      1.00       0.03 -0.02     -0.02  -0.01
Gestazione        -0.14        -0.10      0.03       1.00  0.59      0.62   0.46
Peso              -0.02         0.00     -0.02       0.59  1.00      0.80   0.70
Lunghezza         -0.06        -0.06     -0.02       0.62  0.80      1.00   0.60
Cranio             0.02         0.04     -0.01       0.46  0.70      0.60   1.00

Matrice di correlazione tra tutte le variabili

Osservazioni sulla matrice

  • Correlazioni forti:
    • Peso vs Sesso:: i neaonati maschi pesano mediamente di più delle femmine
    • Peso Vs Gestazione: 0.59 la durata della gravidanza incide significativamente sul peso alla nascita
    • Peso vs Lunghezza: 0.80 → fortissima correlazione positiva. Più lungo è il neonato, maggiore è il peso
    • Peso vs Cranio::0.70 anche la circonferenza cranica è fortemente associata al peso
    • Gestazione vs Lunghezza:: 0.62 più lunga è la gestazione, maggiore è la lunghezza del neonato
  • Correlazioni deboli o nulle:
    • Fumatrici vs tutte le altre: valori vicini a 0 (es. −0.02, 0.03) → il fumo materno non mostra una correlazione forte con le variabili neonatali in questo dataset
  • Correlazioni negative:
    • Anni.madre vs Gestazione: leggerissima tendenza: madri più anziane potrebbero avere gestazioni leggermente più brevi
    • Gestazione vs N.gravidanze: più gravidanze sembrano associate a gestazioni leggermente più brevi

Creazione del primo modello di regressione lineare multipla con tutte le variabili (Mod1)

# Mod1= Modello completo
mod1 <- lm(Peso ~ ., data = dati)

summary(mod1)

Call:
lm(formula = Peso ~ ., data = dati)

Residuals:
     Min       1Q   Median       3Q      Max 
-1124.40  -181.66   -14.42   160.91  2611.89 

Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
(Intercept)   -6738.4762   141.3087 -47.686  < 2e-16 ***
Anni.madre        0.8921     1.1323   0.788   0.4308    
N.gravidanze     11.2665     4.6608   2.417   0.0157 *  
Fumatrici       -30.1631    27.5386  -1.095   0.2735    
Gestazione       32.5696     3.8187   8.529  < 2e-16 ***
Lunghezza        10.2945     0.3007  34.236  < 2e-16 ***
Cranio           10.4707     0.4260  24.578  < 2e-16 ***
Tipo.partoNat    29.5254    12.0844   2.443   0.0146 *  
Ospedaleosp2    -11.2095    13.4379  -0.834   0.4043    
Ospedaleosp3     28.0958    13.4957   2.082   0.0375 *  
SessoM           77.5409    11.1776   6.937 5.08e-12 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 273.9 on 2489 degrees of freedom
Multiple R-squared:  0.7289,    Adjusted R-squared:  0.7278 
F-statistic: 669.2 on 10 and 2489 DF,  p-value: < 2.2e-16

Creazione di un secondo modello ottimizzato di regressione lineare multipla con le variabili escludendo le variabili poco significative come Fumatrici e Ospedale (Mod2)

# Mod2= Modello ottimizzato
mod2 <- update(mod1,~ .- Ospedale - Fumatrici)
summary(mod2)

Call:
lm(formula = Peso ~ Anni.madre + N.gravidanze + Gestazione + 
    Lunghezza + Cranio + Tipo.parto + Sesso, data = dati)

Residuals:
     Min       1Q   Median       3Q      Max 
-1140.63  -181.17   -15.31   160.36  2633.22 

Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
(Intercept)   -6740.2053   141.4004 -47.668  < 2e-16 ***
Anni.madre        0.9637     1.1336   0.850   0.3953    
N.gravidanze     11.3062     4.6600   2.426   0.0153 *  
Gestazione       32.6164     3.8160   8.547  < 2e-16 ***
Lunghezza        10.2865     0.3007  34.205  < 2e-16 ***
Cranio           10.4874     0.4266  24.583  < 2e-16 ***
Tipo.partoNat    30.0205    12.0976   2.482   0.0131 *  
SessoM           77.8423    11.1916   6.955 4.48e-12 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 274.3 on 2492 degrees of freedom
Multiple R-squared:  0.7278,    Adjusted R-squared:  0.727 
F-statistic: 951.6 on 7 and 2492 DF,  p-value: < 2.2e-16

Creazione di un terzo modello ancora più parsimonioso, con il principio del Rasoio di Occam, di regressione lineare multipla escludendo un ulteriorie variabili come il tipo parto (Mod3)

mod3 <- update(mod2,~ .- Tipo.parto)
summary(mod3)

Call:
lm(formula = Peso ~ Anni.madre + N.gravidanze + Gestazione + 
    Lunghezza + Cranio + Sesso, data = dati)

Residuals:
     Min       1Q   Median       3Q      Max 
-1160.80  -181.84   -14.91   164.28  2634.06 

Coefficients:
               Estimate Std. Error t value Pr(>|t|)    
(Intercept)  -6714.1927   141.1571 -47.565  < 2e-16 ***
Anni.madre       0.9674     1.1347   0.853   0.3940    
N.gravidanze    11.0199     4.6634   2.363   0.0182 *  
Gestazione      32.6784     3.8198   8.555  < 2e-16 ***
Lunghezza       10.2486     0.3006  34.088  < 2e-16 ***
Cranio          10.5218     0.4268  24.652  < 2e-16 ***
SessoM          77.9061    11.2032   6.954 4.52e-12 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 274.6 on 2493 degrees of freedom
Multiple R-squared:  0.7271,    Adjusted R-squared:  0.7264 
F-statistic:  1107 on 6 and 2493 DF,  p-value: < 2.2e-16

3 - Selezione del Modello di Regressione migliore


Per selezionare il modello migliore vengono messi a confronto i tre modelli con la tecnica di Bayes (BIC), applicando ANOVA e VIF

anova(mod3,mod1)
Analysis of Variance Table

Model 1: Peso ~ Anni.madre + N.gravidanze + Gestazione + Lunghezza + Cranio + 
    Sesso
Model 2: Peso ~ Anni.madre + N.gravidanze + Fumatrici + Gestazione + Lunghezza + 
    Cranio + Tipo.parto + Ospedale + Sesso
  Res.Df       RSS Df Sum of Sq      F   Pr(>F)   
1   2493 188010731                                
2   2489 186762521  4   1248209 4.1587 0.002325 **
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

vif<5

vif(mod3)
  Anni.madre N.gravidanze   Gestazione    Lunghezza       Cranio        Sesso 
    1.186622     1.181758     1.688288     2.074689     1.628621     1.040140 

Commenti:

mod3 risulta il modello ottimale secondo il BIC: più semplice (7 parametri) e con il miglior equilibrio tra complessità e adattamento.

In termini di selezione di variabili, significa che togliere ulteriori predittori rispetto a mod2 ha reso il modello ancora più parsimonioso senza peggiorare la capacità di spiegare i dati.



4- Analisi della qualità del Modello di Regressione selezionato


Analisi dei residui

shapiro.test(residuals(mod3))

    Shapiro-Wilk normality test

data:  residuals(mod3)
W = 0.97413, p-value < 2.2e-16

#leverage
lev<-hatvalues(mod3)
plot(lev)
p<-sum(lev)
n<-length(lev)
soglia=2*p/n
abline(h=soglia,col=2)
lev[lev>soglia]
         13          15          34          61          67          70          89          96         101         106 
0.005684347 0.007060519 0.006747369 0.005664249 0.005895931 0.005612823 0.012966743 0.006042837 0.007745118 0.015033667 
        131         134         151         155         161         189         190         204         205         206 
0.007338390 0.007583673 0.011289124 0.007304937 0.020643649 0.005798343 0.005740905 0.015669489 0.008732982 0.010786029 
        220         230         260         294         304         305         310         312         335         378 
0.007859452 0.006505071 0.006048045 0.005915388 0.006144441 0.006963312 0.029108905 0.013381509 0.006554957 0.016026324 
        408         411         442         445         446         486         492         516         582         587 
0.006110755 0.005792516 0.007732411 0.007533035 0.005739232 0.005824264 0.008433653 0.013092597 0.012822336 0.011877860 
        592         638         656         684         697         748         750         757         765         805 
0.006385723 0.006854179 0.006954864 0.008833096 0.006154282 0.009502586 0.007088886 0.008923975 0.006294047 0.014420805 
        828         855         928         946         947         951         956         985        1014        1067 
0.007398786 0.006178106 0.023008513 0.006910812 0.008432363 0.006175882 0.007786248 0.008445882 0.010011594 0.009364299 
       1072        1075        1091        1096        1106        1130        1152        1166        1181        1188 
0.005805811 0.006181114 0.008945797 0.006116493 0.007866262 0.033179618 0.014053872 0.006026149 0.005677759 0.006901542 
       1194        1200        1219        1238        1248        1273        1291        1293        1311        1321 
0.005895406 0.005870628 0.031495526 0.007417126 0.014903156 0.007179160 0.006450744 0.006168427 0.009802029 0.009293849 
       1323        1357        1380        1385        1400        1411        1428        1429        1450        1505 
0.007113784 0.007677691 0.013304831 0.012869661 0.006544304 0.008339480 0.008241753 0.024434421 0.015169586 0.014596639 
       1551        1553        1556        1560        1593        1610        1619        1686        1692        1701 
0.049353528 0.008845028 0.008277042 0.006092914 0.007010111 0.009082760 0.015189307 0.009416569 0.007069515 0.011563400 
       1712        1718        1727        1735        1780        1781        1806        1809        1827        1962 
0.007069180 0.007092916 0.013525504 0.007569348 0.026634410 0.017423335 0.006322689 0.009556466 0.006147505 0.005965789 
       1967        1977        2026        2037        2040        2086        2089        2098        2114        2115 
0.005994098 0.007252882 0.006354152 0.006435075 0.011554118 0.015940304 0.006389663 0.006593767 0.014361960 0.012189225 
       2120        2140        2146        2148        2149        2157        2175        2200        2216        2220 
0.018762407 0.006256453 0.005838802 0.008144160 0.014148145 0.006125118 0.032750743 0.011932710 0.008943401 0.006252941 
       2221        2224        2244        2257        2307        2317        2318        2359        2408        2422 
0.022368287 0.007961185 0.006944292 0.008765853 0.014264552 0.009747025 0.006030803 0.012649781 0.010185054 0.022811910 
       2437        2452        2458        2471        2478 
0.024108318 0.023876497 0.008593048 0.022057423 0.005844481 


# R² e RMSE

pred <- predict(mod3)
rmse(dati$Peso, pred)

Commenti sulla qualità del modello:

  • Il modello mod3 presenta residui quasi normali, con qualche deviazione alle code.

  • La violazione della normalità è confermata dal test, ma non così grave mostrate nei grafici.

  • La eteroscedasticità è lieve.

  • Alcuni outlier/influential points meritano attenzione, ma non invalidano il modello

  • Il modello mod3 sbaglia di circa 275 g rispetto al peso reale dei neonati (RMSE: 274.234)

Considerando che il peso medio è intorno ai 3200–3400 g, l’errore è circa l’8% del valore medio → un livello di accuratezza piuttosto buono per dati biologici, che hanno sempre variabilità naturale.


5- Previsioni dei risultati


Testiamo il modello per effettuare delle previsioni

Previsione test: Proviamo a stimare il peso di una neonata considerando una madre alla terza gravidanza che partorirà alla 39esima settimana.

# Esempio: madre alla terza gravidanza, 39 settimane, non fumatrice
nuovo <- data.frame(
  Anni.madre = 30,
  Gestazione = 39,
  N.gravidanze= 3,
  Lunghezza = 500,
  Cranio = 340,
  Sesso = factor("F", levels = levels(dati$Sesso))
)

predict(mod3, nuovo, interval = "prediction")
       fit      lwr      upr
1 3324.071 2785.035 3863.107

Commenti:

Il modello di regressione multipla mostra una buona capacità predittiva, con un RMSE di circa 275 g. Questo significa che, in media, la stima del peso neonatale differisce di meno di 300 g dal valore osservato, un margine accettabile considerando la variabilità naturale dei dati antropometrici.


6- Conclusioni finali


In questo lavoro sono state analizzate le misure antropometriche neonatali con l’obiettivo di comprendere relazioni tra le diverse variabili e di costruire un modello predittivo del peso alla nascita.

I risultati dei test statistici hanno mostrato chiaramente che i neonati maschi tendono ad avere valori medi più elevati rispetto alle femmine in tutte le variabili considerate: peso, lunghezza e circonferenza cranica.

Queste differenze non sono casuali, ma statisticamente significative, e confermano quanto già osservato in letteratura.

Successivamente, è stato costruito un modello di regressione multipla per stimare il peso neonatale in funzione di variabili come lunghezza, cranio, sesso, numero di gravidanze e settimana di gestazione

Il modello ha mostrato una buona capacità esplicativa: le variabili antropometriche e ostetriche contribuiscono in modo significativo alla previsione del peso, e l’errore medio di stima (RMSE) è risultato di circa 275 grammi. Questo valore, se confrontato con il peso medio dei neonati del campione (circa 3200–3400 g), rappresenta un margine di errore contenuto e accettabile

Infine, abbiamo applicato il modello a un caso pratico: una neonata, figlia di una madre alla terza gravidanza, partorita alla 39ª settimana. La previsione ha stimato un peso di circa 3300 g, con un intervallo di predizione compreso tra 2785 e 3863 g.

