Introduzione

Questo lavoro esplora i principali fattori che influenzano il peso alla nascita e prova a costruire un modello che lo predica con buona precisione. La prima parte è dedicata a capire bene il dataset: come sono fatte le variabili, come si distribuiscono e se ci sono aspetti particolari da notare. Successivamente ho verificato alcune ipotesi di interesse, come il confronto con valori di riferimento o le differenze tra gruppi. Nella seconda parte ho costruito un modello di regressione, prima lineare e poi includendo anche termini quadratici, e ho valutato il suo funzionamento sia sul train che sul test set. Alla fine ho portato delle conlcusioni sintetiche.

Sezione 1: Preparazione dei Dati e Analisi Iniziale

Anni.madre N.gravidanze Fumatrici Gestazione Peso Lunghezza Cranio Tipo.parto Ospedale Sesso
26 0 0 42 3380 490 325 Nat osp3 M
21 2 0 39 3150 490 345 Nat osp1 F
34 3 0 38 3640 500 375 Nat osp2 M
28 1 0 41 3690 515 365 Nat osp2 M
20 0 0 38 3700 480 335 Nat osp3 F
32 0 0 40 3200 495 340 Nat osp2 F
Anni.madre N.gravidanze Fumatrici Gestazione Peso Lunghezza Cranio Parto.naturale Ospedale Femmina
26 0 0 42 3380 490 325 1 3 0
21 2 0 39 3150 490 345 1 1 1
34 3 0 38 3640 500 375 1 2 0
28 1 0 41 3690 515 365 1 2 0
20 0 0 38 3700 480 335 1 3 1
32 0 0 40 3200 495 340 1 2 1

Analisi descrittiva

Analisi delle variabili qualitative

Frequenze

Frequenze della variabile N.gravidanze
Categoria Frequenza Percentuale
0 1096 43.84
1 818 32.72
2 340 13.60
3 150 6.00
4 48 1.92
5 21 0.84
6 11 0.44
7 1 0.04
8 8 0.32
9 2 0.08
10 3 0.12
11 1 0.04
12 1 0.04
Frequenze della variabile Fumatrici
Categoria Frequenza Percentuale
0 2396 95.84
1 104 4.16
Frequenze della variabile Parto.naturale
Categoria Frequenza Percentuale
0 728 29.12
1 1772 70.88
Frequenze della variabile Ospedale
Categoria Frequenza Percentuale
1 816 32.64
2 849 33.96
3 835 33.40
Frequenze della variabile Femmina
Categoria Frequenza Percentuale
0 1244 49.76
1 1256 50.24

Il numero di gravidanze precedenti è fortemente concentrato sui valori più bassi (il 90% delle madri ha avuto da zero a due gravidanze). La grande maggioranza delle madri non fuma (circa il 96%). La modalità di parto è per lo più naturale, con circa il 71% dei casi, mentre i tre ospedali coinvolti presentano una distribuzione quasi perfettamente equilibrata del numero di nascite. Il sesso dei neonati è equamente distribuito.

Gini index normalizzato

Indice di Gini normalizzato (approssimato a due decimali)
Variabile Gini Gini_normalizzato
N_gravidanze N_gravidanze 0.68 0.73
Fumatrici Fumatrici 0.08 0.16
Parto Parto 0.41 0.83
Ospedale Ospedale 0.67 1.00
Femmina Femmina 0.50 1.00

Gli indici di Gini mostrano dispersioni diverse tra le variabili qualitative: gravidanze e parto hanno variabilità moderata, il fumo è fortemente sbilanciato verso le non fumatrici, mentre ospedale e sesso risultano perfettamente equilibrati tra le categorie.

Analisi delle variabili quantitative

Summary statistico

Facendo il summary ho visto che Anni.madre ha un minimo a 0 e vedo che c’è anche un valore ad 1. Qui sotto riporto direttamente il summary dopo aver rimosso questi due valori errati.

Min. 1st Qu. Median Mean 3rd Qu. Max.
Anni.madre 13 25 28 28.19 32 46
Gestazione 25 38 39 38.98 40 43
Peso 830 2990 3300 3284.18 3620 4930
Lunghezza 310 480 500 494.70 510 565
Cranio 235 330 340 340.03 350 390

Le variabili quantitative presentano distribuzioni regolari e valori in linea con quelli attesi: età materna plausibile, gestazione concentrata sulle 38–40 settimane e misure antropometriche dei neonati in range tipici.

Indici di forma

skewness kurtosis
Anni.madre 0.15 2.89
Gestazione -2.07 11.26
Peso -0.65 5.03
Lunghezza -1.51 9.48
Cranio -0.79 5.94

Gli indici di forma mostrano che alcune variabili si discostano dalla simmetria e dalla normalità più di altre. L’età materna è praticamente simmetrica e con una curtosi vicina a quella normale, indicando una distribuzione regolare. La gestazione presenta una forte asimmetria negativa e una curtosi molto elevata, segno di una distribuzione molto concentrata nelle settimane finali e con code pesanti. Anche peso, lunghezza e circonferenza cranica mostrano asimmetria negativa e curtosi alte, indicando code più pesanti rispetto a una gaussiana e una maggior concentrazione di valori intorno alla media.

Indici di variabilità

range varianza sd IQR semi_IQR coeff_var
Anni.madre 33 27.22 5.22 7 3.5 0.19
Gestazione 18 3.49 1.87 2 1.0 0.05
Peso 4100 275865.90 525.23 630 315.0 0.16
Lunghezza 255 693.21 26.33 30 15.0 0.05
Cranio 155 269.93 16.43 20 10.0 0.05

Nel complesso, gli indici di variabilità confermano un dataset stabile e privo di anomalie.

Verifica di ipotesi

Confronto delle proporzioni di parti naturali tra gli ospedali

Vogliamo capire se i tre ospedali presentano la stessa proporzione di parti naturali oppure no. In altre parole, vogliamo verificare se il tipo di parto è distribuito in modo simile tra gli ospedali oppure se esistono differenze. L’ipotesi che vogliamo testare è la seguente:

H0: la proporzione di parti naturali è la stessa nei tre ospedali.

Per verificarlo confrontiamo il numero di parti naturali e non naturali nelle tre strutture.

Tabella di contingenza
1 2 3
0 242 254 232
1 574 594 602
Proporzioni per Ospedale
1 2 3
0 0.3 0.3 0.28
1 0.7 0.7 0.72
Risultati del Test Chi-Quadro
Statistica df p_value
X-squared 1.083 2 0.5819

Interpretazione: Alla soglia del 5%, non rifiutiamo H0. Non ci sono evidenze di differenze nelle proporzioni di parti naturali tra i tre ospedali.

Dal confronto non emergono differenze significative tra i tre ospedali.

Confronto di Lunghezza e Cranio rispetto alla media mondiale

Vogliamo verificare se i valori medi di Lunghezza e Cranio nella nostra popolazione sono coerenti con i valori medi di riferimento riportati a livello mondiale. Prendo 495 mm per la lunghezza (https://www.medicalnewstoday.com/articles/324728#average-lengths) e 342 mm per la circonferenza cranica (https://www.babycenter.com/baby/baby-development/baby-head-circumference_40009394).

H0: la media del campione è uguale alla media mondiale di riferimento.

Risultati del t-test a un campione
Variabile Media_Campione Media_Riferimento T_statistica p_value
Lunghezza 494.70 495 -0.578 0.5636
Cranio 340.03 342 -5.995 0.0000

Interpretazione: - La media della Lunghezza non differisce in modo significativo dal valore di riferimento (495 mm). - La media del Cranio è significativamente diversa dal valore di riferimento (342 mm).

La lunghezza media è in linea con il valore di riferimento mondiale, mentre la circonferenza cranica risulta leggermente inferiore e significativamente diversa dallo standard. ### Confronto di maschi e femmine rispetto alle misure antropometriche

Vogliamo verificare se maschi e femmine presentano differenze significative nelle principali misure antropometriche alla nascita: peso, lunghezza e circonferenza cranica.

H₀: non ci sono differenze nelle medie tra i due gruppi

Confronto Maschi vs Femmine (t-test a due campioni)
Variabile Media_Maschi Media_Femmine T_statistica p_value
t Peso 3408.50 3161.06 12.115 0
t1 Lunghezza 499.67 489.76 9.582 0
t2 Cranio 342.46 337.62 7.437 0

Interpretazione: - Peso : differenza significativa tra maschi e femmine. - Lunghezza : differenza significativa tra maschi e femmine. - Cranio : differenza significativa tra maschi e femmine.

L’analisi mostra differenze significative tra maschi e femmine in tutte le misure antropometriche: i maschi risultano mediamente più pesanti, più lunghi e con circonferenza cranica maggiore.

Sezione 2: Costruzione del modello.

Variabili quantitative e Peso: Scatterplot

Gli scatterplot mostrano che il peso non ha alcuna relazione visibile con l’età materna, dove i punti formano una nuvola informe e senza andamento. La gestazione presenta invece un chiaro trend crescente: più settimane corrispondono a pesi maggiori. La relazione è ancora più netta con la lunghezza, dove l’aumento del peso segue in modo quasi lineare l’aumento della misura. Anche il cranio mostra un’associazione positiva evidente, seppur leggermente più dispersa.

Nota: Ho provato anche i boxplot, ma mostrano solo che le variabili qualitative a parte il sesso non influenzano Peso e il fatto che il sesso lo influenza l’ho già osservato nella sezione precedente e lo osservo qui sotto nei test ANOVA.

Correlazione lineare tra le variabili quantitative

Dall’analisi della correlazione lineare emerge che il peso del neonato è fortemente correlato con le altre misure antropometriche, in particolare con la lunghezza e la circonferenza cranica, come atteso dopo aver visto gli scatterplot (e dal punto di vista fisiologico). Le restanti variabili quantitative mostrano correlazioni più deboli, indicando che contribuiscono in misura minore alla variabilità del peso.

Confronto delle medie tra gruppi: test ANOVA

ANOVA: p-value delle variabili categoriali
p_value
N.gravidanze 0.9042
Fumatrici 0.3437
Tipo.parto 0.9012
Ospedale 0.1831
Sesso 0.0000

Solo il sesso ha un p-value < 0.05 ed è l’unica variabile qualitativa con differenze di peso significative. Tutte le altre non incidono. ## Costruzione del modello di regressione

Prima di costruire un modello di regressione lineare per spiegare la variabilità del peso neonatale, applichiamo uno scaling alle variabili quantitative, in modo da portarle tutte sulla stessa scala ed evitare che differenze di unità di misura influenzino la stima dei coefficienti. Successivamente, costruiamo un modello lineare includendo tutte le variabili disponibili e utilizziamo una procedura stepwise basata sul criterio AIC per individuare il sottoinsieme di predittori più rilevante.

Le variabili Ospedale e Tipo.parto non vengono incluse nel modello predittivo, poiché non rappresentano caratteristiche intrinseche del neonato e non contribuiscono in modo significativo alla spiegazione del peso alla nascita. Inoltre, la loro variabilità riflette più aspetti organizzativi che biologici, rendendole poco informative ai fini della predizione.

Coefficienti del modello lineare (con termini quadratici, stepwise AIC/BIC)
Variabile Estimate Std..Error t.value p_value
(Intercept) 3337.19 8.91 374.44 0
Gestazione 57.08 7.77 7.35 0
Lunghezza 258.83 8.64 29.96 0
Cranio 178.23 7.68 23.20 0
Femmina -88.76 12.60 -7.04 0

R-squared del modello: 0.71 AIC del modello finale: 28144.83 BIC del modello finale: 28178.43

Commento ai coefficienti del modello

Gestazione: Ogni settimana aggiuntiva di gestazione è associata in media a +57 grammi. Poiché la gestazione varia di circa 18 settimane nel dataset, l’effetto complessivo potenziale è rilevante: gravidanze più lunghe producono neonati sensibilmente più pesanti.

Lunghezza: Ogni aumento di 1 cm è associato a circa +259 grammi di peso. (Considerando che la lunghezza varia di 25–30 cm, differenze anche moderate risultano in variazioni molto grandi del peso.)

Cranio: +178 grammi per ogni cm aggiuntivo. Dalla variabilità osservata (range 15 cm), passare da cranio piccolo a cranio grande comporta differenze di peso molto marcate.

Femmina: A parità di tutte le altre condizioni, le femmine pesano in media circa 89 grammi in meno rispetto ai maschi. Sintesi finale

I predittori antropometrici (lunghezza e cranio) hanno gli effetti più grandi e spiegano la maggior parte della variabilità del peso, seguiti dalla gestazione. Il sesso ha un effetto più piccolo in valore assoluto, ma comunque significativo. Nel complesso, il modello descrive coerentemente le relazioni fisiologiche attese tra crescita fetale e peso alla nascita.

Aggiunta dei termini quadratici

Coefficienti del modello lineare (con termini quadratici, stepwise AIC/BIC)
Variabile Estimate Std..Error t.value p_value
(Intercept) 3306.10 10.53 313.95 0
Gestazione 53.91 8.56 6.30 0
I(Gestazione^2) -20.14 3.27 -6.16 0
Lunghezza 283.94 8.77 32.36 0
I(Lunghezza^2) 32.74 3.01 10.88 0
Cranio 171.74 7.53 22.80 0
N.gravidanze 16.00 4.72 3.39 0
Femmina -83.38 12.28 -6.79 0

R-squared del modello: 0.73 AIC del modello finale: 28027.96 BIC del modello finale: 28078.36

Commento ai coefficienti del modello (dopo l’analisi considerando i termini quadratici)

Gestazione: compare un termine quadratico negativo, che implica che all’aumentare della gestazione aumenta il peso, ma con un rallentamento nelle ultime settimane.

Lunghezza: l’effetto di lunghezza diventa crescentemente più forte per valori alti di lunghezza.

Cranio: la relazione resta lineare, come prima.

N.gravidanze: ora entra nel modello, l’aggiunta delle altre variabili rende significativa questa, anche se l’effetto resta piccolo.

Femmina: l’effetto del sesso non cambia sostanzialmente.

Valutazione del modello

RMSE (test): 272.39 R² (test): 0.76

Il modello mostra buone prestazioni predittive: l’RMSE sul test è di circa 270 grammi, un errore moderato e del tutto accettabile rispetto ai valori tipici del peso neonatale, mentre l’R² pari a 0.76 indica che il modello spiega il 76% della variabilità del peso su dati nuovi. Nel complesso, quindi, il modello generalizza bene e fornisce stime affidabili anche fuori dal campione di addestramento.

Analisi dei residui

Media 0

Breusch-Pagan Test Statistic: 51.792 df: 7 p-value: 0

L’analisi dei residui mostra che la loro media è correttamente prossima a zero, non ci sono strutture o asimmetrie marcate. Tuttavia, il test di Breusch–Pagan risulta altamente significativo, indicando la presenza di eteroschedasticità, cioè una varianza dei residui non costante lungo la gamma dei valori predetti. Anche il grafico evidenzia una dispersione non uniforme, suggerendo che l’ampiezza dei residui cambia al variare dei fitted. La varianza non è omogenea e il modello non soddisfa l’ipotesi di omoschedasticità.

Shapiro-Wilk W: 0.99 p-value: 0

Il modello viola l’ipotesi di normalità. Il test di Shapiro–Wilk è probabilmente compromesso dai valori nelle code. Il QQ-plot conferma che la parte centrale dei residui segue bene la distribuzione normale, mentre le deviazioni si concentrano nelle code, soprattutto in corrispondenza di outlier a destra e sinistra. Questo indica una non perfetta normalità nelle code, ma non un problema strutturale nella forma generale dei residui. (Anche visivamente, nel grafico di dendità, si deduce la stessa cosa.)

Durbin–Watson: 2.006 p-value: 0.5534

Durbin–Watson è 2.006, praticamente perfetto, ovvero abbiamo assenza di autocorrelazione nei residui. Il p-value è 0.5534, non si rifiuta H₀, quindi conferma che i residui sono indipendenti.

Valutazione finale

L’analisi dei residui indica un modello complessivamente ben specificato: la media è vicina a zero, non emergono pattern e i residui risultano indipendenti. Restano però due criticità: eteroschedasticità e deviazioni dalla normalità nelle code.

Conclusione

Le variabili antropometriche mostrano relazioni chiare con il peso e quelle materne hanno un impatto minimo (quelle ospedaliere le ho ignorate ma non avrebbero comunque avuto impatto). Il modello finale, con termini quadratici e validato su test set, offre buone prestazioni predittive. Restano alcune violazioni delle assunzioni (eteroschedasticità e non perfetta normalità dei residui), che richiedono prudenza nell’interpretazione dei coefficienti.