Introduzione

Questo lavoro esplora i principali fattori che influenzano il peso alla nascita e prova a costruire un modello che lo predica con buona precisione. La prima parte è dedicata a capire bene il dataset: come sono fatte le variabili, come si distribuiscono e se ci sono aspetti particolari da notare. Successivamente ho verificato alcune ipotesi di interesse, come il confronto con valori di riferimento o le differenze tra gruppi. Nella seconda parte ho costruito un modello di regressione, prima lineare e poi includendo anche termini quadratici, e ho valutato il suo funzionamento sia sul train che sul test set. Alla fine ho portato delle conlcusioni sintetiche.

Sezione 1: Preparazione dei Dati e Analisi Iniziale

Anni.madre	N.gravidanze	Gestazione	Peso	Lunghezza	Cranio	Tipo.parto	Ospedale	Sesso
26	0	42	3380	490	325	Nat	osp3	M
21	2	39	3150	490	345	Nat	osp1	F
34	3	38	3640	500	375	Nat	osp2	M
28	1	41	3690	515	365	Nat	osp2	M
20	0	38	3700	480	335	Nat	osp3	F
32	0	40	3200	495	340	Nat	osp2	F

Anni.madre	N.gravidanze	Gestazione	Peso	Lunghezza	Cranio	Parto.naturale	Ospedale	Femmina
26	0	42	3380	490	325	1	3	0
21	2	39	3150	490	345	1	1	1
34	3	38	3640	500	375	1	2	0
28	1	41	3690	515	365	1	2	0
20	0	38	3700	480	335	1	3	1
32	0	40	3200	495	340	1	2	1

Anni.madre: variabile quantitativa continua su scala di rapporti, perché misura l’età materna in anni.
N.gravidanze: variabile qualitativa ordinale, in cui i valori numerici rappresentano un ordine nelle gravidanze precedenti.
Fumatrici: variabile qualitativa nominale binaria (fumatrice e non fumatrice).
Gestazione: variabile quantitativa discreta su scala di rapporti, poiché indica la durata della gravidanza in settimane.
Peso: variabile quantitativa continua su scala di rapporti, è il peso del neonato in grammi.
Lunghezza: variabile quantitativa continua, è la lunghezza del neonato in millimetri.
Cranio: variabile quantitativa continua su scala di rapporti, poiché misura la circonferenza cranica (sempre millimetri)
Parto.naturale: variabile qualitativa nominale binaria (arto naturale e non naturale).
Ospedale: variabile qualitativa nominale multicategoriale, dove i numeri identificano ospedali diversi.
Femmina: variabile qualitativa nominale binaria, con valori che indicano il sesso.

Analisi descrittiva

Analisi delle variabili qualitative

Frequenze

Frequenze della variabile N.gravidanze
Categoria	Frequenza	Percentuale
0	1096	43.84
1	818	32.72
2	340	13.60
3	150	6.00
4	48	1.92
5	21	0.84
6	11	0.44
7	1	0.04
8	8	0.32
9	2	0.08
10	3	0.12
11	1	0.04
12	1	0.04

Frequenze della variabile Fumatrici
Categoria	Frequenza	Percentuale
0	2396	95.84
1	104	4.16

Frequenze della variabile Parto.naturale
Categoria	Frequenza	Percentuale
0	728	29.12
1	1772	70.88

Frequenze della variabile Ospedale
Categoria	Frequenza	Percentuale
1	816	32.64
2	849	33.96
3	835	33.40

Frequenze della variabile Femmina
Categoria	Frequenza	Percentuale
0	1244	49.76
1	1256	50.24

Il numero di gravidanze precedenti è fortemente concentrato sui valori più bassi (il 90% delle madri ha avuto da zero a due gravidanze). La grande maggioranza delle madri non fuma (circa il 96%). La modalità di parto è per lo più naturale, con circa il 71% dei casi, mentre i tre ospedali coinvolti presentano una distribuzione quasi perfettamente equilibrata del numero di nascite. Il sesso dei neonati è equamente distribuito.

Gini index normalizzato

Indice di Gini normalizzato (approssimato a due decimali)
	Variabile	Gini	Gini_normalizzato
N_gravidanze	N_gravidanze	0.68	0.73
Fumatrici	Fumatrici	0.08	0.16
Parto	Parto	0.41	0.83
Ospedale	Ospedale	0.67	1.00
Femmina	Femmina	0.50	1.00

Gli indici di Gini mostrano dispersioni diverse tra le variabili qualitative: gravidanze e parto hanno variabilità moderata, il fumo è fortemente sbilanciato verso le non fumatrici, mentre ospedale e sesso risultano perfettamente equilibrati tra le categorie.

Analisi delle variabili quantitative

Summary statistico

Facendo il summary ho visto che Anni.madre ha un minimo a 0 e vedo che c’è anche un valore ad 1. Qui sotto riporto direttamente il summary dopo aver rimosso questi due valori errati.

	Min.	1st Qu.	Median	Mean	3rd Qu.	Max.
Anni.madre	13	25	28	28.19	32	46
Gestazione	25	38	39	38.98	40	43
Peso	830	2990	3300	3284.18	3620	4930
Lunghezza	310	480	500	494.70	510	565
Cranio	235	330	340	340.03	350	390

Le variabili quantitative presentano distribuzioni regolari e valori in linea con quelli attesi: età materna plausibile, gestazione concentrata sulle 38–40 settimane e misure antropometriche dei neonati in range tipici.

Indici di forma

	skewness	kurtosis
Anni.madre	0.15	2.89
Gestazione	-2.07	11.26
Peso	-0.65	5.03
Lunghezza	-1.51	9.48
Cranio	-0.79	5.94

Gli indici di forma mostrano che alcune variabili si discostano dalla simmetria e dalla normalità più di altre. L’età materna è praticamente simmetrica e con una curtosi vicina a quella normale, indicando una distribuzione regolare. La gestazione presenta una forte asimmetria negativa e una curtosi molto elevata, segno di una distribuzione molto concentrata nelle settimane finali e con code pesanti. Anche peso, lunghezza e circonferenza cranica mostrano asimmetria negativa e curtosi alte, indicando code più pesanti rispetto a una gaussiana e una maggior concentrazione di valori intorno alla media.

Indici di variabilità

	range	varianza	sd	IQR	semi_IQR	coeff_var
Anni.madre	33	27.22	5.22	7	3.5	0.19
Gestazione	18	3.49	1.87	2	1.0	0.05
Peso	4100	275865.90	525.23	630	315.0	0.16
Lunghezza	255	693.21	26.33	30	15.0	0.05
Cranio	155	269.93	16.43	20	10.0	0.05

Nel complesso, gli indici di variabilità confermano un dataset stabile e privo di anomalie.

Verifica di ipotesi

Confronto delle proporzioni di parti naturali tra gli ospedali

Vogliamo capire se i tre ospedali presentano la stessa proporzione di parti naturali oppure no. In altre parole, vogliamo verificare se il tipo di parto è distribuito in modo simile tra gli ospedali oppure se esistono differenze. L’ipotesi che vogliamo testare è la seguente:

H0: la proporzione di parti naturali è la stessa nei tre ospedali.

Per verificarlo confrontiamo il numero di parti naturali e non naturali nelle tre strutture.

Tabella di contingenza
	1	2	3
0	242	254	232
1	574	594	602

Proporzioni per Ospedale
	1	2	3
0	0.3	0.3	0.28
1	0.7	0.7	0.72

Risultati del Test Chi-Quadro
	Statistica	df	p_value
X-squared	1.083	2	0.5819

Interpretazione: Alla soglia del 5%, non rifiutiamo H0. Non ci sono evidenze di differenze nelle proporzioni di parti naturali tra i tre ospedali.

Dal confronto non emergono differenze significative tra i tre ospedali.

Confronto di Lunghezza e Cranio rispetto alla media mondiale

Vogliamo verificare se i valori medi di Lunghezza e Cranio nella nostra popolazione sono coerenti con i valori medi di riferimento riportati a livello mondiale. Prendo 495 mm per la lunghezza (https://www.medicalnewstoday.com/articles/324728#average-lengths) e 342 mm per la circonferenza cranica (https://www.babycenter.com/baby/baby-development/baby-head-circumference_40009394).

H0: la media del campione è uguale alla media mondiale di riferimento.

Risultati del t-test a un campione
Variabile	Media_Campione	Media_Riferimento	T_statistica	p_value
Lunghezza	494.70	495	-0.578	0.5636
Cranio	340.03	342	-5.995	0.0000

Interpretazione: - La media della Lunghezza non differisce in modo significativo dal valore di riferimento (495 mm). - La media del Cranio è significativamente diversa dal valore di riferimento (342 mm).

La lunghezza media è in linea con il valore di riferimento mondiale, mentre la circonferenza cranica risulta leggermente inferiore e significativamente diversa dallo standard. ### Confronto di maschi e femmine rispetto alle misure antropometriche

Vogliamo verificare se maschi e femmine presentano differenze significative nelle principali misure antropometriche alla nascita: peso, lunghezza e circonferenza cranica.

H₀: non ci sono differenze nelle medie tra i due gruppi

Confronto Maschi vs Femmine (t-test a due campioni)
	Variabile	Media_Maschi	Media_Femmine	T_statistica
t	Peso	3408.50	3161.06	12.115
t1	Lunghezza	499.67	489.76	9.582
t2	Cranio	342.46	337.62	7.437

Interpretazione: - Peso : differenza significativa tra maschi e femmine. - Lunghezza : differenza significativa tra maschi e femmine. - Cranio : differenza significativa tra maschi e femmine.

L’analisi mostra differenze significative tra maschi e femmine in tutte le misure antropometriche: i maschi risultano mediamente più pesanti, più lunghi e con circonferenza cranica maggiore.

Sezione 2: Costruzione del modello.

Variabili quantitative e Peso: Scatterplot

Gli scatterplot mostrano che il peso non ha alcuna relazione visibile con l’età materna, dove i punti formano una nuvola informe e senza andamento. La gestazione presenta invece un chiaro trend crescente: più settimane corrispondono a pesi maggiori. La relazione è ancora più netta con la lunghezza, dove l’aumento del peso segue in modo quasi lineare l’aumento della misura. Anche il cranio mostra un’associazione positiva evidente, seppur leggermente più dispersa.

Nota: Ho provato anche i boxplot, ma mostrano solo che le variabili qualitative a parte il sesso non influenzano Peso e il fatto che il sesso lo influenza l’ho già osservato nella sezione precedente e lo osservo qui sotto nei test ANOVA.

Correlazione lineare tra le variabili quantitative

Dall’analisi della correlazione lineare emerge che il peso del neonato è fortemente correlato con le altre misure antropometriche, in particolare con la lunghezza e la circonferenza cranica, come atteso dopo aver visto gli scatterplot (e dal punto di vista fisiologico). Le restanti variabili quantitative mostrano correlazioni più deboli, indicando che contribuiscono in misura minore alla variabilità del peso.

Confronto delle medie tra gruppi: test ANOVA

ANOVA: p-value delle variabili categoriali
	p_value
N.gravidanze	0.9042
Fumatrici	0.3437
Tipo.parto	0.9012
Ospedale	0.1831
Sesso	0.0000

Solo il sesso ha un p-value < 0.05 ed è l’unica variabile qualitativa con differenze di peso significative. Tutte le altre non incidono. ## Costruzione del modello di regressione

Prima di costruire un modello di regressione lineare per spiegare la variabilità del peso neonatale, applichiamo uno scaling alle variabili quantitative, in modo da portarle tutte sulla stessa scala ed evitare che differenze di unità di misura influenzino la stima dei coefficienti. Successivamente, costruiamo un modello lineare includendo tutte le variabili disponibili e utilizziamo una procedura stepwise basata sul criterio AIC per individuare il sottoinsieme di predittori più rilevante.

Le variabili Ospedale e Tipo.parto non vengono incluse nel modello predittivo, poiché non rappresentano caratteristiche intrinseche del neonato e non contribuiscono in modo significativo alla spiegazione del peso alla nascita. Inoltre, la loro variabilità riflette più aspetti organizzativi che biologici, rendendole poco informative ai fini della predizione.

Coefficienti del modello lineare (con termini quadratici, stepwise AIC/BIC)
Variabile	Estimate	Std..Error	t.value
(Intercept)	3337.19	8.91	374.44
Gestazione	57.08	7.77	7.35
Lunghezza	258.83	8.64	29.96
Cranio	178.23	7.68	23.20
Femmina	-88.76	12.60	-7.04

R-squared del modello: 0.71 AIC del modello finale: 28144.83 BIC del modello finale: 28178.43

Commento ai coefficienti del modello

Gestazione: Ogni settimana aggiuntiva di gestazione è associata in media a +57 grammi. Poiché la gestazione varia di circa 18 settimane nel dataset, l’effetto complessivo potenziale è rilevante: gravidanze più lunghe producono neonati sensibilmente più pesanti.

Lunghezza: Ogni aumento di 1 cm è associato a circa +259 grammi di peso. (Considerando che la lunghezza varia di 25–30 cm, differenze anche moderate risultano in variazioni molto grandi del peso.)

Cranio: +178 grammi per ogni cm aggiuntivo. Dalla variabilità osservata (range 15 cm), passare da cranio piccolo a cranio grande comporta differenze di peso molto marcate.

Femmina: A parità di tutte le altre condizioni, le femmine pesano in media circa 89 grammi in meno rispetto ai maschi. Sintesi finale

I predittori antropometrici (lunghezza e cranio) hanno gli effetti più grandi e spiegano la maggior parte della variabilità del peso, seguiti dalla gestazione. Il sesso ha un effetto più piccolo in valore assoluto, ma comunque significativo. Nel complesso, il modello descrive coerentemente le relazioni fisiologiche attese tra crescita fetale e peso alla nascita.

Aggiunta dei termini quadratici

Coefficienti del modello lineare (con termini quadratici, stepwise AIC/BIC)
Variabile	Estimate	Std..Error	t.value
(Intercept)	3306.10	10.53	313.95
Gestazione	53.91	8.56	6.30
I(Gestazione^2)	-20.14	3.27	-6.16
Lunghezza	283.94	8.77	32.36
I(Lunghezza^2)	32.74	3.01	10.88
Cranio	171.74	7.53	22.80
N.gravidanze	16.00	4.72	3.39
Femmina	-83.38	12.28	-6.79

R-squared del modello: 0.73 AIC del modello finale: 28027.96 BIC del modello finale: 28078.36

Commento ai coefficienti del modello (dopo l’analisi considerando i termini quadratici)

Gestazione: compare un termine quadratico negativo, che implica che all’aumentare della gestazione aumenta il peso, ma con un rallentamento nelle ultime settimane.

Lunghezza: l’effetto di lunghezza diventa crescentemente più forte per valori alti di lunghezza.

Cranio: la relazione resta lineare, come prima.

N.gravidanze: ora entra nel modello, l’aggiunta delle altre variabili rende significativa questa, anche se l’effetto resta piccolo.

Femmina: l’effetto del sesso non cambia sostanzialmente.

Valutazione del modello

RMSE (test): 272.39 R² (test): 0.76

Il modello mostra buone prestazioni predittive: l’RMSE sul test è di circa 270 grammi, un errore moderato e del tutto accettabile rispetto ai valori tipici del peso neonatale, mentre l’R² pari a 0.76 indica che il modello spiega il 76% della variabilità del peso su dati nuovi. Nel complesso, quindi, il modello generalizza bene e fornisce stime affidabili anche fuori dal campione di addestramento.

Analisi dei residui

Media 0

Breusch-Pagan Test Statistic: 51.792 df: 7 p-value: 0

L’analisi dei residui mostra che la loro media è correttamente prossima a zero, non ci sono strutture o asimmetrie marcate. Tuttavia, il test di Breusch–Pagan risulta altamente significativo, indicando la presenza di eteroschedasticità, cioè una varianza dei residui non costante lungo la gamma dei valori predetti. Anche il grafico evidenzia una dispersione non uniforme, suggerendo che l’ampiezza dei residui cambia al variare dei fitted. La varianza non è omogenea e il modello non soddisfa l’ipotesi di omoschedasticità.

Shapiro-Wilk W: 0.99 p-value: 0

Il modello viola l’ipotesi di normalità. Il test di Shapiro–Wilk è probabilmente compromesso dai valori nelle code. Il QQ-plot conferma che la parte centrale dei residui segue bene la distribuzione normale, mentre le deviazioni si concentrano nelle code, soprattutto in corrispondenza di outlier a destra e sinistra. Questo indica una non perfetta normalità nelle code, ma non un problema strutturale nella forma generale dei residui. (Anche visivamente, nel grafico di dendità, si deduce la stessa cosa.)

Durbin–Watson: 2.006 p-value: 0.5534

Durbin–Watson è 2.006, praticamente perfetto, ovvero abbiamo assenza di autocorrelazione nei residui. Il p-value è 0.5534, non si rifiuta H₀, quindi conferma che i residui sono indipendenti.

Valutazione finale

L’analisi dei residui indica un modello complessivamente ben specificato: la media è vicina a zero, non emergono pattern e i residui risultano indipendenti. Restano però due criticità: eteroschedasticità e deviazioni dalla normalità nelle code.

Conclusione

Le variabili antropometriche mostrano relazioni chiare con il peso e quelle materne hanno un impatto minimo (quelle ospedaliere le ho ignorate ma non avrebbero comunque avuto impatto). Il modello finale, con termini quadratici e validato su test set, offre buone prestazioni predittive. Restano alcune violazioni delle assunzioni (eteroschedasticità e non perfetta normalità dei residui), che richiedono prudenza nell’interpretazione dei coefficienti.

Statistical Model for Neonatal Weight Prediction

Giacomo Ortali

2025-09-23