1 Import dataset

Import dataset “neonati.csv”.

1.1 Caricamento del dataset da file CSV

Table 1.1: Prime righe del dataset neonati
Anni_madre N_gravidanze Fumatrici Gestazione Peso Lunghezza Cranio Tipo_parto Ospedale Sesso
26 0 Non Fumatrice 42 3380 490 325 Nat osp3 M
21 2 Non Fumatrice 39 3150 490 345 Nat osp1 F
34 3 Non Fumatrice 38 3640 500 375 Nat osp2 M
28 1 Non Fumatrice 41 3690 515 365 Nat osp2 M
20 0 Non Fumatrice 38 3700 480 335 Nat osp3 F
32 0 Non Fumatrice 40 3200 495 340 Nat osp2 F

Nel dataset abbiamo due osservazioni con un’età riportata in modo errato, ossia pari ad 1 e a 0. Siccome le righe nel dataset sono 2500, le righe errate sono state eliminate per non distorcere i risultati.

2 Descrizione dataset

Il dataset è composto da 2498 righe e 10 colonne riguardanto i neonati e le loro madri:

  • Età della madre (Anni_madre): variabile quantitativa discreta;

  • Numero di gravidanze sostenute (N_gravidanze): variabile quantitativa discreta;

  • Madre fumatrice (Fumatrici): variabile categorica nominale, in origine i le opzioni erano 0 e 1 e sono stati trasformati in “Non fumatrice” e “Fumatrice”;

  • Numero di settimane di gestazione (Gestazione): variabile quantitativa discreta;

  • Peso in grammi del neonato (Peso): variabile quantitativa continua;

  • Lunghezza in millimetri del neonato (Lunghezza): variabile quantitativa continua;

  • Diametro in millimetri del cranio del neonato (Cranio): variabile quantitativa continua;

  • Tipo di parto (Tipo_parto): Naturale=Nat o Cesareo=Ces: variabile categorica nominale;

  • Ospedale (osp1, osp2, osp3): variabile categorica nominale;

  • Sesso del neonato (Sesso): variabile categorica nominale, valori M o F;

Table 2.1: Statistiche descrittive del dataset neonati
Anni_madre N_gravidanze Fumatrici Gestazione Peso Lunghezza Cranio Tipo_parto Ospedale Sesso
Min. :13.00 Min. : 0.0000 Non Fumatrice:2394 Min. :25.00 Min. : 830 Min. :310.0 Min. :235 Ces: 728 osp1:816 F:1255
1st Qu.:25.00 1st Qu.: 0.0000 Fumatrice : 104 1st Qu.:38.00 1st Qu.:2990 1st Qu.:480.0 1st Qu.:330 Nat:1770 osp2:848 M:1243
Median :28.00 Median : 1.0000 NA Median :39.00 Median :3300 Median :500.0 Median :340 NA osp3:834 NA
Mean :28.19 Mean : 0.9816 NA Mean :38.98 Mean :3284 Mean :494.7 Mean :340 NA NA NA
3rd Qu.:32.00 3rd Qu.: 1.0000 NA 3rd Qu.:40.00 3rd Qu.:3620 3rd Qu.:510.0 3rd Qu.:350 NA NA NA
Max. :46.00 Max. :12.0000 NA Max. :43.00 Max. :4930 Max. :565.0 Max. :390 NA NA NA

2.1 Anni Madre

Table 2.2: Statistiche descrittive del dataset neonati (in orizzontale)
Min. 1st Qu. Median Mean 3rd Qu. Max. Gini Skewness Kurtosis SD CV
13 25 28 28.19 32 46 0.1044 0.151 -0.1079 5.2172 18.51

L’età delle madri in questo dataset varia da un minimo di 13 anni a un massimo di 46 anni, evidenziando un ampio intervallo che include sia madri adolescenti che donne in età materna avanzata. L’età media è pari a 28,19 anni, mentre la mediana è di 28 anni, indicando una distribuzione piuttosto equilibrata, con una lieve tendenza verso destra. Questo è confermato dal valore di asimmetria (skewness) pari a 0,151, che suggerisce la presenza di alcune madri più anziane che alzano leggermente la media.

La maggior parte delle madri si colloca all’interno dell’intervallo interquartile compreso tra 25 e 32 anni (primo e terzo quartile), ovvero nel 50% centrale dei dati. Questo intervallo di 7 anni indica che la maggior parte dei parti avviene tra la fine dei vent’anni e l’inizio dei trent’anni. Nonostante l’ampia variabilità complessiva, la deviazione standard è pari a 5,22, e il coefficiente di variazione (CV) è 0,1851, valori che riflettono una dispersione relativamente contenuta rispetto alla media.

La curtosi ha un valore di -0,1079, suggerendo che la forma della distribuzione è leggermente piatta rispetto a una normale (platocurtica), il che implica una minore frequenza di valori estremi rispetto a una curva normale. Infine, il coefficiente di Gini, pari a 0,1044, è molto basso, e indica un’equa distribuzione dell’età materna: le età non sono fortemente concentrate in una sola fascia ma distribuite in modo omogeneo.

In sintesi, i dati mostrano che la maggior parte delle madri dà alla luce tra i 25 e i 32 anni, con una variabilità contenuta, una distribuzione bilanciata e solo lievi asimmetrie o valori estremi.

2.2 Numero gravidanze

Table 2.3: Statistiche descrittive del dataset neonati (in orizzontale)
Min. 1st Qu. Median Mean 3rd Qu. Max. Gini Skewness Kurtosis SD CV
0 0 1 0.9816 1 12 0.6106 2.5119 10.9704 1.2809 130.49

Il numero di gravidanze precedenti varia da 0 a 12, con un valore minimo pari a 0 che indica madri al loro primo parto, e un massimo di 12 che rappresenta casi molto rari ma estremi. La media è di 0,9816, mentre la mediana è di 1, suggerendo che, per la maggior parte delle madri, il parto attuale è il secondo o il primo. Anche il primo quartile (Q1) è 0 e il terzo quartile (Q3) è 1, il che significa che almeno il 75% delle madri ha avuto al massimo una gravidanza precedente, evidenziando una forte concentrazione verso i valori più bassi.

La deviazione standard è pari a 1,2809, e il coefficiente di variazione (CV) è 1,3049, indicando un’elevata variabilità relativa rispetto alla media: questo significa che, anche se molte madri hanno avuto poche o nessuna gravidanza precedente, ci sono alcuni casi estremi che aumentano la dispersione.

La distribuzione è fortemente asimmetrica verso destra, come confermato dal valore di asimmetria (skewness) pari a 2,5119, e presenta anche una curtosi molto elevata, pari a 10,9704, che indica una distribuzione leptocurtica, ovvero con una concentrazione accentuata attorno ai valori centrali ma anche con code molto lunghe, causate da pochi valori molto alti (madri con numerose gravidanze precedenti).

Il coefficiente di Gini, pari a 0,6106, è piuttosto elevato e segnala una forte disuguaglianza nella distribuzione: la maggior parte delle madri ha avuto pochissime gravidanze, mentre una minoranza ha avuto molte più esperienze gestazionali.

In conclusione, i dati mostrano che per la maggior parte delle madri il parto attuale è il primo o il secondo, ma esiste una piccola parte della popolazione con un numero significativamente più alto di gravidanze precedenti, il che crea una distribuzione altamente asimmetrica, con valori estremi e disuguaglianza marcata.

2.3 Gestazione

Table 2.4: Statistiche descrittive del dataset neonati (in orizzontale)
Min. 1st Qu. Median Mean 3rd Qu. Max. Gini Skewness Kurtosis SD CV
25 38 39 38.98 40 43 0.0237 -2.0639 8.2465 1.869 4.79

Le settimane di gestazione vanno da un minimo di 25 settimane, che indica un parto molto pretermine, fino a un massimo di 43 settimane, cioè un parto post-termine. La media delle settimane di gravidanza è di 38,98 settimane, molto vicina alla mediana di 39 settimane, segno di una distribuzione ben bilanciata e centrata intorno alla durata tipica della gravidanza.

La maggior parte dei parti si verifica tra la 1ª quartile (38 settimane) e la 3ª quartile (40 settimane), con un intervallo interquartile di 2 settimane, che indica che il 50% dei parti avviene entro questo ristretto intervallo vicino alla gravidanza a termine.

La deviazione standard è 1,869 settimane, mentre il coefficiente di variazione (CV) è molto basso, pari a 0,0479, riflettendo una variabilità estremamente contenuta rispetto alla media, coerente con l’aspettativa che la maggior parte delle gravidanze duri intorno alle 40 settimane.

La distribuzione presenta una asimmetria negativa marcata, con uno skewness di -2,0639, il che indica una coda più lunga verso valori inferiori (parti pretermine), mentre la curtosi elevata di 8,2465 suggerisce una distribuzione leptocurtica, cioè più appuntita e concentrata intorno alla media con code pronunciate.

Infine, il coefficiente di Gini è molto basso (0,0237), a indicare che la distribuzione delle settimane di gravidanza è altamente concentrata e con poca disuguaglianza.

In sintesi, i dati mostrano che la maggior parte dei parti avviene intorno alle 39-40 settimane, con una variabilità molto bassa, ma con alcuni casi di parti significativamente pretermine (anche a 25 settimane), che creano una coda nella distribuzione e rendono la distribuzione asimmetrica verso sinistra.

2.4 Peso

Table 2.5: Statistiche descrittive del dataset neonati (in orizzontale)
Min. 1st Qu. Median Mean 3rd Qu. Max. Gini Skewness Kurtosis SD CV
830 2990 3300 3284 3620 4930 0.0868 -0.647 2.0247 525.2294 15.99

Il peso alla nascita dei neonati varia da un minimo di 830 grammi, valore estremamente basso che suggerisce un caso di prematurità grave o condizioni patologiche, fino a un massimo di 4.930 grammi, indicativo di un neonato macrosomico. La media del peso è di 3.284 grammi, molto vicina alla mediana di 3.300 grammi, suggerendo una distribuzione moderatamente simmetrica e centrata intorno al peso tipico alla nascita.

Il 50% dei neonati presenta un peso compreso tra il 1º quartile (2.990 g) e il 3º quartile (3.620 g), con un intervallo interquartile (IQR) di 630 grammi. Questo intervallo riflette una variabilità contenuta e indica che la maggior parte delle nascite si colloca in un range relativamente ristretto intorno alla norma ponderale.

La deviazione standard è pari a 525,23 grammi, mentre il coefficiente di variazione (CV) è 0,1599. Questo valore mostra che, rispetto alla media, la variabilità relativa dei pesi alla nascita è moderata: non trascurabile, ma comunque coerente con l’eterogeneità fisiologica della popolazione neonatale.

La distribuzione presenta una asimmetria negativa moderata, con uno skewness di -0,647, suggerendo una coda più lunga verso pesi più bassi. Ciò è compatibile con la presenza di alcuni neonati sottopeso o pretermine, che abbassano la coda sinistra della distribuzione.

La curtosi è di 2,0247, un valore vicino a quello di una distribuzione normale (che ha curtosi pari a 3), suggerendo che la distribuzione non è né particolarmente appuntita né troppo piatta: i valori sono moderatamente concentrati intorno alla media, con code non eccessivamente pronunciate.

Infine, il coefficiente di Gini è 0,0868, piuttosto basso, indicando una disuguaglianza contenuta nella distribuzione dei pesi neonatali. Ciò conferma che la maggior parte dei neonati presenta pesi abbastanza simili, con poche eccezioni.

In sintesi, la distribuzione del peso alla nascita mostra una buona centratura intorno a 3.300 grammi, moderata variabilità, e una leggera asimmetria verso sinistra, dovuta a pochi casi di neonati con peso molto basso. Questi valori sono coerenti con una popolazione neonatale generalmente sana, ma con alcune situazioni di rischio (es. neonati sottopeso) che meritano attenzione.

2.5 Lunghezza

Table 2.6: Statistiche descrittive del dataset neonati (in orizzontale)
Min. 1st Qu. Median Mean 3rd Qu. Max. Gini Skewness Kurtosis SD CV
310 480 500 494.7 510 565 0.0275 -1.5137 6.4733 26.3288 5.32

La lunghezza alla nascita dei neonati nel campione analizzato varia da un minimo di 310 mm (31 cm), un valore estremamente basso che potrebbe indicare un caso di prematurità molto grave o gravi condizioni patologiche, fino a un massimo di 565 mm (56,5 cm), che rappresenta un valore significativamente superiore alla media, potenzialmente riferibile a neonati di età gestazionale superiore alla norma o con caratteristiche di crescita accelerata.

La media della lunghezza è pari a 494,7 mm, molto vicina alla mediana di 500 mm, a indicare una distribuzione che, pur con valori estremi, risulta nel complesso centrata intorno a un valore tipico. Tuttavia, la forte asimmetria negativa (skewness = -1,5137) suggerisce la presenza di una coda lunga verso valori più bassi, compatibile con casi di neonati pretermine o con restrizione della crescita intrauterina.

Il 50% dei neonati ha una lunghezza compresa tra il 1º quartile (480 mm) e il 3º quartile (510 mm), con un intervallo interquartile (IQR) di 30 mm. Questo intervallo riflette una variabilità piuttosto contenuta, indicando che la maggior parte dei neonati si colloca in un range di lunghezze alla nascita relativamente omogeneo.

La deviazione standard è pari a 26,33 mm, mentre il coefficiente di variazione (CV) è 0,0532 (ovvero il 5,32%). Questo valore mostra che, rispetto alla media, la variabilità relativa è molto bassa, coerente con la natura fisiologicamente regolata della crescita fetale in lunghezza.

La curtosi della distribuzione è pari a 6,4733, un valore ben superiore a quello di una distribuzione normale (che ha curtosi = 3). Questo indica una distribuzione leptocurtica, cioè più appuntita e con code più estese, che conferma la presenza di casi estremi, soprattutto nella coda sinistra.

Il coefficiente di Gini, pari a 0,0275, è molto basso, a indicare una disuguaglianza minima nella distribuzione della lunghezza neonatale. La maggior parte dei neonati ha lunghezze molto simili, con poche eccezioni rappresentate da valori molto bassi o molto elevati.

2.6 Circonferenza cranio

Table 2.7: Statistiche descrittive del dataset neonati (in orizzontale)
Min. 1st Qu. Median Mean 3rd Qu. Max. Gini Skewness Kurtosis SD CV
235 330 340 340 350 390 0.0261 -0.7846 2.9401 16.4295 4.83

La circonferenza cranica dei neonati nel campione analizzato varia da un minimo di 235 mm (23,5 cm), un valore estremamente ridotto che può indicare condizioni patologiche severe come la microcefalia o prematurità grave, fino a un massimo di 390 mm (39 cm), che rappresenta un valore molto elevato, potenzialmente compatibile con condizioni come la macrocefalia o una crescita fetale accentuata.

La media e la mediana coincidono entrambe a 340 mm, indicando una distribuzione molto centrata, con un profilo simmetrico nel valore centrale. Tuttavia, la leggera asimmetria negativa (skewness = -0.7846) suggerisce una coda più estesa verso valori inferiori, indicando la presenza di alcuni neonati con cranio più piccolo della norma, pur non alterando sostanzialmente la simmetria complessiva.

Il 50% dei neonati ha una circonferenza cranica compresa tra il 1º quartile (330 mm) e il 3º quartile (350 mm), con un intervallo interquartile (IQR) di 20 mm. Questo range ristretto indica una bassa dispersione e suggerisce che la maggior parte dei neonati presenta una circonferenza cranica fisiologicamente nella norma.

La deviazione standard è di 16,43 mm, mentre il coefficiente di variazione (CV) è 4,83%, un valore molto basso che indica una variabilità relativa estremamente contenuta. Ciò è atteso, in quanto la circonferenza cranica è un parametro fortemente regolato durante la gestazione e strettamente legato allo sviluppo neurologico fetale.

La curtosi è pari a 2,9401, un valore molto vicino a quello della distribuzione normale (curtosi = 3). Questo suggerisce che la distribuzione dei dati non presenta code particolarmente accentuate né un picco anomalo, rafforzando l’idea di una distribuzione fisiologicamente regolare.

Infine, il coefficiente di Gini è 0,0261, un valore molto basso che conferma l’elevato grado di omogeneità della distribuzione: la maggior parte dei neonati ha una circonferenza cranica simile, con pochissime eccezioni.

2.7 Fumatrici

      Fumatrici conteggio frequenza_relativa
1     Fumatrice       104              0.042
2 Non Fumatrice      2394              0.958

La maggior parte delle madri presenti nel campione non è fumatrice.

2.8 Tipo parto

Il tipo di parto più comune nel dataset è quello naturale.

2.9 Ospedale

L’ospedale più comune è l’ospedale 2. Il numero di nascite nei 3 ospedali è bilanciato nel dataset.

2.10 Sesso

  Sesso conteggio frequenza_relativa
1     M      1243              0.498
2     F      1255              0.502

La numerosità è praticamente uguale tra neonati maschi e neonate femmine.

3 Analisi Preliminare

3.1 In alcuni ospedali si facciano più parti cesarei?

Per verificare se i parti cesarei siano di più in alcuni ospedali o meno useremo il test indipendente del chi-quadro, dato che entrambe le variabili sono qualitative nominali. Questo test è utile per valutare l’indipendenza tra due variabili categoriche.

  • L’ipotesi nulla (H0) è che le due variabili siano indipendenti;
  • L’ipotesi alternativa (H1) è che non lo siano.
Table 3.1: Distribuzione dei tipi di parto per ospedale
Ospedale Ces Nat
osp1 242 574
osp2 254 594
osp3 232 602
Table 3.1: Risultati del test del Chi-quadro per Ospedale e Tipo di Parto
Statistica Gradi_libertà P_value
X-squared 1.08 2 0.582

Il p-value (0.582) è maggiore del livello di significatività tipico (0.05), quindi non ci sono evidenze statisticamente significative per rifiutare l’ipotesi nulla.
Possiamo concludere che, in questo campione, il tipo di parto non è significativamente associato all’ospedale. La distribuzione di parti cesarei e naturali è simile tra i tre ospedali considerati. Come è possibile anche vedere a prima vista dai grafici.

3.2 la media del peso e della lunghezza di questo campione di neonati sono significativamente uguali a quelle della popolazione?

Per verificare se la media del peso e la media della lunghezza dei neonati del campione selezionato rappresentano correttamente la popolazione, dobbiamo eseguire un test adatto al confronto delle medie. Useremo un t-test per un campione bilaterale, con un livello di confidenza di 0.95 (corrispondente ad un livello di significatività α del 5%). I valori della popolazione usati saranno i seguenti: peso = 3300 grammi, lunghezza = 500 millimetri. Valori solitamente utilizzati in letteratura.

Prima di iniziare l’analisi con il test, è opportuno controllare se le variabili soddisfano i requisiti:

  1. La variabile deve essere numerica continua

  2. Le osservazioni devono essere indipendenti tra loro

  3. Distribuzione normale della variabile

Le prime due sono verificate implicitamente, mentre per il terzo requisito usiamo il teorema limite centrale.

Table 3.2: Risultati del t-test: confronto tra media campione e media della popolazione
Variabile Statistica_t Gradi_libertà Media_campione Media_popolazione P_value Limite_inferiore Limite_superiore
Peso -1.51 2497 3284.2 3300 0.132 3263.6 3304.8
Lunghezza -10.07 2497 494.7 500 0.000 493.7 495.7

Per il peso, la media campionaria (3284.2g) è leggermente inferiore alla media attesa (3300g), ma la differenza non è statisticamente significativa (t = -1.51, p = 0.132). Poiché il p-value è superiore a 0.05, non abbiamo prove statisticamente significative per rifiutare l’ipotesi nulla, quindi, il peso dei neonati non differisce significativamente dalla media della popolazione.

Mentre per la lunghezza, la media campionaria (494.7 mm) è significativamente inferiore alla media teorica della popolazione (500 mm). Il test è altamente significativo (t = -10.07, p < 0.001), il p-value è estremamente basso (< 2.2e-16). In questo caso è possibile rifiutare l’ipotesi nulla, quindi, la lunghezza dei neonati è significativamente inferiore rispetto alla media attesa nella popolazione. Si osserva come la statistica test, data dal pallino azzuro, ricada abbondantemente nella zona di rifuto dell’ipotesi nulla al di fuori dei due segmenti in rosso che rappresentano i quantili al 2.5 % e 97.5 % della distribuzione.

Questi risultati suggeriscono che, mentre il peso dei neonati è in linea con gli standard attesi, la lunghezza potrebbe essere influenzata da fattori specifici del campione o della popolazione studiata (es. area geografica, abitudini materne, ecc.).

3.3 Le misure antropometriche sono significativamente diverse tra i due sessi?

Si vuole verificare eventuali differenze significative tra i due sessi per le variabili Peso e Lunghezza.

3.3.1 Peso

Table 3.3: Statistiche per Peso (femmine)
Min 1° Quartile Media Mediana 3° Quartile Max Gini Skewness Kurtosis SD CV
830 2900 3161.061 3160 3470 4930 0.0892 -0.5758 2.2894 526.513 16.6562
Table 3.3: Statistiche per Peso (maschi)
Min 1° Quartile Media Mediana 3° Quartile Max Gini Skewness Kurtosis SD CV
980 3150 3408.496 3430 3720 4810 0.0784 -0.7568 2.2617 493.9041 14.4904

Per il peso si può notare che l’intervallo interquartile è molto simile, mentre l’intervallo totale è più ampio per le femmine, quindi i valori anomali si allontanano maggiormente dal valore medio. Per questo la loro deviazione standard più è alta. Anche il coefficiente di variazione risulta essere maggiore per le femmine (16.65%) rispetto ai maschi (14.49%).

Table 3.4: Statistiche per Lunghezza (femmine)
Min 1° Quartile Media Mediana 3° Quartile Max Gini Skewness Kurtosis SD CV
310 480 489.7641 490 505 565 0.0289 -1.601 6.6979 27.5451 5.6242
Table 3.4: Statistiche per Lunghezza (maschi)
Min 1° Quartile Media Mediana 3° Quartile Max Gini Skewness Kurtosis SD CV
320 490 499.675 500 515 560 0.0251 -1.3697 6.0501 24.0462 4.8124

Per quanto riguarda la lunghezza del neonato, le differenze tra i sessi confermano che i maschi presentano valori mediamente più alti. Inoltre, anche per la Lunghezza, il coefficiente di variazione risulta essere maggiore per le femmine, pertanto vi è maggiore dispersione relativa rispetto alla media, mentre per i maschi notiamo una distribuzione un po’ più concentrata attorno alla media stessa.

3.4 Peso in relazione alle variabili qualitative

3.4.1 Peso vs Sesso

Table 3.5: Risultato del test di Wilcoxon tra Peso e Sesso del neonato
Test W P_value
W Wilcoxon Rank Sum (Peso ~ Sesso) 537495 < 2.2e-16

Il peso dei neonati maschi è mediamente superiore al peso delle femmine, 3408.50g contro 3161.06g. Anche il test di Wilcoxon conferma che le due medie non sono uguali.

3.4.2 Peso vs Fumatrice

Table 3.6: Risultati dei test statistici su Peso e Fumatrici
Test W P_value
W Wilcoxon Rank Sum 138069 0.05928

Dal boxplot e dalle medie si può concludere che in media peso dei neonati che hanno la madre fumatrice è mediamente inferiore rispetto ai neonati la cui madre è non fumatrice, 3236.34g contro 3286.26g. Il test di Wilcoxon restiuisce un p-value di 0.059, leggermente più alto del livello di significatività di 0.05, quindi le due medie sono statisticamente uguali. Questo risultato è un po’ in contrasto con la letteratura medica, la quale mostra in modo consistente che il fumo materno durante la gravidanza è associato a una riduzione del peso alla nascita. In questo caso il valore ottenuto è molto vicino alla soglia. Questo è probabilmente dato dal basso numero di neonati con madre fumatrice nel campione preso in esame.

3.4.3 Peso vs Tipo Parto

Table 3.7: Risultati dei test statistici su Peso e Tipo Parto
Test W P_value
W Wilcoxon Rank Sum 633851 0.5244

I boxplot mostrano dei risultati quasi identici, il che ci porta a dire che il peso dei neonati non è influenzato dal tipo di parto. Anche il test di Wilcoxon restituisce un p-value di 0.52, confermando che le due medie sono statisticamente uguale.

4 Creazione del Modello di Regressione

Si vuole sviluppare un modello di regressione in grado di prevedere il peso dei neonati alla nascita. Si inizia analizzando la relazione tra il peso e le altre variabili.

4.1 Matrice di correlazione

La matrice di correlazione (coefficiente di correlazione lineare tra le variabili a due a due) è usata per indagare le relazioni tra le variabili a due a due, con particolare attenzione alla variabile risposta, nel nostro caso il peso. I coefficienti di correlazione lineare di Bravais-Pearson (ρxy) variano da -1 ad 1 dove:

ρxy = 1 indica perfetta correlazione positiva;

ρxy = -1 indica perfetta correlazione negativa;

ρxy = 0 indica assenza di correlazione.

Table 4.1: Matrice di correlazione tra le variabili numeriche
Anni_madre N_gravidanze Gestazione Peso Lunghezza Cranio
Anni_madre 1.00 0.38 -0.13 -0.02 -0.06 0.02
N_gravidanze 0.38 1.00 -0.10 0.00 -0.06 0.04
Gestazione -0.13 -0.10 1.00 0.59 0.62 0.46
Peso -0.02 0.00 0.59 1.00 0.80 0.70
Lunghezza -0.06 -0.06 0.62 0.80 1.00 0.60
Cranio 0.02 0.04 0.46 0.70 0.60 1.00

Dalla matrice di correlazione è possibile osservare come la variabile che è maggiormente correlata con la variabile risposta Peso è la lunghezza del neonato, il coefficiente di correlazione è 0.80 il quale indica una forte correlazione positiva. Dopo questo ci sono il diametro del cranio del neonato che ha un coefficiente di 0.70 e il numero di settimane di gestazione con un coefficiente di 0.59. Mentre gli anni della madre e il numero di gravidanze invece risultano non avere nessun tipo di correlazione con il peso dei neonato, in quanto i loro coefficienti di correlazione sono -0.02 e 0.00,

Anche dagli scatterplot si possono trarre delle conclussioni importanti. Si osserva, infatti, come la nuvola di punti formata dalla lunghezza dei neonati in relazione al peso tenda a formare una retta con inclinazione positiva: all’aumentare della lunghezza dei neonati aumenta linearmente il peso. Allo stesso modo i valori del diametro del cranio in relazione ai valori del peso tendono a formare una retta, questa volta con una pendenza leggermente minore essendoci meno correlazione e con un possibile leggero andamento non lineare. Anche per quanto riguarda lo scatterplot che mette in relazione il numero di settimane di gestazione con il peso, si può notare un possibile andamento non lineare: la nuvola di punti sembra tendere ad una retta inizalmente ma comincia a curvare e ad appiattirsi all’aumentare del numero di settimane. Infine, gli scatterplot relativi agli anni della madre e al numero di gravidanze confrontati con il peso sono costituiti da nuvole di punti sparsi che non seguono nessuna direzione. Anche se, per il numero di gravidanze, sembrerebbe poterci essere un pattern non lineare ma questo è probabilmente dovuta alla minor presenza di donne con molte gravidanze.

Dopo aver indagato le relazioni con la variabile risposta Peso, è importante tenere in considerazione anche le relazioni tra le altre variabili a due a due, questo perchè bisogna evitare problemi di multicollinearità per avere un buon modello di regressione lineare multipla. Dalla matrice di correlazione si evince che le variabili che hanno la correlazione più elevata tra di loro e potrebbero creare eventuali problemi sono Lunghezza con Gestazione (ρxy = 0.62) e Lunghezza con Cranio (ρxy = 0.60).

4.2 Creazione modello regressione lineare (modello 1)

Creazione di un modello di regressione lineare multipla dove la variabile Peso è la variabile risposta che subisce l’effetto delle altre variabili (regressori).

Table 4.2: Table 4.3: Risultati del modello lineare: Peso ~ tutte le variabili
Term Stima Errore_Std t_value P_value
(Intercept) -6735.7959695 141.4789546 -47.6098794 < 2e-16
Anni_madre 0.8017932 1.1467128 0.6992101 4.84e-01
N_gravidanze 11.3811656 4.6685841 2.4378195 1.48e-02
FumatriciFumatrice -30.2741278 27.5491786 -1.0989122 2.72e-01
Gestazione 32.5772862 3.8207510 8.5264091 < 2e-16
Lunghezza 10.2921804 0.3008791 34.2070263 < 2e-16
Cranio 10.4722143 0.4262705 24.5670659 < 2e-16
Tipo_partoNat 29.6335088 12.0905033 2.4509740 1.43e-02
Ospedaleosp2 -11.0912078 13.4470754 -0.8248045 4.10e-01
Ospedaleosp3 28.2495457 13.5054489 2.0917147 3.66e-02
SessoM 77.5722734 11.1865205 6.9344417 5.18e-12

Il modello ha identificato diversi fattori significativi nella spiegazione del peso neonatale, in particolare: Durata della gestazione, lunghezza, circonferenza cranica e sesso del neonato sono fortemente associati al peso alla nascita. Anche numero di gravidanze, tipo di parto e ospedale hanno mostrato effetti significativi. Età materna e fumo in gravidanza, sebbene rilevanti clinicamente, non risultano statisticamente significativi in questo campione, ma il segno negativo del coefficiente del fumo suggerisce comunque una possibile tendenza da monitorare.

Di seguito un’analisi più dettagliata dei risultati:

  • Intercept (-6735.8 g): rappresenta il peso previsto in assenza di tutti gli effetti modellati (valori 0 per le variabili numeriche e categorie di riferimento per le variabili fattoriali). Non ha interpretazione pratica autonoma ma è necessario per il calcolo del modello.

  • Età della madre non risulta un predittore significativo del peso alla nascita (p = 0.484). Il coefficiente stimato è positivo (0.80 g per anno), ma l’effetto è trascurabile.

  • Numero di gravidanze mostra un effetto positivo significativo (β = 11.38 g, p = 0.0148): ogni gravidanza aggiuntiva è associata in media a un aumento di circa 11 grammi nel peso alla nascita.

  • Il Fumo durante la gravidanza non mostra un effetto significativo (p = 0.2719), anche se il coefficiente è negativo (–30.27 g), indicando che i figli di madri fumatrici tendono a pesare meno.

  • Settimane di gestazione rappresentano uno dei predittori più forti del peso alla nascita (β = 32.58 g, p < 2e-16): ogni settimana in più di gestazione è associata in media a +32.6 g.

  • Lunghezza neonatale ha un fortissimo impatto positivo e altamente significativo (β = 10.29 g/cm, p < 2e-16), confermando che i neonati più lunghi tendono anche a pesare di più.

  • Circonferenza cranica è anch’essa fortemente associata al peso (β = 10.47 g/cm, p < 2e-16), indicando una relazione proporzionale tra sviluppo corporeo e cranico.

  • Il tipo di parto risulta statisticamente significativo (p = 0.0143): i neonati nati da parto naturale pesano in media 29.6 g in più rispetto a quelli nati da parto cesareo (categoria di riferimento).

  • Ospedale di nascita mostra risultati misti: l’ospedale 2 non differisce significativamente dal riferimento (p = 0.4096), mentre i neonati nati nell’ospedale 3 pesano in media 28.2 g in più rispetto all’ospedale di riferimento che è l’ospedale 1 (p = 0.0366).

  • Sesso del neonato ha un effetto significativo e marcato: i maschi pesano in media 77.6 grammi in più rispetto alle femmine (p = 5.18e-12), R considera come baseline il sesso femminile.

Table 4.4: Statistiche del modello lineare: Peso ~ variabili indipendenti
Adjusted.R.squared F.statistic Gradi.di.libertà P.value MSE RSE AIC BIC
value 0.7278 668.68 10 e 2487 < 2.2e-16 74757.08 274.0214 35145.57 35215.45

Il coefficiente di determinazione R2 aggiustato misura quanto il modello di regressione lineare multipla si adatta bene ai dati, in pratica è un indicatore utile per valutare la bontà del modello. Quindi un Adjusted R-squared = 0.7278 significa che il modello spiega circa il 72.8% della variabilità del peso neonatale. Invece F-statistic = 668.7 con p < 2.2e-16 significa che il modello nel complesso è altamente significativo: almeno una delle variabili indipendenti ha un effetto statisticamente significativo sul peso.

4.3 Ricerca modello migliore

Per trovare il modello di regressione lineare multipla migliore, si procederà utilizzando la procedura stepwise backward, si parte dal modello saturo, cioè con tutti i regressori e poi si toglie ad ogni passo la variabile meno significativa, con p-value più alto.

4.3.0.1 Si toglie la variabile meno significativa, Anni_madre. (modello 2)

Table 4.5: Table 4.6: Risultati del modello lineare: meno Anni_madre
Term Stima Errore_Std t_value P_value
(Intercept) -6708.61889 136.0211434 -49.3204124 < 2e-16
N_gravidanze 12.58332 4.3400243 2.8993659 3.77e-03
FumatriciFumatrice -30.42684 27.5454831 -1.1046036 2.69e-01
Gestazione 32.29958 3.7996614 8.5006469 < 2e-16
Lunghezza 10.29157 0.3008470 34.2086557 < 2e-16
Cranio 10.48745 0.4256696 24.6375284 < 2e-16
Tipo_partoNat 29.66536 12.0891755 2.4538781 1.42e-02
Ospedaleosp2 -10.95091 13.4441973 -0.8145458 4.15e-01
Ospedaleosp3 28.51708 13.4986410 2.1125890 3.47e-02
SessoM 77.64518 11.1848855 6.9419734 4.91e-12
Table 4.5: Statistiche del modello lineare: meno Anni_madre
Adjusted.R.squared F.statistic Gradi.di.libertà P.value MSE RSE AIC BIC
value 0.7279 743.07 9 e 2488 < 2.2e-16 74771.78 273.9933 35144.06 35208.12

Con il secondo modello l’R2 aggiustato è aumentato in modo insignificante, da 0.7278 a 0.7279. L’unico livello di significatività cambiato è quello della variabile N.gravidanze che ora è 0.0037, mentre in precedenza era 0.0148.

4.3.0.2 Ora si toglie la variabile Ospedale. (modello 3)

Table 4.7: Table 4.8: Risultati del modello lineare: meno Ospedale
Term Stima Errore_Std t_value P_value
(Intercept) -6708.80916 136.0640493 -49.306258 < 2e-16
N_gravidanze 12.99272 4.3439134 2.991017 2.81e-03
FumatriciFumatrice -31.88229 27.5802797 -1.155981 2.48e-01
Gestazione 32.59699 3.8039219 8.569311 < 2e-16
Lunghezza 10.26838 0.3011388 34.098495 < 2e-16
Cranio 10.50146 0.4262447 24.637169 < 2e-16
Tipo_partoNat 30.42439 12.1040735 2.513566 1.20e-02
SessoM 78.10315 11.1998059 6.973616 3.94e-12
Table 4.7: Statistiche del modello lineare: meno Ospedale
Adjusted.R.squared F.statistic Gradi.di.libertà P.value MSE RSE AIC BIC
value 0.7271 951.29 7 e 2490 < 2.2e-16 75049.57 274.3915 35149.33 35201.73

In questo modello il R2 aggiustato è leggermente diminuito da 0.7279 a 0.7271. Gli ordini di grandezza dei livelli di significatività sono invece rimasti gli stessi.

4.3.0.3 Ora si toglie la variabile Fumatrici. (modello 4)

Table 4.9: Table 4.10: Risultati del modello lineare: meno Fumatrici
Term Stima Errore_Std t_value P_value
(Intercept) -6708.01712 136.0715083 -49.297735 < 2e-16
N_gravidanze 12.73563 4.3385093 2.935485 3.36e-03
Gestazione 32.32532 3.7969115 8.513582 < 2e-16
Lunghezza 10.28326 0.3008838 34.176851 < 2e-16
Cranio 10.50629 0.4262530 24.648007 < 2e-16
Tipo_partoNat 30.16009 12.1027307 2.492007 1.28e-02
SessoM 77.91713 11.1994057 6.957256 4.42e-12
Table 4.9: Statistiche del modello lineare: meno Fumatrici
Adjusted.R.squared F.statistic Gradi.di.libertà P.value MSE RSE AIC BIC
value 0.727 1109.47 6 e 2491 < 2.2e-16 75089.84 274.41 35148.67 35195.25

Con questo modello il R2 aggiustato è praticamente rimasto invariato da 0.7271 a 0.7270. La variabile Tipo_parto è il regressore meno significativo. Era risultato anche dal test precedente che asseriva che il tipo_parto non influisse significativamente sul peso del neonato.

4.3.0.4 Ora si toglie la variabile Tipo_parto. (modello 5)

Table 4.11: Table 4.12: Risultati del modello lineare: meno Tipo_parto
Term Stima Errore_Std t_value P_value
(Intercept) -6681.72512 135.8036070 -49.201382 < 2e-16
N_gravidanze 12.45544 4.3415836 2.868871 4.15e-03
Gestazione 32.38273 3.8008087 8.519958 < 2e-16
Lunghezza 10.24546 0.3008151 34.058982 < 2e-16
Cranio 10.54095 0.4264711 24.716681 < 2e-16
SessoM 77.98074 11.2110780 6.955686 4.47e-12
Table 4.11: Statistiche del modello lineare: meno Tipo_parto
Adjusted.R.squared F.statistic Gradi.di.libertà P.value MSE RSE AIC BIC
value 0.7265 1327.34 5 e 2492 < 2.2e-16 75277.04 274.6967 35152.89 35193.65

In questo modello il R2 aggiustato è diminuito leggermente passando da 0.7270 a 0.7265. il numero di gravidanze è quello con il livello di significatività ppiù basso. Dall’analisi precedente, quello delle correlazioni, era risultato avere un coefficiente di correlazione lineare molto vicino allo 0.

4.3.0.5 Ora si toglie la variabile N_gravidanze. (modello 6)

Table 4.13: Table 4.14: Risultati del modello lineare: meno N_gravidanze
Term Stima Errore_Std t_value P_value
(Intercept) -6651.67318 135.5952098 -49.055370 < 2e-16
Gestazione 31.32615 3.7884051 8.268955 2.17e-16
Lunghezza 10.20241 0.3008760 33.909013 < 2e-16
Cranio 10.67064 0.4246831 25.126114 < 2e-16
SessoM 79.10272 11.2204905 7.049845 2.31e-12
Table 4.13: Statistiche del modello lineare: meno N_gravidanze
Adjusted.R.squared F.statistic Gradi.di.libertà P.value MSE RSE AIC BIC
value 0.7257 1652.33 4 e 2493 < 2.2e-16 75525.66 275.0948 35159.12 35194.06

In quest’ultimo modello il R2 aggiustato diminuisce leggermente passando da 0.7265 a 0.7257. I regressori rimantenti risultano tutti significativi avendo un p-value prossimo allo 0.

4.4 Scelta del modello “migliore”

Per scegliere il modello migliore è possibile fare riferimento al principio di parsimonia secondo cui non bisogna utilizzare parametri addizionali se non strettamente necessari: modelli più semplici sono preferiti a modelli più complessi. Con l’approccio stepwise backward si possono confrontare sei diversi modelli di regressione lineare multipla in grado di prevedere il peso dei neonati. Inoltre, verranno utilizzati i seguenti criteri per selezionare il modello migliore: R2 aggiustato, MSE, RSE, ANOVA, AIC, BIC.

  1. Coefficiente R2 aggiustato Considerando il coefficiente di determinazione aggiustato R2 il modello migliore risulta essere il modello2 che ha un R2 aggiustato più elevato rispetto agli altri, in grado di spiegare circa il 72.79 % della variabilità del peso.

  2. Errore quadratico medio (MSE) L’errore quadratico medio MSE (Mean Squared Error) è dato dalla media dei residui al quadrato. Può essere ricavato utilizzando i residui già ottenuti dagli output dei modelli: elevandoli al quadrato e facendone la media. Seguendo il valore MSE il modello migliore risulta essere il modello 1, avendo il valore minore rispetto agli altri.

  3. Errore standard dei residui (RSE) Seguendo l’errore standard residuo (RSE), il quale è la radice quadrata dell’errore quadratico medio (RMSE) con al denominatore: n - k -1 dove k rappresenta il numero di regressori e n il numero osservazione. L’RSE fornisce, dunque, una stima dell’errore medio nella stessa unità di misura della variabile risposta prendendo in considerazione anche il numero di regressori. Con questa metrica il modello migliore risulta essere il modello 2

  4. Criterio di informazione di Akaike (AIC) Questa metrica fornisce una misura della qualità della stima di un modello statistico tenendo conto sia della bontà di adattamento che della complessità del modello. Usando l’AIC il modello 2 è quello che risulta essere migliore avendo il valore più piccolo (35144.06).

  5. Criterio di informazione Bayesiano (BIC) Questa metrica è strettamente correlata all’AIC ma il BIC penalizza maggiormente i parametri aggiuntivi preferendo modelli più semplici (principio di parsimonia). Usando il BIC il modello migliore risulta essere il modello 5 avendo il valore più piccolo (35193.65).

  6. Analisi della varianza (ANOVA) L’ANOVA è un test statistico che rapporta le varianze spiegate tra due modelli e valuta se c’è un aumento o una diminuzione di significatività. Si nota che passando dal modello 1 al 2 e dal modello 3 al 4 non ci sono state variazioni significative (p-value > 0.05), mentre dal modello 2 al 3, dal modello 4 al 5 e dal modello 5 al 6 si è persa dell’informazione significativa (p-value < 0.05).

Table 4.15: Confronto ANOVA
Res.Df RSS Df Sum of Sq F Pr(>F)
Modello 1 2487 186743194 NA NA NA NA
Modello 2 2488 186779904 -1 -36710.0 0.4888948 0.4844861
Modello 3 2490 187473818 -2 -693913.8 4.6206866 0.0099307
Modello 4 2491 187574428 -1 -100610.4 1.3399046 0.2471620
Modello 5 2492 188042054 -1 -467625.7 6.2277237 0.0126409
Modello 6 2493 188663107 -1 -621053.3 8.2710355 0.0040625

Nella ricerca del modello migliore, seguendo il principio di parsimonia, si possono escludere i modelli 1, 2 e 3 poichè non presentano regressori tutti significativi.

Dato che l’obiettivo è quello di spiegare più variabilità possibile del peso senza però esagerare col numero di regressori, il criterio che meglio rispecchia questa esigenza è il BIC. Di seguito allora vengono confrontati i tre modelli facendo riferimento al BIC ma anche R2 aggiustato che è un parametro fondamentale.

Basandoci su questi parametri, il modello migliore risulta essere il modello 6, in quanto è il modello con il numero minore di regressori, ma la variazione in negativo dei parametri BIC e R2 aggiustato non è significativo, circa una variazione di un millesimo.

Il modello 6 è in grado di spiegare il 72.57 % della variabilità del peso:

4.5 Check di multicollinearità elevata tra i regressori

Per verificare che non ci sia una correlazione troppo elevata tra i regressori di un modello è possibile utilizzare il VIF (fattore di inflazione della varianza). Il valore di VIF calcolato deve essere minore di 5 per poter dire che non ci sia multicollinearità tra i regressori.

Table 4.16: Multicollinearità tra i regressori
x
Gestazione 1.654101
Lunghezza 2.070582
Cranio 1.606316
Sesso 1.038918

Dai risultati si vede che ogni VIF è minore di 5, quindi si può affermare che non sono presenti problemi di multicollinearità elevata tra i regressori.

5 Effetti non lineari e interazioni

5.1 Effetti non lineari

Come si è visto dalla matrice degli scatterplot, le variabili Gestazione e Cranio sembrano avere degli effetti non lineari sul Peso. Per vedere se questi effetti non lineari possano migliorare il modello o meno, partiremo dal modello migliore attualmente disponibile, modello 6, e con una procedura stepwise forward aggiungendo gli effetti non lineari.

5.1.0.1 Modello 7

Table 5.1: Table 5.2: Risultati del modello lineare: meno N_gravidanze
Term Stima Errore_Std t_value P_value
(Intercept) -4640.601748 899.9571743 -5.156470 2.71e-07
Gestazione -80.946429 49.8135619 -1.624988 1.04e-01
Lunghezza 10.305622 0.3040763 33.891562 < 2e-16
Cranio 10.767142 0.4264760 25.246773 < 2e-16
SessoM 76.912983 11.2530300 6.834869 1.03e-11
I(Gestazione^2) 1.498774 0.6630595 2.260391 2.39e-02
Table 5.1: Statistiche del modello lineare: meno N_gravidanze
Adjusted.R.squared F.statistic Gradi.di.libertà P.value MSE RSE AIC BIC
value 0.7261 1325.06 5 e 2492 < 2.2e-16 75371.13 274.8683 35156.01 35196.77

L’aggiunta del termine del secondo ordine di Gestazione ha evidenziato un effetto quadratico significativo (p = 0.0239), suggerendo che la relazione tra Gestazione e Peso non è perfettamente lineare. In presenza del termine quadratico, il coefficiente della Gestazione lineare (ora -80.95) non può essere interpretato isolatamente: l’effetto complessivo della gestazione sul peso dipende dalla combinazione dei due termini

L’R2 aggiustato migliora leggermente rispetto al modello 6, passando da 0.7257 a 0.7261.

Inoltre il termine lineare risulta non significativo al 5%, p = 0.1043, il che potrebbe indicare collinearità tra i termini lineare e quadratico.

Nonostante l’introduzione del termine quadratico della gestazione migliori leggermente la qualità del modello, questo introduce una complessità maggiore. Per il principio di parsimonia, si decide di non scegliere questo modello rispetto al modello 6.

5.1.0.2 Modello 8

Table 5.3: Table 5.4: Risultati del modello lineare: meno N_gravidanze
Term Stima Errore_Std t_value P_value
(Intercept) 74.0006375 1153.5594576 0.0641498 9.49e-01
Gestazione 37.7834171 3.9206893 9.6369322 < 2e-16
Lunghezza 10.4418770 0.3016477 34.6161384 < 2e-16
Cranio -31.4049772 7.1796738 -4.3741510 1.27e-05
SessoM 74.2814210 11.1761513 6.6464223 3.68e-11
I(Cranio^2) 0.0622445 0.0106029 5.8705222 4.92e-09
Table 5.3: Statistiche del modello lineare: meno N_gravidanze
Adjusted.R.squared F.statistic Gradi.di.libertà P.value MSE RSE AIC BIC
value 0.7293 1346.5 5 e 2492 < 2.2e-16 74495.43 273.2669 35126.81 35167.58

Il termine quadratico di Cranio è molto significativo (p < 0.0001). Anche il termine lineare rimane significativo (p < 0.0001).

L’R2 aggiustato cresce da 0.7257 a 0.7293, indicando un miglioramento più consistente rispetto al caso della Gestazione.

L’aggiunta del termine quadratico per Cranio porta ad un miglioramento che è trascurabile, quindi si continua a preferire il modello 6, più semplice e interpretabile, seguendo il principio di parsimonia.

5.2 Interazioni

Può essere utile verificare le interazioni tra le variabili: Gestazione e Lunghezza, e tra Gestazione e Cranio.

5.2.0.1 Modello 9

Table 5.5: Table 5.6: Risultati del modello lineare: interazioni Gestazione e Lunghezza
Term Stima Errore_Std t_value P_value
(Intercept) 299.5113880 1164.5839632 0.2571832 7.97e-01
Gestazione -11.1945727 35.2819184 -0.3172892 7.51e-01
Lunghezza 6.5026116 2.8362118 2.2927102 2.19e-02
Cranio -21.6955867 9.9922058 -2.1712510 3.00e-02
SessoM 73.2474528 11.1985100 6.5408213 7.40e-11
I(Cranio^2) 0.0480067 0.0147063 3.2643700 1.11e-03
Gestazione:Lunghezza 0.1025929 0.0734465 1.3968376 1.63e-01
Table 5.5: Statistiche del modello lineare: interazioni Gestazione e Lunghezza
Adjusted.R.squared F.statistic Gradi.di.libertà P.value MSE RSE AIC BIC
value 0.7294 1122.84 6 e 2491 < 2.2e-16 74437.13 273.2148 35126.86 35173.44

L’interazione tra Gestazione e Lunghezza risulta essere non significativa e mantiene l’R2 aggiustato allo stesso livello, da 0.7293 a 0.7294, e rende la variabile Gestazione non significativa. Per questi motivi non ha senso sceglierlo.

5.2.0.2 Modello 10

Table 5.7: Table 5.8: Risultati del modello lineare: interazioni Gestazione e Cranio
Term Stima Errore_Std t_value P_value
(Intercept) 814.0570070 1205.6052424 0.6752268 5.00e-01
Gestazione -59.5031038 46.5673450 -1.2777860 2.01e-01
Lunghezza 10.4615784 0.3015888 34.6882219 < 2e-16
Cranio -24.9784355 7.8021294 -3.2014895 1.38e-03
SessoM 73.0618783 11.1836817 6.5329004 7.79e-11
I(Cranio^2) 0.0362670 0.0163031 2.2245488 2.62e-02
Gestazione:Cranio 0.2915445 0.1390564 2.0965916 3.61e-02
Table 5.7: Statistiche del modello lineare: interazioni Gestazione e Cranio
Adjusted.R.squared F.statistic Gradi.di.libertà P.value MSE RSE AIC BIC
value 0.7297 1124.34 6 e 2491 < 2.2e-16 74364.21 273.0809 35124.41 35170.99

L’interazione tra Gestazione e Cranio risulta abbastanza significativa, anche se l’R2 aggiustato non migliora sostanzialmente come nel caso precedente, da 0.7293 a 0.7297. Un altro punto a sfavore, rende la variabile Gestazione non significativa. Per gli stessi motivi del modello 9, non è ottimale scegliere il modello 10.

5.3 Conclusioni

In conclusione, dopo avere creato un modello considerando tutti i regressori e cercando di ottimizzarlo con la procedura stepwise backward, avendo considerato anche gli effetti non lineari e le interazioni tra i regressori, il modello ottimale da scegliere è il modello 6.

\[ Peso = 6651.67 + 31.33 \cdot Gestazione + 10.20 \cdot Lunghezza + 10.67 \cdot Cranio + 79.10 \cdot Sesso \]

6 Analisi residui

Analizzando un modello di regressione lineare, bisogna anche tenere in considerazione la parte erratica, cioè i residui. I residui devono soddisfare i seguenti requisiti:

  • devono avere media zero;

  • devono avere una distribuzione normale;

  • devono avere una varianza costante;

  • deono essere indipendenti tra loro;

  • Residuals vs Fitted (1° graifco): i punti risultano sparsi casualmente attorno alla media di zero anche se sembra esserci un pattern leggermente ricurvo (parte delle informazioni non filtrate dai regressori).

  • Q-Q Residuals (2° graifco): i residui sono disposti correttamente sulla bisettrice tranne che sulla coda inferiore e superiore dove i punti si allontanano dalla normalità.

  • Scale-Location (3° graifco): i residui dovrebbero essere sparsi attorno ad un valore di y che indica una varianza costante ma anche qui sembra esserci un pattern ricurvo, come nel primo grafico.

  • Residuals vs Leverage (4° graifco): potenziali valori influenti, si vede che l’osservazione 1549 è sopra la soglia di avvertimento a 0.5, rimanendo comunque sotto la soglia di allarme a 1

Per verificare la condizione che la media dei residui sia uguale a zero, è possibile utilizzare un t-test.

Statistica Lim.inf Lim.sup p.value
t 0 -10.7844 10.7844 1

Dall’esito del t-test si evince che la media dei residui è significativamente uguale a zero.

Per verificare la condizione di normalità dei residui è possibile utilizzare il test di normalità di Shapiro-Wilk

Test p.value
Shapiro 0

I residui risultano avere una distribuzione non normale poichè il p-value è praticamente 0 e viene quindi rifiutata l’ipotesi nulla di normalità

Per verificare la condizione di varianza costante dei residui è possibile utilizzare il test di omoschedasticità di Breusch-Pagan.

Test p.value
BP Breusch 0

L’ipotesi nulla di omoschedasticità viene rifutata: i residui non hanno varianza costante.

Per verificare l’indipendenza tra i residu, si può essere utilizzato il test di non correlazione fra i residui di Durbin-Watson

Test p.value
Durbin 0.1317932

Il p-value è maggiore del livello di signififcativà quindi non si rifuta l’ipotesi nulla di indipendenza tra i residui.

6.1 Uso log di peso come variabile risposta (modello log)

In quanto usare peso come variabile risposta ha rivelato gravi violazioni delle assunzioni fondamentali della regressione. Si prova a cambiare la variabile risposta in log(peso). Il logaritmo è stata scelta in quanto agisce come stabilizzatore di varianza e normalizzatore, risolvendo simultaneamente i problemi di eteroschedasticità e non-normalità.

Table 6.1: Table 6.2: Risultati del modello lineare: trasformazione logaritmica
Term Stima Errore_Std t_value P_value
(Intercept) 4.4105936 0.0427482 103.176105 < 2e-16
Gestazione 0.0182402 0.0011943 15.272118 < 2e-16
Lunghezza 0.0035159 0.0000949 37.065570 < 2e-16
Cranio 0.0035638 0.0001339 26.617833 < 2e-16
SessoM 0.0184194 0.0035374 5.207025 2.08e-07
Table 6.1: Statistiche del modello lineare: trasformazione logaritmica
Adjusted.R.squared F.statistic Gradi.di.libertà P.value MSE RSE AIC BIC
value 0.7762 2165.81 4 e 2493 < 2.2e-16 0.0075066 0.0867273 -5119.14 -5084.2

Test p.value
Shapiro 0
Test p.value
Breusch 0

Il parametro R2 aggisutato è migliorato si quasi 6% in più. E anche il BIC è migliorato sensibilmente passando da 35194.06 a -5181.53.

Il confronto dei grafici diagnostici mostra che l’uso di log(peso) come variabile risposta, rispetta meglio le assunzioni della regressione lineare e fornisce stime più affidabili, in quanto:

  • riduce l’eteroschedasticità (residui vs fitted più omogenei),

  • migliora la normalità dei residui (QQ plot più allineato alla diagonale),

  • stabilizza la varianza (scale-location più piatto),

  • attenua l’influenza dei valori estremi (residuali vs leverage con valori più lontani dalla soglia).

Nonostante i test di normalità e omoschedasticità abbiano ancora p-value prossimo allo zero, bisogna notare che per campioni di grandi dimensioni anche deviazioni minime dalle assunzioni teoriche vengono rilevate come significative. L’ispezione visiva dei grafici le assunzioni del modello lineare sono migliorate.

6.2 Verifica influenza dei leverages e outliers

I leverages (valori di leva) sono valori inusuali nello spazio dei regressori

1549 
1549 

Gli outliers (valori anomali) sono valori inusuali della variabile risposta, considerati i regressori.

1549 
1549 

Per valutare in maniera congiunta leverages e outliers si usa la distanza di Cook.

[1] 1.002634
1549 
1549 

L’osservazione numero 1549 che ha una distanza di Cook di 1.0026, molto vicina alla soglia di allarme pari ad 1. Come si vedeva anche dai precedente grafico.

Quindi si crea un modello come il modello log ma senza l’osservazione 1549. In questo modo è possibile verificarne l’effettiva influenza.

Table 6.3: Table 6.4: Risultati del modello lineare finale
Term Stima Errore_Std t_value P_value
(Intercept) 4.4104525 0.0419059 105.246475 < 2e-16
Gestazione 0.0173486 0.0011741 14.775718 < 2e-16
Lunghezza 0.0037198 0.0000951 39.094480 < 2e-16
Cranio 0.0033686 0.0001327 25.392356 < 2e-16
SessoM 0.0184889 0.0034677 5.331729 1.06e-07
Table 6.3: Statistiche del modello finale
Adjusted.R.squared F.statistic Gradi.di.libertà P.value MSE RSE AIC BIC
value 0.7848 2276.17 4 e 2492 < 2.2e-16 0.0072137 0.0850185 -5216.467 -5181.53

In questo caso l’R2 aggiustato aumenta passando dal 0.7762 al 0.7848. Il che mostra che l’osservazione 1549 è effettivamente influente. Il BIC è diminuito da -5084.2 a -5181.53. Per questo motivo si preferisce questo ultimo modello.

6.3 Prestazioni del modello

Per valutare le prestazioni del modello e la sua generalizzazione si può usare la tecnica 10-fold cross-validation. La quale darà una stima più affidabile e realistica di come il modello si comporterà su dati nuovi e sconosciuti, invece di usare gli stessi dati usati per costruire il modello. Si userà il metodo CV (Cross-Validation).

R-squared Medio (CV) RMSE Medio (CV)
0.7804169 0.0851154

La 10 fold cross validation ha restituito un R² medio di 0.78 e un RMSE medio di 0.085 su scala logaritmica,il quale corrisponde a un errore medio di circa 9%, \[(e^0.0851−1)×100\].

Per valutare la bontà del modello, si può provare a calcolare il peso di un’osservazione casuale nel dataset con il modello scelto. Per esempio si può prendere l’osservazione n° 500:

    Anni_madre N_gravidanze     Fumatrici Gestazione Peso Lunghezza Cranio
500         29            0 Non Fumatrice         40 3400       480    340
    Tipo_parto Ospedale Sesso
500        Ces     osp3     M
Peso Predetto (g) Peso Medio (g)
3156.808 3250

Il modello log-lineare ha stimato, un peso medio atteso di circa 3157 g, che risulta superiore di circa 7% al valore misurato di 3400 g, ma è in linea con la media empirica del gruppo 3250 g, con le stesse caratteristiche dei regressori. Questo indica che il modello fornisce previsioni coerenti con l’andamento dei dati del campione, anche se non riproduce esattamente ogni osservazione individuale. Il calor di peso medio atteso ha già tenuto in considerazione il fattore di correzione di smearing di Duan.

7 Previsione pratiche

Stimare il peso di una neonata considerando una madre alla terza gravidanza che partorirà alla 39esima settimana. Siccome il modello necessita anche dei parametri Lunghezza, Cranio, si utilizzeranno i valori medi

Peso Predetto (g) Peso Medio (g)
3181.668 3248.824

Il valore della previsione del peso ottenuta è di 3181.67 g. Invece la media del peso dei neonati quando la madre è alla quarta gravidanza, è alla 39 settimana di gestazione è pari a 39 e il sesso del neonato è femmina, è pari a 3248.82 g. La previsione è abbastanza accurato.

8 Rappresentazione grafica del modello

Il modello di regressione lineare multipla, costruito per prevedere il Peso, utilizza quattro regressori. Poiché il modello utilizza più predittori continui, una rappresentazione visiva simultanea di tutte le variabili può risultare complessa. Per facilitare la comprensione delle relazioni principali, sono stati costruiti grafici bidimensionali e tridimensionali, semplificando il modello, che illustrano gli effetti più rilevanti.

8.1 Scatterplot 3D

8.2 Scatterplot

Dai precedenti scatterplot è possibile vedere come i neonati abbiano una retta di regressione superiore rispetto alle neonate.

8.3 Scapperplot accuratezza

La gestazione presenta l’effetto più marcato, seguita da lunghezza e circonferenza cranica. Gli intervalli di confidenza ridotti indicano stime stabili e biologicamente coerenti, confermando la solidità del modello di regressione lineare.

8.4 Grafico di effetti parziali

Si può vedere come cambia il peso predetto al variare di una variabile, mantenendo costanti le altre.

Le linee rappresentano il valore medio previsto del peso, mentre le fasce colorate indicano gli intervalli di confidenza al 95%, che descrivono l’incertezza della stima. I grafici degli effetti parziali evidenziano come il peso neonatale sia fortemente influenzato da variabili fisiologiche quali la durata della gestazione, la lunghezza e la circonferenza cranica. Tutte mostrano un effetto positivo e statisticamente significativo, come da letteratura. Gli intervalli di confidenza relativamente stretti mostrano una buona precisione delle stime.

8.5 Effetto marginalizzato del sesso sul peso previsto

L’effetto marginalizzato del sesso sul peso previsto mostra una differenza tra maschi e femmine, con valori medi più elevati nei neonati maschi, come era lecito aspettarsi. Il p-value molto basso indica una differenza statisticamente rilevante, coerente con le differenze biologiche note nella crescita fetale.

8.6 Conclusioni

Nel complesso, le rappresentazioni grafiche confermano che la gestazione, la lunghezza e la circonferenza cranica sono fortemente associate al peso neonatale, mentre il sesso mostra un effetto additivo significativo. I risultati del modello sono coerenti con l’evidenza clinica.