Struttura dell’analisi

  1. Analisi Descrittiva

    1.1. Importazione e controllo del dataset.
    Verifica che il file neonati.csv sia stato letto correttamente.

    1.2. Descrizione e Panoramica della composizione del dataset.

    1.3. Analisi descrittiva.
    Calcolo di indici statistici e rappresentazioni grafiche delle variabili principali.

    1.4. Confronto della media con la Popolazione.
    Test statistici per verificare se le medie del peso e della lunghezza dei neonati sono significativamente uguali a quelle della popolazione.

    1.5. Differenze tra i sessi.
    Verifica di differenze significative tra maschi e femmine per le misure antropometriche.

    1.6. Analisi della frequenza dei parti cesarei per ospedale.
    Verifica dell’ipotesi di differenze significative sulla frequenza di parti cesarei nei vari ospedali.

  2. Analisi del modello di regressione

    2.1. Analisi delle relazioni tra coppie di variabili.

    2.2. Costruzione e commento del modello di regressione lineare multipla.

    2.3. Selezione del miglior modello usando vari criteri di selezione (AIC, BIC, etc.).

    2.4. Considerazione di interazioni ed effetti non lineari.

    2.5. Diagnostica dei residui.
    Analisi dei residui per identificare valori influenti e valutazione della loro influenza sul modello.

    2.6. Validità del modello per previsioni.
    Valutazione delle capacità predittive del modello.

    2.7. Previsione del peso di una neonata.
    Migliore previsione per il peso di una neonata con madre alla terza gravidanza e alla 39ª settimana di gestazione.

    2.8. Visualizzazioni del Modello.
    Rappresentazione grafica del modello semplificandone l’interpretazione, se necessario.

Analisi descrittiva

1.1 Importa il dataset “neonati.csv” e controlla che sia stato letto correttamente dal software

Prime 6 righe dataset
Anni.madre N.gravidanze Fumatrici Gestazione Peso Lunghezza Cranio Tipo.parto Ospedale Sesso
26 0 0 42 3380 490 325 Nat osp3 M
21 2 0 39 3150 490 345 Nat osp1 F
34 3 0 38 3640 500 375 Nat osp2 M
28 1 0 41 3690 515 365 Nat osp2 M
20 0 0 38 3700 480 335 Nat osp3 F
32 0 0 40 3200 495 340 Nat osp2 F
Statistiche descrittive - Dataset Neonati
Anni.madre N.gravidanze Fumatrici Gestazione Peso Lunghezza Cranio Tipo.parto Ospedale Sesso
Min. : 0.00 Min. : 0.0000 Min. :0.0000 Min. :25.00 Min. : 830 Min. :310.0 Min. :235 Length:2500 Length:2500 Length:2500
1st Qu.:25.00 1st Qu.: 0.0000 1st Qu.:0.0000 1st Qu.:38.00 1st Qu.:2990 1st Qu.:480.0 1st Qu.:330 Class :character Class :character Class :character
Median :28.00 Median : 1.0000 Median :0.0000 Median :39.00 Median :3300 Median :500.0 Median :340 Mode :character Mode :character Mode :character
Mean :28.16 Mean : 0.9812 Mean :0.0416 Mean :38.98 Mean :3284 Mean :494.7 Mean :340 NA NA NA
3rd Qu.:32.00 3rd Qu.: 1.0000 3rd Qu.:0.0000 3rd Qu.:40.00 3rd Qu.:3620 3rd Qu.:510.0 3rd Qu.:350 NA NA NA
Max. :46.00 Max. :12.0000 Max. :1.0000 Max. :43.00 Max. :4930 Max. :565.0 Max. :390 NA NA NA

L’analisi delle età materne riportate nel dataset si evidenziano alcuni errori di digitazione che assegnano alle madri età di 0 e 1 anni, palesemente errati. Verranno sostituiti con la media dell’età.

1.2. Descrizione e Panoramica della composizione del dataset.

Il dataset è composto da 2500 osservazioni e 10 variabili

Descrizione completa delle variabili
Variabile Tipo Descrizione Scala
Anni.madre Quantitativa discreta Età della madre (anni) Rapporti
N.gravidanze Quantitativa discreta Numero gravidanze Rapporti
Fumatrici Qualitativa dicotomica Madre fumatrice (0=NO,1=SI) Nominale
Gestazione Quantitativa discreta Settimane gestazione Rapporti
Peso Quantitativa continua Peso neonato (g) Rapporti
Lunghezza Quantitativa continua Lunghezza neonato (mm) Rapporti
Cranio Quantitativa continua Diametro cranio (mm) Rapporti
Tipo.parto Qualitativa nominale Tipo parto Nominale
Ospedale Qualitativa nominale Ospedale Nominale
Sesso Qualitativa dicotomica Sesso neonato Nominale

La tabella seguente riassume le principali statistiche descrittive delle variabili (indici di posizione, variabilità e forma).

Statistiche delle Variabili Numeriche
Variabile Minimo Q1 Q2 Q3 Massimo Media Dev.Std Coeff.Var Asimmetria Curtosi Lunghezza Gini
Anni.madre 13 25 28 32 46 28.19 5.22 18.50 0.15 -0.10 2500 0.97
N.gravidanze 0 0 1 1 12 0.98 1.28 130.51 2.51 10.99 2500 0.73
Gestazione 25 38 39 40 43 38.98 1.87 4.79 -2.07 8.26 2500 0.85
Peso 830 2990 3300 3620 4930 3284.08 525.04 15.99 -0.65 2.03 2500 1.00
Lunghezza 310 480 500 510 565 494.69 26.32 5.32 -1.51 6.49 2500 0.94
Cranio 235 330 340 350 390 340.03 16.43 4.83 -0.79 2.95 2500 0.97
Statistiche delle Variabili Categoriche
Variabile Moda Gini Lunghezza
Fumatrici 0 0.16 2500
Ospedale osp2 1.00 2500
Sesso F 1.00 2500
Tipo.parto Nat 0.83 2500

1.3. Analisi descrittiva.
Calcolo di indici statistici e rappresentazioni grafiche delle variabili principali.

1. Anni.madre

Misure di posizione e deviazione standard per Anni.madre
Min. 1st Qu. Median Mean 3rd Qu. Max. deviazione_std
13 25 28 28.19 32 46 5.22

Analisi descrttiva

L’età media delle madri è di circa 28 anni. I quartili indicano che il 25% delle madri ha un’etàinferiore a 25 anni, il 50% ha un’età inferiore a 28 anni e il 75% ha un’età inferiore a 32 anni. Le età delle madri variano di circa 5.2 anni attorno alla media. L’asimmetria positiva (0.15) indica che la distribuzione è leggermente asimmetrica verso destra, quindi ci sono alcune madri che spostano leggermente la coda della distribuzione verso età superiori rispetto alla media. La curtosi negativa (-0.10) indica che la distribuzione è platicurtica, ossia è leggermente più piatta rispetto a una normale, con code meno pronunciate. Questo significa che c’è meno concentrazione intorno alla media. L’indice di Gini mostra una eterogeneità molto alta, in altre parole, le frequenze delle età delle madri nel dataset sono molto bilanciate.

2. Gestazione

Misure di posizione e deviazione standard per gestazione
Min. 1st Qu. Median Mean 3rd Qu. Max. deviazione_std
25 38 39 38.98 40 43 1.87

La durata media della gestazione è di circa 39 settimane. Il 75% delle gestazioni dura 40 settimane o meno. La durata più frequente è 40 settimane- La deviazione standard indica una variazione di circa 1.9 settimane attorno alla media. L’alta asimmetria negativa indica una distribuzione con una coda più lunga verso sinistra, suggerendo che ci sono alcuni casi di gestazioni significativamente più brevi (25 settimane). Le frequenze del numero di gravidanze nel dataset sono discretamente bilanciate.

Il numero di settimane minimo è di 25. Sebbene sia un parto estremamente prematuro e raro è comunque ritenuto un dato plausibile. (https://www.msdmanuals.com/it/casa/problemi-di-salute-dei-bambini/problemi-generali-dei-neonati/neonati-pretermine-prematuri)

3. Numero gravidanze

Misure di posizione e deviazione standard per numero gravidanze
Min. 1st Qu. Median Mean 3rd Qu. Max. deviazione_std
0 0 1 0.98 1 12 1.28

In media, il numero di gravidanze per madre è circa 1. La maggior parte delle madri ha avuto 0 gravidanze. La variabilità del numero di gravidanze è molto alta rispetto alla media, suggerendo una distribuzione molto dispersa. L’alta asimmetria positiva indica molte osservazioni concentrate a valori più bassi e una lunga coda a destra. Questo è dovuto al fatto che molte madri nel dataset hanno avuto solo poche gravidanze, mentre poche madri hanno avuto molte gravidanze. L’indice di Gini mostra una eterogeneità discretamente alta, ciò significa che vi è una discreta equidistribuzione nel dataset; le frequenze del numero di gravidanze nel dataset sono discretamente bilanciate.

4. Peso

Misure di posizione e deviazione standard del peso
Min. 1st Qu. Median Mean 3rd Qu. Max. deviazione_std
830 2990 3300 3284.08 3620 4930 525.04

Il peso medio alla nascita è di circa 3284 grammi. Il peso mediano dei neonati è 3300 g, mentre il 75% dei neonati pesa 3620 g o meno. La deviazione standard suggerisce che il peso alla nascita varia di circa 525 grammi rispetto alla media. L’asimmetria negativa indica una una coda più lunga verso sinistra, il che spiega la notevole differenza tra il valore dell’IQR e l’intervallo totale di 4100 grammi. Infine, la curtosi è leggermente superiore a 2, suggerendo una distribuzione più appiattita rispetto alla normale.

5. Lunghezza alla nascita

Misure di posizione e deviazione standard della lunghezza alla nascita in mm
Min. 1st Qu. Median Mean 3rd Qu. Max. deviazione_std
310 480 500 494.69 510 565 26.32

La lunghezza media alla nascita è di circa 495 mm. Il 75% dei neonati ha una lunghezza fino a 510 mm. La deviazione standard indica che la lunghezza alla nascita varia di circa 26 mm rispetto alla media. L’asimmetria negativa suggerisce una coda più lunga a sinistra. La curtosi elevata indica una distribuzione appuntita con valori concentrati attorno alla media.

6. Diametro cranio (mm)

Misure di posizione e deviazione standard del diametro del cranio alla nascita in mm
Min. 1st Qu. Median Mean 3rd Qu. Max. deviazione_std
235 330 340 340.03 350 390 16.43

La circonferenza media del cranio è di circa 340 mm. Il 75% dei neonati ha una circonferenza cranica di 350 mm o meno. La deviazione standard indica che la circonferenza cranica varia di circa 16 mm rispetto alla media. L’asimmetria negativa indica una distribuzione inclinata verso destra, con una coda più lunga a sinistra. La curtosi è sopra 2, suggerendo una distribuzione concentrata attorno al valore medio.

7.Madri Fumatrici (0: non fumatrici, 1: fumatrici

La moda è 0 ed indica che la maggior parte delle madri presenti nel campione non è fumatrice. L’indice di Gini basso indica una alta omogeneità, che suggerisce un comportamento omogeneo delle madri nel dataset rispetto al fumo; infatti, vi è una forte presenza di madri non fumatrici, che rende il campione quasi omogeneo, come mostrato anche nella figura precedente.

8. Tipo parto (Naturale: Nat o Cesareo: Ces)

La moda indica che il tipo di parto più comune nel dataset è naturale (Nat). L’indice di Gini suggerisce alta eterogeneità, ciò è dovuto dalla numerosità di parti naturali e cesarei abbastanza bilanciata nel dataset.

9. Ospedale (osp1, osp2, osp3)

L’ospedale più comune tra i soggetti è l’ospedale 2 (osp2). L’indice di Gini mostra una altissima eterogeneità, ciò si spiega dalla numerosità di parti provenienti dai 3 ospedali molto bilanciata nel dataset.

10. Sesso

Il sesso più comune tra i soggetti è femminile (F). L’indice di Gini quasi pari a 1 indica una eterogeneità quasi perfetta, dovuta dalla numerosità praticamente uguale di neonati maschi (1244) e neonati femmine (1256) nel dataset.

1.4 Verifichiamo l’ipotesi che le medie del peso e della lunghezza dei neonati sono significativamente uguali a quelle della popolazione.

I dati medi di peso e lunghezza sono stati resi da questa fonte:https://www.ospedalebambinogesu.it/da-0-a-30-giorni-come-si-presenta-e-come-cresce-80012/?utm_source=chatgpt.com

Peso medio alla nascita: 3300 g (intervallo da 2500g a 4500g)
Lunghezza media alla nascita: 500 mm (circa 505 per i maschi e 495 per le femmine

Per verificare questo dato assumo come ipotesi nulla l’uguaglianza tra le medie campionarie e quelle della popolazione.

I valori medi della popolazione sono riportati poco sopra

E’ opportuno verificare prima del test, se l’assunzione di normalità è rispettata o meno, anche se, come possiamo immaginare dalle precedenti analisi grafiche, le distribuzioni di Peso e Lunghezza non sembrano seguire una distribuzione normale.

Effettuo lo Shapiro-Wilk test per saggiare la normalità delle due distribuzioni:
H0: le due distribuzioni sono normali
H1: le due distribuzioni sono diverse dalla distribuzione normale

Test di Shapiro-Wilk per le variabili peso e lunghezza
Variabile W p.value
Peso 0.97 0
Lunghezza 0.91 0

Come si sospettava il p value nullo ci porta a rifiutare l’ipotesi nula di normalità delle distribuzioni. Nonostante questo risultato il numero di osservazioni del campione superiore 100 ci consente di effettuare il test T per saggiare l’uguaglianza tra medie campionarie e quelle della popolazione, garantendo comunque un risultato robusto.

Risultati dei t-test per le variabili selezionate
Variabile Statistica p_value limite_inferiore limite_superiore gradi_di_libertà
Peso -1.516002 0.1296452 3263.4897 3304.6719 2499
Lunghezza -10.084106 0.0000000 493.6598 495.7242 2499

Il p-value della variabile peso è superiore al livello di significatività di 0.05, questo ci è sufficiente per non rifiutare l’ipotesi nulla e quindi non possiamo affermare che la media del peso nel campione è statisticamente differente dalla media della popolazione.

Per la variabile Lunghezza, il p-value è estremamente basso (< 2.2e-16). In questo caso si rifiuta l’ipotesi nulla, e questo indica che la media della lunghezza dei neonati è significativamente diversa dalla media attesa (500 mm). Infatti, l’intervallo di confidenza per la lunghezza non include il valore atteso di 500 mm, confermando che vi è una differenza statisticamente significativa.

1.5. Differenze tra i sessi.
Verifica di differenze significative tra maschi e femmine per le misure antropometriche.

Risultati t-test per misure antropometriche tra i sessi
Variabile Mean M Mean F Diff (F-M) statistic df p.value conf.low conf.high
Peso 3408.215 3161.132 -247.083 -12.106 2490.716 0 -287.105 -207.061
Lunghezza 499.667 489.764 -9.903 -9.582 2459.302 0 -11.929 -7.876
Cranio 342.449 337.633 -4.816 -7.410 2491.389 0 -6.090 -3.541

I t-test confermano ciò che già si poteva sospettare dall’analisi grafica e cioè che dobbiamo rifiutare l’ipotesi nulla di uguaglianza delle misure antropometriche tra i sessi. In generale il sesso maschile ha misure significativamente maggiori rispetto al sesso femminile, almeno per quello che riguarda il peso, la lunghezza e le dimensioni del cranio.

Statistiche per Peso
Sesso Min. 1st Qu. Median Mean 3rd Qu. Max. Dev.std IQR Skewness Kurtosis
Maschi 980 3150 3430 3408.22 3720 4810 493.80 570 -0.76 5.27
Femmine 830 2900 3160 3161.13 3470 4930 526.31 570 -0.58 5.30
Statistiche per Lunghezza
Sesso Min. 1st Qu. Median Mean 3rd Qu. Max. Dev.std IQR Skewness Kurtosis
Maschi 320 490 500 499.67 515 560 24.04 25 -1.37 9.07
Femmine 310 480 490 489.76 505 565 27.53 25 -1.60 9.72
Statistiche per Cranio
Sesso Min. 1st Qu. Median Mean 3rd Qu. Max. Dev.std IQR Skewness Kurtosis
Maschi 265 334 343 342.45 352.00 390 15.74 18.00 -0.66 5.16
Femmine 235 330 340 337.63 348.25 390 16.74 18.25 -0.88 6.56

Le statistiche evidenziano che l’effetto degli outliers è più marcato nelle femmine che nei maschi, infatti il coefficiente di variazione è maggiore mentre l’IRQ è praticamente uguale per tutte le statstiche; questo ci indica una maggiore dispersione delle osservazioni rispetto alla media per le femmine.

1.6. Analisi della frequenza dei parti cesarei per ospedale.
Verifica dell’ipotesi di differenze significative sulla frequenza di parti cesarei nei vari ospedali.

Saggiamo ora l’ipotesi, che adotteremo come ipotesi nulla, di uguaglianza tra parti cesarei e naturali nei tre ospedali osservati.

H0: il numero parti cesarei e naturali è uguale nei tre ospedali
H1: il numero parti cesarei e naturali non è uguale nei tre ospedali

Tabella di contingenza: Frequenze osservate
Ospedale TipoParto Freq_Osservata
osp1 Ces 242
osp2 Ces 254
osp3 Ces 232
osp1 Nat 574
osp2 Nat 595
osp3 Nat 603
Risultati del test Chi-quadro
Statistica df p_value Chi_quadro_Critico
X-squared 1.1 2 0.5778 5.99

Il chi-quadro calcolato è 1.1, inferiore a 5.99 (chi quadro critico per 2 gradi di libertà e livello di confidenza del 95%), pertanto non si ha evidenza sufficiente per rifiutare l’ipotesi nulla, suggerendo che le variabili osservate non differiscono significativamente tra di loro. Il p-value è pari a 0.5778, superiore a 0.05 e questo ci conferma che non ci sono prove sufficienti per respingere l’ipotesi nulla, quindi non vi è una differenza statisticamente significativa nella distribuzione dei parti cesarei tra i diversi ospedali.

Analisi del modello di regressione

2.1. Analisi delle relazioni tra coppie di variabili.

Covarianza e correlazione con Peso
Variabile Covarianza Correlazione
N.gravidanze 1.618567 0.0024073
Gestazione 580.589019 0.5917687
Lunghezza 10999.880839 0.7960368
Cranio 6078.162105 0.7048015

Le analisi delle correlazioni e i grafici di dispersione evidenziano relazioni positive tra il “Peso” e altre variabili quantitative del dataset, come indicato dalle linee di tendenza rosse. Il grafico di dispersione del peso e della lunghezza del neonato mostra una relazione lineare confermata da un coefficiente di correlazione lineare di 0.8. Un risultato simile si osserva nel grafico di dispersione del peso e del cranio del neonato, dove il coefficiente di correlazione lineare è 0.7. Il grafico di dispersione del peso e della durata della gravidanza mostra una relazione lineare, con un coefficiente di correlazione lineare di 0.59. Infine, il grafico di dispersione del peso e del numero di gravidanze mostra assenza di relazione lineare, con un coefficiente pressoché nullo.

La matrice di correlazione fornisce valori numerici che descrivono la forza e la direzione delle relazioni tra variabili. Come ci aspettavamo dalle analisi precedenti, le variabili maggiormente correlate al Peso sono Cranio e Lunghezza. Tuttavia, nessuna delle variabili presenta una relazione puramente lineare con la variabile Peso e ciò potrebbe costituire una difficoltà per l’accuratezza del modello di regressione lineare.

2.2. Costruzione e commento del modello di regressione lineare multipla.

\[ \text{Y} = \beta_0 + \beta_1 \cdot \text{X1} + \beta_2 \cdot \text{X2} + \beta_3 \cdot \text{X3} + \text{........} + \beta_n \cdot \text{Xn} + \epsilon \]

Costruire un modello di regressione significa implementare una relazione come quella precedente, dove \(\beta_0\),\(\beta_1\)….\(\beta_n\) sono i coefficienti che indicano quanto impatta la variabile che moltiplicano sulla variabile target.
\(\epsilon\) è la parte erratica formata dai residui

Regressione lineare multipla: risultati dei coefficienti R² = 0.729, R² aggiustato = 0.728
Variabile Stima Errore Std. t value p value
(Intercept) -6735.14 141.40 -47.63 0.0000
Gestazione 32.53 3.82 8.52 0.0000
Lunghezza 10.30 0.30 34.24 0.0000
Cranio 10.47 0.43 24.58 0.0000
N.gravidanze 11.41 4.67 2.45 0.0145
Fumatrici -30.16 27.54 -1.10 0.2736
SessoM 77.55 11.18 6.94 0.0000
Ospedaleosp2 -11.22 13.44 -0.84 0.4038
Ospedaleosp3 28.10 13.50 2.08 0.0375
Anni.madre 0.80 1.15 0.70 0.4867
Tipo.partoNat 29.50 12.08 2.44 0.0147

Gestazione, Lunghezza, Cranio, N.gravidanze e Sesso sono tutte variabili statisticamente significative, con un p-value molto bassi. Il parto naturale ha un p-value di 0.0147 rendendo anche questa variabile nominale significativa per il peso alla nascita dei neonati.

Il valore dell’R² aggiustato è circa 0.728, il che significa che il modello spiega il 72.8% della variabilità del peso di un neonato, un risultato buono ma migliorabile.

2.3. Selezione del miglior modello usando vari criteri di selezione (AIC, BIC, etc.).

Utilizzando il metodo “stepwise” procediamo all’eliminazione di una variabile alla volta e testiamo se la bontà del modello migliora. Inizaimo con la variabile “Anni madre” che ha un p value di 0,4867 ben oltre la significatività di 0,05

Regressione lineare multipla: risultati dei coefficienti R² = 0.729, R² aggiustato = 0.728
Variabile Stima Errore Std. t value p value
(Intercept) -6708.11 135.94 -49.35 0.0000
Gestazione 32.25 3.80 8.49 0.0000
Lunghezza 10.29 0.30 34.24 0.0000
Cranio 10.49 0.43 24.65 0.0000
N.gravidanze 12.61 4.34 2.91 0.0037
Fumatrici -30.31 27.54 -1.10 0.2711
SessoM 77.62 11.18 6.95 0.0000
Ospedaleosp2 -11.08 13.44 -0.82 0.4096
Ospedaleosp3 28.37 13.49 2.10 0.0356
Tipo.partoNat 29.54 12.08 2.44 0.0146

l’ \(R^2\) non varia nè in meglio e nè in peggio . Rimuoviamo l’“Ospedale”

Regressione lineare multipla: risultati dei coefficienti R² = 0.728, R² aggiustato = 0.727
Variabile Stima Errore Std. t value p value
(Intercept) -6708.07 135.98 -49.33 0.0000
Gestazione 32.54 3.80 8.56 0.0000
Lunghezza 10.27 0.30 34.13 0.0000
Cranio 10.50 0.43 24.65 0.0000
N.gravidanze 13.01 4.34 3.00 0.0028
Fumatrici -31.76 27.57 -1.15 0.2495
SessoM 78.11 11.19 6.98 0.0000
Tipo.partoNat 30.30 12.10 2.50 0.0123

Praticamente nessuna variazione nella bontà del modello, rimuoviamo “Fumatrici”

Regressione lineare multipla: risultati dei coefficienti R² = 0.728, R² aggiustato = 0.727
Variabile Stima Errore Std. t value p value
(Intercept) -6707.30 135.99 -49.32 0.0000
Gestazione 32.27 3.79 8.51 0.0000
Lunghezza 10.29 0.30 34.21 0.0000
Cranio 10.51 0.43 24.66 0.0000
N.gravidanze 12.76 4.34 2.94 0.0033
SessoM 77.93 11.19 6.96 0.0000
Tipo.partoNat 30.03 12.10 2.48 0.0131

Rimuoviamo anche il numero di gravidanze

Regressione lineare multipla: risultati dei coefficienti R² = 0.727, R² aggiustato = 0.726
Variabile Stima Errore Std. t value p value
(Intercept) -6675.81 135.78 -49.17 0.0000
Gestazione 31.19 3.78 8.25 0.0000
Lunghezza 10.24 0.30 34.05 0.0000
Cranio 10.64 0.42 25.08 0.0000
SessoM 79.07 11.20 7.06 0.0000
Tipo.partoNat 29.11 12.11 2.40 0.0163

Non si evidenziano ulteriori modifiche dell’ \(R^2\). Mantengo la variabile Tipo.parto poichè anche se risulta biologicamente non influente sul peso del neonato alla nascita è però moderatamente significativa. A conferma del modello calcolo il VIF e userò stepAIC per verificare che il modello ricavato sia effettivamente ottimizzato.

Regressione lineare multipla: risultati dei coefficienti R² = 0.727, R² aggiustato = 0.726
Variabile Stima Errore Std. t value p value
(Intercept) -6675.81 135.78 -49.17 0.0000
Gestazione 31.19 3.78 8.25 0.0000
Lunghezza 10.24 0.30 34.05 0.0000
Cranio 10.64 0.42 25.08 0.0000
SessoM 79.07 11.20 7.06 0.0000
Tipo.partoNat 29.11 12.11 2.40 0.0163

A conferma del modello calcolo il VIF e userò stepAIC per verificare che il modello ricavato sia effettivamente ottimizzato.

VIF per il modello con Peso come variabile dipendente
Variabile VIF
Gestazione 1.654
Lunghezza 2.075
Cranio 1.608
Sesso 1.039
Tipo.parto 1.003

tutti i valori sono inferiori a 5, quindi non sono presenti problemi di multicollinearità

Ora userò stepAIC sul modello completo (con tutte le variabili) per verificare che effettivamente il modello che abbiamo scelto sia quello migliore

Regressione lineare multipla: risultati dei coefficienti R² = 0.727, R² aggiustato = 0.726
Variabile Stima Errore Std. t value p value
(Intercept) -6675.81 135.78 -49.17 0.0000
Gestazione 31.19 3.78 8.25 0.0000
Lunghezza 10.24 0.30 34.05 0.0000
Cranio 10.64 0.42 25.08 0.0000
SessoM 79.07 11.20 7.06 0.0000
Tipo.partoNat 29.11 12.11 2.40 0.0163

StepAIC conferma la scelta delle variabili operate in precedenza.

2.4. Considerazione di interazioni ed effetti non lineari.

Consideriamo i termini di interazione tra le variabili Gestazione e Lunghezza, e tra Gestazione e Cranio.

Il risultato del modello è nella seguente tabella:

Coefficienti del modello con Gestazione, Lunghezza, Cranio, SessoM e interazioni Gestazione×Lunghezza e Gestazione×Cranio
Variabile Stima Errore Std. t value p value Significatività
(Intercept) -328.28 1108.05 -0.30 0.77
Gestazione -138.20 29.56 -4.68 0.00 ***
Lunghezza 9.17 3.76 2.44 0.01 *
Cranio -7.46 6.44 -1.16 0.25
SessoM 73.15 11.19 6.54 0.00 ***
Tipo.partoNat 27.81 12.04 2.31 0.02 *
Gestazione:Lunghezza 0.03 0.10 0.34 0.73
Gestazione:Cranio 0.47 0.17 2.85 0.00 **

La significatività della variabile Cranio si è ridotta, così come l’interazione tra Gestazione e Lunghezza sembra non essere significativa.

Rimuoviamo l’interazione tra Gestazione e Lunghezza e otteniamo il seguente risultato:

Coefficienti del modello con Gestazione, Lunghezza, Cranio, SessoM e interazioni Gestazione×Lunghezza e Gestazione×Cranio
Variabile Stima Errore Std. t value p_value
(Intercept) -319.73 1107.57 -0.29 0.77
Lunghezza 10.45 0.30 34.72 0.00
Gestazione -138.28 29.55 -4.68 0.00
Cranio -9.31 3.48 -2.68 0.01
SessoM 73.31 11.17 6.56 0.00
Tipo.partoNat 27.82 12.04 2.31 0.02
Gestazione:Cranio 0.52 0.09 5.78 0.00

Ora, il modello mostra prestazioni superiori rispetto al precedente.

Infine, possiamo considerare l’aggiunta di effetti non lineari al modello, ad esempio il diagramma di dispersione sembra suggerire la presenza di un effetto logaritmico per le variabili Gestazione e Lunghezza.

Stime del modello con effetti non lineari R² = 0.74, R² aggiustato = 0.739
Termine Stima Errore Std. t_value p_value
(Intercept) 48328.82 8790.95 5.50 0.00
Gestazione -398.94 106.42 -3.75 0.00
Lunghezza 44.47 3.75 11.86 0.00
Cranio -1.02 5.83 -0.17 0.86
SessoM 72.67 10.98 6.62 0.00
log(Gestazione) 12833.53 2584.19 4.97 0.00
log(Lunghezza) -16475.13 1806.40 -9.12 0.00
Tipo.partoNat 26.99 11.83 2.28 0.02
Gestazione:Cranio 0.30 0.15 1.99 0.05

L’R² aggiustato è 0.739, leggermente migliore rispetto al modello precedente. Notiamo inoltre, che è possibile rimuovere il termine di interazione tra le variabili Gestazione e Cranio.

Stime del modello con effetti non lineari R² = 0.74, R² aggiustato = 0.739
Termine Stima Errore Std. t_value p_value
(Intercept) 59832.38 6631.37 9.02 0.00
Gestazione -217.41 54.97 -3.96 0.00
Lunghezza 47.35 3.46 13.68 0.00
Cranio 10.56 0.42 25.32 0.00
SessoM 73.37 10.98 6.68 0.00
log(Gestazione) 9748.24 2069.69 4.71 0.00
log(Lunghezza) -17869.95 1666.12 -10.73 0.00
Tipo.partoNat 27.08 11.83 2.29 0.02

Osserviamo adesso un miglioramento del modello rispetto al modello iniziale, e presenta anche un miglioramento rispetto al modello di riferimento selezionato in precedenza. Infatti, abbiamo ottenuto un R² aggiustato di 0.738, che è leggermente superiore all’R² aggiustato del modello precedente (inferiore a 0.73).

Confronto tra modelli: AIC e BIC
Modello AIC BIC
Modello non lineare (ridotto) 35066.15 35118.57
Modello completo 35172.09 35241.97

Sia i test AIC che BIC confermano che il modello ridotto è il più efficace.

2.5. Diagnostica dei residui.

Possiamo analizzare i residui del modello facendo riferimento al grafico seguente. È importante che i residui soddisfino le seguenti condizioni:

## 
##  studentized Breusch-Pagan test
## 
## data:  mod_nl
## BP = 77.126, df = 7, p-value = 5.302e-14
## 
##  Durbin-Watson test
## 
## data:  mod_nl
## DW = 1.9519, p-value = 0.1145
## alternative hypothesis: true autocorrelation is greater than 0
## 
##  Shapiro-Wilk normality test
## 
## data:  residui
## W = 0.9894, p-value = 1.191e-12



L’analisi dei residui nella figura suggerisce alcuni aspetti problematici del modello. In primo luogo, la mancata normalità dei residui indica che potrebbero esserci delle deviazioni sistematiche, che potrebbero rendere i risultati del modello meno affidabili per l’inferenza. L’eteroschedasticità – cioè la variabilità non costante dei residui – può portare a una sovrastima o sottostima degli intervalli di confidenza e dei test statistici. La mancanza di correlazione lineare tra i residui e i predittori suggerisce che il modello cattura in parte la relazione con i predittori, ma potrebbe non aver incluso altre variabili rilevanti. La presenza di outlier e punti di leverage indica che ci sono dati che esercitano un’influenza sproporzionata sul modello. Questo può distorcere i risultati, causando un bias nei parametri e potenzialmente compromettendo la validità del modello.

Questa situazione è confermata dal test di Shapiro-Wilk, che verifica la normalità dei residui e fornisce un p-value di 1.191e-12, decisamente inferiore a 0.05, il che ci porta a rifiutare l’ipotesi nulla di normalità. L’omoschedasticità dei residui può essere valutata attraverso il test di Breusch-Pagan, che restituisce un p-value di 5.302e-14, anch’esso decisamente inferiore a 0.05, portandoci quindi a rifiutare l’ipotesi nulla di omoschedasticità. Infine, verifichiamo l’indipendenza dei residui utilizzando il test di Durbin-Watson, il quale restituisce un p-value di 0.1145, superiore a 0.05, consentendoci di accettare l’ipotesi nulla di indipendenza.

Nella grafico seguente, possiamo vedere un’altra rappresentazione dei residui del modello che ci permette di osservare: la distribuzione dei residui, i punti di leverage, gli outlier e la distanza di Cook. In particolare, possiamo contare 93 punti di leverage e 5 outlier. A questo punto, rimuoviamo l’osservazione con la distanza di Cook più alta (osservazione 1551), con una distanza di Cook superiore a 1.

Rimuoviamo l’osservazione 1551 e otteniamo il seguente risultato:

Coefficiente del modello di regressione lineare senza outlier 1551
Termine Stima Errore Std. t_value p_value
(Intercept) 44345.71 7159.81 6.19 0.00
Gestazione -101.47 58.51 -1.73 0.08
Lunghezza 36.79 3.93 9.35 0.00
Cranio 10.23 0.42 24.46 0.00
SessoM 74.27 10.92 6.80 0.00
log(Gestazione) 5220.64 2213.67 2.36 0.02
log(Lunghezza) -12569.34 1912.52 -6.57 0.00
Tipo.partoNat 27.34 11.76 2.32 0.02
Coefficiente del modello di regressione lineare senza outlier 1551 (ottimizzato) R² = 0.743, R² aggiustato = 0.742
Termine Stima Errore Std. t_value p_value
(Intercept) 42643.41 7074.31 6.03 0.00
Gestazione 37.58 3.87 9.71 0.00
Lunghezza 30.86 2.87 10.75 0.00
Cranio 10.13 0.42 24.13 0.00
SessoM 71.91 10.90 6.59 0.00
log(Lunghezza) -9609.71 1377.23 -6.98 0.00
N.gravidanze 14.49 4.22 3.44 0.00
Tipo.partoNat 28.25 11.75 2.40 0.02
## 
##  studentized Breusch-Pagan test
## 
## data:  mod_nl
## BP = 12.905, df = 7, p-value = 0.07445
## 
##  Durbin-Watson test
## 
## data:  mod_nl
## DW = 1.95, p-value = 0.1057
## alternative hypothesis: true autocorrelation is greater than 0

Il modello con l’outlier rimosso non presenta sostanziali variazioni e i coefficienti sono quasi identici. L’unica differenza è che il coefficiente della variabile log(Gestazione) perde significatività, quindi possiamo rimuoverlo dal modello.

Inoltre, il test di Breusch-Pagan restituisce un p-value di 0.07445, che è superiore a 0.05, permettendoci di accettare l’ipotesi nulla di omoschedasticità, mentre nel modello precedente era stata rifiutata. Possiamo accettare anche l’ipotesi nulla di indipendenza, poiché il test di Durbin-Watson riporta un p-value di 0.1057, superiore a 0.05. Pertanto non vi è autocorrelazione dei residui.

Infine, abbiamo aggiunto al modello la variabile N.gravidanze, che rappresenta il numero di gravidanze della madre. L’ultimo modello è quello scelto.



2.6. Validità del modello per previsioni.

Analizzando le statistiche riportate nell’ultima tabella del punto 2.5, tutti i predittori risultano significativi (p < 0.05), e la maggior parte presenta valori p < 0.001, il che rende il modello robusto e consistente.

Il valore R² è 0.743, il che significa che circa il 74% della variabilità del peso dei neonati è spiegata dal modello, mentre il valore R² aggiustato di 0.742 suggerisce che il modello è generalizzabile. L’analisi dei residui ha mostrato che il modello non presenta problemi di omoschedasticità e di autocorrelazione, rendendo le previsioni più affidabili. Infine, il BIC è inferiore al modello iniziale, il che conferma l’efficacia del modello finale scelto.

In sintesi, il modello di regressione lineare sviluppato si è dimostrato un buon strumento per predire il peso dei neonati e fornire indicazioni utili per la comprensione delle relazioni tra le variabili. Tuttavia, è sempre importante considerare la validità del modello nei dati futuri e fare test con nuovi dati per confermare la sua stabilità.



2.7. Previsione del peso di una neonata.

Dal momento che il modello necessita anche dei parametri Lunghezza, Cranio e Tipo.parto, utilizzeremo i valori medi, ipotizzando per la prima previsione un parto naturale e per la seconda un parto cesareo.

I risultati dei test sono riportati nella tabella seguente:

Previsione del peso alla nascita con intervallo
N.gravidanze Gestazione Lunghezza Cranio Sesso Tipo.parto Peso_predetto Limite_inferiore Limite_superiore
3 39 494.8 340 F Ces 3243.6 2720.4 3766.8
3 39 494.8 340 F Nat 3271.8 2748.8 3794.8

Essendo la previsione in linea con le aspettative del modello, poiché il peso medio dei neonati (3300g) rientra nell’intervallo di confidenza, possiamo ritenerlo un buon risultato e concludere che il nostro modello è sufficientemente valido per prevedere il peso di un neonato, con una buona approssimazione e un intervallo di confidenza non eccessivamente ampio.



2.8. Visualizzazioni del Modello.

Impatto del numero di settimane di gestazione e del fumo sul peso previsto.

Per facilitare la visualizzazione, dobbiamo semplificare il modello cercando di non perdere informazioni essenziali. A tal fine, possiamo suddividere il dataset in base al sesso dei neonati e selezionare altre due variabili esplicative dai predittori, come settimane di gestazione e fumo. Questo approccio ci permette di creare uno scatterplot 3D, come illustrato nel grafico seguente.