Analisi Descrittiva
1.1. Importazione e controllo del dataset.
Verifica che il file neonati.csv sia stato letto
correttamente.
1.2. Descrizione e Panoramica della composizione del dataset.
1.3. Analisi descrittiva.
Calcolo di indici statistici e rappresentazioni grafiche delle variabili
principali.
1.4. Confronto della media con la Popolazione.
Test statistici per verificare se le medie del peso e della lunghezza
dei neonati sono significativamente uguali a quelle della
popolazione.
1.5. Differenze tra i sessi.
Verifica di differenze significative tra maschi e femmine per le misure
antropometriche.
1.6. Analisi della frequenza dei parti cesarei per ospedale.
Verifica dell’ipotesi di differenze significative sulla frequenza di
parti cesarei nei vari ospedali.
Analisi del modello di regressione
2.1. Analisi delle relazioni tra coppie di variabili.
2.2. Costruzione e commento del modello di regressione lineare multipla.
2.3. Selezione del miglior modello usando vari criteri di selezione (AIC, BIC, etc.).
2.4. Considerazione di interazioni ed effetti non lineari.
2.5. Diagnostica dei residui.
Analisi dei residui per identificare valori influenti e valutazione
della loro influenza sul modello.
2.6. Validità del modello per previsioni.
Valutazione delle capacità predittive del modello.
2.7. Previsione del peso di una neonata.
Migliore previsione per il peso di una neonata con madre alla terza
gravidanza e alla 39ª settimana di gestazione.
2.8. Visualizzazioni del Modello.
Rappresentazione grafica del modello semplificandone l’interpretazione,
se necessario.
Analisi descrittiva
1.1 Importa il dataset “neonati.csv” e controlla che sia stato letto correttamente dal software
| Anni.madre | N.gravidanze | Fumatrici | Gestazione | Peso | Lunghezza | Cranio | Tipo.parto | Ospedale | Sesso |
|---|---|---|---|---|---|---|---|---|---|
| 26 | 0 | 0 | 42 | 3380 | 490 | 325 | Nat | osp3 | M |
| 21 | 2 | 0 | 39 | 3150 | 490 | 345 | Nat | osp1 | F |
| 34 | 3 | 0 | 38 | 3640 | 500 | 375 | Nat | osp2 | M |
| 28 | 1 | 0 | 41 | 3690 | 515 | 365 | Nat | osp2 | M |
| 20 | 0 | 0 | 38 | 3700 | 480 | 335 | Nat | osp3 | F |
| 32 | 0 | 0 | 40 | 3200 | 495 | 340 | Nat | osp2 | F |
| Anni.madre | N.gravidanze | Fumatrici | Gestazione | Peso | Lunghezza | Cranio | Tipo.parto | Ospedale | Sesso | |
|---|---|---|---|---|---|---|---|---|---|---|
| Min. : 0.00 | Min. : 0.0000 | Min. :0.0000 | Min. :25.00 | Min. : 830 | Min. :310.0 | Min. :235 | Length:2500 | Length:2500 | Length:2500 | |
| 1st Qu.:25.00 | 1st Qu.: 0.0000 | 1st Qu.:0.0000 | 1st Qu.:38.00 | 1st Qu.:2990 | 1st Qu.:480.0 | 1st Qu.:330 | Class :character | Class :character | Class :character | |
| Median :28.00 | Median : 1.0000 | Median :0.0000 | Median :39.00 | Median :3300 | Median :500.0 | Median :340 | Mode :character | Mode :character | Mode :character | |
| Mean :28.16 | Mean : 0.9812 | Mean :0.0416 | Mean :38.98 | Mean :3284 | Mean :494.7 | Mean :340 | NA | NA | NA | |
| 3rd Qu.:32.00 | 3rd Qu.: 1.0000 | 3rd Qu.:0.0000 | 3rd Qu.:40.00 | 3rd Qu.:3620 | 3rd Qu.:510.0 | 3rd Qu.:350 | NA | NA | NA | |
| Max. :46.00 | Max. :12.0000 | Max. :1.0000 | Max. :43.00 | Max. :4930 | Max. :565.0 | Max. :390 | NA | NA | NA |
L’analisi delle età materne riportate nel dataset si evidenziano alcuni errori di digitazione che assegnano alle madri età di 0 e 1 anni, palesemente errati. Verranno sostituiti con la media dell’età.
1.2. Descrizione e Panoramica della composizione del dataset.
Il dataset è composto da 2500 osservazioni e 10 variabili
| Variabile | Tipo | Descrizione | Scala |
|---|---|---|---|
| Anni.madre | Quantitativa discreta | Età della madre (anni) | Rapporti |
| N.gravidanze | Quantitativa discreta | Numero gravidanze | Rapporti |
| Fumatrici | Qualitativa dicotomica | Madre fumatrice (0=NO,1=SI) | Nominale |
| Gestazione | Quantitativa discreta | Settimane gestazione | Rapporti |
| Peso | Quantitativa continua | Peso neonato (g) | Rapporti |
| Lunghezza | Quantitativa continua | Lunghezza neonato (mm) | Rapporti |
| Cranio | Quantitativa continua | Diametro cranio (mm) | Rapporti |
| Tipo.parto | Qualitativa nominale | Tipo parto | Nominale |
| Ospedale | Qualitativa nominale | Ospedale | Nominale |
| Sesso | Qualitativa dicotomica | Sesso neonato | Nominale |
La tabella seguente riassume le principali statistiche descrittive delle variabili (indici di posizione, variabilità e forma).
| Variabile | Minimo | Q1 | Q2 | Q3 | Massimo | Media | Dev.Std | Coeff.Var | Asimmetria | Curtosi | Lunghezza | Gini |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Anni.madre | 13 | 25 | 28 | 32 | 46 | 28.19 | 5.22 | 18.50 | 0.15 | -0.10 | 2500 | 0.97 |
| N.gravidanze | 0 | 0 | 1 | 1 | 12 | 0.98 | 1.28 | 130.51 | 2.51 | 10.99 | 2500 | 0.73 |
| Gestazione | 25 | 38 | 39 | 40 | 43 | 38.98 | 1.87 | 4.79 | -2.07 | 8.26 | 2500 | 0.85 |
| Peso | 830 | 2990 | 3300 | 3620 | 4930 | 3284.08 | 525.04 | 15.99 | -0.65 | 2.03 | 2500 | 1.00 |
| Lunghezza | 310 | 480 | 500 | 510 | 565 | 494.69 | 26.32 | 5.32 | -1.51 | 6.49 | 2500 | 0.94 |
| Cranio | 235 | 330 | 340 | 350 | 390 | 340.03 | 16.43 | 4.83 | -0.79 | 2.95 | 2500 | 0.97 |
| Variabile | Moda | Gini | Lunghezza |
|---|---|---|---|
| Fumatrici | 0 | 0.16 | 2500 |
| Ospedale | osp2 | 1.00 | 2500 |
| Sesso | F | 1.00 | 2500 |
| Tipo.parto | Nat | 0.83 | 2500 |
1.3. Analisi
descrittiva.
Calcolo di indici statistici e rappresentazioni grafiche delle variabili
principali.
1. Anni.madre
| Min. | 1st Qu. | Median | Mean | 3rd Qu. | Max. | deviazione_std |
|---|---|---|---|---|---|---|
| 13 | 25 | 28 | 28.19 | 32 | 46 | 5.22 |
Analisi descrttiva
L’età media delle madri è di circa 28 anni. I quartili indicano che il 25% delle madri ha un’etàinferiore a 25 anni, il 50% ha un’età inferiore a 28 anni e il 75% ha un’età inferiore a 32 anni. Le età delle madri variano di circa 5.2 anni attorno alla media. L’asimmetria positiva (0.15) indica che la distribuzione è leggermente asimmetrica verso destra, quindi ci sono alcune madri che spostano leggermente la coda della distribuzione verso età superiori rispetto alla media. La curtosi negativa (-0.10) indica che la distribuzione è platicurtica, ossia è leggermente più piatta rispetto a una normale, con code meno pronunciate. Questo significa che c’è meno concentrazione intorno alla media. L’indice di Gini mostra una eterogeneità molto alta, in altre parole, le frequenze delle età delle madri nel dataset sono molto bilanciate.
2. Gestazione
| Min. | 1st Qu. | Median | Mean | 3rd Qu. | Max. | deviazione_std |
|---|---|---|---|---|---|---|
| 25 | 38 | 39 | 38.98 | 40 | 43 | 1.87 |
La durata media della gestazione è di circa 39 settimane. Il 75% delle gestazioni dura 40 settimane o meno. La durata più frequente è 40 settimane- La deviazione standard indica una variazione di circa 1.9 settimane attorno alla media. L’alta asimmetria negativa indica una distribuzione con una coda più lunga verso sinistra, suggerendo che ci sono alcuni casi di gestazioni significativamente più brevi (25 settimane). Le frequenze del numero di gravidanze nel dataset sono discretamente bilanciate.
Il numero di settimane minimo è di 25. Sebbene sia un parto estremamente prematuro e raro è comunque ritenuto un dato plausibile. (https://www.msdmanuals.com/it/casa/problemi-di-salute-dei-bambini/problemi-generali-dei-neonati/neonati-pretermine-prematuri)
3. Numero gravidanze
| Min. | 1st Qu. | Median | Mean | 3rd Qu. | Max. | deviazione_std |
|---|---|---|---|---|---|---|
| 0 | 0 | 1 | 0.98 | 1 | 12 | 1.28 |
In media, il numero di gravidanze per madre è circa 1. La maggior parte delle madri ha avuto 0 gravidanze. La variabilità del numero di gravidanze è molto alta rispetto alla media, suggerendo una distribuzione molto dispersa. L’alta asimmetria positiva indica molte osservazioni concentrate a valori più bassi e una lunga coda a destra. Questo è dovuto al fatto che molte madri nel dataset hanno avuto solo poche gravidanze, mentre poche madri hanno avuto molte gravidanze. L’indice di Gini mostra una eterogeneità discretamente alta, ciò significa che vi è una discreta equidistribuzione nel dataset; le frequenze del numero di gravidanze nel dataset sono discretamente bilanciate.
4. Peso
| Min. | 1st Qu. | Median | Mean | 3rd Qu. | Max. | deviazione_std |
|---|---|---|---|---|---|---|
| 830 | 2990 | 3300 | 3284.08 | 3620 | 4930 | 525.04 |
Il peso medio alla nascita è di circa 3284 grammi. Il peso mediano dei neonati è 3300 g, mentre il 75% dei neonati pesa 3620 g o meno. La deviazione standard suggerisce che il peso alla nascita varia di circa 525 grammi rispetto alla media. L’asimmetria negativa indica una una coda più lunga verso sinistra, il che spiega la notevole differenza tra il valore dell’IQR e l’intervallo totale di 4100 grammi. Infine, la curtosi è leggermente superiore a 2, suggerendo una distribuzione più appiattita rispetto alla normale.
5. Lunghezza alla nascita
| Min. | 1st Qu. | Median | Mean | 3rd Qu. | Max. | deviazione_std |
|---|---|---|---|---|---|---|
| 310 | 480 | 500 | 494.69 | 510 | 565 | 26.32 |
La lunghezza media alla nascita è di circa 495 mm. Il 75% dei neonati ha una lunghezza fino a 510 mm. La deviazione standard indica che la lunghezza alla nascita varia di circa 26 mm rispetto alla media. L’asimmetria negativa suggerisce una coda più lunga a sinistra. La curtosi elevata indica una distribuzione appuntita con valori concentrati attorno alla media.
6. Diametro cranio (mm)
| Min. | 1st Qu. | Median | Mean | 3rd Qu. | Max. | deviazione_std |
|---|---|---|---|---|---|---|
| 235 | 330 | 340 | 340.03 | 350 | 390 | 16.43 |
La circonferenza media del cranio è di circa 340 mm. Il 75% dei neonati ha una circonferenza cranica di 350 mm o meno. La deviazione standard indica che la circonferenza cranica varia di circa 16 mm rispetto alla media. L’asimmetria negativa indica una distribuzione inclinata verso destra, con una coda più lunga a sinistra. La curtosi è sopra 2, suggerendo una distribuzione concentrata attorno al valore medio.
7.Madri Fumatrici (0: non fumatrici, 1: fumatrici
La moda è 0 ed indica che la maggior parte delle madri presenti nel campione non è fumatrice. L’indice di Gini basso indica una alta omogeneità, che suggerisce un comportamento omogeneo delle madri nel dataset rispetto al fumo; infatti, vi è una forte presenza di madri non fumatrici, che rende il campione quasi omogeneo, come mostrato anche nella figura precedente.
8. Tipo parto (Naturale: Nat o Cesareo: Ces)
La moda indica che il tipo di parto più comune nel dataset è naturale (Nat). L’indice di Gini suggerisce alta eterogeneità, ciò è dovuto dalla numerosità di parti naturali e cesarei abbastanza bilanciata nel dataset.
9. Ospedale (osp1, osp2, osp3)
L’ospedale più comune tra i soggetti è l’ospedale 2 (osp2). L’indice di Gini mostra una altissima eterogeneità, ciò si spiega dalla numerosità di parti provenienti dai 3 ospedali molto bilanciata nel dataset.
10. Sesso
Il sesso più comune tra i soggetti è femminile (F). L’indice di Gini quasi pari a 1 indica una eterogeneità quasi perfetta, dovuta dalla numerosità praticamente uguale di neonati maschi (1244) e neonati femmine (1256) nel dataset.
1.4 Verifichiamo l’ipotesi che le medie del peso e della lunghezza dei neonati sono significativamente uguali a quelle della popolazione.
I dati medi di peso e lunghezza sono stati resi da questa fonte:https://www.ospedalebambinogesu.it/da-0-a-30-giorni-come-si-presenta-e-come-cresce-80012/?utm_source=chatgpt.com
Peso medio alla nascita: 3300 g (intervallo da 2500g a
4500g)
Lunghezza media alla nascita: 500 mm (circa 505 per i maschi e
495 per le femmine
Per verificare questo dato assumo come ipotesi nulla l’uguaglianza tra le medie campionarie e quelle della popolazione.
I valori medi della popolazione sono riportati poco sopra
E’ opportuno verificare prima del test, se l’assunzione di normalità è rispettata o meno, anche se, come possiamo immaginare dalle precedenti analisi grafiche, le distribuzioni di Peso e Lunghezza non sembrano seguire una distribuzione normale.
Effettuo lo Shapiro-Wilk test per saggiare la normalità delle due
distribuzioni:
H0: le due distribuzioni sono normali
H1: le due distribuzioni sono diverse dalla distribuzione normale
| Variabile | W | p.value |
|---|---|---|
| Peso | 0.97 | 0 |
| Lunghezza | 0.91 | 0 |
Come si sospettava il p value nullo ci porta a rifiutare l’ipotesi nula di normalità delle distribuzioni. Nonostante questo risultato il numero di osservazioni del campione superiore 100 ci consente di effettuare il test T per saggiare l’uguaglianza tra medie campionarie e quelle della popolazione, garantendo comunque un risultato robusto.
| Variabile | Statistica | p_value | limite_inferiore | limite_superiore | gradi_di_libertà |
|---|---|---|---|---|---|
| Peso | -1.516002 | 0.1296452 | 3263.4897 | 3304.6719 | 2499 |
| Lunghezza | -10.084106 | 0.0000000 | 493.6598 | 495.7242 | 2499 |
Il p-value della variabile peso è superiore al livello di significatività di 0.05, questo ci è sufficiente per non rifiutare l’ipotesi nulla e quindi non possiamo affermare che la media del peso nel campione è statisticamente differente dalla media della popolazione.
Per la variabile Lunghezza, il p-value è estremamente basso (< 2.2e-16). In questo caso si rifiuta l’ipotesi nulla, e questo indica che la media della lunghezza dei neonati è significativamente diversa dalla media attesa (500 mm). Infatti, l’intervallo di confidenza per la lunghezza non include il valore atteso di 500 mm, confermando che vi è una differenza statisticamente significativa.
1.5. Differenze tra i
sessi.
Verifica di differenze significative tra maschi e femmine per le misure
antropometriche.
| Variabile | Mean M | Mean F | Diff (F-M) | statistic | df | p.value | conf.low | conf.high |
|---|---|---|---|---|---|---|---|---|
| Peso | 3408.215 | 3161.132 | -247.083 | -12.106 | 2490.716 | 0 | -287.105 | -207.061 |
| Lunghezza | 499.667 | 489.764 | -9.903 | -9.582 | 2459.302 | 0 | -11.929 | -7.876 |
| Cranio | 342.449 | 337.633 | -4.816 | -7.410 | 2491.389 | 0 | -6.090 | -3.541 |
I t-test confermano ciò che già si poteva sospettare dall’analisi grafica e cioè che dobbiamo rifiutare l’ipotesi nulla di uguaglianza delle misure antropometriche tra i sessi. In generale il sesso maschile ha misure significativamente maggiori rispetto al sesso femminile, almeno per quello che riguarda il peso, la lunghezza e le dimensioni del cranio.
| Sesso | Min. | 1st Qu. | Median | Mean | 3rd Qu. | Max. | Dev.std | IQR | Skewness | Kurtosis |
|---|---|---|---|---|---|---|---|---|---|---|
| Maschi | 980 | 3150 | 3430 | 3408.22 | 3720 | 4810 | 493.80 | 570 | -0.76 | 5.27 |
| Femmine | 830 | 2900 | 3160 | 3161.13 | 3470 | 4930 | 526.31 | 570 | -0.58 | 5.30 |
| Sesso | Min. | 1st Qu. | Median | Mean | 3rd Qu. | Max. | Dev.std | IQR | Skewness | Kurtosis |
|---|---|---|---|---|---|---|---|---|---|---|
| Maschi | 320 | 490 | 500 | 499.67 | 515 | 560 | 24.04 | 25 | -1.37 | 9.07 |
| Femmine | 310 | 480 | 490 | 489.76 | 505 | 565 | 27.53 | 25 | -1.60 | 9.72 |
| Sesso | Min. | 1st Qu. | Median | Mean | 3rd Qu. | Max. | Dev.std | IQR | Skewness | Kurtosis |
|---|---|---|---|---|---|---|---|---|---|---|
| Maschi | 265 | 334 | 343 | 342.45 | 352.00 | 390 | 15.74 | 18.00 | -0.66 | 5.16 |
| Femmine | 235 | 330 | 340 | 337.63 | 348.25 | 390 | 16.74 | 18.25 | -0.88 | 6.56 |
Le statistiche evidenziano che l’effetto degli outliers è più marcato nelle femmine che nei maschi, infatti il coefficiente di variazione è maggiore mentre l’IRQ è praticamente uguale per tutte le statstiche; questo ci indica una maggiore dispersione delle osservazioni rispetto alla media per le femmine.
1.6. Analisi della
frequenza dei parti cesarei per ospedale.
Verifica dell’ipotesi di differenze significative sulla frequenza di
parti cesarei nei vari ospedali.
Saggiamo ora l’ipotesi, che adotteremo come ipotesi nulla, di uguaglianza tra parti cesarei e naturali nei tre ospedali osservati.
H0: il numero parti cesarei e naturali è uguale nei tre
ospedali
H1: il numero parti cesarei e naturali non è uguale nei tre
ospedali
| Ospedale | TipoParto | Freq_Osservata |
|---|---|---|
| osp1 | Ces | 242 |
| osp2 | Ces | 254 |
| osp3 | Ces | 232 |
| osp1 | Nat | 574 |
| osp2 | Nat | 595 |
| osp3 | Nat | 603 |
| Statistica | df | p_value | Chi_quadro_Critico | |
|---|---|---|---|---|
| X-squared | 1.1 | 2 | 0.5778 | 5.99 |
Il chi-quadro calcolato è 1.1, inferiore a 5.99 (chi quadro critico per 2 gradi di libertà e livello di confidenza del 95%), pertanto non si ha evidenza sufficiente per rifiutare l’ipotesi nulla, suggerendo che le variabili osservate non differiscono significativamente tra di loro. Il p-value è pari a 0.5778, superiore a 0.05 e questo ci conferma che non ci sono prove sufficienti per respingere l’ipotesi nulla, quindi non vi è una differenza statisticamente significativa nella distribuzione dei parti cesarei tra i diversi ospedali.
Analisi del modello di regressione
2.1. Analisi delle relazioni tra coppie di variabili.
| Variabile | Covarianza | Correlazione |
|---|---|---|
| N.gravidanze | 1.618567 | 0.0024073 |
| Gestazione | 580.589019 | 0.5917687 |
| Lunghezza | 10999.880839 | 0.7960368 |
| Cranio | 6078.162105 | 0.7048015 |
Le analisi delle correlazioni e i grafici di dispersione evidenziano
relazioni positive tra il “Peso” e altre variabili quantitative del
dataset, come indicato dalle linee di tendenza rosse. Il grafico di
dispersione del peso e della lunghezza del neonato mostra una relazione
lineare confermata da un coefficiente di correlazione lineare di 0.8. Un
risultato simile si osserva nel grafico di dispersione del peso e del
cranio del neonato, dove il coefficiente di correlazione lineare è 0.7.
Il grafico di dispersione del peso e della durata della gravidanza
mostra una relazione lineare, con un coefficiente di correlazione
lineare di 0.59. Infine, il grafico di dispersione del peso e del numero
di gravidanze mostra assenza di relazione lineare, con un coefficiente
pressoché nullo.
La matrice di correlazione fornisce valori numerici che descrivono la forza e la direzione delle relazioni tra variabili. Come ci aspettavamo dalle analisi precedenti, le variabili maggiormente correlate al Peso sono Cranio e Lunghezza. Tuttavia, nessuna delle variabili presenta una relazione puramente lineare con la variabile Peso e ciò potrebbe costituire una difficoltà per l’accuratezza del modello di regressione lineare.
2.2. Costruzione e commento del modello di regressione lineare multipla.
\[ \text{Y} = \beta_0 + \beta_1 \cdot \text{X1} + \beta_2 \cdot \text{X2} + \beta_3 \cdot \text{X3} + \text{........} + \beta_n \cdot \text{Xn} + \epsilon \]
Costruire un modello di regressione significa implementare una
relazione come quella precedente, dove \(\beta_0\),\(\beta_1\)….\(\beta_n\) sono i coefficienti che indicano
quanto impatta la variabile che moltiplicano sulla variabile
target.
\(\epsilon\) è la parte erratica
formata dai residui
| Variabile | Stima | Errore Std. | t value | p value |
|---|---|---|---|---|
| (Intercept) | -6735.14 | 141.40 | -47.63 | 0.0000 |
| Gestazione | 32.53 | 3.82 | 8.52 | 0.0000 |
| Lunghezza | 10.30 | 0.30 | 34.24 | 0.0000 |
| Cranio | 10.47 | 0.43 | 24.58 | 0.0000 |
| N.gravidanze | 11.41 | 4.67 | 2.45 | 0.0145 |
| Fumatrici | -30.16 | 27.54 | -1.10 | 0.2736 |
| SessoM | 77.55 | 11.18 | 6.94 | 0.0000 |
| Ospedaleosp2 | -11.22 | 13.44 | -0.84 | 0.4038 |
| Ospedaleosp3 | 28.10 | 13.50 | 2.08 | 0.0375 |
| Anni.madre | 0.80 | 1.15 | 0.70 | 0.4867 |
| Tipo.partoNat | 29.50 | 12.08 | 2.44 | 0.0147 |
Gestazione, Lunghezza, Cranio, N.gravidanze e Sesso sono tutte variabili statisticamente significative, con un p-value molto bassi. Il parto naturale ha un p-value di 0.0147 rendendo anche questa variabile nominale significativa per il peso alla nascita dei neonati.
Il valore dell’R² aggiustato è circa 0.728, il che significa che il modello spiega il 72.8% della variabilità del peso di un neonato, un risultato buono ma migliorabile.
2.3. Selezione del miglior modello usando vari criteri di selezione (AIC, BIC, etc.).
Utilizzando il metodo “stepwise” procediamo all’eliminazione di una variabile alla volta e testiamo se la bontà del modello migliora. Inizaimo con la variabile “Anni madre” che ha un p value di 0,4867 ben oltre la significatività di 0,05
| Variabile | Stima | Errore Std. | t value | p value |
|---|---|---|---|---|
| (Intercept) | -6708.11 | 135.94 | -49.35 | 0.0000 |
| Gestazione | 32.25 | 3.80 | 8.49 | 0.0000 |
| Lunghezza | 10.29 | 0.30 | 34.24 | 0.0000 |
| Cranio | 10.49 | 0.43 | 24.65 | 0.0000 |
| N.gravidanze | 12.61 | 4.34 | 2.91 | 0.0037 |
| Fumatrici | -30.31 | 27.54 | -1.10 | 0.2711 |
| SessoM | 77.62 | 11.18 | 6.95 | 0.0000 |
| Ospedaleosp2 | -11.08 | 13.44 | -0.82 | 0.4096 |
| Ospedaleosp3 | 28.37 | 13.49 | 2.10 | 0.0356 |
| Tipo.partoNat | 29.54 | 12.08 | 2.44 | 0.0146 |
l’ \(R^2\) non varia nè in meglio e nè in peggio . Rimuoviamo l’“Ospedale”
| Variabile | Stima | Errore Std. | t value | p value |
|---|---|---|---|---|
| (Intercept) | -6708.07 | 135.98 | -49.33 | 0.0000 |
| Gestazione | 32.54 | 3.80 | 8.56 | 0.0000 |
| Lunghezza | 10.27 | 0.30 | 34.13 | 0.0000 |
| Cranio | 10.50 | 0.43 | 24.65 | 0.0000 |
| N.gravidanze | 13.01 | 4.34 | 3.00 | 0.0028 |
| Fumatrici | -31.76 | 27.57 | -1.15 | 0.2495 |
| SessoM | 78.11 | 11.19 | 6.98 | 0.0000 |
| Tipo.partoNat | 30.30 | 12.10 | 2.50 | 0.0123 |
Praticamente nessuna variazione nella bontà del modello, rimuoviamo “Fumatrici”
| Variabile | Stima | Errore Std. | t value | p value |
|---|---|---|---|---|
| (Intercept) | -6707.30 | 135.99 | -49.32 | 0.0000 |
| Gestazione | 32.27 | 3.79 | 8.51 | 0.0000 |
| Lunghezza | 10.29 | 0.30 | 34.21 | 0.0000 |
| Cranio | 10.51 | 0.43 | 24.66 | 0.0000 |
| N.gravidanze | 12.76 | 4.34 | 2.94 | 0.0033 |
| SessoM | 77.93 | 11.19 | 6.96 | 0.0000 |
| Tipo.partoNat | 30.03 | 12.10 | 2.48 | 0.0131 |
Rimuoviamo anche il numero di gravidanze
| Variabile | Stima | Errore Std. | t value | p value |
|---|---|---|---|---|
| (Intercept) | -6675.81 | 135.78 | -49.17 | 0.0000 |
| Gestazione | 31.19 | 3.78 | 8.25 | 0.0000 |
| Lunghezza | 10.24 | 0.30 | 34.05 | 0.0000 |
| Cranio | 10.64 | 0.42 | 25.08 | 0.0000 |
| SessoM | 79.07 | 11.20 | 7.06 | 0.0000 |
| Tipo.partoNat | 29.11 | 12.11 | 2.40 | 0.0163 |
Non si evidenziano ulteriori modifiche dell’ \(R^2\). Mantengo la variabile Tipo.parto poichè anche se risulta biologicamente non influente sul peso del neonato alla nascita è però moderatamente significativa. A conferma del modello calcolo il VIF e userò stepAIC per verificare che il modello ricavato sia effettivamente ottimizzato.
| Variabile | Stima | Errore Std. | t value | p value |
|---|---|---|---|---|
| (Intercept) | -6675.81 | 135.78 | -49.17 | 0.0000 |
| Gestazione | 31.19 | 3.78 | 8.25 | 0.0000 |
| Lunghezza | 10.24 | 0.30 | 34.05 | 0.0000 |
| Cranio | 10.64 | 0.42 | 25.08 | 0.0000 |
| SessoM | 79.07 | 11.20 | 7.06 | 0.0000 |
| Tipo.partoNat | 29.11 | 12.11 | 2.40 | 0.0163 |
A conferma del modello calcolo il VIF e userò stepAIC per verificare che il modello ricavato sia effettivamente ottimizzato.
| Variabile | VIF |
|---|---|
| Gestazione | 1.654 |
| Lunghezza | 2.075 |
| Cranio | 1.608 |
| Sesso | 1.039 |
| Tipo.parto | 1.003 |
tutti i valori sono inferiori a 5, quindi non sono presenti problemi di multicollinearità
Ora userò stepAIC sul modello completo (con tutte le variabili) per verificare che effettivamente il modello che abbiamo scelto sia quello migliore
| Variabile | Stima | Errore Std. | t value | p value |
|---|---|---|---|---|
| (Intercept) | -6675.81 | 135.78 | -49.17 | 0.0000 |
| Gestazione | 31.19 | 3.78 | 8.25 | 0.0000 |
| Lunghezza | 10.24 | 0.30 | 34.05 | 0.0000 |
| Cranio | 10.64 | 0.42 | 25.08 | 0.0000 |
| SessoM | 79.07 | 11.20 | 7.06 | 0.0000 |
| Tipo.partoNat | 29.11 | 12.11 | 2.40 | 0.0163 |
StepAIC conferma la scelta delle variabili operate in precedenza.
2.4. Considerazione di interazioni ed effetti non lineari.
Consideriamo i termini di interazione tra le variabili Gestazione e Lunghezza, e tra Gestazione e Cranio.
Il risultato del modello è nella seguente tabella:
| Variabile | Stima | Errore Std. | t value | p value | Significatività |
|---|---|---|---|---|---|
| (Intercept) | -328.28 | 1108.05 | -0.30 | 0.77 | |
| Gestazione | -138.20 | 29.56 | -4.68 | 0.00 | *** |
| Lunghezza | 9.17 | 3.76 | 2.44 | 0.01 | * |
| Cranio | -7.46 | 6.44 | -1.16 | 0.25 | |
| SessoM | 73.15 | 11.19 | 6.54 | 0.00 | *** |
| Tipo.partoNat | 27.81 | 12.04 | 2.31 | 0.02 | * |
| Gestazione:Lunghezza | 0.03 | 0.10 | 0.34 | 0.73 | |
| Gestazione:Cranio | 0.47 | 0.17 | 2.85 | 0.00 | ** |
La significatività della variabile Cranio si è ridotta, così come l’interazione tra Gestazione e Lunghezza sembra non essere significativa.
Rimuoviamo l’interazione tra Gestazione e Lunghezza e otteniamo il seguente risultato:
| Variabile | Stima | Errore Std. | t value | p_value |
|---|---|---|---|---|
| (Intercept) | -319.73 | 1107.57 | -0.29 | 0.77 |
| Lunghezza | 10.45 | 0.30 | 34.72 | 0.00 |
| Gestazione | -138.28 | 29.55 | -4.68 | 0.00 |
| Cranio | -9.31 | 3.48 | -2.68 | 0.01 |
| SessoM | 73.31 | 11.17 | 6.56 | 0.00 |
| Tipo.partoNat | 27.82 | 12.04 | 2.31 | 0.02 |
| Gestazione:Cranio | 0.52 | 0.09 | 5.78 | 0.00 |
Ora, il modello mostra prestazioni superiori rispetto al precedente.
Infine, possiamo considerare l’aggiunta di effetti non lineari al modello, ad esempio il diagramma di dispersione sembra suggerire la presenza di un effetto logaritmico per le variabili Gestazione e Lunghezza.
| Termine | Stima | Errore Std. | t_value | p_value |
|---|---|---|---|---|
| (Intercept) | 48328.82 | 8790.95 | 5.50 | 0.00 |
| Gestazione | -398.94 | 106.42 | -3.75 | 0.00 |
| Lunghezza | 44.47 | 3.75 | 11.86 | 0.00 |
| Cranio | -1.02 | 5.83 | -0.17 | 0.86 |
| SessoM | 72.67 | 10.98 | 6.62 | 0.00 |
| log(Gestazione) | 12833.53 | 2584.19 | 4.97 | 0.00 |
| log(Lunghezza) | -16475.13 | 1806.40 | -9.12 | 0.00 |
| Tipo.partoNat | 26.99 | 11.83 | 2.28 | 0.02 |
| Gestazione:Cranio | 0.30 | 0.15 | 1.99 | 0.05 |
L’R² aggiustato è 0.739, leggermente migliore rispetto al modello precedente. Notiamo inoltre, che è possibile rimuovere il termine di interazione tra le variabili Gestazione e Cranio.
| Termine | Stima | Errore Std. | t_value | p_value |
|---|---|---|---|---|
| (Intercept) | 59832.38 | 6631.37 | 9.02 | 0.00 |
| Gestazione | -217.41 | 54.97 | -3.96 | 0.00 |
| Lunghezza | 47.35 | 3.46 | 13.68 | 0.00 |
| Cranio | 10.56 | 0.42 | 25.32 | 0.00 |
| SessoM | 73.37 | 10.98 | 6.68 | 0.00 |
| log(Gestazione) | 9748.24 | 2069.69 | 4.71 | 0.00 |
| log(Lunghezza) | -17869.95 | 1666.12 | -10.73 | 0.00 |
| Tipo.partoNat | 27.08 | 11.83 | 2.29 | 0.02 |
Osserviamo adesso un miglioramento del modello rispetto al modello iniziale, e presenta anche un miglioramento rispetto al modello di riferimento selezionato in precedenza. Infatti, abbiamo ottenuto un R² aggiustato di 0.738, che è leggermente superiore all’R² aggiustato del modello precedente (inferiore a 0.73).
| Modello | AIC | BIC |
|---|---|---|
| Modello non lineare (ridotto) | 35066.15 | 35118.57 |
| Modello completo | 35172.09 | 35241.97 |
Sia i test AIC che BIC confermano che il modello ridotto è il più
efficace.
2.5. Diagnostica dei
residui.
Possiamo analizzare i residui del modello facendo riferimento al grafico seguente. È importante che i residui soddisfino le seguenti condizioni:
##
## studentized Breusch-Pagan test
##
## data: mod_nl
## BP = 77.126, df = 7, p-value = 5.302e-14
##
## Durbin-Watson test
##
## data: mod_nl
## DW = 1.9519, p-value = 0.1145
## alternative hypothesis: true autocorrelation is greater than 0
##
## Shapiro-Wilk normality test
##
## data: residui
## W = 0.9894, p-value = 1.191e-12
L’analisi dei residui nella figura suggerisce alcuni aspetti
problematici del modello. In primo luogo, la mancata normalità dei
residui indica che potrebbero esserci delle deviazioni sistematiche, che
potrebbero rendere i risultati del modello meno affidabili per
l’inferenza. L’eteroschedasticità – cioè la variabilità non costante dei
residui – può portare a una sovrastima o sottostima degli intervalli di
confidenza e dei test statistici. La mancanza di correlazione lineare
tra i residui e i predittori suggerisce che il modello cattura in parte
la relazione con i predittori, ma potrebbe non aver incluso altre
variabili rilevanti. La presenza di outlier e punti di leverage indica
che ci sono dati che esercitano un’influenza sproporzionata sul modello.
Questo può distorcere i risultati, causando un bias nei parametri e
potenzialmente compromettendo la validità del modello.
Questa situazione è confermata dal test di Shapiro-Wilk, che verifica la normalità dei residui e fornisce un p-value di 1.191e-12, decisamente inferiore a 0.05, il che ci porta a rifiutare l’ipotesi nulla di normalità. L’omoschedasticità dei residui può essere valutata attraverso il test di Breusch-Pagan, che restituisce un p-value di 5.302e-14, anch’esso decisamente inferiore a 0.05, portandoci quindi a rifiutare l’ipotesi nulla di omoschedasticità. Infine, verifichiamo l’indipendenza dei residui utilizzando il test di Durbin-Watson, il quale restituisce un p-value di 0.1145, superiore a 0.05, consentendoci di accettare l’ipotesi nulla di indipendenza.
Nella grafico seguente, possiamo vedere un’altra rappresentazione dei residui del modello che ci permette di osservare: la distribuzione dei residui, i punti di leverage, gli outlier e la distanza di Cook. In particolare, possiamo contare 93 punti di leverage e 5 outlier. A questo punto, rimuoviamo l’osservazione con la distanza di Cook più alta (osservazione 1551), con una distanza di Cook superiore a 1.
Rimuoviamo l’osservazione 1551 e otteniamo il seguente risultato:
| Termine | Stima | Errore Std. | t_value | p_value |
|---|---|---|---|---|
| (Intercept) | 44345.71 | 7159.81 | 6.19 | 0.00 |
| Gestazione | -101.47 | 58.51 | -1.73 | 0.08 |
| Lunghezza | 36.79 | 3.93 | 9.35 | 0.00 |
| Cranio | 10.23 | 0.42 | 24.46 | 0.00 |
| SessoM | 74.27 | 10.92 | 6.80 | 0.00 |
| log(Gestazione) | 5220.64 | 2213.67 | 2.36 | 0.02 |
| log(Lunghezza) | -12569.34 | 1912.52 | -6.57 | 0.00 |
| Tipo.partoNat | 27.34 | 11.76 | 2.32 | 0.02 |
| Termine | Stima | Errore Std. | t_value | p_value |
|---|---|---|---|---|
| (Intercept) | 42643.41 | 7074.31 | 6.03 | 0.00 |
| Gestazione | 37.58 | 3.87 | 9.71 | 0.00 |
| Lunghezza | 30.86 | 2.87 | 10.75 | 0.00 |
| Cranio | 10.13 | 0.42 | 24.13 | 0.00 |
| SessoM | 71.91 | 10.90 | 6.59 | 0.00 |
| log(Lunghezza) | -9609.71 | 1377.23 | -6.98 | 0.00 |
| N.gravidanze | 14.49 | 4.22 | 3.44 | 0.00 |
| Tipo.partoNat | 28.25 | 11.75 | 2.40 | 0.02 |
##
## studentized Breusch-Pagan test
##
## data: mod_nl
## BP = 12.905, df = 7, p-value = 0.07445
##
## Durbin-Watson test
##
## data: mod_nl
## DW = 1.95, p-value = 0.1057
## alternative hypothesis: true autocorrelation is greater than 0
Il modello con l’outlier rimosso non presenta sostanziali variazioni e i coefficienti sono quasi identici. L’unica differenza è che il coefficiente della variabile log(Gestazione) perde significatività, quindi possiamo rimuoverlo dal modello.
Inoltre, il test di Breusch-Pagan restituisce un p-value di 0.07445, che è superiore a 0.05, permettendoci di accettare l’ipotesi nulla di omoschedasticità, mentre nel modello precedente era stata rifiutata. Possiamo accettare anche l’ipotesi nulla di indipendenza, poiché il test di Durbin-Watson riporta un p-value di 0.1057, superiore a 0.05. Pertanto non vi è autocorrelazione dei residui.
Infine, abbiamo aggiunto al modello la variabile N.gravidanze, che rappresenta il numero di gravidanze della madre. L’ultimo modello è quello scelto.
2.6. Validità
del modello per previsioni.
Analizzando le statistiche riportate nell’ultima tabella del punto 2.5, tutti i predittori risultano significativi (p < 0.05), e la maggior parte presenta valori p < 0.001, il che rende il modello robusto e consistente.
Il valore R² è 0.743, il che significa che circa il 74% della variabilità del peso dei neonati è spiegata dal modello, mentre il valore R² aggiustato di 0.742 suggerisce che il modello è generalizzabile. L’analisi dei residui ha mostrato che il modello non presenta problemi di omoschedasticità e di autocorrelazione, rendendo le previsioni più affidabili. Infine, il BIC è inferiore al modello iniziale, il che conferma l’efficacia del modello finale scelto.
In sintesi, il modello di regressione lineare sviluppato si è dimostrato un buon strumento per predire il peso dei neonati e fornire indicazioni utili per la comprensione delle relazioni tra le variabili. Tuttavia, è sempre importante considerare la validità del modello nei dati futuri e fare test con nuovi dati per confermare la sua stabilità.
2.7.
Previsione del peso di una neonata.
Dal momento che il modello necessita anche dei parametri Lunghezza, Cranio e Tipo.parto, utilizzeremo i valori medi, ipotizzando per la prima previsione un parto naturale e per la seconda un parto cesareo.
I risultati dei test sono riportati nella tabella seguente:
| N.gravidanze | Gestazione | Lunghezza | Cranio | Sesso | Tipo.parto | Peso_predetto | Limite_inferiore | Limite_superiore |
|---|---|---|---|---|---|---|---|---|
| 3 | 39 | 494.8 | 340 | F | Ces | 3243.6 | 2720.4 | 3766.8 |
| 3 | 39 | 494.8 | 340 | F | Nat | 3271.8 | 2748.8 | 3794.8 |
Essendo la previsione in linea con le aspettative del modello, poiché il peso medio dei neonati (3300g) rientra nell’intervallo di confidenza, possiamo ritenerlo un buon risultato e concludere che il nostro modello è sufficientemente valido per prevedere il peso di un neonato, con una buona approssimazione e un intervallo di confidenza non eccessivamente ampio.
2.8.
Visualizzazioni del Modello.
Impatto del numero di
settimane di gestazione e del fumo sul peso previsto.
Per facilitare la visualizzazione, dobbiamo semplificare il modello
cercando di non perdere informazioni essenziali. A tal fine, possiamo
suddividere il dataset in base al sesso dei neonati e selezionare altre
due variabili esplicative dai predittori, come settimane di gestazione e
fumo. Questo approccio ci permette di creare uno scatterplot 3D, come
illustrato nel grafico seguente.