Analisi Descrittiva

  1. Importazione e controllo del dataset. Verifica che il file neonati.csv sia stato letto correttamente.

  2. Descrizione del dataset e obiettivo dello studio. Panoramica della composizione del dataset.

  3. Analisi descrittiva. Calcolo di indici statistici e rappresentazioni grafiche delle variabili principali.

  4. Confronto della media con la Popolazione. Test statistici per verificare se le medie del peso e della lunghezza dei neonati sono significativamente uguali a quelle della popolazione.

  5. Differenze tra i sessi. Verifica di differenze significative tra maschi e femmine per le variabili rilevanti.

  6. Analisi della frequenza dei parti cesarei per ospedale. Verifica dell’ipotesi di differenze significative sulla frequenza di parti cesarei nei vari ospedali.

Analisi Multidimensionale

  1. Relazioni bivariate. Analisi delle relazioni tra coppie di variabili, con focus sulla variabile risposta.

  2. Modello di regressione lineare multipla. Costruzione e commento del modello di regressione lineare multipla.

  3. Ricerca del modello migliore. Selezione del miglior modello usando vari criteri di selezione (AIC, BIC, etc.).

  4. Considerazione di interazioni e effetti non nineari. Discussione sull’inclusione di interazioni o effetti non lineari nel modello.

  5. Diagnostica dei residui. Analisi dei residui per identificare valori influenti e valutazione della loro influenza sul modello.

  6. Validità del modello per previsioni. Valutazione delle capacità predittive del modello.

  7. Previsione del peso di una neonata. Migliore previsione per il peso di una neonata con madre alla terza gravidanza e alla 39ª settimana di gestazione.

  8. Visualizzazioni del Modello. Rappresentazione grafica del modello semplificandone l’interpretazione, se necessario.

_____________________________________________________________________________________________________

  1. Importa il dataset “neonati.csv” e controlla che sia stato letto correttamente dal software
Prime righe del dataset
Anni.madre N.gravidanze Fumatrici Gestazione Peso Lunghezza Cranio Tipo.parto Ospedale Sesso
26 0 0 42 3380 490 325 Nat osp3 M
21 2 0 39 3150 490 345 Nat osp1 F
34 3 0 38 3640 500 375 Nat osp2 M
28 1 0 41 3690 515 365 Nat osp2 M
20 0 0 38 3700 480 335 Nat osp3 F
32 0 0 40 3200 495 340 Nat osp2 F
Statistiche descrittive
Anni.madre N.gravidanze Fumatrici Gestazione Peso Lunghezza Cranio Tipo.parto Ospedale Sesso
Min. : 0.00 Min. : 0.0000 Min. :0.0000 Min. :25.00 Min. : 830 Min. :310.0 Min. :235 Length:2500 Length:2500 Length:2500
1st Qu.:25.00 1st Qu.: 0.0000 1st Qu.:0.0000 1st Qu.:38.00 1st Qu.:2990 1st Qu.:480.0 1st Qu.:330 Class :character Class :character Class :character
Median :28.00 Median : 1.0000 Median :0.0000 Median :39.00 Median :3300 Median :500.0 Median :340 Mode :character Mode :character Mode :character
Mean :28.16 Mean : 0.9812 Mean :0.0416 Mean :38.98 Mean :3284 Mean :494.7 Mean :340 NA NA NA
3rd Qu.:32.00 3rd Qu.: 1.0000 3rd Qu.:0.0000 3rd Qu.:40.00 3rd Qu.:3620 3rd Qu.:510.0 3rd Qu.:350 NA NA NA
Max. :46.00 Max. :12.0000 Max. :1.0000 Max. :43.00 Max. :4930 Max. :565.0 Max. :390 NA NA NA

Anni.madre (Età della madre): Nel dataset abbiamo due osservazioni con un’età riportata in modo errato, ossia pari ad 1 e a 0. Poiché gli altri dati sembrano corretti, possiamo assumere che si tratti di errori e sostituirli con il valore mediano dell’età.

_____________________________________________________________________________________________________

  1. Descrivi il dataset, la sua composizione, il tipo di variabili e l’obiettivo dello studio

Il dataset è composto da 2500 osservazioni e 10 variabili riguardanti neonati e le loro madri, in particolare:

  • Età della madre: variabile quantitativa discreta;

  • Numero di gravidanze sostenute: variabile quantitativa discreta;

  • Madre fumatrice (0 = NO, SI = 1): variabile qualitativa dicotomica, codificata in una dummy che assume il valore 0 oppure 1 in base alla condizione fumatrice NO o SI;

  • Numero di settimane di gestazione: variabile quantitativa discreta;

  • Peso in grammi del neonato: variabile quantitativa continua;

  • Lunghezza in millimetri del neonato: variabile quantitativa continua;

  • Diametro in millimetri del cranio del neonato: variabile quantitativa continua;

  • Tipo di parto: Naturale o Cesareo: variabile qualitativa nominale;

  • Ospedale (osp1, osp2, osp3): variabile qualitativa nominale;

  • Sesso del neonato (M o F): variabile qualitativa dicotomica.

Le variabili peso, lunghezza e cranio, sono tutte continue su scala di rapporti.

La tabella seguente riassume le principali statistiche descrittive delle variabili (indici di posizione, variabilità e forma).

Statistiche delle Variabili Numeriche
Variabile Minimo Q1 Q2 Q3 Massimo Media Dev.Std Coeff.Var. Asimmetria Curtosi Lunghezza Gini
Anni.madre 13 25 28 32 46 28.19 5.22 18.50 0.15 2.90 2500 0.97
Gestazione 25 38 39 40 43 38.98 1.87 4.79 -2.07 11.26 2500 0.85
N.gravidanze 0 0 1 1 12 0.98 1.28 130.51 2.51 13.99 2500 0.73
Cranio 235 330 340 350 390 340.03 16.43 4.83 -0.79 5.95 2500 NA
Lunghezza 310 480 500 510 565 494.69 26.32 5.32 -1.51 9.49 2500 NA
Peso 830 2990 3300 3620 4930 3284.08 525.04 15.99 -0.65 5.03 2500 NA
Statistiche delle Variabili Categoriche
Variabile Moda Gini Lunghezza
Fumatrici 0 0.16 2500
Ospedale osp2 1.00 2500
Sesso F 1.00 2500
Tipo.parto Nat 0.83 2500

1. Anni.madre (Età delle madri):

Misure di posizione e deviazione standard per Anni.madre
Min. 1st Qu. Median Mean 3rd Qu. Max. deviazione_std
13 25 28 28.19 32 46 5.22

L’età media delle madri è di circa 28 anni. I quartili indicano che il 25% delle madri ha un’etàinferiore a 25 anni, il 50% ha un’età inferiore a 28 anni e il 75% ha un’età inferiore a 32 anni. L’età più comune tra le madri è 30 anni. La deviazione standard indica che le età delle madri variano di circa 5.2 anni attorno alla media. Il coefficiente di variazione indica che la variabilità dell’età delle madri è del 18.51% rispetto alla media, suggerendo una discreta variabilità relativa. L’asimmetria positiva (0.151) indica che la distribuzione è leggermente asimmetrica verso destra, quindi ci sono alcune madri più anziane che spostano leggermente la coda della distribuzione verso età superiori rispetto alla media. La curtosi negativa (-0.106) indica che la distribuzione è platicurtica, ossia è leggermente più piatta rispetto a una normale, con code meno pronunciate. Questo significa che c’è meno concentrazione intorno alla media. L’indice di Gini mostra una eterogeneità molto alta, ciò significa che vi è quasi equidistribuzione nel dataset; in altre parole, le frequenze delle età delle madri nel dataset sono molto bilanciate.

2. N.gravidanze (Numero di gravidanze):
Misure di posizione e deviazione standard per N.gravidanze
Min. 1st Qu. Median Mean 3rd Qu. Max. deviazione_std
0 0 1 0.98 1 12 1.28

In media, il numero di gravidanze per madre è circa 1. La maggior parte delle madri ha 0 o 1 gravidanze ed il numero di gravidanze sostenute più comune è 0. La deviazione standard suggerisce che il numero di gravidanze può variare ampiamente rispetto alla media. La variabilitàdel numero di gravidanze è molto alta rispetto alla media, suggerendo una distribuzione molto dispersa. L’alta asimmetria positiva indica una distribuzione fortemente inclinata verso destra, con molte osservazioni concentrate a valori più bassi e una lunga coda a destra. Questo potrebbe essere dovuto al fatto che molte madri nel dataset hanno avuto solo poche gravidanze, mentre poche madri hanno avuto molte gravidanze. La presenza di code pesanti e una concentrazione di dati intorno ai valori estremi suggerisce che, sebbene la maggior parte delle madri abbia avuto poche gravidanze, ci sono alcune con un numero molto elevato di gravidanze che influenzano la distribuzione. L’indice di Gini mostra una eterogeneità discretamente alta, ciò significa che vi è una discreta equidistribuzione nel dataset; le frequenze del numero di gravidanze nel dataset sono discretamente bilanciate. Possiamo osservarne la distribuzione in Figura 1:

3. Gestazione (Durata della gestazione in settimane):

Misure di posizione e deviazione standard per la Gestazione
Min. 1st Qu. Median Mean 3rd Qu. Max. deviazione_std
25 38 39 38.98 40 43 1.87

La durata media della gestazione è di circa 39 settimane. Il 75% delle gestazioni dura 40 settimane o meno. La durata della gestazione più comune è di 40 settimane. La deviazione standard indica una variazione di circa 1.9 settimane attorno alla media. La variabilità della durata della gestazione è relativamente bassa rispetto alla media. L’alta asimmetria negativa indica una distribuzione inclinata verso destra con una coda più lunga verso sinistra, suggerendo che ci sono alcuni casi di gestazioni significativamente più brevi. La presenza di code pesanti indica che, sebbene la maggior parte delle gestazioni duri intorno a 40 settimane, ci sono alcune gestazioni con durate abbastanza più brevi o più lunghe che influenzano la distribuzione. L’indice di Gini mostra una eterogeneità alta, ciò significa che vi è quasi equidistribuzione nel dataset; in altre parole, le frequenze del numero di gravidanze nel dataset sono discretamente bilanciate.

4. Peso (Peso alla nascita in grammi):

Misure di posizione e deviazione standard per il Peso
Min. 1st Qu. Median Mean 3rd Qu. Max. deviazione_std
830 2990 3300 3284.08 3620 4930 525.04

Il peso medio alla nascita è di circa 3284 grammi. Il peso mediano dei neonati è 3300 g, mentre il 75% dei neonati pesa 3620 g o meno. La deviazione standard suggerisce che il peso alla nascita varia di circa 525 grammi rispetto alla media. La variabilità del peso alla nascita è moderata rispetto alla media. Possiamo osservare la distribuzione in Figura 2:

L’asimmetria negativa indica una distribuzione leggermente inclinata verso destra e con una coda più lunga verso sinistra, il che spiega la notevole differenza tra il valore dell’IQR (dove Q1 e Q3 sono rappresentate dalle linee rosse nel grafico, con un IQR di 630 grammi) e l’intervallo totale di 4100 grammi. Infine, la curtosi è leggermente superiore a 2, suggerendo una distribuzione più appiattita rispetto alla normale.

5. Lunghezza (Lunghezza alla nascita in mm):

Misure di posizione e deviazione standard per la Lunghezza
Min. 1st Qu. Median Mean 3rd Qu. Max. deviazione_std
310 480 500 494.69 510 565 26.32

La lunghezza media alla nascita è di circa 495 mm. Il 75% dei neonati ha una lunghezza di 510 mm o meno. La deviazione standard indica che la lunghezza alla nascita varia di circa 26 mm rispetto alla media. La variabilità della lunghezza alla nascita è bassa rispetto alla media. L’asimmetria negativa suggerisce una distribuzione inclinata verso destra, con una coda più lunga a sinistra. La curtosi elevata indica code pesanti e una distribuzione concentrata attorno ai valori estremi.

6. Cranio (Circonferenza cranica in mm):

Misure di posizione e deviazione standard per il diametro del Cranio
Min. 1st Qu. Median Mean 3rd Qu. Max. deviazione_std
235 330 340 340.03 350 390 16.43

La circonferenza media del cranio è di circa 340 mm. Il 75% dei neonati ha una circonferenza cranica di 350 mm o meno. La deviazione standard indica che la circonferenza cranica varia di circa 16 mm rispetto alla media. La variabilità della circonferenza cranica è bassa rispetto alla media. L’asimmetria negativa indica una distribuzione inclinata verso destra, con una coda più lunga a sinistra. La curtosi è sopra 2, suggerendo code più pesanti e una distribuzione concentrata attorno ai valori estremi.

7. Fumatrici (Fumatrici: NO = 0 ; SI = 1):

La moda è 0 ed indica che la maggior parte delle madri presenti nel campione non è fumatrice. L’indice di Gini basso indica una alta omogeneità, che suggerisce un comportamento omogeneo delle madri nel dataset rispetto al fumo; infatti, vi è una forte presenza di madri non fumatrici, che rende il campione quasi omogeneo, come mostrato anche nella figura seguente.

8. Tipo parto (Tipo di parto: Nat, Ces):

La moda indica che il tipo di parto più comune nel dataset è naturale (Nat). L’indice di Gini suggerisce alta eterogeneità, ciò è dovuto dalla numerosità di parti naturali e cesarei abbastanza bilanciata nel dataset.

9. Ospedale (Tipo di ospedale: osp1, osp2, osp3):

L’ospedale più comune tra i soggetti è l’ospedale 2 (osp2). L’indice di Gini mostra una altissima eterogeneità, ciò si spiega dalla numerosità di parti provenienti dai 3 ospedali molto bilanciata nel dataset.

10. Sesso (Sesso: M, F):

Il sesso più comune tra i soggetti è femminile (F). L’indice di Gini quasi pari a 1 indica una eterogeneità quasi perfetta, dovuta dalla numerosità praticamente uguale di neonati maschi (1244) e neonati femmine (1256) nel dataset. Il confronto della numerosità è mostrato nella figura seguente.

_____________________________________________________________________________________________________

Obiettivo dello studio

Lo scopo di questo studio è sviluppare un modello statistico in grado di prevedere il peso dei neonati alla nascita. Utilizzando il dataset “neonati.csv”, cerchiamo di costruire un modello che possa essere generalizzato all’intera popolazione. L’obiettivo principale è capire se sia possibile stimare il peso del neonato basandosi sulle altre variabili disponibili. In particolare, vogliamo esaminare l’influenza delle caratteristiche materne per determinare se abbiano un impatto significativo, come ad esempio il possibile effetto negativo del fumo. Inoltre, consideriamo la lunghezza e il diametro del cranio del neonato, che possono essere stimati tramite ecografie e potrebbero fungere da variabili di controllo.

_____________________________________________________________________________________________________

  1. Indaga le variabili effettuando una breve analisi descrittiva, utilizzando indici e strumenti grafici che conosci

Nella figura 6, possiamo osservare la distribuzione delle frequenze della variabile Anni.madre, divisa in classi di età.

Dal grafico si osserva che, nel dataset, oltre l’84% dei neonati hanno madri con un’età compresa tra 21 e 35 anni compiuti (2107 neonati su 2500).

La figura 7 invece, mostra l’andamento del numero di gravidanze per ciascuna classe di età.

Il grafico evidenzia che il numero di gravidanze aumenta più o meno progressivamente con l’età. Notiamo che nella fascia di età tra i 13 e i 15 anni compiuti, ci sono madri che hanno già affrontato la prima gravidanza, anche se queste rappresentano solamente 2 osservazioni (su un totale di 9 in questa fascia). Un dato più rilevante emerge osservando il range di età tra i 26 e i 30 anni compiuti. In questa fascia di età ricade oltre il 37% delle osservazioni totali del dataset ed è la prima fascia di età in cui risulta che la maggioranza delle madri ha sostenuto almeno una gravidanza. Infine, notiamo come nella fascia di età tra i 31 e i 35 anni compiuti, soltanto il 25% circa delle madri non ha sostenuto una prima gravidanza.

Adesso osserviamo il tipo di parto in relazione all’età e al fatto che la madre sia fumatrice o meno.

Dalla Figura 8, si nota che all’interno delle fasce di età più estreme per le madri non fumatrici (13-15 anni e 41-46 anni) vi è una percentuale quasi comparabile tra le 2 tipologie di parto. Anche qui però, si tratta di poche osservazioni, che infatti rappresentano, in totale, appena l’1.52% delle osservazioni disponibili nel dataset.

Osserviamo che fino alla fascia di età 26-30 anni, non sembra esserci alcun impatto significativo tra madri fumatrici e non fumatrici, nella tipologia di parto.

Pare inoltre che, con l’aumentare dell’età, la proporzione di parti cesarei rispetto ai parti naturali non sia molto variabile. Infine, la frequenza dei parti cesarei con l’aumentare dell’età sembra addirittura diminuire se la madre è fumatrice, un dato piuttosto controintuitivo. Questa conclusione è però affrettata perché questa statistica soffre fortemente dell’omogeneità del campione, coerentemente con il basso valore dell’indice di Gini. Infatti, questa informazione è influenzata dal fatto che il numero di madri fumatrici rappresenta solo una piccola percentuale rispetto a quello delle non fumatrici.

Nella Figura 9, possiamo invece osservare come varia la lunghezza dei neonati a seconda che il parto sia stato cesareo o naturale ed in relazione alle settimane di gravidanza.

È interessante notare che, indipendentemente dal numero di settimane di gestazione, nella maggior parte dei casi la lunghezza del feto nato con parto cesareo risulta essere maggiore o uguale rispetto alla lunghezza dei neonati nati con parto naturale. È lecito chiedersi se il parto cesareo sia stato indotto (ad es. dalle dimensioni del feto), ma purtroppo questa statistica non ci dà indicazioni sul motivo della scelta del tipo di parto.

Adesso esaminiamo come la circonferenza cranica varia in base al numero di gravidanze e alla fascia di età delle madri.

Dalla Figura 10 emerge che la fascia di età materna non ha un impatto rilevante sulla circonferenza cranica, mentre, come possiamo immaginare, le settimane di gestazione influenzano in maniera significativa la dimensione del cranio. A partire dall’8° mese (circa la 35° settimana), la circonferenza cranica tende a stabilizzarsi, avvicinandosi progressivamente al diametro del cranio.

_____________________________________________________________________________________________________

  1. Saggia l’ipotesi che la media del peso e della lunghezza di questo campione di neonati siano significativamente uguali a quelle della popolazione

Per verificare se la media del peso e la media della lunghezza dei neonati del campione selezionato rappresentano correttamente la popolazione, dobbiamo eseguire un test adatto al confronto delle medie.

Per eseguire il confronto, occorre conoscere i valori della popolazione, individuati come i seguenti: peso = 3300 grammi, lunghezza = 500 millimetri. Fonte

E’ opportuno verificare prima del test, se l’assunzione di normalità è rispettata o meno, anche se, come possiamo immaginare dalle analisi precedenti, le distribuzioni di Peso e Lunghezza non sembrano seguire una distribuzione normale.

A tal scopo, nella grafico seguente (Figura 11), sono riportati i Q-Q Plot delle due variabili.

Come ci aspettavamo, i Q-Q Plot delle due variabili mostrano una deviazione dalla normalità.

Per una maggiore precisione, effettuiamo anche test Shapiro-Wilk per la verifica di normalità. I risultati sono visibili nella seguente tabella:

Risultati del Test di Shapiro-Wilk
Variabile Statistiche W p.value
Peso 0.97 0
Lunghezza 0.91 0

Un valore di W vicino a 1 indica che la distribuzione dei dati è vicina a una distribuzione normale mentre un valore inferiore a 1 suggerisce una deviazione dalla normalità. Per entrambe le variabili quindi, c’è una certa deviazione dalla normalità. In particolare, i valori del p-value molto basso (entrambi inferiori a 2.2e-16) suggeriscono che possiamo rifiutare le ipotesi nulle di normalità e concludere che le distribuzioni del peso e della lunghezza dei neonati non seguono una distribuzione normale.

Anche se il test di Shapiro-Wilk per la normalità indica che dobbiamo rifiutare l’ipotesi nulla, suggerendo che le due distribuzioni non seguono una distribuzione normale, sono stati effettuati sia il test t di Student sia il test di Wilcoxon. Quest’ultimo, essendo un test non parametrico, non richiede che i dati seguano una distribuzione normale. Tuttavia, il test di Wilcoxon è un test non parametrico che analizza la posizione centrale dei dati attraverso le mediane, mentre la media è un parametro e presuppone la presenza di una distribuzione normale. I risultati dei test sono visibili nelle seguenti 2 tabelle, mentre in Figura 11 sono raffigurate le distribuzioni con le soglie di accettazione dei test t.

One Sample t-test - Peso
Ipotesi alternativa: La vera media del Peso non è uguale a 3300
Stima del campione: La media del Peso è uguale a 3284.081

One Sample t-test- Lunghezza
Ipotesi alternativa: La vera media della Lunghezza non è uguale a 500
Stima del campione: La media della Lunghezza è uguale a 494.692

Risultati dei Test di T
Variabile Statistica p_value limite_inferiore limite_superiore gradi_di_libertà
Peso -1.52 0.13 3263.49 3304.67 2499
Lunghezza -10.08 0.00 493.66 495.72 2499

Per la variabile Peso, poiché il p-value è superiore a 0.05, non abbiamo prove statisticamente significative per rifiutare l’ipotesi nulla. Questo indica che non possiamo affermare che la media del peso nel dataset sia diversa da 3300 grammi. La nostra media è infatti all’interno dell’intervallo di confidenza.

Per la variabile Lunghezza, il valore t è molto elevato (-10.084) e il p-value è estremamente basso (< 2.2e-16). Questo suggerisce che ci sono evidenze molto forti per rifiutare l’ipotesi nulla, indicando che la media della lunghezza dei neonati è significativamente diversa dalla media attesa (50 cm). Infatti, l’intervallo di confidenza per la lunghezza non include il valore atteso di 50 cm, confermando che vi è una differenza statisticamente significativa.

Wilcoxon signed rank test with continuity correction - Peso
Ipotesi alternativa: la vera posizione non è uguale a 3300.

Wilcoxon signed rank test with continuity correction - Lunghezza
Ipotesi alternativa: la vera posizione non è uguale a 500.

Decidiamo di effettuare un secondo test di Wilcoxon, utilizzando lo scarto interquartile, poiché la variabile Lunghezza mostra una bassa deviazione standard. Questo indica che i dati sono concentrati attorno alla media, rendendo possibile che anche una piccola differenza possa risultare statisticamente significativa.

Wilcoxon signed rank test with continuity correction - Lunghezza (IQR)
Ipotesi alternativa: la vera posizione non è uguale a 500.

Risultati dei Wilcoxon Test
Test Statistica p_value
Peso 1495594 0.96
Lunghezza 877236 0.00
Lunghezza IQR 165328 0.00

Anche il risultato del test Wilcoxon sulla variabile Peso mostra un p-value molto elevato (ben oltre 0.05), il che significa che non ci sono prove sufficienti per rifiutare l’ipotesi nulla. Questo suggerisce che la media del peso dei neonati non differisce significativamente da 3300 grammi.

Il risultato del test Wilcoxon sulla variabile Lunghezza presenta un p-value estremamente basso, indicando una forte evidenza per rifiutare l’ipotesi nulla, suggerendo quindi che la media della lunghezza dei neonati è significativamente diversa da 500 mm. Inoltre, anche con il test limitato all’intervallo interquartile sulla variabile Lunghezza, il p-value rimane molto basso e i risultati tra i due test Wilcoxon rimangono coerenti, rafforzando l’evidenza che la lunghezza media dei neonati non corrisponde a 500 mm.

In definitiva, quindi, con entrambi i test otteniamo lo stesso risultato: non rifiutiamo l’ipotesi nulla per la variabile Peso, mentre rifiutiamo l’ipotesi nulla per la variabile Lunghezza. Pertanto, rileviamo una differenza significativa nella lunghezza dei neonati rispetto alla media attesa, mentre per il peso non ci sono evidenze di una differenza significativa.

Nella Figura 12, possiamo vedere la regola di decisione per “Peso” e “Lunghezza”. Come detto in precedenza, nel caso del peso siamo all’interno della zona di accettazione, mentre nel caso della lunghezza siamo all’interno della zona di rifiuto.

Da notare che per la variabile “Lunghezza” i p-value risultano essere entrambi < 2.2e-16 e che quindi l’ipotesi nulla è stata ampiamente rifiutata, nonostante il valore medio della variabile campionaria differisca di circa 5 millimetri dal valore medio della popolazione. Come anticipato in precedenza, questo potrebbe essere causato dalla presenza di una bassa deviazione standard, la quale implica che i dati siano molto concentrati attorno alla media, il che può rendere anche una piccola differenza statisticamente significativa. Il risultato ottenuto con il test di Wilcoxon limitato alle misure all’interno dell’intervallo interquartile è sostanzialmente lo stesso, suggerendo che forse la bassa deviazione standard stia portando ad un campione distorto ma preciso.

_____________________________________________________________________________________________________

  1. Per le stesse variabili, o per altre per le quali ha senso farlo, verifica differenze significative tra i due sessi.

Nella Figura 13, possiamo osservare il diverso comportamento del peso in base al genere dei neonati. Il grafico mostra le gestazioni che rientrano nell’intervallo interquartile.

Dal grafico è possibile osservare come il 25% dei parti avviene entro la 38° settimana di gestazione, il 50% entro la 39° mentre il 75% entro la 40° settimana. Per le gestazioni che rientrano nell’intervallo interquartile, notiamo che il peso dei neonati di genere maschile risulta essere maggiore rispetto al peso dei neonati di genere femminile.

Infine, nella Figura 14, possiamo osservare le differenze tra i generi dei neonati per quanto riguarda il peso, la lunghezza, la circonferenza cranica ed il tipo di parto.

Dal grafico è possibile rendersi conto che effettivamente sono presenti delle differenze nelle caratteristiche fisiche tra i generi.

Come c’era da aspettarsi, vi è totale indipendenza tra il sesso del neonato ed il tipo di parto. Si notano diversità in termini di lunghezza e dimensione del cranio per genere, ma la differenza più significativa si osserva nel peso dei neonati.

Dalle tabelle contenenti le statistiche per la variabile Peso distinte per genere, notiamo che l’intervallo interquartile è molto simile, mentre l’intervallo totale è decisamente più ampio per le femmine, il che indica che per il genere femminile, i valori anomali si allontanano maggiormente dal valore medio. Ciò si riflette in una deviazione standard più alta per le femmine rispetto ai maschi. Anche il coefficiente di variazione risulta essere maggiore per le femmine (16.65%) rispetto ai maschi (14.49%).

Statistiche per Peso (maschi)
Min. 1st Qu. Median Mean 3rd Qu. Max. Dev.std IQR Skewness Kurtosis
980 3150 3430 3408.22 3720 4810 493.8 570 -0.76 5.27
Statistiche per Peso (femmine)
Min. 1st Qu. Median Mean 3rd Qu. Max. Dev.std IQR Skewness Kurtosis
830 2900 3160 3161.13 3470 4930 526.31 570 -0.58 5.3

Per quanto riguarda la lunghezza del neonato e la dimensione del cranio del neonato, le differenze tra i sessi confermano che i maschi presentano valori mediamente più alti, come evidenziato nelle tabelle seguenti. Inoltre, anche per le variabili Lunghezza e Cranio il coefficiente di variazione risulta essere maggiore per le femmine, pertanto vi è maggiore dispersione relativa rispetto alla media, mentre per i maschi notiamo una distribuzione un po’ più concentrata attorno alla media stessa.

Statistiche per Lunghezza (maschi)
Min. 1st Qu. Median Mean 3rd Qu. Max. Dev.std IQR Skewness Kurtosis
320 490 500 499.67 515 560 24.04 25 -1.37 9.07
Statistiche per Lunghezza (femmine)
Min. 1st Qu. Median Mean 3rd Qu. Max. Dev.std IQR Skewness Kurtosis
310 480 490 489.76 505 565 27.53 25 -1.6 9.72
Statistiche per Cranio (maschi)
Min. 1st Qu. Median Mean 3rd Qu. Max. Dev.std IQR Skewness Kurtosis
265 334 343 342.45 352 390 15.74 18 -0.66 5.16
Statistiche per Cranio (femmine)
Min. 1st Qu. Median Mean 3rd Qu. Max. Dev.std IQR Skewness Kurtosis
235 330 340 337.63 348.25 390 16.74 18.25 -0.88 6.56

_____________________________________________________________________________________________________

  1. Si vocifera che in alcuni ospedali si facciano più parti cesarei, sai verificare questa ipotesi?

Per verificare se la percentuale di parti cesarei sia uniforme tra i vari ospedali, dato che entrambe le variabili sono qualitative nominali, utilizziamo il test del chi-quadro per tabelle di contingenza, utile per valutare l’indipendenza tra due variabili categoriche.

L’ipotesi nulla (H0) è che le due variabili siano indipendenti;
L’ipotesi alternativa (H1) è che non lo siano.

Tabella di Contingenza
Ces Nat
osp1 242 574
osp2 254 595
osp3 232 603
Risultati del Chi-quadro Test
Statistica gradi_di_libertà p_value
X-squared 1.1 2 0.58

Pearson’s Chi-squared test
X-squared = 1.0972. Misura quanto i dati osservati (i parti cesarei e naturali nei diversi ospedali) si discostano dai dati attesi.

df = 2. I gradi di libertà sono 2, il che dipende dal numero di categorie delle due variabili. In questo caso, abbiamo 3 ospedali (quindi 3 - 1 = 2 gdl).

Il valore del chi-quadro calcolato è circa 1.1, mentre il valore critico del chi-quadro per 2 gradi di libertà, con un livello di significatività di 0.05, è pari a 5.99. Questo confronto è illustrato nel grafico seguente (Figura 15).

Il valore critico di 5.99 per il test del chi-quadro si riferisce alla soglia che determina se il risultato di un test è significativo o meno, con un livello di confidenza del 95% e due gradi di libertà. Il chi-quadro calcolato è 1.1, inferiore a 5.99, pertanto non si ha evidenza sufficiente per rifiutare l’ipotesi nulla, suggerendo che le variabili osservate non differiscono significativamente tra di loro. Il p-value infatti, è pari a 0.5778, superiore a 0.05 e questo significa che non ci sono prove sufficienti per respingere l’ipotesi nulla. L’ipotesi nulla afferma che le due variabili (ospedali e tipo di parto) risultano essere indipendenti, ossia che la percentuale di parti cesarei è la stessa per tutti gli ospedali. Quindi, non vi è una differenza statisticamente significativa nella distribuzione dei parti cesarei tra i diversi ospedali.

Un altro test da poter effettuare è il test di Wilcoxon a coppie, che è un test non parametrico per confronti multipli.

Wilcoxon test
L’ipotesi nulla (H0) è che i tre ospedali abbiano la stessa percentuale di cesarei;
L’ipotesi alternativa (H1) è che i tre ospedali non abbiano la stessa percentuale di cesarei.

Risultati del Test
osp1 osp2
osp2 1 NA
osp3 1 1

Il risultato del test di Wilcoxon a coppie (p-value pari a 1) indica che non ci sono differenze statisticamente significative nelle percentuali di parti cesarei tra i tre ospedali. E’ stato utilizzato l’aggiustamento di Holm per correggere i p-value a causa dei confronti multipli, e anche con questo aggiustamento, tutti i valori sono pari a 1. Questo rafforza ulteriormente l’idea che le percentuali di parti cesarei siano uniformi tra i tre ospedali e che quindi non vi sia un ospedale con percentuali significativamente diverse rispetto agli altri.

Analisi multidimensionale

  1. Ricordati qual è l’obiettivo dello studio e indaga le relazioni a due a due, soprattutto con la variabile risposta

Lo scopo di questo studio è sviluppare un modello statistico in grado di prevedere il peso dei neonati alla nascita. Iniziamo indagando la relazione tra il peso di un neonato e le altre variabili. Procediamo esaminando questa relazione sia numericamente (utilizzando la covarianza e il coefficiente di correlazione lineare), sia graficamente, mediante l’utilizzo degli scatterplot.

Covarianza e Correlazione con il Peso
Variabile Covarianza Correlazione
Gestazione 580.59 0.59
Lunghezza 10999.88 0.80
Cranio 6078.16 0.70
N. gravidanze 1.62 0.00

Nella Figura 16 possiamo osservare i grafici di dispersione della variabile Peso con le altre variabili. Il grafico di dispersione del peso e della lunghezza del neonato mostra una relazione lineare, con un coefficiente di correlazione lineare di 0.8. Un risultato simile si osserva nel grafico di dispersione del peso e del cranio del neonato, dove il coefficiente di correlazione lineare è 0.7. Il grafico di dispersione del peso e della durata della gravidanza mostra una relazione lineare, con un coefficiente di correlazione lineare di 0.59. Infine, il grafico di dispersione del peso e del numero di gravidanze mostra assenza di relazione lineare, con un coefficiente pressoché nullo.

Una matrice finale di grafici di dispersione per riassumere la correlazione tra “Peso” e le altre variabili del dataset può essere osservata nella Figura 17. Questo tipo di visualizzazione è utile per identificare rapidamente le relazioni tra più variabili, rilevare pattern o anomalie nei dati, valutare la forza e la direzione delle correlazioni tra le variabili.

Le analisi delle correlazioni e i grafici di dispersione evidenziano relazioni positive tra il “Peso” e altre variabili quantitative del dataset, come indicato dalle linee di tendenza rosse.

La matrice di correlazione fornisce valori numerici che descrivono la forza e la direzione delle relazioni tra variabili. Il grafico seguente mostra la relazione con ogni variabile, sia quantitativa sia qualitativa.

Come ci aspettavamo dalle analisi precedenti, le variabili maggiormente correlate al Peso sono Cranio e Lunghezza. Tuttavia, nessuna delle variabili presenta una relazione puramente lineare con la variabile Peso e ciò potrebbe costituire una difficoltà per l’accuratezza del modello di regressione lineare.

_____________________________________________________________________________________________________

  1. Crea un modello di regressione lineare multipla con tutte le variabili e commenta i coefficienti e il risultato ottenuto

Per prevedere il peso di un neonato, costruiamo un modello di regressione lineare multipla, inizialmente con tutte le variabili:

\[ Peso = \beta_0 + \beta_1 \cdot Gestazione + \beta_2 \cdot Lunghezza + \beta_3 \cdot Cranio + \beta_4 \cdot N.gravidanze \ + \beta_5 \cdot Fumatrici + \beta_6 \cdot Sesso + \beta_7 \cdot Ospedale \] \[ +\beta_8 \cdot Anni.madre +\beta_9 \cdot Tipo.parto + \epsilon \] dove \(\epsilon \sim N(0, \sigma^2)\).

Coefficiente del modello di regressione lineare
Estimate Std. Error t value p_value Significance
(Intercept) -6735.17 141.40 -47.63 0.00 ***
Gestazione 32.53 3.82 8.52 0.00 ***
Lunghezza 10.30 0.30 34.24 0.00 ***
Cranio 10.47 0.43 24.58 0.00 ***
N.gravidanze 11.41 4.67 2.45 0.01
Fumatrici -30.16 27.54 -1.10 0.27
SessoM 77.55 11.18 6.94 0.00 ***
Ospedaleosp2 -11.22 13.44 -0.84 0.40
Ospedaleosp3 28.10 13.50 2.08 0.04
Anni.madre 0.80 1.15 0.70 0.49
Tipo.partoNat 29.50 12.08 2.44 0.01

Significance: 0 (***) ; 0.001 (**) ; 0.01 (*) ; 0.05 (.) 0.1 ; () 1

Gestazione, Lunghezza, Cranio, N.gravidanze e Sesso sono tutte variabili statisticamente significative, con un p-value molto bassi, ed in particolare le variabili Lunghezza e Cranio, che hanno t-value elevati. Il parto naturale ha un coefficiente positivo (29.50) ed è significativo (p-value 0.0147), suggerendo che i neonati con parto naturale tendono ad avere un peso maggiore rispetto ai cesarei.

Il valore dell’R² aggiustato è circa 0.73, il che significa che il modello spiega il 72.78% della variabilità del peso di un neonato, un risultato sufficiente ma non del tutto soddisfacente. L’F-statistic è 669.14 con un p-value vicino a 0, indicando che il modello è statisticamente significativo.

_____________________________________________________________________________________________________

  1. Cerca il modello “migliore”, utilizzando tutti i criteri di selezione che conosci e spiegali.

Per provare a migliorare il modello, procediamo rimuovendo alcune variabili con il metodo di selezione “stepwise”, eliminando quindi, una alla volta, le variabili con p-value elevato.

  1. Rimuoviamo la variabile con il p-value più alto, ossia Anni.madre.
Estimate Std. Error t value p_value Significance
(Intercept) -6708.11 135.94 -49.35 0.00 ***
Gestazione 32.25 3.80 8.49 0.00 ***
Lunghezza 10.29 0.30 34.24 0.00 ***
Cranio 10.49 0.43 24.65 0.00 ***
N.gravidanze 12.61 4.34 2.91 0.00 **
Fumatrici -30.31 27.54 -1.10 0.27
SessoM 77.62 11.18 6.95 0.00 ***
Ospedaleosp2 -11.08 13.44 -0.82 0.41
Ospedaleosp3 28.37 13.49 2.10 0.04
Tipo.partoNat 29.54 12.08 2.44 0.01

Significance: 0 (***) ; 0.001 (**) ; 0.01 (*) ; 0.05 (.) 0.1 ; () 1

Otteniamo che l’R² aggiustato non varia, ossia pari a 0.7278.

  1. Rimuoviamo la variabile Ospedale.
Coefficiente del modello di regressione lineare senza Ospedale
Estimate Std. Error t value p_value Significance
(Intercept) -6708.07 135.98 -49.33 0.00 ***
Gestazione 32.54 3.80 8.56 0.00 ***
Lunghezza 10.27 0.30 34.13 0.00 ***
Cranio 10.50 0.43 24.65 0.00 ***
N.gravidanze 13.01 4.34 3.00 0.00 **
Fumatrici -31.76 27.57 -1.15 0.25
SessoM 78.11 11.19 6.98 0.00 ***
Tipo.partoNat 30.30 12.10 2.50 0.01

Significance: 0 (***) ; 0.001 (**) ; 0.01 (*) ; 0.05 (.) 0.1 ; () 1

Anche in questo caso, otteniamo che il R² aggiustato non varia, ossia pari a 0.727.

  1. Rimuoviamo la variabile Fumatrici.
Coefficiente del modello di regressione lineare senza Fumatrici
Estimate Std. Error t value p_value Significance
(Intercept) -6707.30 135.99 -49.32 0.00 ***
Gestazione 32.27 3.79 8.51 0.00 ***
Lunghezza 10.29 0.30 34.21 0.00 ***
Cranio 10.51 0.43 24.66 0.00 ***
N.gravidanze 12.76 4.34 2.94 0.00 **
SessoM 77.93 11.19 6.96 0.00 ***
Tipo.partoNat 30.03 12.10 2.48 0.01

Significance: 0 (***) ; 0.001 (**) ; 0.01 (*) ; 0.05 (.) 0.1 ; () 1

  1. Rimuoviamo la variabile N.gravidanze.
Coefficiente del modello di regressione lineare senza N.gravidanze
Estimate Std. Error t value p_value Significance
(Intercept) -6675.81 135.78 -49.17 0.00 ***
Gestazione 31.19 3.78 8.25 0.00 ***
Lunghezza 10.24 0.30 34.05 0.00 ***
Cranio 10.64 0.42 25.08 0.00 ***
SessoM 79.07 11.20 7.06 0.00 ***
Tipo.partoNat 29.11 12.11 2.40 0.02

Significance: 0 (***) ; 0.001 (**) ; 0.01 (*) ; 0.05 (.) 0.1 ; () 1

Anche in questo caso, otteniamo che il R² aggiustato non varia, ossia pari a 0.7262.

Potremmo provare rimuovendo anche la variabile Tipo.parto, ma decidiamo di non farlo, sia perché è una variabile significativa, sia perché è una variabile di controllo. Stesso dicasi per la variabile “Sesso”. Per verificare la validità del modello, utilizziamo la funzione anova(), che confronta i modelli e fornisce il p-value dell’F-statistic. Il p-value è 0.0015, il che indica che il modello è leggermente migliorato. Inoltre, possiamo controllare il BIC del modello ottimizzato, che è 35223, minore (e quindi migliore) rispetto al BIC del modello precedente, che era 35242. Possiamo verificare il VIF del modello ottimizzato nella tabella seguente:

VIF
Gestazione 1.65
Lunghezza 2.07
Cranio 1.61
Sesso 1.04
Tipo.parto 1.00

Essendo inferiore a 5 per ogni variabile, non sono presenti problemi di multicollinearità.

Infine, selezioniamo il modello che minimizza l’AIC, tenendo conto di quanti più parametri possibile senza sovra-adattare il modello ai dati. In questo caso, il risultato ottenuto considera le seguenti variabili: Gestazione, Lunghezza, Cranio, N.gravidanze, Sesso.

_____________________________________________________________________________________________________

  1. Si potrebbero considerare interazioni o effetti non lineari?

Consideriamo i termini di interazione tra le variabili Gestazione e Lunghezza, e tra Gestazione e Cranio.

Il risultato del modello è nella seguente tabella:

Coefficiente del modello di regressione lineare con interazione
Estimate Std. Error t value p_value Significance
(Intercept) -328.28 1108.05 -0.30 0.77
Gestazione -138.20 29.56 -4.68 0.00 ***
Lunghezza 9.17 3.76 2.44 0.01
Cranio -7.46 6.44 -1.16 0.25
SessoM 73.15 11.19 6.54 0.00 ***
Tipo.partoNat 27.81 12.04 2.31 0.02
Gestazione:Lunghezza 0.03 0.10 0.34 0.73
Gestazione:Cranio 0.47 0.17 2.85 0.00 **

Significance: 0 (***) ; 0.001 (**) ; 0.01 (*) ; 0.05 (.) 0.1 ; () 1

La significatività della variabile Cranio si è ridotta, così come l’interazione tra Gestazione e Lunghezza sembra non essere significativa.

Rimuoviamo l’interazione tra Gestazione e Lunghezza e otteniamo il seguente risultato:

Estimate Std. Error t value p_value Significance
(Intercept) -319.73 1107.57 -0.29 0.77
Gestazione -138.28 29.55 -4.68 0.00 ***
Lunghezza 10.45 0.30 34.72 0.00 ***
Cranio -9.31 3.48 -2.68 0.01 **
SessoM 73.31 11.17 6.56 0.00 ***
Tipo.partoNat 27.82 12.04 2.31 0.02
Gestazione:Cranio 0.52 0.09 5.78 0.00 ***

Significance: 0 (***) ; 0.001 (**) ; 0.01 (*) ; 0.05 (.) 0.1 ; () 1

Ora, il modello mostra prestazioni superiori rispetto al precedente. Possiamo valutare la validità del modello tramite ANOVA e BIC, che indicano un modesto miglioramento.

Infine, possiamo considerare l’aggiunta di effetti non lineari al modello, ad esempio un effetto logaritmico per le variabili Gestazione e Lunghezza, poiché il diagramma di dispersione sembra suggerire la presenza di tale effetto.

Il risultato del modello è nella seguente tabella:

Estimate Std. Error t value p_value Significance
(Intercept) 48328.82 8790.95 5.50 0.00 ***
Gestazione -398.94 106.42 -3.75 0.00 ***
Lunghezza 44.47 3.75 11.86 0.00 ***
Cranio -1.02 5.83 -0.17 0.86
SessoM 72.67 10.98 6.62 0.00 ***
Tipo.partoNat 26.99 11.83 2.28 0.02
log(Gestazione) 12833.53 2584.19 4.97 0.00 ***
log(Lunghezza) -16475.13 1806.40 -9.12 0.00 ***
Gestazione:Cranio 0.30 0.15 1.99 0.05

Significance: 0 (***) ; 0.001 (**) ; 0.01 (*) ; 0.05 (.) 0.1 ; () 1

L’R² aggiustato è 0.7391, leggermente migliore rispetto al modello precedente. Notiamo inoltre, che è possibile rimuovere il termine di interazione tra le variabili Gestazione e Cranio.

Rimuoviamo l’interazione tra Gestazione e Cranio e otteniamo il seguente risultato:

Estimate Std. Error t value p_value Significance
(Intercept) 59832.38 6631.37 9.02 0.00 ***
Gestazione -217.41 54.97 -3.96 0.00 ***
Lunghezza 47.35 3.46 13.68 0.00 ***
Cranio 10.56 0.42 25.32 0.00 ***
SessoM 73.37 10.98 6.68 0.00 ***
Tipo.partoNat 27.08 11.83 2.29 0.02
log(Gestazione) 9748.24 2069.69 4.71 0.00 ***
log(Lunghezza) -17869.95 1666.12 -10.73 0.00 ***

Significance: 0 (***) ; 0.001 (**) ; 0.01 (*) ; 0.05 (.) 0.1 ; () 1

Osserviamo adesso un miglioramento del modello rispetto al modello iniziale, e presenta anche un miglioramento rispetto al modello di riferimento selezionato in precedenza. Infatti, abbiamo ottenuto un R² aggiustato di 0.7388, che è leggermente superiore all’R² aggiustato del modello precedente (inferiore a 0.73).

Inoltre, il test ANOVA mostra un p-value molto vicino a 0, il che suggerisce anch’esso un miglioramento rispetto al modello precedente. Infine, il BIC del nuovo modello è 35119, che è inferiore al BIC del modello precedente (35222), indicando che questo modello è più efficace.

_____________________________________________________________________________________________________

  1. Effettua una diagnostica approfondita dei residui del modello e di potenziali valori influenti. Se ne trovi prova a verificare la loro effettiva influenza.

Possiamo analizzare i residui del modello facendo riferimento al grafico seguente. È importante che i residui soddisfino le seguenti condizioni:

  • Distribuiti normalmente:
    • I residui devono seguire una distribuzione normale;
  • Centrati attorno allo 0:
    • La media dei residui deve essere zero;
  • Indipendenti e identicamente distribuiti (i.i.d.) con varianza costante:
    • I residui devono essere indipendenti l’uno dall’altro, seguire la stessa distribuzione e avere una varianza costante (omoschedasticità) lungo il range dei valori predetti;
  • Presentano relazione lineare con i predittori:
    • I residui devono mostrare una relazione lineare con i predittori.

L’analisi dei residui nella figura suggerisce alcuni aspetti problematici del modello. In primo luogo, la mancata normalità dei residui indica che potrebbero esserci delle deviazioni sistematiche, che potrebbero rendere i risultati del modello meno affidabili per l’inferenza. L’eteroschedasticità – cioè la variabilità non costante dei residui – può portare a una sovrastima o sottostima degli intervalli di confidenza e dei test statistici. La mancanza di correlazione lineare tra i residui e i predittori suggerisce che il modello cattura in parte la relazione con i predittori, ma potrebbe non aver incluso altre variabili rilevanti. La presenza di outlier e punti di leverage indica che ci sono dati che esercitano un’influenza sproporzionata sul modello. Questo può distorcere i risultati, causando un bias nei parametri e potenzialmente compromettendo la validità del modello.

Questa situazione è confermata dal test di Shapiro-Wilk, che verifica la normalità dei residui e fornisce un p-value di 1.191e-12, decisamente inferiore a 0.05, il che ci porta a rifiutare l’ipotesi nulla di normalità. L’omoschedasticità dei residui può essere valutata attraverso il test di Breusch-Pagan, che restituisce un p-value di 5.302e-14, anch’esso decisamente inferiore a 0.05, portandoci quindi a rifiutare l’ipotesi nulla di omoschedasticità. Infine, verifichiamo l’indipendenza dei residui utilizzando il test di Durbin-Watson, il quale restituisce un p-value di 0.1145, superiore a 0.05, consentendoci di accettare l’ipotesi nulla di indipendenza.

Nella grafico seguente, possiamo vedere un’altra rappresentazione dei residui del modello che ci permette di osservare: la distribuzione dei residui, i punti di leverage, gli outlier e la distanza di Cook. In particolare, possiamo contare 93 punti di leverage e 5 outlier. A questo punto, rimuoviamo l’osservazione con la distanza di Cook più alta (osservazione 1551), con una distanza di Cook superiore a 1.

Rimuoviamo l’osservazione 1551 e otteniamo il seguente risultato:

Coefficiente del modello di regressione lineare senza outlier 1551
Estimate Std. Error t value p_value Significance
(Intercept) 44345.71 7159.81 6.19 0.00 ***
Gestazione -101.47 58.51 -1.73 0.08
Lunghezza 36.79 3.93 9.35 0.00 ***
Cranio 10.23 0.42 24.46 0.00 ***
SessoM 74.27 10.92 6.80 0.00 ***
Tipo.partoNat 27.34 11.76 2.32 0.02
log(Gestazione) 5220.64 2213.67 2.36 0.02
log(Lunghezza) -12569.34 1912.52 -6.57 0.00 ***
Coefficiente del modello di regressione lineare senza outlier 1551 (ottimizzato)
Estimate Std. Error t value p_value Significance
(Intercept) 42643.41 7074.31 6.03 0.00 ***
Gestazione 37.58 3.87 9.71 0.00 ***
Lunghezza 30.86 2.87 10.75 0.00 ***
Cranio 10.13 0.42 24.13 0.00 ***
SessoM 71.91 10.90 6.59 0.00 ***
Tipo.partoNat 28.25 11.75 2.40 0.02
log(Lunghezza) -9609.71 1377.23 -6.98 0.00 ***
N.gravidanze 14.49 4.22 3.44 0.00 ***

Significance: 0 (***) ; 0.001 (**) ; 0.01 (*) ; 0.05 (.) 0.1 ; () 1

Il modello con l’outlier rimosso non presenta sostanziali variazioni e i coefficienti sono quasi identici. L’unica differenza è che il coefficiente della variabile log(Gestazione) perde significatività, quindi possiamo rimuoverlo dal modello.

Inoltre, il test di Breusch-Pagan restituisce un p-value di 0.07445, che è superiore a 0.05, permettendoci di accettare l’ipotesi nulla di omoschedasticità, mentre nel modello precedente era stata rifiutata. Possiamo accettare anche l’ipotesi nulla di indipendenza, poiché il test di Durbin-Watson riporta un p-value di 0.1057, superiore a 0.05. Pertanto non vi è autocorrelazione dei residui.

Infine, abbiamo aggiunto al modello la variabile N.gravidanze, che rappresenta il numero di gravidanze della madre.

Il modello finale scelto ha come predittori quelli riportati nella tabella seguente:

Coefficiente del modello di regressione lineare senza outlier 1551 (ottimizzato)
Estimate Std. Error t value p_value Significance
(Intercept) 42643.41 7074.31 6.03 0.00 ***
Gestazione 37.58 3.87 9.71 0.00 ***
Lunghezza 30.86 2.87 10.75 0.00 ***
Cranio 10.13 0.42 24.13 0.00 ***
SessoM 71.91 10.90 6.59 0.00 ***
Tipo.partoNat 28.25 11.75 2.40 0.02
log(Lunghezza) -9609.71 1377.23 -6.98 0.00 ***
N.gravidanze 14.49 4.22 3.44 0.00 ***
Significance: 0 (***) ; 0.001 (**) ; 0.01 (*) ; 0.05 (.) 0.1 ; () 1

_____________________________________________________________________________________________________

  1. Quanto ti sembra buono il modello per fare previsioni?

Analizzando le statistiche riportate nell’ultima tabella del punto 5, tutti i predittori risultano significativi (p < 0.05), e la maggior parte presenta valori p < 0.001, il che rende il modello robusto e consistente.

Il valore R² è 0.741, il che significa che circa il 74% della variabilità del peso dei neonati è spiegata dal modello, mentre il valore R² aggiustato di 0.734 suggerisce che il modello è generalizzabile. L’analisi dei residui ha mostrato che il modello non presenta problemi di omoschedasticità e di autocorrelazione, rendendo le previsioni più affidabili. Infine, il BIC è inferiore al modello iniziale, il che conferma l’efficacia del modello finale scelto.

In sintesi, il modello di regressione lineare sviluppato si è dimostrato un buon strumento per predire il peso dei neonati e fornire indicazioni utili per la comprensione delle relazioni tra le variabili. Tuttavia, è sempre importante considerare la validità del modello nei dati futuri e fare test con nuovi dati per confermare la sua stabilità.

_____________________________________________________________________________________________________

  1. Fai la tua migliore previsione per il peso di una neonata, considerato che la madre è alla terza gravidanza e partorirà alla 39esima settimana. Niente misure dall’ecografia.

Dal momento che il modello necessita anche dei parametri Lunghezza, Cranio e Tipo.parto, utilizzeremo i valori medi, ipotizzando per la prima previsione un parto naturale e per la seconda un parto cesareo.

I risultati dei test sono riportati nella tabella seguente:

Tipo di Parto Stima Limite Inferiore Limite Superiore
Naturale 3192.29 2669.29 3715.29
Cesareo 3164.05 2640.85 3687.24

Essendo la previsione in linea con le aspettative del modello, poiché il peso medio dei neonati (3300g) rientra nell’intervallo di confidenza, possiamo ritenerlo un buon risultato e concludere che il nostro modello è sufficientemente valido per prevedere il peso di un neonato, con una buona approssimazione e un intervallo di confidenza non eccessivamente ampio.

_____________________________________________________________________________________________________

  1. Cerca di creare qualche rappresentazione grafica che aiuti a visualizzare il modello. Se è il caso, semplifica quest’ultimo.

Per facilitare la visualizzazione, dobbiamo semplificare il modello cercando di non perdere informazioni essenziali. A tal fine, possiamo suddividere il dataset in base al sesso dei neonati e selezionare altre due variabili esplicative dai predittori, come Lunghezza e Cranio. Questo approccio ci permette di creare uno scatterplot 3D, come illustrato nel grafico seguente.