Importazione e
controllo del dataset. Verifica che il file neonati.csv
sia stato letto correttamente.
Descrizione del dataset e obiettivo dello studio. Panoramica della composizione del dataset.
Analisi descrittiva. Calcolo di indici statistici e rappresentazioni grafiche delle variabili principali.
Confronto della media con la Popolazione. Test statistici per verificare se le medie del peso e della lunghezza dei neonati sono significativamente uguali a quelle della popolazione.
Differenze tra i sessi. Verifica di differenze significative tra maschi e femmine per le variabili rilevanti.
Analisi della frequenza dei parti cesarei per ospedale. Verifica dell’ipotesi di differenze significative sulla frequenza di parti cesarei nei vari ospedali.
Relazioni bivariate. Analisi delle relazioni tra coppie di variabili, con focus sulla variabile risposta.
Modello di regressione lineare multipla. Costruzione e commento del modello di regressione lineare multipla.
Ricerca del modello migliore. Selezione del miglior modello usando vari criteri di selezione (AIC, BIC, etc.).
Considerazione di interazioni e effetti non nineari. Discussione sull’inclusione di interazioni o effetti non lineari nel modello.
Diagnostica dei residui. Analisi dei residui per identificare valori influenti e valutazione della loro influenza sul modello.
Validità del modello per previsioni. Valutazione delle capacità predittive del modello.
Previsione del peso di una neonata. Migliore previsione per il peso di una neonata con madre alla terza gravidanza e alla 39ª settimana di gestazione.
Visualizzazioni del Modello. Rappresentazione grafica del modello semplificandone l’interpretazione, se necessario.
_____________________________________________________________________________________________________
- Importa il dataset “neonati.csv” e controlla che sia stato letto correttamente dal software
| Anni.madre | N.gravidanze | Fumatrici | Gestazione | Peso | Lunghezza | Cranio | Tipo.parto | Ospedale | Sesso |
|---|---|---|---|---|---|---|---|---|---|
| 26 | 0 | 0 | 42 | 3380 | 490 | 325 | Nat | osp3 | M |
| 21 | 2 | 0 | 39 | 3150 | 490 | 345 | Nat | osp1 | F |
| 34 | 3 | 0 | 38 | 3640 | 500 | 375 | Nat | osp2 | M |
| 28 | 1 | 0 | 41 | 3690 | 515 | 365 | Nat | osp2 | M |
| 20 | 0 | 0 | 38 | 3700 | 480 | 335 | Nat | osp3 | F |
| 32 | 0 | 0 | 40 | 3200 | 495 | 340 | Nat | osp2 | F |
| Anni.madre | N.gravidanze | Fumatrici | Gestazione | Peso | Lunghezza | Cranio | Tipo.parto | Ospedale | Sesso | |
|---|---|---|---|---|---|---|---|---|---|---|
| Min. : 0.00 | Min. : 0.0000 | Min. :0.0000 | Min. :25.00 | Min. : 830 | Min. :310.0 | Min. :235 | Length:2500 | Length:2500 | Length:2500 | |
| 1st Qu.:25.00 | 1st Qu.: 0.0000 | 1st Qu.:0.0000 | 1st Qu.:38.00 | 1st Qu.:2990 | 1st Qu.:480.0 | 1st Qu.:330 | Class :character | Class :character | Class :character | |
| Median :28.00 | Median : 1.0000 | Median :0.0000 | Median :39.00 | Median :3300 | Median :500.0 | Median :340 | Mode :character | Mode :character | Mode :character | |
| Mean :28.16 | Mean : 0.9812 | Mean :0.0416 | Mean :38.98 | Mean :3284 | Mean :494.7 | Mean :340 | NA | NA | NA | |
| 3rd Qu.:32.00 | 3rd Qu.: 1.0000 | 3rd Qu.:0.0000 | 3rd Qu.:40.00 | 3rd Qu.:3620 | 3rd Qu.:510.0 | 3rd Qu.:350 | NA | NA | NA | |
| Max. :46.00 | Max. :12.0000 | Max. :1.0000 | Max. :43.00 | Max. :4930 | Max. :565.0 | Max. :390 | NA | NA | NA |
Anni.madre (Età della madre): Nel dataset abbiamo due osservazioni con un’età riportata in modo errato, ossia pari ad 1 e a 0. Poiché gli altri dati sembrano corretti, possiamo assumere che si tratti di errori e sostituirli con il valore mediano dell’età.
_____________________________________________________________________________________________________
- Descrivi il dataset, la sua composizione, il tipo di variabili e l’obiettivo dello studio
Il dataset è composto da 2500 osservazioni e 10 variabili riguardanti neonati e le loro madri, in particolare:
Età della madre: variabile quantitativa discreta;
Numero di gravidanze sostenute: variabile quantitativa discreta;
Madre fumatrice (0 = NO, SI = 1): variabile qualitativa dicotomica, codificata in una dummy che assume il valore 0 oppure 1 in base alla condizione fumatrice NO o SI;
Numero di settimane di gestazione: variabile quantitativa discreta;
Peso in grammi del neonato: variabile quantitativa continua;
Lunghezza in millimetri del neonato: variabile quantitativa continua;
Diametro in millimetri del cranio del neonato: variabile quantitativa continua;
Tipo di parto: Naturale o Cesareo: variabile qualitativa nominale;
Ospedale (osp1, osp2, osp3): variabile qualitativa nominale;
Sesso del neonato (M o F): variabile qualitativa dicotomica.
Le variabili peso, lunghezza e cranio, sono tutte continue su scala di rapporti.
La tabella seguente riassume le principali statistiche descrittive delle variabili (indici di posizione, variabilità e forma).
| Variabile | Minimo | Q1 | Q2 | Q3 | Massimo | Media | Dev.Std | Coeff.Var. | Asimmetria | Curtosi | Lunghezza | Gini |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Anni.madre | 13 | 25 | 28 | 32 | 46 | 28.19 | 5.22 | 18.50 | 0.15 | 2.90 | 2500 | 0.97 |
| Gestazione | 25 | 38 | 39 | 40 | 43 | 38.98 | 1.87 | 4.79 | -2.07 | 11.26 | 2500 | 0.85 |
| N.gravidanze | 0 | 0 | 1 | 1 | 12 | 0.98 | 1.28 | 130.51 | 2.51 | 13.99 | 2500 | 0.73 |
| Cranio | 235 | 330 | 340 | 350 | 390 | 340.03 | 16.43 | 4.83 | -0.79 | 5.95 | 2500 | NA |
| Lunghezza | 310 | 480 | 500 | 510 | 565 | 494.69 | 26.32 | 5.32 | -1.51 | 9.49 | 2500 | NA |
| Peso | 830 | 2990 | 3300 | 3620 | 4930 | 3284.08 | 525.04 | 15.99 | -0.65 | 5.03 | 2500 | NA |
| Variabile | Moda | Gini | Lunghezza |
|---|---|---|---|
| Fumatrici | 0 | 0.16 | 2500 |
| Ospedale | osp2 | 1.00 | 2500 |
| Sesso | F | 1.00 | 2500 |
| Tipo.parto | Nat | 0.83 | 2500 |
1. Anni.madre (Età delle madri):
| Min. | 1st Qu. | Median | Mean | 3rd Qu. | Max. | deviazione_std |
|---|---|---|---|---|---|---|
| 13 | 25 | 28 | 28.19 | 32 | 46 | 5.22 |
L’età media delle madri è di circa 28 anni. I quartili indicano che il 25% delle madri ha un’etàinferiore a 25 anni, il 50% ha un’età inferiore a 28 anni e il 75% ha un’età inferiore a 32 anni. L’età più comune tra le madri è 30 anni. La deviazione standard indica che le età delle madri variano di circa 5.2 anni attorno alla media. Il coefficiente di variazione indica che la variabilità dell’età delle madri è del 18.51% rispetto alla media, suggerendo una discreta variabilità relativa. L’asimmetria positiva (0.151) indica che la distribuzione è leggermente asimmetrica verso destra, quindi ci sono alcune madri più anziane che spostano leggermente la coda della distribuzione verso età superiori rispetto alla media. La curtosi negativa (-0.106) indica che la distribuzione è platicurtica, ossia è leggermente più piatta rispetto a una normale, con code meno pronunciate. Questo significa che c’è meno concentrazione intorno alla media. L’indice di Gini mostra una eterogeneità molto alta, ciò significa che vi è quasi equidistribuzione nel dataset; in altre parole, le frequenze delle età delle madri nel dataset sono molto bilanciate.
2. N.gravidanze (Numero di gravidanze):| Min. | 1st Qu. | Median | Mean | 3rd Qu. | Max. | deviazione_std |
|---|---|---|---|---|---|---|
| 0 | 0 | 1 | 0.98 | 1 | 12 | 1.28 |
In media, il numero di gravidanze per madre è circa 1. La maggior parte delle madri ha 0 o 1 gravidanze ed il numero di gravidanze sostenute più comune è 0. La deviazione standard suggerisce che il numero di gravidanze può variare ampiamente rispetto alla media. La variabilitàdel numero di gravidanze è molto alta rispetto alla media, suggerendo una distribuzione molto dispersa. L’alta asimmetria positiva indica una distribuzione fortemente inclinata verso destra, con molte osservazioni concentrate a valori più bassi e una lunga coda a destra. Questo potrebbe essere dovuto al fatto che molte madri nel dataset hanno avuto solo poche gravidanze, mentre poche madri hanno avuto molte gravidanze. La presenza di code pesanti e una concentrazione di dati intorno ai valori estremi suggerisce che, sebbene la maggior parte delle madri abbia avuto poche gravidanze, ci sono alcune con un numero molto elevato di gravidanze che influenzano la distribuzione. L’indice di Gini mostra una eterogeneità discretamente alta, ciò significa che vi è una discreta equidistribuzione nel dataset; le frequenze del numero di gravidanze nel dataset sono discretamente bilanciate. Possiamo osservarne la distribuzione in Figura 1:
3. Gestazione (Durata della gestazione in settimane):
| Min. | 1st Qu. | Median | Mean | 3rd Qu. | Max. | deviazione_std |
|---|---|---|---|---|---|---|
| 25 | 38 | 39 | 38.98 | 40 | 43 | 1.87 |
La durata media della gestazione è di circa 39 settimane. Il 75% delle gestazioni dura 40 settimane o meno. La durata della gestazione più comune è di 40 settimane. La deviazione standard indica una variazione di circa 1.9 settimane attorno alla media. La variabilità della durata della gestazione è relativamente bassa rispetto alla media. L’alta asimmetria negativa indica una distribuzione inclinata verso destra con una coda più lunga verso sinistra, suggerendo che ci sono alcuni casi di gestazioni significativamente più brevi. La presenza di code pesanti indica che, sebbene la maggior parte delle gestazioni duri intorno a 40 settimane, ci sono alcune gestazioni con durate abbastanza più brevi o più lunghe che influenzano la distribuzione. L’indice di Gini mostra una eterogeneità alta, ciò significa che vi è quasi equidistribuzione nel dataset; in altre parole, le frequenze del numero di gravidanze nel dataset sono discretamente bilanciate.
4. Peso (Peso alla nascita in grammi):
| Min. | 1st Qu. | Median | Mean | 3rd Qu. | Max. | deviazione_std |
|---|---|---|---|---|---|---|
| 830 | 2990 | 3300 | 3284.08 | 3620 | 4930 | 525.04 |
Il peso medio alla nascita è di circa 3284 grammi. Il peso mediano dei neonati è 3300 g, mentre il 75% dei neonati pesa 3620 g o meno. La deviazione standard suggerisce che il peso alla nascita varia di circa 525 grammi rispetto alla media. La variabilità del peso alla nascita è moderata rispetto alla media. Possiamo osservare la distribuzione in Figura 2:
L’asimmetria negativa indica una distribuzione leggermente inclinata verso destra e con una coda più lunga verso sinistra, il che spiega la notevole differenza tra il valore dell’IQR (dove Q1 e Q3 sono rappresentate dalle linee rosse nel grafico, con un IQR di 630 grammi) e l’intervallo totale di 4100 grammi. Infine, la curtosi è leggermente superiore a 2, suggerendo una distribuzione più appiattita rispetto alla normale.
5. Lunghezza (Lunghezza alla nascita in mm):
| Min. | 1st Qu. | Median | Mean | 3rd Qu. | Max. | deviazione_std |
|---|---|---|---|---|---|---|
| 310 | 480 | 500 | 494.69 | 510 | 565 | 26.32 |
La lunghezza media alla nascita è di circa 495 mm. Il 75% dei neonati ha una lunghezza di 510 mm o meno. La deviazione standard indica che la lunghezza alla nascita varia di circa 26 mm rispetto alla media. La variabilità della lunghezza alla nascita è bassa rispetto alla media. L’asimmetria negativa suggerisce una distribuzione inclinata verso destra, con una coda più lunga a sinistra. La curtosi elevata indica code pesanti e una distribuzione concentrata attorno ai valori estremi.
6. Cranio (Circonferenza cranica in mm):
| Min. | 1st Qu. | Median | Mean | 3rd Qu. | Max. | deviazione_std |
|---|---|---|---|---|---|---|
| 235 | 330 | 340 | 340.03 | 350 | 390 | 16.43 |
La circonferenza media del cranio è di circa 340 mm. Il 75% dei neonati ha una circonferenza cranica di 350 mm o meno. La deviazione standard indica che la circonferenza cranica varia di circa 16 mm rispetto alla media. La variabilità della circonferenza cranica è bassa rispetto alla media. L’asimmetria negativa indica una distribuzione inclinata verso destra, con una coda più lunga a sinistra. La curtosi è sopra 2, suggerendo code più pesanti e una distribuzione concentrata attorno ai valori estremi.
7. Fumatrici (Fumatrici: NO = 0 ; SI = 1):
La moda è 0 ed indica che la maggior parte delle madri presenti nel campione non è fumatrice. L’indice di Gini basso indica una alta omogeneità, che suggerisce un comportamento omogeneo delle madri nel dataset rispetto al fumo; infatti, vi è una forte presenza di madri non fumatrici, che rende il campione quasi omogeneo, come mostrato anche nella figura seguente.
8. Tipo parto (Tipo di parto: Nat, Ces):
La moda indica che il tipo di parto più comune nel dataset è naturale (Nat). L’indice di Gini suggerisce alta eterogeneità, ciò è dovuto dalla numerosità di parti naturali e cesarei abbastanza bilanciata nel dataset.
9. Ospedale (Tipo di ospedale: osp1, osp2, osp3):
L’ospedale più comune tra i soggetti è l’ospedale 2 (osp2). L’indice di Gini mostra una altissima eterogeneità, ciò si spiega dalla numerosità di parti provenienti dai 3 ospedali molto bilanciata nel dataset.
10. Sesso (Sesso: M, F):
Il sesso più comune tra i soggetti è femminile (F). L’indice di Gini quasi pari a 1 indica una eterogeneità quasi perfetta, dovuta dalla numerosità praticamente uguale di neonati maschi (1244) e neonati femmine (1256) nel dataset. Il confronto della numerosità è mostrato nella figura seguente.
_____________________________________________________________________________________________________
Lo scopo di questo studio è sviluppare un modello statistico in grado di prevedere il peso dei neonati alla nascita. Utilizzando il dataset “neonati.csv”, cerchiamo di costruire un modello che possa essere generalizzato all’intera popolazione. L’obiettivo principale è capire se sia possibile stimare il peso del neonato basandosi sulle altre variabili disponibili. In particolare, vogliamo esaminare l’influenza delle caratteristiche materne per determinare se abbiano un impatto significativo, come ad esempio il possibile effetto negativo del fumo. Inoltre, consideriamo la lunghezza e il diametro del cranio del neonato, che possono essere stimati tramite ecografie e potrebbero fungere da variabili di controllo.
_____________________________________________________________________________________________________
- Indaga le variabili effettuando una breve analisi descrittiva, utilizzando indici e strumenti grafici che conosci
Nella figura 6, possiamo osservare la distribuzione delle frequenze della variabile Anni.madre, divisa in classi di età.
Dal grafico si osserva che, nel dataset, oltre l’84% dei neonati hanno madri con un’età compresa tra 21 e 35 anni compiuti (2107 neonati su 2500).
La figura 7 invece, mostra l’andamento del numero di gravidanze per ciascuna classe di età.
Il grafico evidenzia che il numero di gravidanze aumenta più o meno progressivamente con l’età. Notiamo che nella fascia di età tra i 13 e i 15 anni compiuti, ci sono madri che hanno già affrontato la prima gravidanza, anche se queste rappresentano solamente 2 osservazioni (su un totale di 9 in questa fascia). Un dato più rilevante emerge osservando il range di età tra i 26 e i 30 anni compiuti. In questa fascia di età ricade oltre il 37% delle osservazioni totali del dataset ed è la prima fascia di età in cui risulta che la maggioranza delle madri ha sostenuto almeno una gravidanza. Infine, notiamo come nella fascia di età tra i 31 e i 35 anni compiuti, soltanto il 25% circa delle madri non ha sostenuto una prima gravidanza.
Adesso osserviamo il tipo di parto in relazione all’età e al fatto che la madre sia fumatrice o meno.
Dalla Figura 8, si nota che all’interno delle fasce di età più estreme per le madri non fumatrici (13-15 anni e 41-46 anni) vi è una percentuale quasi comparabile tra le 2 tipologie di parto. Anche qui però, si tratta di poche osservazioni, che infatti rappresentano, in totale, appena l’1.52% delle osservazioni disponibili nel dataset.
Osserviamo che fino alla fascia di età 26-30 anni, non sembra esserci alcun impatto significativo tra madri fumatrici e non fumatrici, nella tipologia di parto.
Pare inoltre che, con l’aumentare dell’età, la proporzione di parti cesarei rispetto ai parti naturali non sia molto variabile. Infine, la frequenza dei parti cesarei con l’aumentare dell’età sembra addirittura diminuire se la madre è fumatrice, un dato piuttosto controintuitivo. Questa conclusione è però affrettata perché questa statistica soffre fortemente dell’omogeneità del campione, coerentemente con il basso valore dell’indice di Gini. Infatti, questa informazione è influenzata dal fatto che il numero di madri fumatrici rappresenta solo una piccola percentuale rispetto a quello delle non fumatrici.
Nella Figura 9, possiamo invece osservare come varia la lunghezza dei neonati a seconda che il parto sia stato cesareo o naturale ed in relazione alle settimane di gravidanza.
È interessante notare che, indipendentemente dal numero di settimane di gestazione, nella maggior parte dei casi la lunghezza del feto nato con parto cesareo risulta essere maggiore o uguale rispetto alla lunghezza dei neonati nati con parto naturale. È lecito chiedersi se il parto cesareo sia stato indotto (ad es. dalle dimensioni del feto), ma purtroppo questa statistica non ci dà indicazioni sul motivo della scelta del tipo di parto.
Adesso esaminiamo come la circonferenza cranica varia in base al numero di gravidanze e alla fascia di età delle madri.
Dalla Figura 10 emerge che la fascia di età materna non ha un impatto rilevante sulla circonferenza cranica, mentre, come possiamo immaginare, le settimane di gestazione influenzano in maniera significativa la dimensione del cranio. A partire dall’8° mese (circa la 35° settimana), la circonferenza cranica tende a stabilizzarsi, avvicinandosi progressivamente al diametro del cranio.
_____________________________________________________________________________________________________
- Saggia l’ipotesi che la media del peso e della lunghezza di questo campione di neonati siano significativamente uguali a quelle della popolazione
Per verificare se la media del peso e la media della lunghezza dei neonati del campione selezionato rappresentano correttamente la popolazione, dobbiamo eseguire un test adatto al confronto delle medie.
Per eseguire il confronto, occorre conoscere i valori della popolazione, individuati come i seguenti: peso = 3300 grammi, lunghezza = 500 millimetri. Fonte
E’ opportuno verificare prima del test, se l’assunzione di normalità è rispettata o meno, anche se, come possiamo immaginare dalle analisi precedenti, le distribuzioni di Peso e Lunghezza non sembrano seguire una distribuzione normale.
A tal scopo, nella grafico seguente (Figura 11), sono riportati i Q-Q Plot delle due variabili.
Come ci aspettavamo, i Q-Q Plot delle due variabili mostrano una deviazione dalla normalità.
Per una maggiore precisione, effettuiamo anche test Shapiro-Wilk per la verifica di normalità. I risultati sono visibili nella seguente tabella:
| Variabile | Statistiche W | p.value |
|---|---|---|
| Peso | 0.97 | 0 |
| Lunghezza | 0.91 | 0 |
Un valore di W vicino a 1 indica che la distribuzione dei dati è vicina a una distribuzione normale mentre un valore inferiore a 1 suggerisce una deviazione dalla normalità. Per entrambe le variabili quindi, c’è una certa deviazione dalla normalità. In particolare, i valori del p-value molto basso (entrambi inferiori a 2.2e-16) suggeriscono che possiamo rifiutare le ipotesi nulle di normalità e concludere che le distribuzioni del peso e della lunghezza dei neonati non seguono una distribuzione normale.
Anche se il test di Shapiro-Wilk per la normalità indica che dobbiamo rifiutare l’ipotesi nulla, suggerendo che le due distribuzioni non seguono una distribuzione normale, sono stati effettuati sia il test t di Student sia il test di Wilcoxon. Quest’ultimo, essendo un test non parametrico, non richiede che i dati seguano una distribuzione normale. Tuttavia, il test di Wilcoxon è un test non parametrico che analizza la posizione centrale dei dati attraverso le mediane, mentre la media è un parametro e presuppone la presenza di una distribuzione normale. I risultati dei test sono visibili nelle seguenti 2 tabelle, mentre in Figura 11 sono raffigurate le distribuzioni con le soglie di accettazione dei test t.
One Sample t-test - Peso
Ipotesi alternativa: La vera media del Peso non è uguale a 3300
Stima del campione: La media del Peso è uguale a 3284.081
One Sample t-test- Lunghezza
Ipotesi alternativa: La vera media della Lunghezza non è uguale a
500
Stima del campione: La media della Lunghezza è uguale a 494.692
| Variabile | Statistica | p_value | limite_inferiore | limite_superiore | gradi_di_libertà |
|---|---|---|---|---|---|
| Peso | -1.52 | 0.13 | 3263.49 | 3304.67 | 2499 |
| Lunghezza | -10.08 | 0.00 | 493.66 | 495.72 | 2499 |
Per la variabile Peso, poiché il p-value è superiore a 0.05, non abbiamo prove statisticamente significative per rifiutare l’ipotesi nulla. Questo indica che non possiamo affermare che la media del peso nel dataset sia diversa da 3300 grammi. La nostra media è infatti all’interno dell’intervallo di confidenza.
Per la variabile Lunghezza, il valore t è molto elevato (-10.084) e il p-value è estremamente basso (< 2.2e-16). Questo suggerisce che ci sono evidenze molto forti per rifiutare l’ipotesi nulla, indicando che la media della lunghezza dei neonati è significativamente diversa dalla media attesa (50 cm). Infatti, l’intervallo di confidenza per la lunghezza non include il valore atteso di 50 cm, confermando che vi è una differenza statisticamente significativa.
Wilcoxon signed rank test with continuity correction -
Peso
Ipotesi alternativa: la vera posizione non è uguale a 3300.
Wilcoxon signed rank test with continuity correction -
Lunghezza
Ipotesi alternativa: la vera posizione non è uguale a 500.
Decidiamo di effettuare un secondo test di Wilcoxon, utilizzando lo scarto interquartile, poiché la variabile Lunghezza mostra una bassa deviazione standard. Questo indica che i dati sono concentrati attorno alla media, rendendo possibile che anche una piccola differenza possa risultare statisticamente significativa.
Wilcoxon signed rank test with continuity correction - Lunghezza
(IQR)
Ipotesi alternativa: la vera posizione non è uguale a 500.
| Test | Statistica | p_value |
|---|---|---|
| Peso | 1495594 | 0.96 |
| Lunghezza | 877236 | 0.00 |
| Lunghezza IQR | 165328 | 0.00 |
Anche il risultato del test Wilcoxon sulla variabile Peso mostra un p-value molto elevato (ben oltre 0.05), il che significa che non ci sono prove sufficienti per rifiutare l’ipotesi nulla. Questo suggerisce che la media del peso dei neonati non differisce significativamente da 3300 grammi.
Il risultato del test Wilcoxon sulla variabile Lunghezza presenta un p-value estremamente basso, indicando una forte evidenza per rifiutare l’ipotesi nulla, suggerendo quindi che la media della lunghezza dei neonati è significativamente diversa da 500 mm. Inoltre, anche con il test limitato all’intervallo interquartile sulla variabile Lunghezza, il p-value rimane molto basso e i risultati tra i due test Wilcoxon rimangono coerenti, rafforzando l’evidenza che la lunghezza media dei neonati non corrisponde a 500 mm.
In definitiva, quindi, con entrambi i test otteniamo lo stesso risultato: non rifiutiamo l’ipotesi nulla per la variabile Peso, mentre rifiutiamo l’ipotesi nulla per la variabile Lunghezza. Pertanto, rileviamo una differenza significativa nella lunghezza dei neonati rispetto alla media attesa, mentre per il peso non ci sono evidenze di una differenza significativa.
Nella Figura 12, possiamo vedere la regola di decisione per “Peso” e “Lunghezza”. Come detto in precedenza, nel caso del peso siamo all’interno della zona di accettazione, mentre nel caso della lunghezza siamo all’interno della zona di rifiuto.
Da notare che per la variabile “Lunghezza” i p-value risultano essere entrambi < 2.2e-16 e che quindi l’ipotesi nulla è stata ampiamente rifiutata, nonostante il valore medio della variabile campionaria differisca di circa 5 millimetri dal valore medio della popolazione. Come anticipato in precedenza, questo potrebbe essere causato dalla presenza di una bassa deviazione standard, la quale implica che i dati siano molto concentrati attorno alla media, il che può rendere anche una piccola differenza statisticamente significativa. Il risultato ottenuto con il test di Wilcoxon limitato alle misure all’interno dell’intervallo interquartile è sostanzialmente lo stesso, suggerendo che forse la bassa deviazione standard stia portando ad un campione distorto ma preciso.
_____________________________________________________________________________________________________
- Per le stesse variabili, o per altre per le quali ha senso farlo, verifica differenze significative tra i due sessi.
Nella Figura 13, possiamo osservare il diverso comportamento del peso in base al genere dei neonati. Il grafico mostra le gestazioni che rientrano nell’intervallo interquartile.
Dal grafico è possibile osservare come il 25% dei parti avviene entro la 38° settimana di gestazione, il 50% entro la 39° mentre il 75% entro la 40° settimana. Per le gestazioni che rientrano nell’intervallo interquartile, notiamo che il peso dei neonati di genere maschile risulta essere maggiore rispetto al peso dei neonati di genere femminile.
Infine, nella Figura 14, possiamo osservare le differenze tra i generi dei neonati per quanto riguarda il peso, la lunghezza, la circonferenza cranica ed il tipo di parto.
Dal grafico è possibile rendersi conto che effettivamente sono presenti delle differenze nelle caratteristiche fisiche tra i generi.
Come c’era da aspettarsi, vi è totale indipendenza tra il sesso del neonato ed il tipo di parto. Si notano diversità in termini di lunghezza e dimensione del cranio per genere, ma la differenza più significativa si osserva nel peso dei neonati.
Dalle tabelle contenenti le statistiche per la variabile Peso distinte per genere, notiamo che l’intervallo interquartile è molto simile, mentre l’intervallo totale è decisamente più ampio per le femmine, il che indica che per il genere femminile, i valori anomali si allontanano maggiormente dal valore medio. Ciò si riflette in una deviazione standard più alta per le femmine rispetto ai maschi. Anche il coefficiente di variazione risulta essere maggiore per le femmine (16.65%) rispetto ai maschi (14.49%).
| Min. | 1st Qu. | Median | Mean | 3rd Qu. | Max. | Dev.std | IQR | Skewness | Kurtosis |
|---|---|---|---|---|---|---|---|---|---|
| 980 | 3150 | 3430 | 3408.22 | 3720 | 4810 | 493.8 | 570 | -0.76 | 5.27 |
| Min. | 1st Qu. | Median | Mean | 3rd Qu. | Max. | Dev.std | IQR | Skewness | Kurtosis |
|---|---|---|---|---|---|---|---|---|---|
| 830 | 2900 | 3160 | 3161.13 | 3470 | 4930 | 526.31 | 570 | -0.58 | 5.3 |
Per quanto riguarda la lunghezza del neonato e la dimensione del cranio del neonato, le differenze tra i sessi confermano che i maschi presentano valori mediamente più alti, come evidenziato nelle tabelle seguenti. Inoltre, anche per le variabili Lunghezza e Cranio il coefficiente di variazione risulta essere maggiore per le femmine, pertanto vi è maggiore dispersione relativa rispetto alla media, mentre per i maschi notiamo una distribuzione un po’ più concentrata attorno alla media stessa.
| Min. | 1st Qu. | Median | Mean | 3rd Qu. | Max. | Dev.std | IQR | Skewness | Kurtosis |
|---|---|---|---|---|---|---|---|---|---|
| 320 | 490 | 500 | 499.67 | 515 | 560 | 24.04 | 25 | -1.37 | 9.07 |
| Min. | 1st Qu. | Median | Mean | 3rd Qu. | Max. | Dev.std | IQR | Skewness | Kurtosis |
|---|---|---|---|---|---|---|---|---|---|
| 310 | 480 | 490 | 489.76 | 505 | 565 | 27.53 | 25 | -1.6 | 9.72 |
| Min. | 1st Qu. | Median | Mean | 3rd Qu. | Max. | Dev.std | IQR | Skewness | Kurtosis |
|---|---|---|---|---|---|---|---|---|---|
| 265 | 334 | 343 | 342.45 | 352 | 390 | 15.74 | 18 | -0.66 | 5.16 |
| Min. | 1st Qu. | Median | Mean | 3rd Qu. | Max. | Dev.std | IQR | Skewness | Kurtosis |
|---|---|---|---|---|---|---|---|---|---|
| 235 | 330 | 340 | 337.63 | 348.25 | 390 | 16.74 | 18.25 | -0.88 | 6.56 |
_____________________________________________________________________________________________________
- Si vocifera che in alcuni ospedali si facciano più parti cesarei, sai verificare questa ipotesi?
Per verificare se la percentuale di parti cesarei sia uniforme tra i vari ospedali, dato che entrambe le variabili sono qualitative nominali, utilizziamo il test del chi-quadro per tabelle di contingenza, utile per valutare l’indipendenza tra due variabili categoriche.
L’ipotesi nulla (H0) è che le due variabili siano indipendenti;
L’ipotesi alternativa (H1) è che non lo siano.
| Ces | Nat | |
|---|---|---|
| osp1 | 242 | 574 |
| osp2 | 254 | 595 |
| osp3 | 232 | 603 |
| Statistica | gradi_di_libertà | p_value | |
|---|---|---|---|
| X-squared | 1.1 | 2 | 0.58 |
Pearson’s Chi-squared test
X-squared = 1.0972. Misura quanto i dati osservati (i parti cesarei e
naturali nei diversi ospedali) si discostano dai dati attesi.
df = 2. I gradi di libertà sono 2, il che dipende dal numero di categorie delle due variabili. In questo caso, abbiamo 3 ospedali (quindi 3 - 1 = 2 gdl).
Il valore del chi-quadro calcolato è circa 1.1, mentre il valore critico del chi-quadro per 2 gradi di libertà, con un livello di significatività di 0.05, è pari a 5.99. Questo confronto è illustrato nel grafico seguente (Figura 15).
Il valore critico di 5.99 per il test del chi-quadro si riferisce alla soglia che determina se il risultato di un test è significativo o meno, con un livello di confidenza del 95% e due gradi di libertà. Il chi-quadro calcolato è 1.1, inferiore a 5.99, pertanto non si ha evidenza sufficiente per rifiutare l’ipotesi nulla, suggerendo che le variabili osservate non differiscono significativamente tra di loro. Il p-value infatti, è pari a 0.5778, superiore a 0.05 e questo significa che non ci sono prove sufficienti per respingere l’ipotesi nulla. L’ipotesi nulla afferma che le due variabili (ospedali e tipo di parto) risultano essere indipendenti, ossia che la percentuale di parti cesarei è la stessa per tutti gli ospedali. Quindi, non vi è una differenza statisticamente significativa nella distribuzione dei parti cesarei tra i diversi ospedali.
Un altro test da poter effettuare è il test di Wilcoxon a coppie, che è un test non parametrico per confronti multipli.
Wilcoxon test
L’ipotesi nulla (H0) è che i tre ospedali abbiano la stessa percentuale
di cesarei;
L’ipotesi alternativa (H1) è che i tre ospedali non abbiano la stessa
percentuale di cesarei.
| osp1 | osp2 | |
|---|---|---|
| osp2 | 1 | NA |
| osp3 | 1 | 1 |
Il risultato del test di Wilcoxon a coppie (p-value pari a 1) indica che non ci sono differenze statisticamente significative nelle percentuali di parti cesarei tra i tre ospedali. E’ stato utilizzato l’aggiustamento di Holm per correggere i p-value a causa dei confronti multipli, e anche con questo aggiustamento, tutti i valori sono pari a 1. Questo rafforza ulteriormente l’idea che le percentuali di parti cesarei siano uniformi tra i tre ospedali e che quindi non vi sia un ospedale con percentuali significativamente diverse rispetto agli altri.
- Ricordati qual è l’obiettivo dello studio e indaga le relazioni a due a due, soprattutto con la variabile risposta
Lo scopo di questo studio è sviluppare un modello statistico in grado di prevedere il peso dei neonati alla nascita. Iniziamo indagando la relazione tra il peso di un neonato e le altre variabili. Procediamo esaminando questa relazione sia numericamente (utilizzando la covarianza e il coefficiente di correlazione lineare), sia graficamente, mediante l’utilizzo degli scatterplot.
| Variabile | Covarianza | Correlazione |
|---|---|---|
| Gestazione | 580.59 | 0.59 |
| Lunghezza | 10999.88 | 0.80 |
| Cranio | 6078.16 | 0.70 |
| N. gravidanze | 1.62 | 0.00 |
Nella Figura 16 possiamo osservare i grafici di dispersione della variabile Peso con le altre variabili. Il grafico di dispersione del peso e della lunghezza del neonato mostra una relazione lineare, con un coefficiente di correlazione lineare di 0.8. Un risultato simile si osserva nel grafico di dispersione del peso e del cranio del neonato, dove il coefficiente di correlazione lineare è 0.7. Il grafico di dispersione del peso e della durata della gravidanza mostra una relazione lineare, con un coefficiente di correlazione lineare di 0.59. Infine, il grafico di dispersione del peso e del numero di gravidanze mostra assenza di relazione lineare, con un coefficiente pressoché nullo.
Una matrice finale di grafici di dispersione per riassumere la correlazione tra “Peso” e le altre variabili del dataset può essere osservata nella Figura 17. Questo tipo di visualizzazione è utile per identificare rapidamente le relazioni tra più variabili, rilevare pattern o anomalie nei dati, valutare la forza e la direzione delle correlazioni tra le variabili.
Le analisi delle correlazioni e i grafici di dispersione evidenziano relazioni positive tra il “Peso” e altre variabili quantitative del dataset, come indicato dalle linee di tendenza rosse.
La matrice di correlazione fornisce valori numerici che descrivono la forza e la direzione delle relazioni tra variabili. Il grafico seguente mostra la relazione con ogni variabile, sia quantitativa sia qualitativa.
Come ci aspettavamo dalle analisi precedenti, le variabili maggiormente correlate al Peso sono Cranio e Lunghezza. Tuttavia, nessuna delle variabili presenta una relazione puramente lineare con la variabile Peso e ciò potrebbe costituire una difficoltà per l’accuratezza del modello di regressione lineare.
_____________________________________________________________________________________________________
- Crea un modello di regressione lineare multipla con tutte le variabili e commenta i coefficienti e il risultato ottenuto
Per prevedere il peso di un neonato, costruiamo un modello di regressione lineare multipla, inizialmente con tutte le variabili:
\[ Peso = \beta_0 + \beta_1 \cdot Gestazione + \beta_2 \cdot Lunghezza + \beta_3 \cdot Cranio + \beta_4 \cdot N.gravidanze \ + \beta_5 \cdot Fumatrici + \beta_6 \cdot Sesso + \beta_7 \cdot Ospedale \] \[ +\beta_8 \cdot Anni.madre +\beta_9 \cdot Tipo.parto + \epsilon \] dove \(\epsilon \sim N(0, \sigma^2)\).
| Estimate | Std. Error | t value | p_value | Significance | |
|---|---|---|---|---|---|
| (Intercept) | -6735.17 | 141.40 | -47.63 | 0.00 | *** |
| Gestazione | 32.53 | 3.82 | 8.52 | 0.00 | *** |
| Lunghezza | 10.30 | 0.30 | 34.24 | 0.00 | *** |
| Cranio | 10.47 | 0.43 | 24.58 | 0.00 | *** |
| N.gravidanze | 11.41 | 4.67 | 2.45 | 0.01 |
|
| Fumatrici | -30.16 | 27.54 | -1.10 | 0.27 | |
| SessoM | 77.55 | 11.18 | 6.94 | 0.00 | *** |
| Ospedaleosp2 | -11.22 | 13.44 | -0.84 | 0.40 | |
| Ospedaleosp3 | 28.10 | 13.50 | 2.08 | 0.04 |
|
| Anni.madre | 0.80 | 1.15 | 0.70 | 0.49 | |
| Tipo.partoNat | 29.50 | 12.08 | 2.44 | 0.01 |
|
Significance: 0 (***) ; 0.001 (**) ; 0.01 (*) ; 0.05 (.) 0.1 ; () 1
Gestazione, Lunghezza, Cranio, N.gravidanze e Sesso sono tutte variabili statisticamente significative, con un p-value molto bassi, ed in particolare le variabili Lunghezza e Cranio, che hanno t-value elevati. Il parto naturale ha un coefficiente positivo (29.50) ed è significativo (p-value 0.0147), suggerendo che i neonati con parto naturale tendono ad avere un peso maggiore rispetto ai cesarei.
Il valore dell’R² aggiustato è circa 0.73, il che significa che il modello spiega il 72.78% della variabilità del peso di un neonato, un risultato sufficiente ma non del tutto soddisfacente. L’F-statistic è 669.14 con un p-value vicino a 0, indicando che il modello è statisticamente significativo.
_____________________________________________________________________________________________________
- Cerca il modello “migliore”, utilizzando tutti i criteri di selezione che conosci e spiegali.
Per provare a migliorare il modello, procediamo rimuovendo alcune variabili con il metodo di selezione “stepwise”, eliminando quindi, una alla volta, le variabili con p-value elevato.
| Estimate | Std. Error | t value | p_value | Significance | |
|---|---|---|---|---|---|
| (Intercept) | -6708.11 | 135.94 | -49.35 | 0.00 | *** |
| Gestazione | 32.25 | 3.80 | 8.49 | 0.00 | *** |
| Lunghezza | 10.29 | 0.30 | 34.24 | 0.00 | *** |
| Cranio | 10.49 | 0.43 | 24.65 | 0.00 | *** |
| N.gravidanze | 12.61 | 4.34 | 2.91 | 0.00 | ** |
| Fumatrici | -30.31 | 27.54 | -1.10 | 0.27 | |
| SessoM | 77.62 | 11.18 | 6.95 | 0.00 | *** |
| Ospedaleosp2 | -11.08 | 13.44 | -0.82 | 0.41 | |
| Ospedaleosp3 | 28.37 | 13.49 | 2.10 | 0.04 |
|
| Tipo.partoNat | 29.54 | 12.08 | 2.44 | 0.01 |
|
Significance: 0 (***) ; 0.001 (**) ; 0.01 (*) ; 0.05 (.) 0.1 ; () 1
Otteniamo che l’R² aggiustato non varia, ossia pari a 0.7278.
| Estimate | Std. Error | t value | p_value | Significance | |
|---|---|---|---|---|---|
| (Intercept) | -6708.07 | 135.98 | -49.33 | 0.00 | *** |
| Gestazione | 32.54 | 3.80 | 8.56 | 0.00 | *** |
| Lunghezza | 10.27 | 0.30 | 34.13 | 0.00 | *** |
| Cranio | 10.50 | 0.43 | 24.65 | 0.00 | *** |
| N.gravidanze | 13.01 | 4.34 | 3.00 | 0.00 | ** |
| Fumatrici | -31.76 | 27.57 | -1.15 | 0.25 | |
| SessoM | 78.11 | 11.19 | 6.98 | 0.00 | *** |
| Tipo.partoNat | 30.30 | 12.10 | 2.50 | 0.01 |
|
Significance: 0 (***) ; 0.001 (**) ; 0.01 (*) ; 0.05 (.) 0.1 ; () 1
Anche in questo caso, otteniamo che il R² aggiustato non varia, ossia pari a 0.727.
| Estimate | Std. Error | t value | p_value | Significance | |
|---|---|---|---|---|---|
| (Intercept) | -6707.30 | 135.99 | -49.32 | 0.00 | *** |
| Gestazione | 32.27 | 3.79 | 8.51 | 0.00 | *** |
| Lunghezza | 10.29 | 0.30 | 34.21 | 0.00 | *** |
| Cranio | 10.51 | 0.43 | 24.66 | 0.00 | *** |
| N.gravidanze | 12.76 | 4.34 | 2.94 | 0.00 | ** |
| SessoM | 77.93 | 11.19 | 6.96 | 0.00 | *** |
| Tipo.partoNat | 30.03 | 12.10 | 2.48 | 0.01 |
|
Significance: 0 (***) ; 0.001 (**) ; 0.01 (*) ; 0.05 (.) 0.1 ; () 1
| Estimate | Std. Error | t value | p_value | Significance | |
|---|---|---|---|---|---|
| (Intercept) | -6675.81 | 135.78 | -49.17 | 0.00 | *** |
| Gestazione | 31.19 | 3.78 | 8.25 | 0.00 | *** |
| Lunghezza | 10.24 | 0.30 | 34.05 | 0.00 | *** |
| Cranio | 10.64 | 0.42 | 25.08 | 0.00 | *** |
| SessoM | 79.07 | 11.20 | 7.06 | 0.00 | *** |
| Tipo.partoNat | 29.11 | 12.11 | 2.40 | 0.02 |
|
Significance: 0 (***) ; 0.001 (**) ; 0.01 (*) ; 0.05 (.) 0.1 ; () 1
Anche in questo caso, otteniamo che il R² aggiustato non varia, ossia pari a 0.7262.
Potremmo provare rimuovendo anche la variabile Tipo.parto,
ma decidiamo di non farlo, sia perché è una variabile significativa, sia
perché è una variabile di controllo. Stesso dicasi per la variabile
“Sesso”. Per verificare la validità del modello, utilizziamo la
funzione anova(), che confronta i modelli e fornisce il
p-value dell’F-statistic. Il p-value è 0.0015, il che indica che il
modello è leggermente migliorato. Inoltre, possiamo controllare il BIC
del modello ottimizzato, che è 35223, minore (e quindi migliore)
rispetto al BIC del modello precedente, che era 35242. Possiamo
verificare il VIF del modello ottimizzato nella tabella seguente:
| VIF | |
|---|---|
| Gestazione | 1.65 |
| Lunghezza | 2.07 |
| Cranio | 1.61 |
| Sesso | 1.04 |
| Tipo.parto | 1.00 |
Essendo inferiore a 5 per ogni variabile, non sono presenti problemi di multicollinearità.
Infine, selezioniamo il modello che minimizza l’AIC, tenendo conto di quanti più parametri possibile senza sovra-adattare il modello ai dati. In questo caso, il risultato ottenuto considera le seguenti variabili: Gestazione, Lunghezza, Cranio, N.gravidanze, Sesso.
_____________________________________________________________________________________________________
- Si potrebbero considerare interazioni o effetti non lineari?
Consideriamo i termini di interazione tra le variabili Gestazione e Lunghezza, e tra Gestazione e Cranio.
Il risultato del modello è nella seguente tabella:
| Estimate | Std. Error | t value | p_value | Significance | |
|---|---|---|---|---|---|
| (Intercept) | -328.28 | 1108.05 | -0.30 | 0.77 | |
| Gestazione | -138.20 | 29.56 | -4.68 | 0.00 | *** |
| Lunghezza | 9.17 | 3.76 | 2.44 | 0.01 |
|
| Cranio | -7.46 | 6.44 | -1.16 | 0.25 | |
| SessoM | 73.15 | 11.19 | 6.54 | 0.00 | *** |
| Tipo.partoNat | 27.81 | 12.04 | 2.31 | 0.02 |
|
| Gestazione:Lunghezza | 0.03 | 0.10 | 0.34 | 0.73 | |
| Gestazione:Cranio | 0.47 | 0.17 | 2.85 | 0.00 | ** |
Significance: 0 (***) ; 0.001 (**) ; 0.01 (*) ; 0.05 (.) 0.1 ; () 1
La significatività della variabile Cranio si è ridotta, così come l’interazione tra Gestazione e Lunghezza sembra non essere significativa.
Rimuoviamo l’interazione tra Gestazione e Lunghezza e otteniamo il seguente risultato:
| Estimate | Std. Error | t value | p_value | Significance | |
|---|---|---|---|---|---|
| (Intercept) | -319.73 | 1107.57 | -0.29 | 0.77 | |
| Gestazione | -138.28 | 29.55 | -4.68 | 0.00 | *** |
| Lunghezza | 10.45 | 0.30 | 34.72 | 0.00 | *** |
| Cranio | -9.31 | 3.48 | -2.68 | 0.01 | ** |
| SessoM | 73.31 | 11.17 | 6.56 | 0.00 | *** |
| Tipo.partoNat | 27.82 | 12.04 | 2.31 | 0.02 |
|
| Gestazione:Cranio | 0.52 | 0.09 | 5.78 | 0.00 | *** |
Significance: 0 (***) ; 0.001 (**) ; 0.01 (*) ; 0.05 (.) 0.1 ; () 1
Ora, il modello mostra prestazioni superiori rispetto al precedente. Possiamo valutare la validità del modello tramite ANOVA e BIC, che indicano un modesto miglioramento.
Infine, possiamo considerare l’aggiunta di effetti non lineari al modello, ad esempio un effetto logaritmico per le variabili Gestazione e Lunghezza, poiché il diagramma di dispersione sembra suggerire la presenza di tale effetto.
Il risultato del modello è nella seguente tabella:
| Estimate | Std. Error | t value | p_value | Significance | |
|---|---|---|---|---|---|
| (Intercept) | 48328.82 | 8790.95 | 5.50 | 0.00 | *** |
| Gestazione | -398.94 | 106.42 | -3.75 | 0.00 | *** |
| Lunghezza | 44.47 | 3.75 | 11.86 | 0.00 | *** |
| Cranio | -1.02 | 5.83 | -0.17 | 0.86 | |
| SessoM | 72.67 | 10.98 | 6.62 | 0.00 | *** |
| Tipo.partoNat | 26.99 | 11.83 | 2.28 | 0.02 |
|
| log(Gestazione) | 12833.53 | 2584.19 | 4.97 | 0.00 | *** |
| log(Lunghezza) | -16475.13 | 1806.40 | -9.12 | 0.00 | *** |
| Gestazione:Cranio | 0.30 | 0.15 | 1.99 | 0.05 |
|
Significance: 0 (***) ; 0.001 (**) ; 0.01 (*) ; 0.05 (.) 0.1 ; () 1
L’R² aggiustato è 0.7391, leggermente migliore rispetto al modello precedente. Notiamo inoltre, che è possibile rimuovere il termine di interazione tra le variabili Gestazione e Cranio.
Rimuoviamo l’interazione tra Gestazione e Cranio e otteniamo il seguente risultato:
| Estimate | Std. Error | t value | p_value | Significance | |
|---|---|---|---|---|---|
| (Intercept) | 59832.38 | 6631.37 | 9.02 | 0.00 | *** |
| Gestazione | -217.41 | 54.97 | -3.96 | 0.00 | *** |
| Lunghezza | 47.35 | 3.46 | 13.68 | 0.00 | *** |
| Cranio | 10.56 | 0.42 | 25.32 | 0.00 | *** |
| SessoM | 73.37 | 10.98 | 6.68 | 0.00 | *** |
| Tipo.partoNat | 27.08 | 11.83 | 2.29 | 0.02 |
|
| log(Gestazione) | 9748.24 | 2069.69 | 4.71 | 0.00 | *** |
| log(Lunghezza) | -17869.95 | 1666.12 | -10.73 | 0.00 | *** |
Significance: 0 (***) ; 0.001 (**) ; 0.01 (*) ; 0.05 (.) 0.1 ; () 1
Osserviamo adesso un miglioramento del modello rispetto al modello iniziale, e presenta anche un miglioramento rispetto al modello di riferimento selezionato in precedenza. Infatti, abbiamo ottenuto un R² aggiustato di 0.7388, che è leggermente superiore all’R² aggiustato del modello precedente (inferiore a 0.73).
Inoltre, il test ANOVA mostra un p-value molto vicino a 0, il che suggerisce anch’esso un miglioramento rispetto al modello precedente. Infine, il BIC del nuovo modello è 35119, che è inferiore al BIC del modello precedente (35222), indicando che questo modello è più efficace.
_____________________________________________________________________________________________________
- Effettua una diagnostica approfondita dei residui del modello e di potenziali valori influenti. Se ne trovi prova a verificare la loro effettiva influenza.
Possiamo analizzare i residui del modello facendo riferimento al grafico seguente. È importante che i residui soddisfino le seguenti condizioni:
L’analisi dei residui nella figura suggerisce alcuni aspetti problematici del modello. In primo luogo, la mancata normalità dei residui indica che potrebbero esserci delle deviazioni sistematiche, che potrebbero rendere i risultati del modello meno affidabili per l’inferenza. L’eteroschedasticità – cioè la variabilità non costante dei residui – può portare a una sovrastima o sottostima degli intervalli di confidenza e dei test statistici. La mancanza di correlazione lineare tra i residui e i predittori suggerisce che il modello cattura in parte la relazione con i predittori, ma potrebbe non aver incluso altre variabili rilevanti. La presenza di outlier e punti di leverage indica che ci sono dati che esercitano un’influenza sproporzionata sul modello. Questo può distorcere i risultati, causando un bias nei parametri e potenzialmente compromettendo la validità del modello.
Questa situazione è confermata dal test di Shapiro-Wilk, che verifica la normalità dei residui e fornisce un p-value di 1.191e-12, decisamente inferiore a 0.05, il che ci porta a rifiutare l’ipotesi nulla di normalità. L’omoschedasticità dei residui può essere valutata attraverso il test di Breusch-Pagan, che restituisce un p-value di 5.302e-14, anch’esso decisamente inferiore a 0.05, portandoci quindi a rifiutare l’ipotesi nulla di omoschedasticità. Infine, verifichiamo l’indipendenza dei residui utilizzando il test di Durbin-Watson, il quale restituisce un p-value di 0.1145, superiore a 0.05, consentendoci di accettare l’ipotesi nulla di indipendenza.
Nella grafico seguente, possiamo vedere un’altra rappresentazione dei residui del modello che ci permette di osservare: la distribuzione dei residui, i punti di leverage, gli outlier e la distanza di Cook. In particolare, possiamo contare 93 punti di leverage e 5 outlier. A questo punto, rimuoviamo l’osservazione con la distanza di Cook più alta (osservazione 1551), con una distanza di Cook superiore a 1.
Rimuoviamo l’osservazione 1551 e otteniamo il seguente risultato:
| Estimate | Std. Error | t value | p_value | Significance | |
|---|---|---|---|---|---|
| (Intercept) | 44345.71 | 7159.81 | 6.19 | 0.00 | *** |
| Gestazione | -101.47 | 58.51 | -1.73 | 0.08 | |
| Lunghezza | 36.79 | 3.93 | 9.35 | 0.00 | *** |
| Cranio | 10.23 | 0.42 | 24.46 | 0.00 | *** |
| SessoM | 74.27 | 10.92 | 6.80 | 0.00 | *** |
| Tipo.partoNat | 27.34 | 11.76 | 2.32 | 0.02 |
|
| log(Gestazione) | 5220.64 | 2213.67 | 2.36 | 0.02 |
|
| log(Lunghezza) | -12569.34 | 1912.52 | -6.57 | 0.00 | *** |
| Estimate | Std. Error | t value | p_value | Significance | |
|---|---|---|---|---|---|
| (Intercept) | 42643.41 | 7074.31 | 6.03 | 0.00 | *** |
| Gestazione | 37.58 | 3.87 | 9.71 | 0.00 | *** |
| Lunghezza | 30.86 | 2.87 | 10.75 | 0.00 | *** |
| Cranio | 10.13 | 0.42 | 24.13 | 0.00 | *** |
| SessoM | 71.91 | 10.90 | 6.59 | 0.00 | *** |
| Tipo.partoNat | 28.25 | 11.75 | 2.40 | 0.02 |
|
| log(Lunghezza) | -9609.71 | 1377.23 | -6.98 | 0.00 | *** |
| N.gravidanze | 14.49 | 4.22 | 3.44 | 0.00 | *** |
Significance: 0 (***) ; 0.001 (**) ; 0.01 (*) ; 0.05 (.) 0.1 ; () 1
Il modello con l’outlier rimosso non presenta sostanziali variazioni e i coefficienti sono quasi identici. L’unica differenza è che il coefficiente della variabile log(Gestazione) perde significatività, quindi possiamo rimuoverlo dal modello.
Inoltre, il test di Breusch-Pagan restituisce un p-value di 0.07445, che è superiore a 0.05, permettendoci di accettare l’ipotesi nulla di omoschedasticità, mentre nel modello precedente era stata rifiutata. Possiamo accettare anche l’ipotesi nulla di indipendenza, poiché il test di Durbin-Watson riporta un p-value di 0.1057, superiore a 0.05. Pertanto non vi è autocorrelazione dei residui.
Infine, abbiamo aggiunto al modello la variabile N.gravidanze, che rappresenta il numero di gravidanze della madre.
Il modello finale scelto ha come predittori quelli riportati nella tabella seguente:
| Estimate | Std. Error | t value | p_value | Significance | |
|---|---|---|---|---|---|
| (Intercept) | 42643.41 | 7074.31 | 6.03 | 0.00 | *** |
| Gestazione | 37.58 | 3.87 | 9.71 | 0.00 | *** |
| Lunghezza | 30.86 | 2.87 | 10.75 | 0.00 | *** |
| Cranio | 10.13 | 0.42 | 24.13 | 0.00 | *** |
| SessoM | 71.91 | 10.90 | 6.59 | 0.00 | *** |
| Tipo.partoNat | 28.25 | 11.75 | 2.40 | 0.02 |
|
| log(Lunghezza) | -9609.71 | 1377.23 | -6.98 | 0.00 | *** |
| N.gravidanze | 14.49 | 4.22 | 3.44 | 0.00 | *** |
_____________________________________________________________________________________________________
- Quanto ti sembra buono il modello per fare previsioni?
Analizzando le statistiche riportate nell’ultima tabella del punto 5, tutti i predittori risultano significativi (p < 0.05), e la maggior parte presenta valori p < 0.001, il che rende il modello robusto e consistente.
Il valore R² è 0.741, il che significa che circa il 74% della variabilità del peso dei neonati è spiegata dal modello, mentre il valore R² aggiustato di 0.734 suggerisce che il modello è generalizzabile. L’analisi dei residui ha mostrato che il modello non presenta problemi di omoschedasticità e di autocorrelazione, rendendo le previsioni più affidabili. Infine, il BIC è inferiore al modello iniziale, il che conferma l’efficacia del modello finale scelto.
In sintesi, il modello di regressione lineare sviluppato si è dimostrato un buon strumento per predire il peso dei neonati e fornire indicazioni utili per la comprensione delle relazioni tra le variabili. Tuttavia, è sempre importante considerare la validità del modello nei dati futuri e fare test con nuovi dati per confermare la sua stabilità.
_____________________________________________________________________________________________________
- Fai la tua migliore previsione per il peso di una neonata, considerato che la madre è alla terza gravidanza e partorirà alla 39esima settimana. Niente misure dall’ecografia.
Dal momento che il modello necessita anche dei parametri Lunghezza, Cranio e Tipo.parto, utilizzeremo i valori medi, ipotizzando per la prima previsione un parto naturale e per la seconda un parto cesareo.
I risultati dei test sono riportati nella tabella seguente:
| Tipo di Parto | Stima | Limite Inferiore | Limite Superiore |
|---|---|---|---|
| Naturale | 3192.29 | 2669.29 | 3715.29 |
| Cesareo | 3164.05 | 2640.85 | 3687.24 |
Essendo la previsione in linea con le aspettative del modello, poiché il peso medio dei neonati (3300g) rientra nell’intervallo di confidenza, possiamo ritenerlo un buon risultato e concludere che il nostro modello è sufficientemente valido per prevedere il peso di un neonato, con una buona approssimazione e un intervallo di confidenza non eccessivamente ampio.
_____________________________________________________________________________________________________
- Cerca di creare qualche rappresentazione grafica che aiuti a visualizzare il modello. Se è il caso, semplifica quest’ultimo.
Per facilitare la visualizzazione, dobbiamo semplificare il modello cercando di non perdere informazioni essenziali. A tal fine, possiamo suddividere il dataset in base al sesso dei neonati e selezionare altre due variabili esplicative dai predittori, come Lunghezza e Cranio. Questo approccio ci permette di creare uno scatterplot 3D, come illustrato nel grafico seguente.