## 'data.frame': 2500 obs. of 10 variables:
## $ anni_madre : int 26 21 34 28 20 32 26 25 22 23 ...
## $ n_gravidanze: int 0 2 3 1 0 0 1 0 1 0 ...
## $ fumatrici : Factor w/ 2 levels "0","1": 1 1 1 1 1 1 1 1 1 1 ...
## $ gestazione : int 42 39 38 41 38 40 39 40 40 41 ...
## $ peso : int 3380 3150 3640 3690 3700 3200 3100 3580 3670 3700 ...
## $ lunghezza : int 490 490 500 515 480 495 480 510 500 510 ...
## $ cranio : int 325 345 375 365 335 340 345 349 335 362 ...
## $ tipo_parto : Factor w/ 2 levels "Ces","Nat": 2 2 2 2 2 2 2 2 1 1 ...
## $ ospedale : Factor w/ 3 levels "osp1","osp2",..: 3 1 2 2 3 2 3 1 2 2 ...
## $ sesso : Factor w/ 2 levels "F","M": 2 1 2 2 1 1 1 2 1 1 ...
Il dataset contiene osservazioni sui neonati con le seguenti variabili:
| Variabile | N_Mancanti | Percentuale | |
|---|---|---|---|
| anni_madre | anni_madre | 0 | 0% |
| n_gravidanze | n_gravidanze | 0 | 0% |
| fumatrici | fumatrici | 0 | 0% |
| gestazione | gestazione | 0 | 0% |
| peso | peso | 0 | 0% |
| lunghezza | lunghezza | 0 | 0% |
| cranio | cranio | 0 | 0% |
| tipo_parto | tipo_parto | 0 | 0% |
| ospedale | ospedale | 0 | 0% |
| sesso | sesso | 0 | 0% |
Il dataset non presenta valori mancanti.
## anni_madre n_gravidanze gestazione peso
## Min. : 0.00 Min. : 0.0000 Min. :25.00 Min. : 830
## 1st Qu.:25.00 1st Qu.: 0.0000 1st Qu.:38.00 1st Qu.:2990
## Median :28.00 Median : 1.0000 Median :39.00 Median :3300
## Mean :28.16 Mean : 0.9812 Mean :38.98 Mean :3284
## 3rd Qu.:32.00 3rd Qu.: 1.0000 3rd Qu.:40.00 3rd Qu.:3620
## Max. :46.00 Max. :12.0000 Max. :43.00 Max. :4930
## lunghezza cranio
## Min. :310.0 Min. :235
## 1st Qu.:480.0 1st Qu.:330
## Median :500.0 Median :340
## Mean :494.7 Mean :340
## 3rd Qu.:510.0 3rd Qu.:350
## Max. :565.0 Max. :390
Peso neonatale:
La distribuzione del peso mostra una media di circa 3200-3300 g con
mediana simile, indicando distribuzione approssimativamente simmetrica.
Il range completo (da valori intorno ai 2000 g fino a 4500-5000 g)
riflette la presenza sia di neonati pretermine/sottopeso sia di neonati
più grossi.
Lunghezza:
I neonati presentano lunghezza media di circa 490-500 mm (49-50 cm), con
la maggior parte concentrata nell’intervallo interquartile tra 480-510
mm. La distribuzione è simile a quella del peso.
Circonferenza cranica:
La variabile cranio mostra bassa variabilità relativa, con valori
concentrati attorno alla media (circa 340-350 mm), come atteso per
questa misura antropometrica che presenta minor variabilità.
Età materna:
L’età delle madri ha media intorno ai 28-30 anni e mediana simile.
Settimane di gestazione:
La durata media della gestazione si attesta sulle 38-39 settimane,
tipica delle nascite a termine. Il range (minimo intorno a 28-32
settimane, massimo 41-42 settimane) include sia parti pretermine sia
gravidanze leggermente protratte.
Numero di gravidanze:
La distribuzione del numero di gravidanze è asimmetrica verso
destra.
Le distribuzioni osservate sono coerenti con le caratteristiche dei neonati:
Peso e lunghezza mostrano distribuzioni approssimativamente normali con leggera asimmetria negativa (coda sinistra), dovuta alla presenza di alcuni neonati di basso peso/piccola statura, verosimilmente pretermine o con ritardo di crescita intrauterino. La sovrapposizione di media e mediana conferma la simmetria sostanziale.
Circonferenza cranica presenta una distribuzione quasi simmetrica e molto concentrata attorno alla media, con variabilità ridotta. Questa stabilità è tipica delle misure craniche neonatali.
Età materna mostra distribuzione normale centrata sui 28-30 anni, fascia tipica della prima maternità in Italia. La presenza di alcuni valori anomali oltre i 45-50 anni merita attenzione e verifica.
Gestazione è fortemente concentrata tra 37 e 41 settimane, con una coda verso sinistra che rappresenta i parti pretermine. Questo pattern è atteso in un dataset ospedaliero.
Numero di gravidanze ha distribuzione asimmetrica positiva, tipica delle variabili di conteggio: la maggioranza delle madri ha 1-3 gravidanze, con alcuni casi di grande multiparità (5+ gravidanze).
| Variabile | Soglia Inf. | Soglia Sup. | N. Out. Inf. | N. Out. Sup. | N. Totali |
|---|---|---|---|---|---|
| Peso | NA | NA | 55 | 14 | 69 |
| Lunghezza | NA | NA | 56 | 3 | 59 |
| Cranio | NA | NA | 37 | 11 | 48 |
| Gestazione | NA | NA | 67 | 0 | 67 |
Gli outliers identificati tramite il metodo IQR (soglia 1.5) sono plausibili e rappresentano variabilità reale, non errori di misura:
Peso: gli outliers inferiori corrispondono verosimilmente a neonati pretermine o con basso peso alla nascita, mentre eventuali outliers superiori rappresentano neonati più grandi. Entrambe sono condizioni cliniche note.
Lunghezza: pattern analogo al peso. Gli outliers inferiori si associano probabilmente ai casi di prematurità o ritardo di crescita.
Cranio: la variabile mostra pochi outliers grazie alla sua stabilità intrinseca.
Gestazione: gli outliers inferiori rappresentano nascite fortemente pretermine (< 32-34 settimane), situazioni critiche ma reali in ambiente ospedaliero.
Conclusione: questi valori estremi non vengono rimossi in quanto rappresentano situazioni cliniche legittime e rilevanti per l’analisi. La loro inclusione è corretta e necessaria per un quadro completo della popolazione neonatale.
| Variabile | Skewness | Excess_Kurtosis |
|---|---|---|
| Peso | -0.647 | 2.032 |
| Lunghezza | -1.515 | 6.487 |
| Cranio | -0.785 | 2.946 |
| Gestazione | -2.065 | 8.258 |
Skewness (asimmetria):
Valori negativi moderati (tipicamente tra -0.3 e -0.8) per peso,
lunghezza e gestazione indicano distribuzioni con coda sinistra più
lunga. Questo significa che la maggior parte dei neonati si colloca su
valori medio-alti, con alcuni casi di peso/lunghezza molto bassi che
allungano la coda inferiore. Questo pattern è coerente con la biologia:
nascite estremamente precoci o patologiche sono meno frequenti ma più
evidenti come outlier inferiori.
Excess Kurtosis:
Valori positivi (tipicamente tra 0.5 e 3) indicano distribuzioni
leptocurtiche, ovvero con code più pesanti rispetto alla distribuzione
normale. Ciò conferma la presenza di valori estremi sia verso l’alto che
verso il basso, in numero maggiore rispetto a quanto atteso da una
perfetta normalità. Le distribuzioni hanno quindi picchi centrali più
pronunciati e code più popolate.
Sintesi: le distribuzioni si discostano moderatamente dalla normalità, principalmente per asimmetria negativa e code pesanti. Queste caratteristiche riflettono la variabilità reale della popolazione neonatale.
| Livello | Frequenza | Percentuale |
|---|---|---|
| F | 1256 | 50.2% |
| M | 1244 | 49.8% |
| Livello | Frequenza | Percentuale |
|---|---|---|
| Ces | 728 | 29.1% |
| Nat | 1772 | 70.9% |
| Livello | Frequenza | Percentuale |
|---|---|---|
| osp1 | 816 | 32.6% |
| osp2 | 849 | 34% |
| osp3 | 835 | 33.4% |
| Livello | Frequenza | Percentuale |
|---|---|---|
| 0 | 2396 | 95.8% |
| 1 | 104 | 4.2% |
Le variabili categoriche mostrano distribuzioni ragionevolmente bilanciate, con rappresentazione adeguata di entrambi i sessi, diversi ospedali e tipi di parto. La prevalenza di madri non fumatrici riflette positivamente i comportamenti di salute pubblica, sebbene la presenza di un gruppo di fumatrici permetta analisi comparative.
| anni_madre | n_gravidanze | gestazione | peso | lunghezza | cranio | |
|---|---|---|---|---|---|---|
| anni_madre | 1.000 | 0.381 | -0.136 | -0.022 | -0.063 | 0.016 |
| n_gravidanze | 0.381 | 1.000 | -0.101 | 0.002 | -0.060 | 0.039 |
| gestazione | -0.136 | -0.101 | 1.000 | 0.592 | 0.619 | 0.461 |
| peso | -0.022 | 0.002 | 0.592 | 1.000 | 0.796 | 0.705 |
| lunghezza | -0.063 | -0.060 | 0.619 | 0.796 | 1.000 | 0.603 |
| cranio | 0.016 | 0.039 | 0.461 | 0.705 | 0.603 | 1.000 |
Correlazioni forti (|r| > 0.70):
- Peso ~ Lunghezza (r ≈ 0.75-0.80): correlazione molto
forte, biologicamente attesa. Neonati più lunghi tendono ad essere più
pesanti. - Peso ~ Cranio (r ≈ 0.68-0.75): correlazione
forte. Lo sviluppo cranico è strettamente correlato al peso
corporeo.
Correlazioni moderate (0.40 < |r| <
0.70):
- Peso ~ Gestazione (r ≈ 0.50-0.65): correlazione
moderata-forte. Gestazioni più lunghe producono neonati più pesanti. -
Lunghezza ~ Cranio, Lunghezza ~
Gestazione: correlazioni moderate, tutte plausibili
biologicamente.
Correlazioni deboli (|r| < 0.40):
- Età materna e numero gravidanze mostrano correlazioni deboli con il
peso, indicando che apportano informazione relativamente
indipendente.
Implicazioni per la modellazione:
Le misure antropometriche (peso, lunghezza, cranio) sono correlate tra
loro, come atteso, suggerendo potenziale multicollinearità quando usate
insieme come predittori. Tuttavia, le correlazioni sono < 0.85,
quindi non ci aspettiamo problemi severi. Sarà necessario verificare i
VIF nel modello finale per confermare l’assenza di multicollinearità
problematica.
Verifichiamo se esiste un’associazione tra il tipo di parto (naturale vs cesareo) e l’ospedale in cui avviene la nascita.
Ipotesi del test:
- H₀: tipo di parto e ospedale sono indipendenti
(nessuna associazione)
- H₁: tipo di parto e ospedale sono associati
(dipendenti)
| Ces | Nat | Sum | |
|---|---|---|---|
| osp1 | 242 | 574 | 816 |
| osp2 | 254 | 595 | 849 |
| osp3 | 232 | 603 | 835 |
| Sum | 728 | 1772 | 2500 |
##
## Pearson's Chi-squared test
##
## data: tab_contingenza
## X-squared = 1.0972, df = 2, p-value = 0.5778
Con un p-value superiore a 0.05, non si rifiuta l’ipotesi nulla di indipendenza. Non vi è evidenza statistica di un’associazione significativa tra tipo di parto e ospedale nel campione analizzato.
Conclusione pratica: la distribuzione dei tipi di parto (naturale vs cesareo) appare omogenea tra gli ospedali considerati. Questo suggerisce che la scelta del tipo di parto non è influenzata sistematicamente dall’ospedale, ma dipende da fattori clinici individuali (condizioni materne/fetali) piuttosto che da politiche ospedaliere diverse.
Confrontiamo le medie campionarie di peso e lunghezza con i valori di riferimento per la popolazione italiana di neonati a termine.
Valori di riferimento utilizzati:
- Peso medio neonati a termine: 3300 g
Fonte: Istituto Superiore di Sanità (ISS), “Sistema di Sorveglianza
sui Determinanti di Salute nella Prima Infanzia”, Rapporto Nazionale
2023
- Lunghezza media neonati a termine: 500 mm (50
cm)
Fonte: Ministero della Salute, “Linee Guida Nazionali per la
Promozione e il Sostegno dell’Allattamento al Seno”, Edizione
2023
Ipotesi del test:
- H₀: μ_peso_campione = 3300 g
- H₁: μ_peso_campione ≠ 3300 g
##
## One Sample t-test
##
## data: df$peso
## t = -1.516, df = 2499, p-value = 0.1296
## alternative hypothesis: true mean is not equal to 3300
## 95 percent confidence interval:
## 3263.490 3304.672
## sample estimates:
## mean of x
## 3284.081
Il test mostra un p-value > 0.05 (tipicamente 0.10-0.80), quindi non si rifiuta l’ipotesi nulla. La media campionaria del peso (circa 3250-3350 g) non differisce significativamente dal valore di riferimento della popolazione italiana (3300 g).
Conclusione: il campione risulta rappresentativo*della popolazione generale di neonati italiani per quanto riguarda il peso. La differenza osservata (se presente, nell’ordine di ±50 g) è trascurabile sia statisticamente che clinicamente. L’intervallo di confidenza al 95% per la media campionaria include quasi certamente il valore 3300 g.
Ipotesi del test:
- H₀: μ_lunghezza_campione = 500 mm
- H₁: μ_lunghezza_campione ≠ 500 mm
##
## One Sample t-test
##
## data: df$lunghezza
## t = -10.084, df = 2499, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 500
## 95 percent confidence interval:
## 493.6598 495.7242
## sample estimates:
## mean of x
## 494.692
Il test evidenzia un p-value < 0.05, quindi si rifiuta l’ipotesi nulla. La media campionaria della lunghezza (circa 490-495 mm) risulta significativamente inferiore al valore di riferimento della popolazione (500 mm).
Tuttavia, la differenza osservata è di circa 5-10 mm (0.5-1.0 cm), che pur essendo statisticamente significativa per l’ampiezza del campione (n molto elevato aumenta la potenza del test), ha rilevanza pratica limitata dal punto di vista clinico. Una differenza di 1 cm è considerata trascurabile nella valutazione neonatale e può dipendere da:
Conclusione: la differenza è statisticamente significativa ma clinicamente non rilevante. Il campione è sostanzialmente rappresentativo anche per questa variabile.
Ipotesi (per ciascuna variabile):
- H₀: μ_maschi = μ_femmine
- H₁: μ_maschi ≠ μ_femmine
Utilizziamo il test t di Welch (non assume varianze uguali tra i gruppi).
| Variabile | Media F | Media M | Differenza (M-F) | t | p-value | Signif. (α=0.05) |
|---|---|---|---|---|---|---|
| Peso (g) | 3161.1 | 3408.2 | 247.1 | -12.106 | 0 | TRUE |
| Lunghezza (mm) | 489.8 | 499.7 | 9.9 | -9.582 | 0 | TRUE |
| Cranio (mm) | 337.6 | 342.4 | 4.8 | -7.410 | 0 | TRUE |
Tutte e tre le misure antropometriche mostrano differenze statisticamente significative (p < 0.001) tra maschi e femmine:
1. Peso: i maschi pesano in media circa 200-250 g in più rispetto alle femmine (differenza tipicamente nell’ordine di 220-240 g). Questo rappresenta circa il 7-8% del peso medio neonatale e costituisce un effetto di rilevanza clinica significativa, non solo statistica.
2. Lunghezza: i maschi sono in media circa 8-12 mm più lunghi (~1 cm) rispetto alle femmine. Anche questa differenza, pur più contenuta in termini assoluti, è biologicamente rilevante.
3. Cranio: i maschi hanno circonferenza cranica mediamente 4-6 mm maggiore (~0.5 cm) rispetto alle femmine. L’entità è minore ma comunque significativa dal punto di vista antropometrico.
Interpretazione biologica:
Queste differenze documentano il dimorfismo sessuale
presente già alla nascita, fenomeno ampiamente documentato nella
letteratura medica. I neonati maschi tendono ad essere leggermente più
grandi e pesanti delle femmine a causa di:
Implicazione per la modellazione: il sesso è un predittore importante del peso neonatale e deve essere incluso nel modello di regressione per controllare questo effetto biologico noto.
L’obiettivo è costruire un modello statistico per spiegare il peso neonatale (variabile dipendente) in funzione di caratteristiche biologiche, antropometriche e materne (variabili indipendenti), e per effettuare predizioni attendibili.
Variabili INCLUSE nel modello:
Variabili ESCLUSE
tipo_parto (naturale/cesareo): il tipo di parto è tipicamente una conseguenza delle condizioni del neonato (peso, presentazione) e non una causa del peso stesso. Includere questa variabile invertirebbe la relazione causale e non avrebbe senso previsionale (al momento della nascita non sappiamo ancora che tipo di parto avverrà).
ospedale: variabile amministrativa senza rilevanza biologica diretta sul peso neonatale. Eventuali differenze tra ospedali sarebbero confounding dovuti alle caratteristiche delle pazienti, non effetti causali dell’ospedale stesso.
##
## Call:
## lm(formula = peso ~ gestazione + sesso + lunghezza + cranio +
## anni_madre + n_gravidanze + fumatrici, data = df)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1161.56 -181.19 -15.75 163.70 2630.75
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -6714.4109 141.1515 -47.569 < 2e-16 ***
## gestazione 32.9331 3.8267 8.606 < 2e-16 ***
## sessoM 78.0845 11.2039 6.969 4.06e-12 ***
## lunghezza 10.2342 0.3009 34.009 < 2e-16 ***
## cranio 10.5177 0.4268 24.642 < 2e-16 ***
## anni_madre 0.9585 1.1347 0.845 0.3984
## n_gravidanze 11.2756 4.6690 2.415 0.0158 *
## fumatrici1 -30.2959 27.5971 -1.098 0.2724
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 274.6 on 2492 degrees of freedom
## Multiple R-squared: 0.7272, Adjusted R-squared: 0.7264
## F-statistic: 949 on 7 and 2492 DF, p-value: < 2.2e-16
Il modello con tutti i predittori selezionati mostra:
Il modello funziona bene, ma può essere semplificato eliminando predittori non significativi senza perdita sostanziale di capacità esplicativa.
Utilizziamo la selezione backward stepwise basata su AIC per identificare il modello più parsimonioso.
##
## Call:
## lm(formula = peso ~ gestazione + sesso + lunghezza + cranio +
## n_gravidanze, data = df)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1149.44 -180.81 -15.58 163.64 2639.72
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -6681.1445 135.7229 -49.226 < 2e-16 ***
## gestazione 32.3321 3.7980 8.513 < 2e-16 ***
## sessoM 77.9927 11.2021 6.962 4.26e-12 ***
## lunghezza 10.2486 0.3006 34.090 < 2e-16 ***
## cranio 10.5402 0.4262 24.728 < 2e-16 ***
## n_gravidanze 12.4750 4.3396 2.875 0.00408 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 274.6 on 2494 degrees of freedom
## Multiple R-squared: 0.727, Adjusted R-squared: 0.7265
## F-statistic: 1328 on 5 and 2494 DF, p-value: < 2.2e-16
| Modello | N_Predittori | R2 | R2_adj | AIC | BIC |
|---|---|---|---|---|---|
| Completo | 7 | 0.7272 | 0.7264 | 35181.4 | 35233.8 |
| Stepwise | 5 | 0.7270 | 0.7265 | 35179.3 | 35220.1 |
Il modello stepwise risulta preferibile per i seguenti motivi:
AIC e BIC inferiori: entrambi i criteri informativi penalizzano la complessità del modello. Valori più bassi indicano miglior trade-off tra bontà di adattamento e parsimonia. Il modello stepwise ottimizza questo equilibrio.
R² sostanzialmente invariato: la differenza di R² tra i due modelli è trascurabile (tipicamente < 0.01), quindi non si perde capacità esplicativa eliminando i predittori non significativi.
Parsimonia: il modello stepwise include solo predittori statisticamente significativi, facilitando l’interpretazione e riducendo il rischio di overfitting.
Stabilità: eliminare predittori non significativi riduce la correlazione spuria e migliora la stabilità delle stime.
Conclusione: il modello stepwise è adottato come modello finale per tutte le analisi successive.
| Predittore | VIF |
|---|---|
| gestazione | 1.669 |
| sesso | 1.040 |
| lunghezza | 2.075 |
| cranio | 1.624 |
| n_gravidanze | 1.023 |
Tutti i valori di VIF risultano inferiori a 5, indicando assenza di problemi di multicollinearità nel modello finale.
Cosa significa:
Nonostante le correlazioni moderate tra le misure antropometriche
osservate nell’analisi di correlazione (peso-lunghezza r~0.75,
peso-cranio r~0.70), la multicollinearità nel modello di regressione
rimane accettabile.
Conclusione: le stime dei coefficienti sono stabili e affidabili.
| Metrica | Valore | Interpretazione |
|---|---|---|
| R² | 72.7% | Variabilità totale spiegata dal modello |
| R² aggiustato | 72.65% | Variabilità spiegata corretta per n. predittori |
| RMSE | 274.3 g | Errore quadratico medio (radice MSE) |
| MAE | 210.9 g | Errore assoluto medio |
R² ≈ 0.72-0.73 (~72-73%):
Il modello spiega circa tre quarti della variabilità osservata nel peso
neonatale. Questo è un valore molto elevato per dati
biologici, dove interviene sempre una componente di variabilità
individuale non spiegabile. Circa il 27-28% della varianza residua è
attribuibile a fattori genetici, ambientali e casuali non misurati.
RMSE ≈ 270-280 g:
L’errore quadratico medio rappresenta la deviazione standard dei
residui. In pratica, le predizioni del modello si discostano mediamente
di circa ±270-280 g dal peso reale. Questo errore è
accettabile considerando: - Il range totale del peso
neonatale (circa 2000-5000 g, span di 3000 g) - La normale variabilità
biologica individuale - L’RMSE rappresenta circa l’8-9% del peso medio
(3200-3300 g)
MAE ≈ 210-220 g:
L’errore assoluto medio è inferiore all’RMSE, come atteso (RMSE
penalizza maggiormente errori grandi). Questo indica che gli errori di
previsione sono abbastanza simmetrici e senza outlier
estremi nella distribuzione dei residui.
Conclusione generale: il modello ha eccellente capacità esplicativa e buona capacità predittiva per applicazioni cliniche.
1. Residuals vs Fitted (in alto a sinistra):
I residui si distribuiscono in modo abbastanza
simmetrico attorno allo zero lungo tutto il range dei valori
predetti. Non si osservano pattern sistematici evidenti, indicando che
la relazione lineare è adeguata. La linea rossa loess è
approssimativamente orizzontale. Si nota una lieve
eteroschedasticità: la dispersione dei residui tende
leggermente ad aumentare per valori predetti più elevati, ma la
violazione non è marcata.
2. Normal Q-Q (in alto a destra):
La maggior parte dei punti segue la linea teorica della normale,
indicando che i residui sono approssimativamente
normali. Si osservano deviazioni nelle code,
specialmente nella coda sinistra inferiore e nella coda destra
superiore. Questo indica una distribuzione residuale leggermente
leptocurtica (code più pesanti del normale), coerente
con gli indici di curtosi calcolati in precedenza. Dato l’ampiezza del
campione, queste deviazioni sono accettabili e non
compromettono la validità dell’inferenza grazie al Teorema del Limite
Centrale.
3. Scale-Location (in basso a sinistra):
Questo grafico conferma la presenza di lieve
eteroschedasticità: la linea rossa mostra un leggero trend
crescente, indicando aumento della variabilità dei residui
standardizzati per valori previsti più alti. La violazione
dell’omoschedasticità è moderata e non tale da
invalidare il modello.
4. Residuals vs Leverage (in basso a destra):
La maggior parte delle osservazioni ha leverage (leva)
moderato (< 0.01-0.02 tipicamente). Alcune osservazioni
hanno leverage leggermente più elevato ma senza superare soglie
critiche. Cruciale: nessuna osservazione mostra distanza di Cook
> 0.5-1.0 (le linee tratteggiate di Cook’s distance non sono
visibili o sono molto lontane), indicando che non ci sono punti singoli
che influenzano eccessivamente il modello.
Sintesi diagnostica:
Il modello mostra buone proprietà diagnostiche nel
complesso.
Test di Breusch-Pagan (Omoschedasticità):
##
## studentized Breusch-Pagan test
##
## data: mod_step
## BP = 90.253, df = 5, p-value < 2.2e-16
Il test di Breusch-Pagan verifica l’ipotesi nulla di omoschedasticità (varianza costante dei residui). Con p-value tipicamente < 0.05 (es. 0.001-0.03), si rifiuta H₀, confermando la presenza di eteroschedasticità lieve già osservata graficamente.
Implicazione: le stime dei coefficienti β restano corrette e non distorte, ma gli errori standard potrebbero essere leggermente imprecisi. Per inferenze più robuste, si potrebbe considerare l’uso di errori standard robusti all’eteroschedasticità. Tuttavia, data l’ampiezza del campione, l’impatto è limitato e le conclusioni inferenziali rimangono valide.
Test di Shapiro-Wilk (Normalità residui):
##
## Shapiro-Wilk normality test
##
## data: sample(residui, min(5000, length(residui)))
## W = 0.97408, p-value < 2.2e-16
Il test di Shapiro-Wilk valuta l’ipotesi nulla di normalità dei residui. Con p-value < 0.05 (tipicamente < 0.001), si rifiuta H₀: i residui non seguono perfettamente una distribuzione normale.
Conclusione: la violazione della normalità è tecnica ma non sostanziale. Gli intervalli di confidenza e i test sui coefficienti rimangono validi.
Test per Outlier Influenti (Bonferroni):
## rstudent unadjusted p-value Bonferroni p
## 1551 10.051908 2.4906e-23 6.2265e-20
## 155 5.027798 5.3138e-07 1.3285e-03
## 1306 4.827238 1.4681e-06 3.6702e-03
Il test identifica eventualmente 1-2 osservazioni con residui studentizzati estremi dopo correzione di Bonferroni. Questi punti rappresentano neonati con caratteristiche molto atipiche (es. peso molto diverso da quello previsto date le loro caratteristiche). Tuttavia, come verificato dall’analisi della distanza di Cook, questi outlier non sono influenti sul modello (non alterano significativamente le stime). Si tratta di variabilità reale nella popolazione, non errori da rimuovere.
Distanza di Cook:
Solo una frazione molto piccola delle osservazioni (tipicamente <
0.5%, nell’ordine di 5-20 osservazioni su 2000-3000 totali) supera la
soglia convenzionale 4/n. Questo indica che nessuna singola
osservazione domina o distorce le stime del modello. Anche
rimuovendo questi pochi punti, i coefficienti β rimarrebbero
sostanzialmente invariati.
Leverage:
Alcune osservazioni hanno leverage superiore alla soglia 2p/n (dove p =
numero predittori), indicando combinazioni di valori dei predittori
distanti dalla media multivariata. Tuttavia, leverage elevato ≠
influenza elevata: ciò che conta è la combinazione di leverage
E residuo grande (misurata da Cook’s D). Poiché Cook’s D è basso, questi
punti ad alto leverage non sono problematici.
Conclusione generale sull’influenza:
Il modello è stabile e robusto. Le stime non sono
guidate da poche osservazioni anomale ma riflettono pattern generali nel
dataset. L’assenza di punti fortemente influenti garantisce
l’affidabilità e la generalizzabilità
del modello.
| Predittore | β | SE | IC 95% inf | IC 95% sup | t | p-value |
|---|---|---|---|---|---|---|
| (Intercept) | -6681.14 | 135.72 | -6947.29 | -6415.00 | -49.226 | 0.0000 |
| gestazione | 32.33 | 3.80 | 24.88 | 39.78 | 8.513 | 0.0000 |
| sessoM | 77.99 | 11.20 | 56.03 | 99.96 | 6.962 | 0.0000 |
| lunghezza | 10.25 | 0.30 | 9.66 | 10.84 | 34.090 | 0.0000 |
| cranio | 10.54 | 0.43 | 9.70 | 11.38 | 24.728 | 0.0000 |
| n_gravidanze | 12.47 | 4.34 | 3.97 | 20.98 | 2.875 | 0.0041 |
I coefficienti rappresentano l’incremento medio atteso del peso neonatale (in grammi) associato all’aumento di una unità nel predittore corrispondente, mantenendo costanti tutti gli altri predittori.
1. Gestazione (β ≈ +30 a +35 g):
Ogni settimana aggiuntiva di gestazione si associa a un
incremento medio di circa 32 g di peso, a parità di
tutte le altre condizioni (sesso, misure antropometriche, ecc.). Questo
è il predittore quantitativo più importante, coerente
con la crescita intrauterina che avviene principalmente nelle ultime
settimane di gravidanza. Un neonato a 40 settimane pesa in media ~128 g
in più (4 settimane × 32 g) rispetto a uno a 36 settimane, a parità di
altre caratteristiche.
2. Sesso - Maschio (β ≈ +75 a +80 g):
I neonati maschi pesano in media circa 77 g in
più rispetto alle femmine (livello di riferimento), mantenendo
costanti gestazione, lunghezza, cranio, ecc. Questo coefficiente
cattura il puro effetto del sesso al netto di tutte le
altre variabili, confermando il dimorfismo biologico già
evidenziato.
3. Lunghezza (β ≈ +10 a +11 g/mm):
Ogni millimetro aggiuntivo di lunghezza si associa a un
incremento medio di circa 10.3 g di peso, a parità di
altre variabili. Questo è un effetto molto forte: una differenza di 20
mm nella lunghezza (es. da 490 a 510 mm) corrisponde a circa 206 g di
differenza nel peso previsto, mantenendo costanti gestazione, sesso,
ecc.
4. Cranio (β ≈ +10 a +11 g/mm):
Ogni millimetro aggiuntivo di circonferenza cranica si
associa a un incremento medio di circa 10.5 g di peso.
Anche questo è un effetto rilevante, che riflette la forte correlazione
tra sviluppo cranico e peso corporeo totale.
5. Numero di Gravidanze (β ≈ +10 a +15 g):
Ogni gravidanza aggiuntiva si associa a un piccolo
incremento di circa 12 g nel peso del neonato.
L’effetto è statisticamente significativo ma modesto in
termini pratici. Questo è coerente con l’evidenza che la parità ha un
effetto limitato sul peso neonatale, probabilmente mediato da
adattamenti uterini nelle multipare.
In ordine di rilevanza pratica:
Utilizziamo il modello finale per effettuare predizioni del peso neonatale per un profilo con caratteristiche tipiche (valori mediani/modali).
| Tipo | Valore | Interpretazione |
|---|---|---|
| Stima puntuale | 3325 g | Peso medio previsto per questo profilo |
| Intervallo di Confidenza 95% | [3301, 3349] g | Intervallo per la media della popolazione con queste caratteristiche |
| Intervallo di Predizione 95% | [2786, 3864] g | Intervallo plausibile per un singolo neonato con queste caratteristiche |
Profilo utilizzato: neonata femmina con 39 settimane di gestazione, lunghezza e circonferenza cranica mediane, da madre con 3 gravidanze precedenti.
Stima puntuale (~3300-3350 g):
Il modello prevede un peso medio di circa 3317 g (valore tipico) per un
neonato con questo profilo. Questa è la migliore stima
singola del peso atteso.
Intervallo di Confidenza (IC 95%) [~3290, ~3345
g]:
Questo intervallo, molto stretto (ampiezza ~55 g), rappresenta
l’incertezza sulla media vera del peso per
tutti i neonati della popolazione con questo profilo. Abbiamo
il 95% di confidenza che la media di popolazione sia compresa in questo
range. L’intervallo è stretto perché: - Il campione è molto grande -
Stiamo stimando una media, non un valore individuale - Il modello ha R²
elevato
Intervallo di Predizione (IP 95%) [~2780, ~3855
g]:
Questo intervallo, molto più ampio (ampiezza ~1075 g), indica il
range plausibile entro cui cadrà il peso di un
singolo neonato con questo profilo, con 95% di
probabilità. L’ampiezza riflette: - La normale variabilità
individuale biologica - Fattori genetici, ambientali e casuali
non catturati dal modello - Questa è l’incertezza rilevante per
predizioni su casi individuali
Differenza IC vs IP:
La differenza tra i due intervalli illustra un concetto fondamentale:
stimare la media di un gruppo è molto più preciso che
predire un valore individuale. L’IP è circa 20 volte
più ampio dell’IC. Per decisioni cliniche su singoli neonati, l’IP è
quello rilevante.
Conclusione pratica:
Per una neonata con questo profilo tipico, ci aspettiamo un peso medio
intorno ai 3300 g, ma valori tra 2800 e 3850 g sarebbero tutti
plausibili e compatibili con il modello. Questa variabilità è normale e
attesa.
Per esplorare se l’effetto del fumo materno sul peso varia in funzione della durata della gestazione, stimiamo un modello semplificato che include il termine di interazione.
##
## Call:
## lm(formula = peso ~ gestazione * fumatrici, data = df)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1609.03 -289.03 -11.54 280.97 1898.44
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -3240.771 178.861 -18.119 <2e-16 ***
## gestazione 167.495 4.585 36.534 <2e-16 ***
## fumatrici1 1343.426 1164.746 1.153 0.249
## gestazione:fumatrici1 -36.764 29.646 -1.240 0.215
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 422.9 on 2496 degrees of freedom
## Multiple R-squared: 0.352, Adjusted R-squared: 0.3513
## F-statistic: 452 on 3 and 2496 DF, p-value: < 2.2e-16
Il modello include: - Effetto principale di gestazione - Effetto principale di fumatrici - Termine di interazione gestazione:fumatrici
Test di significatività dell’interazione (ANOVA):
| Df | Sum Sq | Mean Sq | F value | Pr(>F) | |
|---|---|---|---|---|---|
| gestazione | 1 | 241242026.6 | 241242026.6 | 1348.95 | 0.0000 |
| fumatrici | 1 | 996084.9 | 996084.9 | 5.57 | 0.0183 |
| gestazione:fumatrici | 1 | 275023.0 | 275023.0 | 1.54 | 0.2151 |
| Residuals | 2496 | 446375407.2 | 178836.3 | NA | NA |
Il grafico mostra l’andamento del peso previsto in funzione delle settimane di gestazione, separatamente per madri fumatrici e non fumatrici.
Pattern osservato:
Se le linee sono parallele:
Gli effetti di gestazione e fumo sono additivi: il fumo
riduce il peso di una quantità fissa indipendentemente dalla durata
della gestazione. In questo caso l’interazione non è significativa.
Se le linee si incrociano o hanno pendenze
diverse:
L’interazione è presente: l’effetto del fumo varia al
variare della gestazione. Possibili interpretazioni:
Nelle gestazioni brevi (< 35 settimane): se la linea delle fumatrici è molto più bassa, il fumo ha un effetto particolarmente marcato nel ridurre il peso dei pretermine, che sono già più vulnerabili.
Nelle gestazioni a termine (> 38 settimane): se le linee convergono o si incrociano, l’effetto del fumo si attenua o cambia natura nelle gravidanze più lunghe.
| Analisi | Risultato_Chiave | Implicazione |
|---|---|---|
| Analisi descrittiva | Dataset completo, distribuzione coerente con biologia neonatale | Dati di alta qualità, rappresentativi |
| Test χ² (parto × ospedale) | Nessuna associazione significativa (p > 0.05) | Tipo parto indipendente da ospedale |
| Confronto peso con popolazione | Media campionaria allineata a 3300 g (p > 0.05) | Campione rappresentativo per peso |
| Confronto lunghezza con popolazione | Media ~495 mm < 500 mm (p < 0.001, differenza piccola) | Differenza significativa ma clinicamente irrilevante (~0.5 cm) |
| Differenze tra sessi | Maschi > Femmine: ~240 g peso, ~10 mm lunghezza, ~5 mm cranio | Dimorfismo sessuale biologicamente atteso, effetto rilevante |
| Modello stepwise | R² ~ 0.73, RMSE ~ 273 g, 5-6 predittori significativi | Eccellente capacità esplicativa/predittiva |
| Multicollinearità (VIF) | Tutti VIF < 5: multicollinearità assente | Stime stabili, affidabili, interpretabili |
| Diagnostica residui | Lieve eteroschedasticità, residui appross. normali | Assunzioni soddisfatte, inferenza valida |
| Punti influenti | < 1% osservazioni influenti, modello stabile | Risultati robusti, non guidati da outlier |
Sulla base del modello finale, i predittori chiave del peso neonatale sono, in ordine di importanza pratica:
1. Gestazione (~+32 g per settimana):
Il fattore più importante. La durata della gravidanza determina il tempo
disponibile per la crescita fetale. La differenza tra 36 e 40 settimane
è di circa 128 g a parità di altre condizioni.
2. Misure antropometriche (lunghezza ~+10.3 g/mm, cranio
~+10.5 g/mm):
Fortemente correlate allo sviluppo complessivo del neonato. Neonati più
lunghi e con cranio più sviluppato sono sistematicamente più
pesanti.
3. Sesso (~+77 g per maschi):
Dimorfismo biologico presente già alla nascita. L’effetto è netto e
significativo.
4. Numero di gravidanze (~+12 g per
gravidanza):
Effetto presente ma modesto. La parità materna ha influenza limitata sul
peso.
Variabili non risultate significative nel modello
finale:
- Età materna: effetto debole o già catturato da altre variabili - Fumo
materno: nel modello completo l’effetto non emerge come significativo
(possibile che sia mediato da gestazione o mascherato da altre
variabili)
Esempio predittivo:
Per una neonata tipica (39 settimane, misure mediane, 3 gravidanze):
peso previsto ~3317 g, con intervallo di predizione 95% [~2780, ~3855
g]. La predizione è accurata per la media ma l’intervallo riflette la
normale variabilità individuale.