Consideraciones iniciales

Esto es un analisis inicial de prediccion de VRT en niños sanos. Se utilizó la totalidad de datos disponibles.

Graficos exploratorios

Distribucion de VRT

Histograma:

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Cambio a escala logaritmica para aproximar a una distribucion normal:

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Los graficos de VRT son ahora con escala logaritmica.

Edad actual y VRT

## Warning: Removed 32 rows containing non-finite values (stat_smooth).

## Warning: Removed 32 rows containing non-finite values (stat_smooth).
## Warning: Removed 32 rows containing missing values (geom_point).

Altura actual y VRT

Peso actual y VRT

El peso tiene una relacion curvilinea:

Esto se corrige al transformar el peso a una escala logaritmica:

Peso al nacer y VRT

Grafico sin discriminar la edad a la que se realizó la medición:

## Warning: Removed 40 rows containing non-finite values (stat_smooth).

## Warning: Removed 40 rows containing non-finite values (stat_smooth).
## Warning: Removed 40 rows containing missing values (geom_point).

Si se divide en 4 grupos etarios

## Warning: Removed 40 rows containing non-finite values (stat_smooth).

## Warning: Removed 40 rows containing non-finite values (stat_smooth).
## Warning: Removed 40 rows containing missing values (geom_point).


Mdelo predictivo

Se eligio un modelo de regresion lineal multiple con variable dependiente VRT (previamente procesada con una transformacion logaritmica).

Derivacion del modelo

Se utilizaron los datos completos de 792. Se los dividió en forma aleatoria en 2 set para derivar y validar el modelo, con una relación 7:3.
A continuacion se realizo lo siguiente utilizando solo los datos del set para derivar:

  1. Se incluyeron las siguientes variables edadenmeses, Etnia, PesoalnacerGramos, Sexo, PesoactualKg, Altura, Edadgestacionalsemanas.
  2. Adicionalmente se incluyo el logaritmo de PesoactualKg (ver grafico arriba).
  3. Se genero un primer modelo con log(VRT) como variable dependiente y el resto de las covariables mencionadas:
## 
## Call:
## lm(formula = I(log(VRT)) ~ . + I(log(PesoactualKg)), data = trainData)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.49523 -0.09981 -0.00869  0.10305  0.54281 
## 
## Coefficients:
##                          Estimate Std. Error t value Pr(>|t|)    
## (Intercept)             1.995e+00  1.342e-01  14.862  < 2e-16 ***
## edadenmeses             1.372e-04  3.683e-04   0.372 0.709707    
## EtniaOtra              -1.527e-02  1.646e-02  -0.928 0.353723    
## EtniaToba              -1.247e-02  1.658e-02  -0.752 0.452238    
## PesoalnacerGramos       2.077e-05  1.303e-05   1.594 0.111570    
## SexoMasculino           6.653e-03  1.368e-02   0.486 0.626874    
## PesoactualKg           -3.810e-03  1.040e-03  -3.662 0.000274 ***
## Altura                  6.268e-01  1.146e-01   5.470 6.87e-08 ***
## Edadgestacionalsemanas  4.060e-04  3.426e-03   0.118 0.905716    
## I(log(PesoactualKg))    5.993e-01  4.859e-02  12.335  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1569 on 543 degrees of freedom
## Multiple R-squared:  0.9393, Adjusted R-squared:  0.9382 
## F-statistic: 932.9 on 9 and 543 DF,  p-value: < 2.2e-16
  1. Se realizo una simplificacion del modelo usando un algoritmo paso a paso (stepwise) en ambas direcciones basado en el AIC:
## Start:  AIC=-2038.92
## I(log(VRT)) ~ edadenmeses + Etnia + PesoalnacerGramos + Sexo + 
##     PesoactualKg + Altura + Edadgestacionalsemanas + I(log(PesoactualKg))
## 
##                          Df Sum of Sq    RSS     AIC
## - Etnia                   2    0.0236 13.383 -2041.9
## - Edadgestacionalsemanas  1    0.0003 13.359 -2040.9
## - edadenmeses             1    0.0034 13.362 -2040.8
## - Sexo                    1    0.0058 13.365 -2040.7
## <none>                                13.359 -2038.9
## - PesoalnacerGramos       1    0.0625 13.421 -2038.3
## - PesoactualKg            1    0.3300 13.689 -2027.4
## - Altura                  1    0.7362 14.095 -2011.2
## - I(log(PesoactualKg))    1    3.7433 17.102 -1904.3
## 
## Step:  AIC=-2041.94
## I(log(VRT)) ~ edadenmeses + PesoalnacerGramos + Sexo + PesoactualKg + 
##     Altura + Edadgestacionalsemanas + I(log(PesoactualKg))
## 
##                          Df Sum of Sq    RSS     AIC
## - Edadgestacionalsemanas  1    0.0002 13.383 -2043.9
## - edadenmeses             1    0.0038 13.386 -2043.8
## - Sexo                    1    0.0066 13.389 -2043.7
## <none>                                13.383 -2041.9
## - PesoalnacerGramos       1    0.0626 13.445 -2041.4
## - PesoactualKg            1    0.3285 13.711 -2030.5
## - Altura                  1    0.7350 14.117 -2014.4
## - I(log(PesoactualKg))    1    3.7412 17.124 -1907.6
## 
## Step:  AIC=-2043.93
## I(log(VRT)) ~ edadenmeses + PesoalnacerGramos + Sexo + PesoactualKg + 
##     Altura + I(log(PesoactualKg))
## 
##                        Df Sum of Sq    RSS     AIC
## - edadenmeses           1    0.0037 13.386 -2045.8
## - Sexo                  1    0.0066 13.389 -2045.7
## <none>                              13.383 -2043.9
## - PesoalnacerGramos     1    0.0825 13.465 -2042.5
## - PesoactualKg          1    0.3287 13.711 -2032.5
## - Altura                1    0.7367 14.119 -2016.3
## - I(log(PesoactualKg))  1    3.7423 17.125 -1909.6
## 
## Step:  AIC=-2045.78
## I(log(VRT)) ~ PesoalnacerGramos + Sexo + PesoactualKg + Altura + 
##     I(log(PesoactualKg))
## 
##                        Df Sum of Sq    RSS     AIC
## - Sexo                  1    0.0051 13.392 -2047.6
## <none>                              13.386 -2045.8
## - PesoalnacerGramos     1    0.0791 13.466 -2044.5
## - PesoactualKg          1    0.3556 13.742 -2033.3
## - Altura                1    1.4387 14.825 -1991.3
## - I(log(PesoactualKg))  1    4.0048 17.391 -1903.0
## 
## Step:  AIC=-2047.57
## I(log(VRT)) ~ PesoalnacerGramos + PesoactualKg + Altura + I(log(PesoactualKg))
## 
##                        Df Sum of Sq    RSS     AIC
## <none>                              13.392 -2047.6
## - PesoalnacerGramos     1    0.0798 13.471 -2046.3
## - PesoactualKg          1    0.3526 13.744 -2035.2
## - Altura                1    1.4448 14.836 -1992.9
## - I(log(PesoactualKg))  1    4.0014 17.393 -1905.0

Se obtuvo el siguiente resultado:

## 
## Call:
## lm(formula = I(log(VRT)) ~ PesoalnacerGramos + PesoactualKg + 
##     Altura + I(log(PesoactualKg)), data = trainData)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.48549 -0.10124 -0.00866  0.10039  0.53574 
## 
## Coefficients:
##                        Estimate Std. Error t value Pr(>|t|)    
## (Intercept)           1.999e+00  6.903e-02  28.960  < 2e-16 ***
## PesoalnacerGramos     2.066e-05  1.144e-05   1.807 0.071335 .  
## PesoactualKg         -3.626e-03  9.546e-04  -3.798 0.000162 ***
## Altura                6.564e-01  8.536e-02   7.689  6.9e-14 ***
## I(log(PesoactualKg))  5.922e-01  4.628e-02  12.796  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1563 on 548 degrees of freedom
## Multiple R-squared:  0.9391, Adjusted R-squared:  0.9387 
## F-statistic:  2113 on 4 and 548 DF,  p-value: < 2.2e-16

La ecuación obtenida es la siguiente:

\(VRT=e^{1.999076 + 2.0661692\times 10^{-5}WT at birth + -0.003626WT +0.656385HT + 0.5921912ln(WT)}\)

  1. Se compararon ambos modelos con un analisis de varianza, observandose que el modelo mas simple cumple con el principio de parsimonia, por lo que se elije este ultimo:
## Analysis of Variance Table
## 
## Model 1: I(log(VRT)) ~ edadenmeses + Etnia + PesoalnacerGramos + Sexo + 
##     PesoactualKg + Altura + Edadgestacionalsemanas + I(log(PesoactualKg))
## Model 2: I(log(VRT)) ~ PesoalnacerGramos + PesoactualKg + Altura + I(log(PesoactualKg))
##   Res.Df    RSS Df Sum of Sq      F Pr(>F)
## 1    543 13.359                           
## 2    548 13.392 -5 -0.032644 0.2654 0.9319

Validacion del modelo

Se utilizo el set de test. Se predijo el valor de log(VRT) utilizando el modelo seleccionado, se lo transformó en VRT aplicando el antilogaritmo apropiado. El valor de la raiz de la media de cuadrados de los errores (RMSE) al comparar el VRT observado y el predicho fue de 1.172 cm3.

La comparacion entre VRT observado y predicho se grafica en a continuacion: