Esto es un analisis inicial de prediccion de VRT en niños sanos. Se utilizó la totalidad de datos disponibles.
Histograma:
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
Cambio a escala logaritmica para aproximar a una distribucion normal:
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
Los graficos de VRT son ahora con escala logaritmica.
## Warning: Removed 32 rows containing non-finite values (stat_smooth).
## Warning: Removed 32 rows containing non-finite values (stat_smooth).
## Warning: Removed 32 rows containing missing values (geom_point).
El peso tiene una relacion curvilinea:
Esto se corrige al transformar el peso a una escala logaritmica:
Grafico sin discriminar la edad a la que se realizó la medición:
## Warning: Removed 40 rows containing non-finite values (stat_smooth).
## Warning: Removed 40 rows containing non-finite values (stat_smooth).
## Warning: Removed 40 rows containing missing values (geom_point).
Si se divide en 4 grupos etarios
## Warning: Removed 40 rows containing non-finite values (stat_smooth).
## Warning: Removed 40 rows containing non-finite values (stat_smooth).
## Warning: Removed 40 rows containing missing values (geom_point).
Se eligio un modelo de regresion lineal multiple con variable dependiente VRT (previamente procesada con una transformacion logaritmica).
Se utilizaron los datos completos de 792. Se los dividió en forma aleatoria en 2 set para derivar y validar el modelo, con una relación 7:3.
A continuacion se realizo lo siguiente utilizando solo los datos del set para derivar:
##
## Call:
## lm(formula = I(log(VRT)) ~ . + I(log(PesoactualKg)), data = trainData)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.49523 -0.09981 -0.00869 0.10305 0.54281
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.995e+00 1.342e-01 14.862 < 2e-16 ***
## edadenmeses 1.372e-04 3.683e-04 0.372 0.709707
## EtniaOtra -1.527e-02 1.646e-02 -0.928 0.353723
## EtniaToba -1.247e-02 1.658e-02 -0.752 0.452238
## PesoalnacerGramos 2.077e-05 1.303e-05 1.594 0.111570
## SexoMasculino 6.653e-03 1.368e-02 0.486 0.626874
## PesoactualKg -3.810e-03 1.040e-03 -3.662 0.000274 ***
## Altura 6.268e-01 1.146e-01 5.470 6.87e-08 ***
## Edadgestacionalsemanas 4.060e-04 3.426e-03 0.118 0.905716
## I(log(PesoactualKg)) 5.993e-01 4.859e-02 12.335 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.1569 on 543 degrees of freedom
## Multiple R-squared: 0.9393, Adjusted R-squared: 0.9382
## F-statistic: 932.9 on 9 and 543 DF, p-value: < 2.2e-16
## Start: AIC=-2038.92
## I(log(VRT)) ~ edadenmeses + Etnia + PesoalnacerGramos + Sexo +
## PesoactualKg + Altura + Edadgestacionalsemanas + I(log(PesoactualKg))
##
## Df Sum of Sq RSS AIC
## - Etnia 2 0.0236 13.383 -2041.9
## - Edadgestacionalsemanas 1 0.0003 13.359 -2040.9
## - edadenmeses 1 0.0034 13.362 -2040.8
## - Sexo 1 0.0058 13.365 -2040.7
## <none> 13.359 -2038.9
## - PesoalnacerGramos 1 0.0625 13.421 -2038.3
## - PesoactualKg 1 0.3300 13.689 -2027.4
## - Altura 1 0.7362 14.095 -2011.2
## - I(log(PesoactualKg)) 1 3.7433 17.102 -1904.3
##
## Step: AIC=-2041.94
## I(log(VRT)) ~ edadenmeses + PesoalnacerGramos + Sexo + PesoactualKg +
## Altura + Edadgestacionalsemanas + I(log(PesoactualKg))
##
## Df Sum of Sq RSS AIC
## - Edadgestacionalsemanas 1 0.0002 13.383 -2043.9
## - edadenmeses 1 0.0038 13.386 -2043.8
## - Sexo 1 0.0066 13.389 -2043.7
## <none> 13.383 -2041.9
## - PesoalnacerGramos 1 0.0626 13.445 -2041.4
## - PesoactualKg 1 0.3285 13.711 -2030.5
## - Altura 1 0.7350 14.117 -2014.4
## - I(log(PesoactualKg)) 1 3.7412 17.124 -1907.6
##
## Step: AIC=-2043.93
## I(log(VRT)) ~ edadenmeses + PesoalnacerGramos + Sexo + PesoactualKg +
## Altura + I(log(PesoactualKg))
##
## Df Sum of Sq RSS AIC
## - edadenmeses 1 0.0037 13.386 -2045.8
## - Sexo 1 0.0066 13.389 -2045.7
## <none> 13.383 -2043.9
## - PesoalnacerGramos 1 0.0825 13.465 -2042.5
## - PesoactualKg 1 0.3287 13.711 -2032.5
## - Altura 1 0.7367 14.119 -2016.3
## - I(log(PesoactualKg)) 1 3.7423 17.125 -1909.6
##
## Step: AIC=-2045.78
## I(log(VRT)) ~ PesoalnacerGramos + Sexo + PesoactualKg + Altura +
## I(log(PesoactualKg))
##
## Df Sum of Sq RSS AIC
## - Sexo 1 0.0051 13.392 -2047.6
## <none> 13.386 -2045.8
## - PesoalnacerGramos 1 0.0791 13.466 -2044.5
## - PesoactualKg 1 0.3556 13.742 -2033.3
## - Altura 1 1.4387 14.825 -1991.3
## - I(log(PesoactualKg)) 1 4.0048 17.391 -1903.0
##
## Step: AIC=-2047.57
## I(log(VRT)) ~ PesoalnacerGramos + PesoactualKg + Altura + I(log(PesoactualKg))
##
## Df Sum of Sq RSS AIC
## <none> 13.392 -2047.6
## - PesoalnacerGramos 1 0.0798 13.471 -2046.3
## - PesoactualKg 1 0.3526 13.744 -2035.2
## - Altura 1 1.4448 14.836 -1992.9
## - I(log(PesoactualKg)) 1 4.0014 17.393 -1905.0
Se obtuvo el siguiente resultado:
##
## Call:
## lm(formula = I(log(VRT)) ~ PesoalnacerGramos + PesoactualKg +
## Altura + I(log(PesoactualKg)), data = trainData)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.48549 -0.10124 -0.00866 0.10039 0.53574
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.999e+00 6.903e-02 28.960 < 2e-16 ***
## PesoalnacerGramos 2.066e-05 1.144e-05 1.807 0.071335 .
## PesoactualKg -3.626e-03 9.546e-04 -3.798 0.000162 ***
## Altura 6.564e-01 8.536e-02 7.689 6.9e-14 ***
## I(log(PesoactualKg)) 5.922e-01 4.628e-02 12.796 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.1563 on 548 degrees of freedom
## Multiple R-squared: 0.9391, Adjusted R-squared: 0.9387
## F-statistic: 2113 on 4 and 548 DF, p-value: < 2.2e-16
La ecuación obtenida es la siguiente:
\(VRT=e^{1.999076 + 2.0661692\times 10^{-5}WT at birth + -0.003626WT +0.656385HT + 0.5921912ln(WT)}\)
## Analysis of Variance Table
##
## Model 1: I(log(VRT)) ~ edadenmeses + Etnia + PesoalnacerGramos + Sexo +
## PesoactualKg + Altura + Edadgestacionalsemanas + I(log(PesoactualKg))
## Model 2: I(log(VRT)) ~ PesoalnacerGramos + PesoactualKg + Altura + I(log(PesoactualKg))
## Res.Df RSS Df Sum of Sq F Pr(>F)
## 1 543 13.359
## 2 548 13.392 -5 -0.032644 0.2654 0.9319
Se utilizo el set de test. Se predijo el valor de log(VRT) utilizando el modelo seleccionado, se lo transformó en VRT aplicando el antilogaritmo apropiado. El valor de la raiz de la media de cuadrados de los errores (RMSE) al comparar el VRT observado y el predicho fue de 1.172 cm3.
La comparacion entre VRT observado y predicho se grafica en a continuacion: