MODELO LINEAL MULTIVARIANTE

INFORME DE RESULTADOS SOBRE DEPORTISTAS DE ALTO RENDIMIENTO

Se realizó un estudio para describir el somatotipo de los deportistas de alto rendimiento de distintas disciplinas de un Centro de alto rendimiento chileno. Se evaluaron antropométricamente 309 deportistas de ambos sexos. Características (promedio y D.E.): Mujeres: edad 19,6 ± 4,8 años; peso, 62,1 ± 10,1 kg; estatura, 162,7 ± 12,5 cm; Hombres: edad 21,1 ± 5,9 años; peso, 78,8 ± 11,6 kg; estatura, 176,5 ± 8,3 cm. Se intenta determinar un modelo de regresión que permita estimar la edad de un deportista de alto rendimiento en función de las variables: Peso en kg, Estatura en cm y el Índice de Masa Corporal.

1. Modelo lineal multivariante aplicado al problema de estudio

Sobre la base de datos “Rendimiento” de estudio se construirá un modelo de regresión lineal multivariante de la EDAD, sobre las otras tres variables, PESO, ESTATURA y IMC. Se incia con la lectura de los datos:

library(readxl)
Rendimiento <- read_excel("~/Statistics Course R/Rendimiento.xlsx")
View(Rendimiento)
attach(Rendimiento)
head(Rendimiento)
## # A tibble: 6 x 4
##    EDAD  PESO ESTATURA   IMC
##   <dbl> <dbl>    <dbl> <dbl>
## 1  30.5  77.5     174.  25.7
## 2  20.3  67.6     180.  20.8
## 3  23.0  73.4     176.  23.8
## 4  19.0  99.7     184.  29.5
## 5  18.0  81.0     184.  23.9
## 6  23.0 112.      179.  34.9

Ajuste del modelo

Para ajustar el modelo de regresión lineal múltiple de la edad (EDAD) sobre las otras variables, se utiliza la función lm.

modelo <- lm(EDAD~PESO+ESTATURA+IMC)
summary(modelo)
## 
## Call:
## lm(formula = EDAD ~ PESO + ESTATURA + IMC)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -6.3106 -2.8943 -0.5578  2.3913  8.6853 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)  
## (Intercept) 52.67007   30.21943   1.743   0.0916 .
## PESO        -0.02132    0.15660  -0.136   0.8926  
## ESTATURA    -0.21711    0.17661  -1.229   0.2285  
## IMC          0.36139    0.49662   0.728   0.4724  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.693 on 30 degrees of freedom
## Multiple R-squared:  0.1274, Adjusted R-squared:  0.04011 
## F-statistic:  1.46 on 3 and 30 DF,  p-value: 0.2453

Esta tabla resumen del ajuste presenta los mismos elementos que en el modelo de regresión simple. En la columna “Estimate” encontraremos los parámetros estimados del modelo: el intercepto y los coeficientes asociados a cada variable.

ANÁLISIS DE RESULTADOS

De acuerdo a los parámetros estimados del modelo, se puede sacar las siguientes conclusiones.

Coeficiente de determinación

El valor del coeficiente de determinación es de 0.1274, que es un valor pequeño para modelos de regresión. Esto significa que el modelo lineal encontrado no realiza aportes precisos para la estimación de la edad de los deportistas.

En otras palabras, las variables de estudio no son buenos parámetros para determinar la edad de un deportista de alto rendimiento, aunque el índice de masa corporal podría ser válido. Esta característica del modelo podría explicarse debido a la gran variabilidad de deportes, cuyos requerimientos de peso y estatura son completamente diferentes para deportistas con edades similares.

Varianza residual

Se recupera primero la matriz de diseño, para determinar el número de datos n y el número de parámetros p.

x <- model.matrix(modelo)
n <- nrow(x)
p <- ncol(x)

De aquí se obtiene que el modelo tiene 34 datos y 4 parámetros. La varianza residual y la varianza del error, que nos indican la calidad del modelo se calcula como:

deviance(modelo)
## [1] 409.0727
sigma2 <- (deviance(modelo))/(n-p)
sigma2
## [1] 13.63576

Este valor alto confirma que el modelo no permite determinar de forma precisa la edad de los deportistas.

ANALISIS ANOVA Y DE RESIDUOS

El diagrama de dispersión del modelo se muestra a continuación:

disp <-plot(EDAD~IMC+PESO+ESTATURA, xlab="imc+peso+estatura",ylab = "edad")

disp
## NULL
fm = aov( lm(EDAD ~ IMC+ESTATURA+PESO) )
fm
## Call:
##    aov(formula = lm(EDAD ~ IMC + ESTATURA + PESO))
## 
## Terms:
##                      IMC ESTATURA     PESO Residuals
## Sum of Squares   15.7221  43.7336   0.2527  409.0727
## Deg. of Freedom        1        1        1        30
## 
## Residual standard error: 3.692663
## Estimated effects may be unbalanced
anova(modelo)
## Analysis of Variance Table
## 
## Response: EDAD
##           Df Sum Sq Mean Sq F value  Pr(>F)  
## PESO       1   0.16   0.156  0.0114 0.91563  
## ESTATURA   1  52.33  52.332  3.8378 0.05946 .
## IMC        1   7.22   7.221  0.5296 0.47243  
## Residuals 30 409.07  13.636                  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Del análisis anterior se puede concluir que para las variables PESO e IMC, la respuesta de EDAD sigue una recta de regresión horizontal, ya que los valores de F son pequeños para los valores de significación dados, mientras que la variable estatura parece no seguir una recta de regresión horizontal con la salida EDAD, aunque no se podría rechazar la hipótesis nula ya que el valor de F no es muy grande.

Para hacer el análisis de hipótesis de normalidad se hace un test shapiro:

hist(fm$residuals)

Se hace el análisis con los residuos estandarizados por ser más conveniente con las varianzas.

hist(rstandard(modelo))

Finalmente se realiza el test.

shapiro.test(fm$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  fm$residuals
## W = 0.96344, p-value = 0.3054

CONCLUSIONES

ANALISIS DESCRIPTIVO

Para esto se utiliza la función EDA aplicada sobre cada parámetro del modelo.

EDA(IMC,trim = 0.05)
## [1] "IMC"

## Size (n)  Missing  Minimum   1st Qu     Mean   Median   TrMean   3rd Qu 
##   34.000    0.000   20.800   23.000   24.600   24.300   24.397   25.725 
##     Max.   Stdev.     Var.  SE Mean   I.Q.R.    Range Kurtosis Skewness 
##   34.900    2.660    7.078    0.456    2.725   14.100    4.435    1.672 
## SW p-val 
##    0.001
EDA(PESO,trim = 0.05)
## [1] "PESO"

## Size (n)  Missing  Minimum   1st Qu     Mean   Median   TrMean   3rd Qu 
##   34.000    0.000   57.900   72.000   77.612   76.700   77.162   81.125 
##     Max.   Stdev.     Var.  SE Mean   I.Q.R.    Range Kurtosis Skewness 
##  111.700    9.527   90.756    1.634    9.125   53.800    3.505    1.342 
## SW p-val 
##    0.001
EDA(ESTATURA,trim = 0.05)
## [1] "ESTATURA"

## Size (n)  Missing  Minimum   1st Qu     Mean   Median   TrMean   3rd Qu 
##   34.000    0.000  165.000  173.225  175.868  175.350  175.800  178.550 
##     Max.   Stdev.     Var.  SE Mean   I.Q.R.    Range Kurtosis Skewness 
##  188.900    4.958   24.580    0.850    5.325   23.900    0.274    0.209 
## SW p-val 
##    0.833
EDA(EDAD,trim = 0.05)
## [1] "EDAD"

## Size (n)  Missing  Minimum   1st Qu     Mean   Median   TrMean   3rd Qu 
##   34.000    0.000   16.400   18.700   21.724   21.050   21.569   24.000 
##     Max.   Stdev.     Var.  SE Mean   I.Q.R.    Range Kurtosis Skewness 
##   32.000    3.769   14.205    0.646    5.300   15.600    0.283    0.944 
## SW p-val 
##    0.015

Conclusiones del análisis descriptivo

En todos los casos se puede observar la variabilidad marcada en los datos, teniéndose inclusive algunos valores atípicos, con comportamientos muy sesgados.