Se realizó un estudio para describir el somatotipo de los deportistas de alto rendimiento de distintas disciplinas de un Centro de alto rendimiento chileno. Se evaluaron antropométricamente 309 deportistas de ambos sexos. Características (promedio y D.E.): Mujeres: edad 19,6 ± 4,8 años; peso, 62,1 ± 10,1 kg; estatura, 162,7 ± 12,5 cm; Hombres: edad 21,1 ± 5,9 años; peso, 78,8 ± 11,6 kg; estatura, 176,5 ± 8,3 cm. Se intenta determinar un modelo de regresión que permita estimar la edad de un deportista de alto rendimiento en función de las variables: Peso en kg, Estatura en cm y el Índice de Masa Corporal.
Sobre la base de datos “Rendimiento” de estudio se construirá un modelo de regresión lineal multivariante de la EDAD, sobre las otras tres variables, PESO, ESTATURA y IMC. Se incia con la lectura de los datos:
library(readxl)
Rendimiento <- read_excel("~/Statistics Course R/Rendimiento.xlsx")
View(Rendimiento)
attach(Rendimiento)
head(Rendimiento)
## # A tibble: 6 x 4
## EDAD PESO ESTATURA IMC
## <dbl> <dbl> <dbl> <dbl>
## 1 30.5 77.5 174. 25.7
## 2 20.3 67.6 180. 20.8
## 3 23.0 73.4 176. 23.8
## 4 19.0 99.7 184. 29.5
## 5 18.0 81.0 184. 23.9
## 6 23.0 112. 179. 34.9
Para ajustar el modelo de regresión lineal múltiple de la edad (EDAD) sobre las otras variables, se utiliza la función lm.
modelo <- lm(EDAD~PESO+ESTATURA+IMC)
summary(modelo)
##
## Call:
## lm(formula = EDAD ~ PESO + ESTATURA + IMC)
##
## Residuals:
## Min 1Q Median 3Q Max
## -6.3106 -2.8943 -0.5578 2.3913 8.6853
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 52.67007 30.21943 1.743 0.0916 .
## PESO -0.02132 0.15660 -0.136 0.8926
## ESTATURA -0.21711 0.17661 -1.229 0.2285
## IMC 0.36139 0.49662 0.728 0.4724
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.693 on 30 degrees of freedom
## Multiple R-squared: 0.1274, Adjusted R-squared: 0.04011
## F-statistic: 1.46 on 3 and 30 DF, p-value: 0.2453
Esta tabla resumen del ajuste presenta los mismos elementos que en el modelo de regresión simple. En la columna “Estimate” encontraremos los parámetros estimados del modelo: el intercepto y los coeficientes asociados a cada variable.
De acuerdo a los parámetros estimados del modelo, se puede sacar las siguientes conclusiones.
El peso de los deportistas posee en coeficiente negativo, aunque no es significativamente diferente de cero, lo cual indica que variaciones en los pesos prácticamente no es un factor determinante a la hora de estimar la edad de un deportista de alto rendimiento. Esto se puede explicar, porque existen diferentes disciplinas cuyos objetivos y actividades son completamente diferentes, en unos casos un mayor rendimiento implica un peso mayor como es el caso de los deportes de carga de peso o que necesitan reacciones explosivas, halterofilia, velocidad, judo, remo, etc., mientras que en otros casos un rendimiento alto implica un peso relativamente bajo como es el caso de los deportes de resistencia y fondo, atletismo, ciclismo, triatlón, etc.
La estatura de los deportistas presenta un coeficiente negativo que es muy ligeramente significativamente diferente de cero, lo que significa que, para deportes de alto rendimiento, un performance más bajo está relacionado con la estatura, la edad y el deporte practicado. Por ejemplo, un basquetbolista que presente estatura mayor por lo general será asociado con edades mayores en donde se ha alcanzado el máximo de estatura, y en consecuencia el rendimiento irá decayendo, sumado a la dificultad técnica que representa una estatura mayor a la hora de tener control sobre los movimientos corporales. Sin embargo, el estimador encontrado para esta variable, no es un factor muy claro para predecir la edad de un individuo.
El coeficiente del índice de masa corporal presenta un coeficiente positivo y ligeramente significativo. Por lo que un IMC mayor implica individuos con edades mayores en el entorno del alto rendimiento ya que es común que se logre adquirir una masa corporal mayor en la madurez del deportista. Esta variable es claramente un buen estimador de la edad biológica de una persona saludable, si se tiene en cuenta la relación que existe entre la práctica del deporte de alto rendimiento y el buen estado físico del cuerpo.
El valor del coeficiente de determinación es de 0.1274, que es un valor pequeño para modelos de regresión. Esto significa que el modelo lineal encontrado no realiza aportes precisos para la estimación de la edad de los deportistas.
En otras palabras, las variables de estudio no son buenos parámetros para determinar la edad de un deportista de alto rendimiento, aunque el índice de masa corporal podría ser válido. Esta característica del modelo podría explicarse debido a la gran variabilidad de deportes, cuyos requerimientos de peso y estatura son completamente diferentes para deportistas con edades similares.
Se recupera primero la matriz de diseño, para determinar el número de datos n y el número de parámetros p.
x <- model.matrix(modelo)
n <- nrow(x)
p <- ncol(x)
De aquí se obtiene que el modelo tiene 34 datos y 4 parámetros. La varianza residual y la varianza del error, que nos indican la calidad del modelo se calcula como:
deviance(modelo)
## [1] 409.0727
sigma2 <- (deviance(modelo))/(n-p)
sigma2
## [1] 13.63576
Este valor alto confirma que el modelo no permite determinar de forma precisa la edad de los deportistas.
El diagrama de dispersión del modelo se muestra a continuación:
disp <-plot(EDAD~IMC+PESO+ESTATURA, xlab="imc+peso+estatura",ylab = "edad")
disp
## NULL
fm = aov( lm(EDAD ~ IMC+ESTATURA+PESO) )
fm
## Call:
## aov(formula = lm(EDAD ~ IMC + ESTATURA + PESO))
##
## Terms:
## IMC ESTATURA PESO Residuals
## Sum of Squares 15.7221 43.7336 0.2527 409.0727
## Deg. of Freedom 1 1 1 30
##
## Residual standard error: 3.692663
## Estimated effects may be unbalanced
anova(modelo)
## Analysis of Variance Table
##
## Response: EDAD
## Df Sum Sq Mean Sq F value Pr(>F)
## PESO 1 0.16 0.156 0.0114 0.91563
## ESTATURA 1 52.33 52.332 3.8378 0.05946 .
## IMC 1 7.22 7.221 0.5296 0.47243
## Residuals 30 409.07 13.636
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Del análisis anterior se puede concluir que para las variables PESO e IMC, la respuesta de EDAD sigue una recta de regresión horizontal, ya que los valores de F son pequeños para los valores de significación dados, mientras que la variable estatura parece no seguir una recta de regresión horizontal con la salida EDAD, aunque no se podría rechazar la hipótesis nula ya que el valor de F no es muy grande.
Para hacer el análisis de hipótesis de normalidad se hace un test shapiro:
hist(fm$residuals)
Se hace el análisis con los residuos estandarizados por ser más conveniente con las varianzas.
hist(rstandard(modelo))
Finalmente se realiza el test.
shapiro.test(fm$residuals)
##
## Shapiro-Wilk normality test
##
## data: fm$residuals
## W = 0.96344, p-value = 0.3054
Para esto se utiliza la función EDA aplicada sobre cada parámetro del modelo.
EDA(IMC,trim = 0.05)
## [1] "IMC"
## Size (n) Missing Minimum 1st Qu Mean Median TrMean 3rd Qu
## 34.000 0.000 20.800 23.000 24.600 24.300 24.397 25.725
## Max. Stdev. Var. SE Mean I.Q.R. Range Kurtosis Skewness
## 34.900 2.660 7.078 0.456 2.725 14.100 4.435 1.672
## SW p-val
## 0.001
EDA(PESO,trim = 0.05)
## [1] "PESO"
## Size (n) Missing Minimum 1st Qu Mean Median TrMean 3rd Qu
## 34.000 0.000 57.900 72.000 77.612 76.700 77.162 81.125
## Max. Stdev. Var. SE Mean I.Q.R. Range Kurtosis Skewness
## 111.700 9.527 90.756 1.634 9.125 53.800 3.505 1.342
## SW p-val
## 0.001
EDA(ESTATURA,trim = 0.05)
## [1] "ESTATURA"
## Size (n) Missing Minimum 1st Qu Mean Median TrMean 3rd Qu
## 34.000 0.000 165.000 173.225 175.868 175.350 175.800 178.550
## Max. Stdev. Var. SE Mean I.Q.R. Range Kurtosis Skewness
## 188.900 4.958 24.580 0.850 5.325 23.900 0.274 0.209
## SW p-val
## 0.833
EDA(EDAD,trim = 0.05)
## [1] "EDAD"
## Size (n) Missing Minimum 1st Qu Mean Median TrMean 3rd Qu
## 34.000 0.000 16.400 18.700 21.724 21.050 21.569 24.000
## Max. Stdev. Var. SE Mean I.Q.R. Range Kurtosis Skewness
## 32.000 3.769 14.205 0.646 5.300 15.600 0.283 0.944
## SW p-val
## 0.015
En todos los casos se puede observar la variabilidad marcada en los datos, teniéndose inclusive algunos valores atípicos, con comportamientos muy sesgados.
En el caso del IMC, se puede ver que la tendencia es a valores más bajos respecto a una media de 26.6 y desviación de 2.66. Coherente con las necesidades de un deportista de alto rendimiento. Los valores atípicos en este caso, se pueden atribuir a deportes en los cuales el tamaño corporal del deportista puede implicar un IMC mayor como es el caso de judo o el levantamiento de pesas.
En el caso del PESO, de igual forma, la tendencia es a valores más bajos que la media, tomando en cuenta que un mayor porcentaje de deportes requieren resistencias más altas y por ende cuerpos más livianos. Los valores atípicos se pueden explicar con el mismo criterio del caso del IMC.
En el caso de la ESTATURA se observa un comportamiento normal alrededor de la media, se puede explicar, ya que este parámetro no es determinante a la hora de practicar uno u otro deporte, además de que los deportistas de alto rendimiento suelen mostrar estaturas mayores a la de los individuos que no practican deporte a niveles altos.