Analisis de componentes Ciclomontañismo

Contexto

Tenemos los siguientes datos:

Los datos cuentan con varios NA, lo cual puede ser perjudicial para realizar comparaciones y el análisis de componentes, es por eso que se realiza una imputación con base en el teorema del límite central, el cual nos dice que la mayoría de los datos de una distribución se encuentra en el intervalo centrado en la media y más o menos tres veces la desviación estándar, por ejemplo para la columna talla tenemos 5 valores NA, realizando la imputación mostramos los valores obtenidos.

The data contain several NAs, which can be detrimental for making comparisons and component analysis. This is why imputation is performed based on the central limit theorem, which tells us that most data in a distribution falls within the interval centered on the mean plus or minus three times the standard deviation. For example, for the height column we have 5 NA values; by performing the imputation we show the obtained values.

i<-6
valores_na<-c(which(is.na(CICLOMOUNTAIN_[[i]])))
    media<-mean(CICLOMOUNTAIN_[[i]],na.rm = TRUE)
    sd<-sd(CICLOMOUNTAIN_[[i]],na.rm = TRUE)
    #aleatroios
    set.seed(123)  # Para resultados consistentes
    aleatorios<-runif(length(valores_na), -3, 3)
    signo_aleatorio <- sample(c(-1, 1), size = length(valores_na), replace = TRUE)
    valores_imputados<-c(round(media+signo_aleatorio*aleatorios*sd,2))

        colnames(CICLOMOUNTAIN_[i])
[1] "Sitting Height (cm)_Basic"
       valores_imputados
[1] 92.36 93.97 85.90 95.99

Realizamos el mismo proceso para las demas variables con faltantes, obtenemos entonces la siguiente base

Analisis descriptivo y comparativo

Para este analisis tenemos tres categorias en la variable edad, de 15 a 16 años, de 17 a 19 y de 20 a 25:


    Chi-squared test for given probabilities

data:  tablechi
X-squared = 0.28571, df = 2, p-value = 0.8669

Para el comparativo de cada variable se usó prueba de normalidad y de homogeneidad en los datos; aquellas que la cumplían se sometían a prueba ANOVA, con medida de efecto \(\eta^{2}\) para las medias y la desviación estándar; aquellas que no cumplían la prueba se compararon a partir de la prueba no paramétrica Kruskal-Wallis, la cual compara medianas. En este caso se presenta entonces la mediana y sus rangos intercuartílicos; el tamaño del efecto se midió por medio del parámetro \(e\).

For the comparison of each variable, normality and homogeneity tests were used on the data; those that met the assumptions were subjected to ANOVA test, with effect size \(\eta^{2}\) for means and standard deviation; those that did not meet the test assumptions were compared using the non-parametric Kruskal-Wallis test, which compares medians. In this case, the median and its interquartile ranges are presented; the effect size was measured using the parameter \(e\).


   15 a 16 años De 17 a 19 años De 20 a 25 años 
              8               7               6 

Tratamiento de datos

(A fin de evitar superposiciones en los graficos finales, se realizaron los procesos de correlacion de kendall y pruebas de normalidad Shapiro wilk para determinar alta correlacion y normalidad respectivamente, realizandolo grupo a gupo con tres categorias principales, categoria infantil, prejuvenil y juvenil, de la categoria de variables de ataque, se presentan a continuacion las variables depuradas

In order to avoid overlapping in the final graphs, Kendall correlation and Shapiro-Wilk normality tests were performed to determine high correlation and normality respectively, conducting them group by group across three main categories: children, pre-youth, and youth categories. The refined variables from the attack variable category are presented below.

Analisis de Componentes principales

Realizamos entonces un analisis para las variables por categoria:

Realizamos el analisis de componentes principales para establecer la relacion entre la categoria y las distintas variables.

Mostramos a continucaion la matriz rotación, que nos indica cuánto contribuye cada variable original a cada componente principal. Los valores (cargas) varían de -1 a 1, donde valores absolutos más grandes indican una mayor contribución de la variable al componente.

We performed a principal component analysis to establish the relationship between the category and the different variables.

Below we show the rotation matrix, which indicates how much each original variable contributes to each principal component. The values (loadings) range from -1 to 1, where larger absolute values indicate a greater contribution of the variable to the component.

                                   PC1        PC2
RR (/min)_AT % Pred       -0.536315950  0.1046131
RR (/min)_Warm-up         -0.464262157 -0.3218510
RR (/min)_VT1             -0.511063284  0.1344272
Sitting Height (cm)_Basic  0.003099856 -0.1229076
RR (/min)_AT % max        -0.409221397  0.2641430
Wingspan (cm)_Basic       -0.016745741 -0.4037265
Height (cm)_Basic          0.118912756  0.2802232
VE/VCO2_Warm-up           -0.099616067  0.4842628
HR (/min)_Warm-up         -0.206886387 -0.3829729
AGE (years)_Basic         -0.031975116 -0.3997757

Vemos en las primeras dos dimensiones del análisis que en PC1 las variables con mayor valor absoluto son negativas y nos habla de la capacidad respiratoria/eficiencia ventilatoria:

RR (/min)_AT % Pred: -0.536 (mayor contribución)

RR (/min)_VT1: -0.511

RR (/min)_Warm-up: -0.464

RR (/min)_AT % max: -0.409

Al ser negativos los valores, tenemos una relación inversa; es decir, que ciclistas con puntajes altos en PC1 tendrían menores frecuencias respiratorias en todos los umbrales. Esto significa que a mayor eficiencia ventilatoria, los atletas mejor adaptados requieren menos respiraciones por minuto.

Para la dimensión PC2 tenemos variables con altos valores absolutos positivos y negativos, hablándonos de biometría y características antropométricas (estatura vs. envergadura) vs respuesta al ejercicio.

Variables con mayor peso positivo:

VE/VCO2_Warm-up: 0.484

Height (cm)_Basic: 0.280

RR (/min)_AT % max: 0.264

Variables con mayor peso negativo:

Wingspan (cm)_Basic: -0.404

AGE (years)_Basic: -0.400

HR (/min)_Warm-up: -0.383

Tenemos en esta dimensión el contraste: siendo positivas, mayor estatura + mayor relación VE/VCO2 (eficiencia del intercambio gaseoso); y las negativas, mayor envergadura + mayor edad + mayor frecuencia cardíaca en calentamiento. Es decir, que a mayores valores de este eje las variables nos hablarán de buena eficiencia ventilatoria pero mayor demanda respiratoria en intensidades máximas; y los valores negativos nos hablarán sobre mayor experiencia (edad), constitución física amplia (envergadura) y mayor estrés cardiovascular en calentamiento.

Variables con baja contribución en ambos componentes (como Sitting Height) podrían considerarse menos relevantes para diferenciar entre ciclistas.

We see in the first two dimensions of the analysis that in PC1 the variables with the highest absolute value are negative and it tells us about respiratory capacity/ventilatory efficiency:

RR (/min)_AT % Pred: -0.536 (highest contribution)

RR (/min)_VT1: -0.511

RR (/min)_Warm-up: -0.464

RR (/min)_AT % max: -0.409

Since the values are negative, we have an inverse relationship; that is, cyclists with high scores in PC1 would have lower respiratory frequencies at all thresholds. This means that with higher ventilatory efficiency, the better adapted athletes require fewer breaths per minute.

For the PC2 dimension we have variables with high positive and negative absolute values, telling us about biometrics and anthropometric characteristics (height vs. wingspan) vs exercise response.

Variables with highest positive weight:

VE/VCO2_Warm-up: 0.484

Height (cm)_Basic: 0.280

RR (/min)_AT % max: 0.264

Variables with highest negative weight:

Wingspan (cm)_Basic: -0.404

AGE (years)_Basic: -0.400

HR (/min)_Warm-up: -0.383

We have in this dimension the contrast: positive values indicate greater height + higher VE/VCO2 ratio (efficiency of gas exchange); and negative values indicate greater wingspan + older age + higher heart rate during warm-up. That is, at higher values of this axis the variables will indicate good ventilatory efficiency but greater respiratory demand at maximum intensities; and negative values will indicate greater experience (age), broader physical constitution (wingspan) and greater cardiovascular stress during warm-up.

Variables with low contribution in both components (such as Sitting Height) could be considered less relevant for differentiating between cyclists.

                            PC1      PC2
Standard deviation     1.765075 1.434247
Proportion of Variance 0.311550 0.205710
Cumulative Proportion  0.311550 0.517260

La gráfica de Brand nos muestra cómo en las primeras dos dimensiones está resumido el 52% de la varianza acumulada; además, la dimensión uno tiene el 31.15% de explicación y la dimensión dos el 20.57%.

The Brand graph shows that the first two dimensions account for 52% of the cumulative variance; with dimension one explaining 31.15% and dimension two 20.57%.

Analisis Grafico

A partir de las dimensiones halladas, establecemos entonces las interpretaciones de los cuatro cuadrantes que se forman:

Esquina superior-izquierda (PC1-, PC2+): Alta eficiencia respiratoria + buen intercambio gaseoso + estatura alta

Esquina superior-derecha (PC1+, PC2+): Baja eficiencia respiratoria + buen intercambio gaseoso + estatura alta

Esquina inferior-izquierda (PC1-, PC2-): Alta eficiencia respiratoria + mayor edad/envergadura + mayor FC en calentamiento

Esquina inferior-derecha (PC1+, PC2-): Baja eficiencia respiratoria + mayor edad/envergadura + mayor FC en calentamiento

Based on the identified dimensions, we then establish the interpretations of the four quadrants that are formed:

Upper-left corner (PC1-, PC2+): High respiratory efficiency + good gas exchange + tall height

Upper-right corner (PC1+, PC2+): Low respiratory efficiency + good gas exchange + tall height

Lower-left corner (PC1-, PC2-): High respiratory efficiency + older age/wingspan + higher HR during warm-up

Lower-right corner (PC1+, PC2-): Low respiratory efficiency + older age/wingspan + higher HR during warm-up

Vemos las variables Wingspan (cm)_Basic, RR y Age en el tercer cuadrante, lo que indica que estas variables se encuentran en una baja eficiencia respiratoria y mayor FC en el calentamiento. Vemos las variables Height y WCO2 asociadas en el cuarto cuadrante, lo que indica que estas variables están en una alta eficiencia respiratoria, mayor FC y mayor edad. Por lo demás, no se ve un grupo asociado a un conjunto de variables, lo que nos hace pensar que las mediciones entre cada deportista varían y tienden a ser independientes.

We see the variables Wingspan (cm)_Basic, RR and Age in the third quadrant, which indicates that these variables are associated with low respiratory efficiency and higher HR during warm-up. We see the variables Height and WCO2 associated in the fourth quadrant, which indicates that these variables are associated with high respiratory efficiency, higher HR and older age. Otherwise, no group associated with a set of variables is observed, which leads us to think that the measurements among each athlete vary and tend to be independent.

En esta gráfica podemos ver que las variables que tienen vectores más largos son aquellas que están mejor representadas; incluyen: variables respiratorias (RR) que dominan PC1 y variables de biometría que dominan PC2.

This graph shows that variables with longer vectors are better represented, including respiratory variables (RR) dominating PC1 and biometric variables dominating PC2.