Análisis de Componentes Principales por categoria

Contexto

Tenemos los siguientes datos:

para las posiciones tenemos la siguiente distribucion:


    Chi-squared test for given probabilities

data:  tablechi
X-squared = 1.7941, df = 2, p-value = 0.4078

Se realizo prueba chi cuadrado para verificar diferencias significativas en las frecuencias de categorias, con un valor p mayorr que 0.05, lo que indica no que existen diferencias.

A chi-square test was performed to verify significant differences in category frequencies, resulting in a p-value greater than 0.05, which indicates that no significant differences were found. ## Tratamiento de datos

(A fin de evitar superposiciones en los graficos finales, se realizaron los procesos de correlacion de kendall y pruebas de normalidad Shapiro wilk para determinar alta correlacion y normalidad respectivamente, realizandolo grupo a gupo con tres categorias principales, categoria infantil, prejuvenil y juvenil, de la categoria de variables de ataque, se presentan a continuacion las variables depuradas

In order to avoid overlapping in the final graphs, Kendall correlation and Shapiro-Wilk normality tests were performed to determine high correlation and normality respectively, conducting them group by group across three main categories: children, pre-youth, and youth categories. The refined variables from the attack variable category are presented below.

Analisis de Componentes principales

Realizamos entonces un analisis para las variables por categoria:

Realizamos el analisis de componentes principales para establecer la relacion entre la categoria y las distintas variables.

Mostramos a continucaion la matriz rotación, que nos indica cuánto contribuye cada variable original a cada componente principal. Los valores (cargas) varían de -1 a 1, donde valores absolutos más grandes indican una mayor contribución de la variable al componente.

We performed a principal component analysis to establish the relationship between the category and the different variables.

Below we show the rotation matrix, which indicates how much each original variable contributes to each principal component. The values (loadings) range from -1 to 1, where larger absolute values indicate a greater contribution of the variable to the component.

                                 PC1         PC2
Waist/hip ratio          -0.01830947 -0.03614273
Cormic index             -0.16737100 -0.16376338
Angle (°)               -0.03101572 -0.06125952
Total                     0.25190101  0.08144984
Contact time              0.40154975 -0.19937303
Average speed (km/h)_    -0.39758641  0.16465594
Leg length (cm)           0.20563338  0.42331643
Total time (s)_           0.45788518 -0.23784661
Contact time (ms)         0.21835523  0.21874129
Residual mass %           0.02312555  0.39892004
Muscle percentage        -0.01414816 -0.11115199
Bi-styloid diameter (mm)  0.11144740  0.21223402
Split 1 - 5 meters        0.20204190  0.13830400
COD deficit               0.41952789 -0.22399329
Residual mass kg          0.06792116  0.49051635
Arm span (cm)             0.23173731  0.29080781
Importance of components:
                         PC1   PC2       PC3
Standard deviation     3.175 2.433 2.398e-16
Proportion of Variance 0.630 0.370 0.000e+00
Cumulative Proportion  0.630 1.000 1.000e+00

Interpretación de PC1 y PC2 La primera dimension PC1 explica el 63% de la varianza total de los datos, es decir es la componente más importante. PC2 explica el 37% de la varianza total.

Juntas, PC1 y PC2 capturan el 100% de la varianza de los datos (según la proporción acumulada), lo que indica que estas dos componentes resumen completamente la información de las variables originales en este caso.

PC1: Componente de Rendimiento de Movimiento o Eficiencia, está dominada por variables relacionadas con el rendimiento físico, la velocidad y el tiempo de movimiento. Las cargas más altas (en valor absoluto) en PC1 son:

Total time (s): 0.458 (carga positiva alta)

COD deficit: 0.420 (carga positiva alta)

Contact time: 0.402 (carga positiva alta)

Average speed (km/h): -0.398 (carga negativa alta)

Los valores altos de PC1 con cargas positivas ( tiempo total, déficit de cambio de dirección y tiempo de contacto) se asocian con un mayor tiempo es decir mas ineficiencia en el movimiento(más tiempo en completar tareas, mayor déficit en cambios de dirección).

La variable Average speed tiene una carga negativa, inversa, es decir a mayor PC1, menor velocidad promedio.

PC2: Componente de Tamaño Corporal o Dimensiones Antropométricas está dominada por variables relacionadas con la morfología corporal, como la longitud de las extremidades y la masa residual. Las cargas más altas en PC2 son:

Residual mass kg: 0.491 (carga positiva alta)

Leg length (cm): 0.423 (carga positiva alta)

Residual mass %: 0.399 (carga positiva alta)

Arm span (cm): 0.291 (carga positiva moderada)

Las cargas positivas en variables como longitud de la pierna, masa residual (en kg y porcentaje) y envergadura del brazo sugieren que PC2 representa el tamaño corporal o dimensiones antropométricas se asocian con jugadoras de piernas más largas, mayor masa residual y envergadura mayor.

Interpretation of PC1 and PC2 The first dimension, PC1, explains 63% of the total variance in the data, making it the most important component.

PC2 explains 37% of the total variance.

Together, PC1 and PC2 capture 100% of the data variance (according to the cumulative proportion), indicating that these two components completely summarize the information from the original variables in this case.

PC1: Movement Performance or Efficiency Component This component is dominated by variables related to physical performance, speed, and movement time. The highest loadings (in absolute value) on PC1 are:

Total time (s): 0.458 (high positive loading)

COD deficit: 0.420 (high positive loading)

Contact time: 0.402 (high positive loading)

Average speed (km/h): -0.398 (high negative loading)

Interpretation:

High values of PC1 with positive loadings (total time, change of direction deficit, contact time) are associated with longer durations, indicating greater inefficiency in movement (more time to complete tasks, higher deficit in direction changes).

The Average speed variable has a negative (inverse) loading, meaning that higher PC1 values correspond to lower average speed.

PC2: Body Size or Anthropometric Dimensions Component This component is dominated by variables related to body morphology, such as limb length and residual mass. The highest loadings on PC2 are:

Residual mass kg: 0.491 (high positive loading)

Leg length (cm): 0.423 (high positive loading)

Residual mass %: 0.399 (high positive loading)

Arm span (cm): 0.291 (moderate positive loading)

Interpretation:

Positive loadings on variables like leg length, residual mass (in kg and percentage), and arm span suggest that PC2 represents body size or anthropometric dimensions. These are associated with players who have longer legs, greater residual mass, and larger arm span.

La grafica de brand, nos indica que la varianza de la primea componente es de 63% y la segunda de 37%.

The scree plot indicates that the variance of the first component is 63% and the second is 37%.

El PCA por categoría indica que en la categoría U13 se observan valores de puntos más bajos en el eje antropométrico (Y) y tiempos bajos en el eje de rendimiento (X). En la categoría U17, estos valores son generalmente más altos en el eje antropométrico y presentan tiempos mayores (lo que indica menor velocidad). Finalmente, en la categoría U15 se registran los valores con los niveles antropométricos más altos, pero acompañados de mayores tiempos y, en consecuencia, menor velocidad en la medición de dichas variables.

The PCA by category shows that the U13 category exhibits lower scores on the anthropometric axis (Y) and shorter times on the performance axis (X). In the U17 category, these values are generally higher on the anthropometric axis and show longer times (indicating lower speed). Finally, the U15 category records the highest anthropometric levels, but these are accompanied by longer times and consequently lower speed in the measurement of these variables.

El gráfico de biplot indica que la variable Cormic index, cuando presenta valores antropométricos más altos, se asocia con mayores tiempos. La categoría U17 también muestra este comportamiento. La categoría con mejor rendimiento en este caso es la U13, ya que sus tiempos son bajos, aunque su nivel antropométrico es alto, la categoria U15, tiene los niveles antropometricos mas bajos, aunque tiene mejores tiempos que la categoria U17.

The biplot graph indicates that the variable Cormic index, when showing higher anthropometric values, is associated with longer times. The U17 category also exhibits this behavior. The category with the best performance in this case is U13, as their times are short despite their high anthropometric level. The U15 category has the lowest anthropometric levels, yet shows better times than the U17 category.

  1. Ejes y Varianza Explicada Dim1 (Eje X): Explica el 22.5% de la varianza total

Dim2 (Eje Y): Explica el 13.2% de la varianza total

Total: Ambos ejes explican 35.7% de la varianza total

  1. Flechas/Vectores (Variables) Cada flecha representa una variable del análisis. Su posición e dirección indican:

Dirección: Variables que apuntan en direcciones similares están positivamente correlacionadas

Direcciones opuestas: Variables con flechas en sentido contrario están negativamente correlacionadas

Ángulo de 90°: Variables no correlacionadas

  1. Longitud de las Flechas Flechas largas: Variables bien representadas en este plano 2D

Flechas cortas: Variables pobremente representadas en estas dos dimensiones

  1. Colores (Cos2 - Calidad de Representación) La escala de color indica qué tan bien está representada cada variable:

Interpretación Práctica: Relaciones entre Variables: Las variables que forman grupos compactos con flechas cercanas están altamente correlacionadas

Las variables en cuadrantes opuestos tienen correlación negativa

Las variables perpendiculares no están relacionadas

Ejemplo de Interpretación: Si vieras que:

Variables de “peso” y “altura” están juntas en el cuadrante superior derecho → Están correlacionadas positivamente

Variables de “velocidad” en el cuadrante opuesto → Están negativamente correlacionadas con peso/altura

Limitaciones: Solo representa 35.7% de la varianza total, por lo que puede haber información importante en otras dimensiones no mostradas

  1. Axes and Explained Variance Dim1 (X-axis): Explains 22.5% of the total variance

Dim2 (Y-axis): Explains 13.2% of the total variance

Total: Both axes together explain 35.7% of the total variance

  1. Arrows/Vectors (Variables) Each arrow represents a variable in the analysis. Their position and direction indicate:

Direction: Variables pointing in similar directions are positively correlated

Opposite directions: Variables with arrows pointing in opposite directions are negatively correlated

90° angle: Variables are not correlated

  1. Arrow Length Long arrows: Variables well represented in this 2D plane

Short arrows: Variables poorly represented in these two dimensions

  1. Colors (Cos² - Quality of Representation) The color scale indicates how well each variable is represented:

Practical Interpretation: Relationships Between Variables: Variables forming compact groups with nearby arrows are highly correlated

Variables in opposite quadrants have negative correlation

Perpendicular variables are not related

Interpretation Example: If you observe that:

“Weight” and “height” variables are grouped together in the upper right quadrant → They are positively correlated

“Speed” variables in the opposite quadrant → They are negatively correlated with weight/height

Limitations: The plot represents only 35.7% of the total variance, so there may be important information in other dimensions not shown

Key Refinements: Structure: Organized with clear headings and bullet points for better readability

Terminology: Used standard statistical terms (“positively correlated”, “explained variance”)

Clarity: Maintained parallel structure in lists and consistent formatting

Precision: Kept technical accuracy while making the content accessible

Completeness: Ensured all original concepts were preserved and clearly expressed

This version maintains all the original analytical content while presenting it in a clear, professional English format suitable for academic or technical reporting.

Analisis descriptivo

Se realizó analisis ANOVA para cada una de las variables, comparando entre las tres categorias, se midio el efecto por medio del parametro Eta cuadrado

An ANOVA was performed for each variable, comparing the three categories, with the effect size measured using the Eta squared parameter.

Los resultados de las distintas pruebas realizadas a las futbolistas según sus categorias se presentan como media y desviación típica (DE). La normalidad y homocedasticidad de los datos se confirmaron mediante la prueba de Shapiro-Wilk, cuyos resultados mostraron que los datos no seguían una distribución normal. Las diferencias entre las distintas pruebas entre atacantes y defensores se analizaron mediante la prueba ANOVA. Se establecieron los siguientes valores p (* p < 0,05). Los tamaños del efecto se obtuvieron mediante el coeficiente Eta cuadrado. La interpretación de \(\eta^{2}\): \(\eta^{2}\) cercano a 0 indica que no hay diferencia significativa entre los grupos; \(\eta^{2}\) cercano a 1 indica que hay diferencia entre las categorias para la variable en cuestion . Luego, para identificar el perfil de cada variable en las tres categorias, se utilizó el análisis de componentes principales (PCA). Las variables fueron escaladas y centradas (puntuación Z). Para definir el parámetro estadístico del PCA, se utilizó el determinante de la matriz de correlación de Kendall. En donde se obtuvo un valor cercano a 0, indicando una alta multicolinealidad y sugieriendo que variables presentan relaciones lineales significativas, con la mayor parte de la variabilidad de los datos concentrada en las dos primeras dimensiones. Se consideraron valores propios > 1 para la extracción de los componentes principales. Se aplicó un método de rotación ortogonal Varimax para identificar la alta correlación de los componentes y garantizar que cada componente principal proporcionara información diferente. Se mantuvo un umbral de 0,5 para cada carga de PC para su interpretación. Se adjuntaron los valores asignados a cada observación de todas las futbolistas y las 90 variables cuantitativas. Todos los análisis se realizaron con el software RStudio R version 4.5.0 (2025-04-11 ucrt)

The results of the various tests performed on female soccer players across different categories are presented as mean and standard deviation (SD). Data normality and homoscedasticity were assessed using the Shapiro-Wilk test, which indicated that the data did not follow a normal distribution. Differences in various tests between attackers and defenders were analyzed using ANOVA. The following p-values were established (* p < 0.05). Effect sizes were calculated using the Eta squared coefficient. Interpretation of \(\eta^{2}\):\(\eta^{2}\) close to 0 indicates no significant difference between groups; η² close to 1 indicates significant differences between categories for the given variable. To identify the profile of each variable across the three categories, principal component analysis (PCA) was employed. Variables were scaled and centered (Z-score). The determinant of the Kendall correlation matrix was used as the statistical parameter for PCA, yielding a value close to 0, indicating high multicollinearity and suggesting significant linear relationships among variables, with most data variability concentrated in the first two dimensions. Eigenvalues > 1 were considered for principal component extraction. A Varimax orthogonal rotation method was applied to identify high component correlations and ensure each principal component provided distinct information. A threshold of 0.5 was maintained for each PC loading for interpretation. Assigned values for all observations of female soccer players and the 90 quantitative variables are included. All analyses were conducted using RStudio software R version 4.5.0 (2025-04-11 ucrt).