En este análisis trabajaremos con una base de datos titulada “Mediciones”, que contiene información recopilada de un grupo de trabajadores de una empresa. Esta base de datos incluye variables como edad, peso, altura, circunferencia de muñeca y bíceps, así como el sexo de cada trabajador, clasificado como masculino o femenino. Estas variables ofrecen un panorama detallado de las características físicas de los empleados.
El objetivo principal de este estudio es realizar un Análisis de Componentes Principales (PCA), una técnica estadística utilizada para reducir la dimensionalidad de los datos y descubrir patrones subyacentes. Mediante esta herramienta, transformaremos las variables originales en un conjunto de componentes principales que resumirán la mayor parte de la variabilidad de los datos. Este enfoque permitirá identificar relaciones entre las características físicas de los trabajadores, reducir la complejidad del análisis y visualizar de manera efectiva cómo se agrupan los individuos según sus atributos.
El análisis proporcionará una visión más clara de las principales características que diferencian a los trabajadores y cómo estas se relacionan entre sí. Esto podría ser de gran utilidad para estudios relacionados con ergonomía, salud ocupacional y el bienestar general en el entorno laboral.
Data <- read.csv("mediciones.csv")
Data_numerica <- Data[sapply(Data, is.numeric)]
colMeans(Data_numerica)
## edad peso altura muneca biceps
## 34.240 70.683 161.040 9.342 26.210
Los resultados de las medias de las variables numéricas ofrecen una visión general de las características físicas promedio de los trabajadores de la empresa. La edad promedio de 34.24 sugiere una población laboral adulta joven, mientras que el peso promedio de 70.683, en relación con la altura promedio de 161.04, podría ser indicativo de una relación proporcional típica para esta población, dependiendo del contexto regional o demográfico. Por otro lado, las medidas corporales como la circunferencia de la muñeca (9.342) y del bíceps (26.21) reflejan dimensiones físicas que podrían estar relacionadas con los niveles de actividad física o las exigencias laborales de este grupo.
cov(Data_numerica)
## edad peso altura muneca biceps
## edad 101.29535 143.51321 -54.583434 11.404970 59.584444
## peso 143.51321 305.26143 -62.971434 24.768802 133.946636
## altura -54.58343 -62.97143 646.389293 1.390323 -6.967374
## muneca 11.40497 24.76880 1.390323 4.024077 15.640788
## biceps 59.58444 133.94664 -6.967374 15.640788 83.843939
En los datos actuales, las varianzas son muy diferentes entre las variables, con altura y peso mostrando valores significativamente mayores (646.39 y 305.26, respectivamente) en comparación con variables como muñeca (4.02). Esto indica que variables como altura y peso presentan mayor dispersión en los datos, mientras que otras como muñeca tienen una variabilidad mucho menor. Por otro lado, las covarianzas positivas, como la observada entre peso y bíceps (133.95), sugieren relaciones esperadas entre estas variables, mientras que las covarianzas más bajas, como entre muñeca y otras variables, reflejan relaciones más débiles. Este análisis inicial permite identificar patrones en la variación conjunta de las variables que serán fundamentales para el PCA.
cov(scale(Data_numerica))
## edad peso altura muneca biceps
## edad 1.0000000 0.8161334 -0.21331383 0.56489307 0.64655027
## peso 0.8161334 1.0000000 -0.14176223 0.70670133 0.83725936
## altura -0.2133138 -0.1417622 1.00000000 0.02726061 -0.02992859
## muneca 0.5648931 0.7067013 0.02726061 1.00000000 0.85150982
## biceps 0.6465503 0.8372594 -0.02992859 0.85150982 1.00000000
En los datos estandarizados las varianzas quedan iguales y podemos ahora medir las correlaciones entre las variables.
library(stats)
pca <- prcomp(Data_numerica, scale = TRUE)
round (pca$rotation,3)
## PC1 PC2 PC3 PC4 PC5
## edad -0.470 0.192 0.671 0.467 -0.271
## peso -0.523 0.044 0.243 -0.541 0.610
## altura 0.079 -0.941 0.329 -0.006 0.000
## muneca -0.481 -0.232 -0.537 0.569 0.322
## biceps -0.517 -0.148 -0.307 -0.408 -0.671
C1 = -0.470 * Edad - 0.523 * Peso + 0.079 * Altura - 0.481 * Muñeca - 0.517 * Bíceps.
Se puede observar que las variables peso, bíceps y muñeca tienen pesos similares y negativos en este componente, mientras que la contribución de altura es mucho menor. Esto sugiere que el PC1 representa una combinación de características físicas relacionadas con medidas corporales generales.
En la segunda componente (PC2), el peso más alto se asigna a la altura (-0.941), con una contribución mucho mayor que la del resto de las variables, lo que implica que el PC2 captura principalmente la variabilidad asociada a la altura.
Los demás componentes presentan patrones más complejos. Por ejemplo, el PC3 está dominado por la edad (0.671) y recoge principalmente información asociada a la variabilidad en esta variable, mientras que en el PC4 y el PC5 las combinaciones son menos claras, lo que podría dificultar su interpretación.
head(pca$x)
## PC1 PC2 PC3 PC4 PC5
## [1,] -2.0498070 -1.2738447 0.07832705 0.2694433 0.1008672
## [2,] -2.8098837 -0.3179266 1.34243540 1.4984723 -0.7198010
## [3,] -1.9420776 -0.7509568 0.17007962 0.1159662 -0.4860263
## [4,] -0.9400527 -0.9643639 -0.22395822 0.2934861 -0.1130512
## [5,] -2.0192437 -0.2298973 0.63466114 1.2551870 -0.5349826
## [6,] -1.7409385 -1.5352554 -0.75190941 -0.2148290 0.1553897
prop_varianza <- pca$sdev^2 / sum(pca$sdev^2)
prop_varianza
## [1] 0.64642629 0.21044935 0.08874538 0.03627886 0.01810012
las proporciones de varianza explicada por cada componente principal indican cómo se distribuye la variabilidad de los datos entre las nuevas dimensiones. La primera componente principal (PC1) explica el 64.64% de la varianza observada, lo que sugiere que esta componente captura la mayor parte de la información presente en los datos. La segunda componente principal (PC2) explica un 21.04% adicional, lo que lleva el porcentaje acumulado a 85.68% si se consideran las dos primeras componentes principales.
Las siguientes componentes explican proporciones mucho menores de la varianza: la tercera componente (PC3) explica solo un 8.87%, la cuarta componente (PC4) un 3.63%, y la quinta (PC5) apenas un 1.81%.
Esto significa que, al seleccionar las dos primeras componentes principales, se logra explicar aproximadamente el 85.68% de la varianza total de los datos, lo cual es un nivel muy alto de representación. Por lo tanto, estas dos componentes serían suficientes para describir la estructura principal de los datos, permitiendo una reducción significativa de la dimensionalidad sin perder mucha información.
prop_varianza_acum <- cumsum(prop_varianza)
library(ggplot2)
ggplot(data = data.frame(prop_varianza_acum, pc = 1:5),
aes(x = pc, y = prop_varianza_acum, group = 1)) +
geom_point() +
geom_line() +
theme_bw() +
labs(
title = "Proporción de varianza explicada acumulada",
x = "Componente principal",
y = "Prop. varianza explicada acumulada"
)
pca$rotation <- -pca$rotation
pca$x <- -pca$x
biplot(pca, scale = 0, cex = 0.5, col = c("blue2","red2"))
La gráfica muestra cómo las variables y los trabajadores se distribuyen en el espacio definido por las dos primeras componentes principales (PC1 y PC2). Las variables peso, bíceps y muñeca están correlacionadas y contribuyen principalmente a PC1, mientras que altura tiene una fuerte influencia en PC2. La edad se comporta de manera independiente, con menor relación con las demás variables. Los trabajadores cercanos entre sí en el gráfico tienen patrones similares, mientras que aquellos alineados con un vector específico (como altura o peso) están más influenciados por esa característica. Esto sugiere que los trabajadores pueden agruparse en función de sus similitudes físicas, reflejando relaciones claras entre las variables y sus observaciones en los datos originales.
En este análisis, aplicamos el PCA a una base de datos de mediciones físicas de trabajadores para identificar patrones y reducir la dimensionalidad de los datos. Las dos primeras componentes principales explicaron la mayor parte de la varianza (85.68%), lo que permitió simplificar el análisis sin perder información relevante. Observamos que variables como peso, bíceps y muñeca están correlacionadas y contribuyen principalmente a PC1, mientras que la altura domina PC2 y la edad muestra un comportamiento independiente. La visualización gráfica reveló agrupaciones entre trabajadores con características similares y asociaciones claras con las variables más influyentes. Este análisis proporciona una comprensión más profunda de las relaciones entre las características físicas de los trabajadores, facilitando futuras interpretaciones y decisiones basadas en los datos.