En la primera etapa del estudio se realizarán cálculos, visualizaciones y un análisis detallado del conjunto de datos clínicos, el cual se describirá en la sección 1.2. Esta fase se enfocará desde la estadística descriptiva multivariante, con el fin de ofrecer una visión general del dataset y, al mismo tiempo, examinar de manera más profunda las relaciones entre las variables. Este enfoque permitirá identificar patrones y tendencias importantes dentro de los datos. Las visualizaciones serán fundamentales para mostrar gráficamente estas relaciones, proporcionando una forma clara y comprensible de explorarlas. Todas estas tareas se desarrollarán utilizando R y RStudio, herramientas que facilitarán la ejecución precisa de los análisis y la elaboración de gráficos interactivos para una interpretación más completa de los resultados.
El objetivo de este proyecto es aplicar técnicas de análisis multivariado al conjunto de datos aprobado, el cual contiene registros clínicos de la empresa oftalmológica, Visión 2020. La finalidad es organizar y procesar la información de manera eficiente, fortaleciendo las competencias en gestión y análisis de datos. Este trabajo se desarrolla en el marco del curso Gestión de Datos, orientado al programa de Ingenieria Industrial, en el segundo periodo de 2025 en la Universidad del Valle, Seccional Zarzal.
El conjunto de datos utilizado en este estudio fue proporcionado por la empresa del sector oftalmológico Vision 2020, a partir de los registros de pacientes atendidos en una óptica durante el año 2024. La información original fue entregada en un archivo plano, con 1249 registros y posteriormente sometida a un proceso de extracción, transformación y carga (ETL), en el cual se depuraron inconsistencias, se normalizaron formatos y se generaron variables derivadas para facilitar el análisis estadístico. El objetivo de este conjunto es caracterizar el perfil visual y de hábitos de uso de pantallas de los pacientes, así como su posible relación con factores demográficos y antecedentes familiares.
Tras el proceso ETL se consolidó una base con 1166 registros (uno por paciente) y 13 variables, que combinan aspectos de identificación, sociodemográficos, clínico‑visuales y de estilo de vida. Las variables se describen a continuación en el orden en que aparecen en la base de datos, indicando su tipo y escala de medición mediante la notación (tipo_de_variable::escala_de_medición[ordenamiento]).
Pac_id (cuantitativa::nominal): Identificador numérico secuencial que asigna un código único a cada paciente. Permite referenciar los registros sin revelar datos personales y no tiene interpretación métrica por sí mismo.
Edad_paciente (cuantitativa::razón): Edad del paciente expresada en años cumplidos al momento del registro. Es una variable de razón, con cero absoluto y posibilidad de realizar comparaciones de proporciones de edad.
Ocupacion (cualitativa::nominal): Profesión u oficio principal del paciente (por ejemplo, estudiante, administrativo, operario, independiente, entre otros). Se utiliza para caracterizar el tipo de actividad diaria, especialmente en términos de exposición potencial a pantallas.
Canal_difusion (cualitativa::nominal): Medio por el cual el paciente conoció la óptica (referido, redes sociales, volante, paso por el local, convenio, etc.). Esta variable permite identificar los canales de captación más frecuentes dentro de la población atendida.
Fecha_registro (cualitativa::ordinal[tiempo]): Fecha en la que el paciente fue registrado en el sistema, expresada como día/mes/año. Aunque se almacena como texto o fecha calendario, su escala es ordinal en el tiempo y se usa para ubicar la atención dentro del periodo de estudio.
Pac_sexo (cualitativa::nominal): Sexo del paciente, registrado típicamente como “Femenino” o “Masculino”. Esta variable se emplea para comparar patrones de agudeza visual y hábitos de pantalla entre grupos.
Rango_etareo (cualitativa::ordinal): Clasificación del paciente en grupos de edad (por ejemplo, ADOLESCENTE, JOVEN_ADULTO, ADULTO, ADULTO_MAYOR), construida a partir de la variable edad_paciente. Presenta un orden natural de los grupos, lo que permite análisis por categorías etarias.
Agudeza_visual_OD (cuantitativa::razón): Medida de la agudeza visual del ojo derecho, expresada en la escala establecida por la óptica (por ejemplo, conversión a una métrica continua compatible con la práctica clínica). Valores más cercanos a la referencia de visión normal indican mejor agudeza, mientras que valores que se alejan de dicho estándar representan mayor compromiso visual.
Agudeza_visual_OI (cuantitativa::razón): Análoga a la anterior, pero para el ojo izquierdo. Junto con la agudeza del ojo derecho, permite evaluar la simetría o diferencias entre ambos ojos y constituye una de las variables clínicas centrales del estudio.
Horas_pantalla_dia (cuantitativa::razón): Número de horas promedio que el paciente pasa diariamente frente a dispositivos con pantalla (computador, teléfono inteligente, tableta, televisión, consola, etc.). Es una medida continua de exposición y se considera un potencial factor de riesgo asociado a fatiga visual y otras molestias oculares.
Horas_actividadf (cuantitativa::razón): Horas promedio de actividad física que el paciente realiza al día (o en promedio diario a partir de la semana), incluyendo ejercicio estructurado y actividades recreativas. Esta variable permite explorar si un estilo de vida más activo se relaciona con mejores indicadores visuales o con menor exposición a pantallas.
Hobby_principal_pantalla (cualitativa::nominal): Indica si el pasatiempo principal del paciente implica uso intensivo de pantallas (por ejemplo, videojuegos, redes sociales, series en streaming) o no. Se codifica típicamente como “sí” o “no” y se usa para diferenciar hobbies digitales de actividades analógicas o al aire libre.
Predisposicion_genetica (cualitativa::nominal): Señala si el paciente reporta antecedentes familiares de problemas oftalmológicos relevantes (miopía alta, glaucoma, degeneración macular, entre otros). Se registra como “sí” o “no” y funciona como aproximación a un factor de riesgo genético.
Durante el proceso de depuración se verificó la coherencia de rangos (por ejemplo, edades no negativas, horas de pantalla y actividad física dentro de intervalos plausibles, valores de agudeza visual dentro de los límites aceptados por la escala utilizada). Los valores faltantes o claramente atípicos fueron revisados caso a caso; en los casos en que no fue posible recuperar información confiable, se recurrió a estrategias de imputación o exclusión controlada, documentadas en el flujo ETL. A partir de este conjunto depurado, se desarrollan las fases posteriores del análisis multivariado, centradas en la relación entre agudeza visual, hábitos de pantalla, actividad física y factores demográficos y genéticos.
str(conjunto_de_datos_vision2020_Original)
## tibble [1,166 × 22] (S3: tbl_df/tbl/data.frame)
## $ pac_id : num [1:1166] 1 2 4 5 6 7 8 9 10 11 ...
## $ pac_carnet : num [1:1166] 0 0 0 0 0 1 1 1 1 1 ...
## $ nombre : chr [1:1166] "HECTOR GUSTAVO" "LUISA MARIA" "YOLANDA DEL SOCORRO" "MARIA GLADIS" ...
## $ apellido : chr [1:1166] "CUERVO" "TORO CORDOBA" "SANCHEZ" "TORO CORDOBA" ...
## $ edad : num [1:1166] 29 25 55 56 35 37 1 29 41 75 ...
## $ ocupacion : chr [1:1166] "admin" "Asesor Comercial" "OTRO" "OTRO" ...
## $ canal_difusion : chr [1:1166] "Convenio" "Usuario óptica" "Paso por la óptica" "Usuario óptica" ...
## $ fecha_registro : POSIXct[1:1166], format: "2024-05-20" "2024-05-24" ...
## $ pac_sexo : chr [1:1166] "Masculino" "Femenino" "Femenino" "Femenino" ...
## $ pac_vincula : chr [1:1166] "No registra" "No registra" "No registra" "No registra" ...
## $ tipo_afiliciacion : chr [1:1166] "No registra" "Particular" "Particular" "Particular" ...
## $ pac_observa : chr [1:1166] NA NA NA "Ninguna" ...
## $ rango_etareo : chr [1:1166] "ADULTO" "JÓVENES" "ADULTO" "ADULTO" ...
## $ pac_cond_disc : num [1:1166] 0 0 2 0 2 0 0 0 0 0 ...
## $ tipo_regimen : num [1:1166] 2 2 2 2 2 2 2 2 2 2 ...
## $ Agudeza_visual_OD : logi [1:1166] NA NA NA NA NA NA ...
## $ Agudeza_visual_OI2 : logi [1:1166] NA NA NA NA NA NA ...
## $ Error_refractivo_total_D: logi [1:1166] NA NA NA NA NA NA ...
## $ Horas_pantalla_dia : logi [1:1166] NA NA NA NA NA NA ...
## $ Horas_aire_libre_semana : logi [1:1166] NA NA NA NA NA NA ...
## $ Hobby_principal : logi [1:1166] NA NA NA NA NA NA ...
## $ Predisposicion_genetica : logi [1:1166] NA NA NA NA NA NA ...
str(ccd_vision2020_ETL)
## tibble [1,166 × 13] (S3: tbl_df/tbl/data.frame)
## $ pac_id : num [1:1166] 1 1043 1161 300 6 ...
## $ edad_paciente : num [1:1166] 29 35 8 28 35 65 29 63 41 22 ...
## $ ocupacion : chr [1:1166] "admin" "OTRO" "OTRO" "OTRO" ...
## $ canal_difusion : chr [1:1166] "Convenio" "Usuario óptica" "Usuario óptica" "Usuario óptica" ...
## $ fecha_registro : POSIXct[1:1166], format: "2024-05-20" "2025-03-15" ...
## $ pac_sexo : chr [1:1166] "Masculino" "Femenino" "Femenino" "Femenino" ...
## $ rango_etareo : chr [1:1166] "ADULTO" "ADULTO" "NIÑEZ" "ADULTO" ...
## $ Agudeza_visual_OD : num [1:1166] 0.847 0.102 0.102 0.103 0.404 ...
## $ Agudeza_visual_OI : num [1:1166] 0.488 0.26 0.409 0.271 0.974 ...
## $ Horas_pd : num [1:1166] 5.82 6.92 6.23 1.7 3.07 9.79 8.57 1.27 1.22 4.25 ...
## $ Horas_af : num [1:1166] 5 9 5 8 7 7 5 7 1 2 ...
## $ Hobby_principal_pantalla: chr [1:1166] "si" "no" "no" "si" ...
## $ Predisposicion_genetica : chr [1:1166] "si" "no" "no" "no" ...
El vector de medias y la matriz de varianzas‑covarianzas permiten describir de forma conjunta el nivel típico, la dispersión y las relaciones lineales entre las variables métricas registradas para los pacientes de la óptica. En este estudio se consideran como variables aleatorias cuantitativas: edad_paciente, Agudeza_visual_OD, Agudeza_visual_OI, Horas_pantalla_dia y Horas_af. El vector de medias resume, para cada una de estas variables, el valor promedio observado en la muestra, de modo que sirve como referencia del “perfil medio” de los pacientes en términos de edad, condición visual y hábitos de uso de pantallas y de actividad física. La matriz de varianzas‑covarianzas, por su parte, cuantifica en su diagonal principal la variabilidad individual de cada variable alrededor de su media, mientras que en las posiciones fuera de la diagonal recoge las covarianzas entre pares de variables, las cuales describen la intensidad y el sentido de sus relaciones lineales.
Trabajar simultáneamente con el vector de medias y la matriz de varianzas‑covarianzas resulta esencial en el análisis multivariado porque permite capturar, en un solo objeto matemático, tanto la tendencia central como las interdependencias entre las variables de interés. A partir de estas estimaciones es posible derivar la matriz de correlaciones, que normaliza las covarianzas y facilita comparar la fuerza de asociación entre variables medidas en escalas diferentes, como las horas frente a pantallas y las medidas de agudeza visual. Estos elementos constituyen la base para los procedimientos posteriores de análisis de componentes principales, conglomerados y modelos de regresión.
apply(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)], 2, mean)
## edad_paciente Agudeza_visual_OD Agudeza_visual_OI Horas_pd
## 38.7178388 0.5367784 0.5662855 4.9418525
## Horas_af
## 5.4631218
ccd_vision2020_ETL_Reducido = ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)]
nombres_boxplots <- c("edad_paciente", "Agudeza_visual_OD", "Agudeza_visual_OI", "Horas_pd", "Horas_af")
par(mfrow = c(1, ncol(ccd_vision2020_ETL_Reducido)))
invisible(lapply(1:ncol(ccd_vision2020_ETL_Reducido), function(i) {
boxplot(ccd_vision2020_ETL_Reducido[, i],
main = nombres_boxplots[i])}))
round(cov(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)]),2)
## edad_paciente Agudeza_visual_OD Agudeza_visual_OI Horas_pd
## edad_paciente 502.21 -0.28 -0.14 2.86
## Agudeza_visual_OD -0.28 0.07 0.00 -0.02
## Agudeza_visual_OI -0.14 0.00 0.07 -0.05
## Horas_pd 2.86 -0.02 -0.05 8.08
## Horas_af -0.55 -0.03 0.00 0.05
## Horas_af
## edad_paciente -0.55
## Agudeza_visual_OD -0.03
## Agudeza_visual_OI 0.00
## Horas_pd 0.05
## Horas_af 8.31
round(cor(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)]),3)
## edad_paciente Agudeza_visual_OD Agudeza_visual_OI Horas_pd
## edad_paciente 1.000 -0.048 -0.024 0.045
## Agudeza_visual_OD -0.048 1.000 0.029 -0.020
## Agudeza_visual_OI -0.024 0.029 1.000 -0.073
## Horas_pd 0.045 -0.020 -0.073 1.000
## Horas_af -0.009 -0.042 -0.005 0.006
## Horas_af
## edad_paciente -0.009
## Agudeza_visual_OD -0.042
## Agudeza_visual_OI -0.005
## Horas_pd 0.006
## Horas_af 1.000
El vector de medias y la matriz de varianzas-covarianzas conforman un conjunto de herramientas fundamentales para describir el comportamiento posicional, dispersivo y correlacional de las variables aleatorias en un conjunto de datos. Estas medidas son esenciales en el análisis multivariado, porque permiten capturar tanto la tendencia central como las interdependencias entre las variables.
En esta sección se presenta el cálculo e interpretación de tres objetos fundamentales: Vector de Medias \(\bar x\) , Matriz de Varianzas-Covarianzas \(S\) y Matriz de Correlaciones \(R\)., construidos a partir de las variables edad_paciente, Agudeza_visual_OD, Agudeza_visual_OI, Horas_pantalla_dia y Horas_af. La pestaña correspondiente al vector de medias y a los boxplots univariantes permite describir el comportamiento posicional y dispersivo de cada variable. En términos generales, se observa si la distribución de la edad de los pacientes se aproxima a una forma aproximadamente simétrica o si presenta sesgos hacia edades más jóvenes o más avanzadas, así como el rango típico de horas diarias frente a pantallas y de actividad física. De igual manera, los diagramas de caja de las agudezas visuales del ojo derecho e izquierdo permiten detectar la presencia de valores extremos y comparar, de forma visual, posibles diferencias entre ambos ojos.
A partir de la matriz de varianzas‑covarianzas y de la matriz de correlaciones se examinan las relaciones lineales entre las variables métricas. La inspección de los coeficientes de correlación permite identificar, por ejemplo, si existe una asociación apreciable entre el tiempo de exposición diaria a pantallas y la agudeza visual, o entre la edad y la cantidad de horas de actividad física. Valores de correlación cercanos a cero indican relaciones lineales débiles o inexistentes, lo que sugiere que las variables son relativamente independientes desde el punto de vista lineal; por el contrario, coeficientes alejados de cero señalan asociaciones que pueden ser clínicamente relevantes y que conviene explorar en mayor detalle en fases posteriores del análisis. En conjunto, estos resultados proporcionan una primera aproximación a la estructura interna del conjunto de datos y orientan la selección de técnicas multivariantes apropiadas para las siguientes secciones.
ggpairs(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)])
ccd_vision2020_ETL$rango_etareo <- factor(ccd_vision2020_ETL$rango_etareo)
levels= c (1,2,3,4,5)
labels= c ( "Edad" , "AV_OD" , "AV_OI" , "Horas_pd" , "Horas_af")
ggpairs(ccd_vision2020_ETL, column = c(2,8,9,10,11), aes(color = rango_etareo, alpha = 0.5), upper = list(continuous = wrap("cor", size = 2.5)))
set.seed(120522)
ccd_vision2020_ETL_MUESTREADO = ccd_vision2020_ETL[sample(1:nrow(ccd_vision2020_ETL),23),-c(1,3,4,5,6,7,12,13)]
stars(ccd_vision2020_ETL_MUESTREADO, len = 1, cex = 0.4, key.loc = c(10, 2), draw.segments = TRUE)
set.seed(120522)
ccd_vision2020_ETL_MUESTREADO = ccd_vision2020_ETL [sample(1:nrow(ccd_vision2020_ETL),23),-c(11,3,4,5,6,7,12,13)]
faces(ccd_vision2020_ETL_MUESTREADO)
## effect of variables:
## modified item Var
## "height of face " "pac_id"
## "width of face " "edad_paciente"
## "structure of face" "Agudeza_visual_OD"
## "height of mouth " "Agudeza_visual_OI"
## "width of mouth " "Horas_pd"
## "smiling " "pac_id"
## "height of eyes " "edad_paciente"
## "width of eyes " "Agudeza_visual_OD"
## "height of hair " "Agudeza_visual_OI"
## "width of hair " "Horas_pd"
## "style of hair " "pac_id"
## "height of nose " "edad_paciente"
## "width of nose " "Agudeza_visual_OD"
## "width of ear " "Agudeza_visual_OI"
## "height of ear " "Horas_pd"
Es posible analizar o determinar la distribución multivariada de un conjunto de datos mediante métodos descriptivos, como los gráficos, o inferenciales, como las pruebas estadísticas. Mientras que los procedimientos inferenciales permiten obtener conclusiones más generalizables, los gráficos resultan útiles como soporte para la interpretación de los resultados.
En este apartado se aborda la aplicación de procedimientos inferenciales para verificar si el conjunto de datos de trabajo, respecto a sus variables numéricas, sigue una distribución normal multivariada (DNM). Las pruebas de normalidad multivariada (PNM) que se aplicarán son: Mardia, Henze-Zirkler, Doornik-Hansen y Royston. Estas pruebas de normalidad se realizan bajo un nivel de significancia determinado \(\alpha = 0.05\) y a las hipótesis:\[H_0: \text {Las variables tienen una DNM}\] \[H_1: \text {Las variables NO tienen una DNM}\]
La prueba de Mardia se fundamenta en las extensiones de asimetría y curtosis, el cuadrado de la distancia de Mahalanobis, el número de variables \(p\) a analizar y el número de registros \(n\). Asimismo, se considera que la estadística de la prueba para la asimetría sigue una distribución \(\chi^2\), mientras que la estadística para la curtosis se distribuye de manera aproximada de forma normal.
La prueba de Henze-Zirkler se basa en la distancia funcional, ya que si el conjunto de datos sigue una distribución normal multivariada, el estadístico de la prueba se distribuye de manera aproximada como una lognormal, con parámetros de media \(\mu\) y varianza \(\sigma^2\).
La prueba de Doornik-Hansen se basa en la asimetría y la curtosis de un conjunto de datos multivariados, los cuales se transforman para asegurar la independencia. Se considera más potente que la prueba de Shapiro-Wilk en casos multivariados. El estadístico de la prueba se define como la suma de las transformaciones al cuadrado de la asimetría y la curtosis, y sigue aproximadamente una distribución \(\chi^2\).
Por otro lado, la prueba de Royston utiliza las pruebas de Shapiro-Wilk o Shapiro-Francia para evaluar la normalidad multivariada. Si la curtosis es mayor que 3, se emplea Shapiro-Francia para distribuciones leptocúrticas, mientras que para distribuciones platicúrticas se utiliza Shapiro-Wilk. Los parámetros en esta prueba se obtienen mediante aproximaciones polinomiales.
A partir del conjunto de datos descrito en la sección 1.2, se aplica una prueba estadística de normalidad multivariada con nivel de significancia \(\alpha = 0.05\), con el propósito de evaluar si el vector formado por las variables métricas proviene de una población con distribución normal multivariada. En este estudio, las variables numéricas en escala de razón son: edad_paciente, Agudeza_visual_OD, Agudeza_visual_OI, Horas_pantalla_dia y Horas_af. Antes de realizar las pruebas, estas variables se estandarizan para garantizar comparabilidad y estabilidad numérica en los cálculos.
La navegación a través de las pestañas presenta de manera separada los resultados de las principales pruebas de normalidad multivariada consideradas: Mardia, Henze–Zirkler, Doornik–Hansen y Royston. En la pestaña correspondiente a la PNM de Mardia se reportan los estadísticos de asimetría y curtosis multivariadas, junto con sus respectivos \(p\)-valores. Dado que, para al menos uno de estos componentes, el \(p\)-valor resulta menor que el nivel de significancia establecido, se procede a rechazar la hipótesis nula de normalidad multivariada, concluyendo que el conjunto de variables métricas no sigue una distribución normal multivariada.
De forma consistente, la pestaña asociada a la PNM de Henze–Zirkler muestra un \(p\)-valor inferior a \(\alpha = 0.05\), lo que lleva igualmente a rechazar la hipótesis nula y aceptar la hipótesis alternativa de que los datos no provienen de una distribución normal multivariada. Resultados análogos se observan en la PNM de Doornik–Hansen, donde el \(p\)-valor obtenido también es menor que el nivel de significancia, reforzando la decisión de rechazar la normalidad. Finalmente, la PNM de Royston presenta un \(p\)-valor inferior a \(\alpha\), confirmando que, en conjunto, las variables edad_paciente, Agudeza_visual_OD, Agudeza_visual_OI, Horas_pantalla_dia y Horas_af no se ajustan a una distribución normal multivariada. En consecuencia, todas las pruebas aplicadas coinciden en que, al nivel de significancia considerado, no se sustenta la hipótesis nula de normalidad multivariada para el vector de variables métricas, aceptándose la hipótesis alternativa.
mardia(ccd_vision2020_ETL[, -c(11,3,4,5,6,7,12,13)])
## $mv.test
## Test Statistic p-value Result
## 1 Skewness 38.1796 0.327 YES
## 2 Kurtosis -11.1804 0 NO
## 3 MV Normality <NA> <NA> NO
##
## $uv.shapiro
## W p-value UV.Normality
## pac_id 0.954 0 No
## edad_paciente 0.9721 0 No
## Agudeza_visual_OD 0.9565 0 No
## Agudeza_visual_OI 0.9577 0 No
## Horas_pd 0.9544 0 No
mhz(ccd_vision2020_ETL[, -c(11,3,4,5,6,7,12,13)])
## $mv.test
## Statistic p-value Result
## 2.4619 0 NO
##
## $uv.shapiro
## W p-value UV.Normality
## pac_id 0.954 0 No
## edad_paciente 0.9721 0 No
## Agudeza_visual_OD 0.9565 0 No
## Agudeza_visual_OI 0.9577 0 No
## Horas_pd 0.9544 0 No
msk(ccd_vision2020_ETL[, -c(11,3,4,5,6,7,12,13)], B=10)
## $mv.test
## Statistic p-value Result
## 163.18 0 NO
##
## $uv.shapiro
## W p-value UV.Normality
## pac_id 0.954 0 No
## edad_paciente 0.9721 0 No
## Agudeza_visual_OD 0.9565 0 No
## Agudeza_visual_OI 0.9577 0 No
## Horas_pd 0.9544 0 No
mvnTest(ccd_vision2020_ETL[, -c(11,3,4,5,6,7,12,13)], B=10)
## $mv.test
## Tn p-value Result
## 1 0 NO
##
## $uv.shapiro
## W p-value UV.Normality
## pac_id 0.954 0 No
## edad_paciente 0.9721 0 No
## Agudeza_visual_OD 0.9565 0 No
## Agudeza_visual_OI 0.9577 0 No
## Horas_pd 0.9544 0 No
En esta segunda etapa del estudio, se presentarán cálculos, visualizaciones e interpretaciones basadas en el conjunto de datos analizado previamente en la Fase 1. Ahora, el enfoque se centrará en el análisis de componentes principales (ACP) aplicado a las variables cuantitativas, incluyendo aspectos como la selección de componentes, calidad de representación, contribuciones y su interpretación.
El ACP se logra a lo largo de las siguientes fases: generación de nuevas variables, reducción dimensional del espacio de los datos, eliminación de variables de poco aporte e interpretación de los componentes resultantes en el contexto del problema del cual se obtuvieron los dato.
Estimado lector, si desea explorar los fundamentos de este análisis con mayor profundidad. Los detalles del conjunto de datos se encuentran descritos en la Sección 1.2, mientras que los principios teóricos que sustentan este estudio están cuidadosamente desarrollados en la denominada Fase 1. Una lectura detenida de estas secciones enriquecerá su comprensión y apreciación del trabajo presentado.
Como señalan Díaz Morales y Morales Rivera (2012), el Análisis de Componentes Principales (ACP) permite reorganizar un conjunto de datos multivariado al reducir el número de variables, sin requerir suposiciones específicas sobre la distribución de probabilidad de estas. Esta reducción se alcanza mediante la creación de combinaciones lineales de las variables originales, diseñadas para captar la mayor variabilidad posible en los datos. De este modo, el ACP genera nuevas variables, denominadas componentes principales, que presentan independencia estadística y ausencia de correlación, siempre bajo el supuesto de normalidad.
A partir de las variables cuantitativas del conjunto de datos descrito en la Sección 1.2, se requiere inicialmente determinar el porcentaje de varianza explicado por cada dimensión tras realizar el Análisis de Componentes Principales (ACP). Posteriormente, con base en el autovalor promedio o mediante un gráfico de sedimentación, se debe decidir cuántos componentes conservar.
La navegación a través de las pestañas muestra que el conjunto de datos, en relación con sus variables numéricas, puede ser representado por un conjunto más pequeño de dimensiones que retiene el \(43.01%\) de la variabilidad total en las dos primeras dimensiones. Este resultado sugiere que la varianza está distribuida de manera relativamente uniforme entre las principales dimensiones, lo que indica una estructura interna en la que las variables originales no están altamente correlacionadas. En particular:
La Matriz ACP muestra cinco dimensiones, donde la primera retiene el \(22.49%\) de la varianza, seguida por la segunda con un \(20.52%\), y la tercera con un \(19.85\)\(%\). Las dos últimas dimensiones explican un \(18.82%\) y un \(18.31%\), respectivamente. En este sentido, la representatividad de la combinación lineal que define la dimensión 1 es moderadamente superior en comparación con las demás. Como esta matriz no proporciona información directa sobre las variables originales, se continúa explorando la identificación de las variables que más contribuyen a la dimensión con el mayor valor propio.
La Matriz de Correlaciones ayuda a describir las relaciones entre las variables que conforman la dimensión 1. Según esta matriz, las correlaciones entre las variables son en su mayoría bajas, con un valor máximo de \(0.04\) entre Horas_pd y edad_paciente. Esto indica que las variables no están fuertemente relacionadas entre sí, lo que podría influir en cómo contribuyen a la combinación lineal que define la primera dimensión.
La pestaña Valores y Vectores Propios presenta los resultados obtenidos a partir del análisis de la matriz de correlaciones del conjunto de datos clínicos. En este análisis se verifica que la suma de los valores propios coincide con el número de variables analizadas, lo que garantiza que la totalidad de la variabilidad del sistema queda representada por el conjunto de componentes principales. A partir de estos valores propios se determinan directamente las proporciones de varianza explicada por cada componente.
Por otra parte, la matriz de vectores propios proporciona los coeficientes que definen las combinaciones lineales de las variables originales que dan lugar a cada componente principal. Estos coeficientes, también conocidos como cargas factoriales, permiten identificar el peso y la dirección de la contribución de cada variable en las nuevas dimensiones del análisis.
En particular, para la primera componente principal (CP1), y considerando los coeficientes redondeados a dos cifras decimales, donde Edad corresponde a la edad del paciente, AV_OD y AV_OI representan la agudeza visual del ojo derecho e izquierdo respectivamente, Horas_PD el tiempo de uso de pantallas digitales y Horas_AF las horas de actividad física (todas variables previamente estandarizadas), la componente puede expresarse como:
\(Componente 1 = 0.46 x Edad − 0.44 x AV_OD − 0.52x AV_OI + 0.55 x Horas_PD + 0.16 x Horas_AF\)
Esta formulación evidencia que la primera componente está principalmente influenciada por el uso de pantallas digitales, la edad del paciente y la agudeza visual, especialmente del ojo izquierdo. En consecuencia, esta dimensión resume un patrón clínico asociado a los hábitos visuales y su relación con la función visual, facilitando la interpretación de las interacciones multivariantes presentes en los datos.
Los gráficos de Cattell y Cattell-Kaiser, conocidos por sus formas de codo y sedimentación, son herramientas útiles para decidir cuántas componentes retener en un análisis de reducción de dimensión, asegurando que se conserve suficiente variabilidad para abordar el problema.
El Gráfico de Cattell muestra cómo varía la pendiente entre las componentes, destacando que la primera componente tiene una capacidad explicativa significativamente mayor, explicando el \(22.5\)\(%\) de la varianza total. Este cambio en la pendiente, también conocido como “punto de inflexión”, sugiere que los primeros componentes son clave para retener, ya que capturan la mayor parte de la variabilidad del conjunto de datos.
Además, el Gráfico de Cattell-Kaiser combina esta visualización con el criterio de Kaiser, que recomienda retener los componentes con un valor propio superior a 1. Según este criterio, solo la primera componente cumple con esta condición, lo que inicialmente respalda la elección de retener únicamente esta. Sin embargo, al considerar la varianza acumulada, se observa que los tres primeros componentes explican juntos el \(62.9%\) de la variabilidad, lo que sugiere que incluir más de un componente podría ser valioso para capturar dimensiones adicionales relevantes en el análisis, especialmente en un contexto clínico donde diferentes factores pueden influir en el diagnostico de enfermedades oculares.
Por tanto, se toma la decisión de trabajar con dos componentes, ya que permiten capturar patrones importantes relacionados con las afecciones cardiovasculares sin añadir una complejidad innecesaria al análisis. Esto facilita la interpretación de los resultados y garantiza una representación significativa de los datos.
get_eigenvalue(PCA(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)], ncp = 6, scale.unit = TRUE, graph = F))
## eigenvalue variance.percent cumulative.variance.percent
## Dim.1 1.1246032 22.49206 22.49206
## Dim.2 1.0260493 20.52099 43.01305
## Dim.3 0.9926047 19.85209 62.86515
## Dim.4 0.9410322 18.82064 81.68579
## Dim.5 0.9157105 18.31421 100.00000
round(cor(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)]),2)
## edad_paciente Agudeza_visual_OD Agudeza_visual_OI Horas_pd
## edad_paciente 1.00 -0.05 -0.02 0.04
## Agudeza_visual_OD -0.05 1.00 0.03 -0.02
## Agudeza_visual_OI -0.02 0.03 1.00 -0.07
## Horas_pd 0.04 -0.02 -0.07 1.00
## Horas_af -0.01 -0.04 0.00 0.01
## Horas_af
## edad_paciente -0.01
## Agudeza_visual_OD -0.04
## Agudeza_visual_OI 0.00
## Horas_pd 0.01
## Horas_af 1.00
princomp(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)], cor = TRUE)$sdev^2
## Comp.1 Comp.2 Comp.3 Comp.4 Comp.5
## 1.1246032 1.0260493 0.9926047 0.9410322 0.9157105
princomp(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)], cor = TRUE)$loadings[ ,1:5]
## Comp.1 Comp.2 Comp.3 Comp.4 Comp.5
## edad_paciente 0.4565059 0.08228379 0.6897766 0.3677253 0.4169150
## Agudeza_visual_OD -0.4405769 0.51649857 -0.2976844 0.5439600 0.3932082
## Agudeza_visual_OI -0.5186890 -0.26412446 0.4469383 0.4457841 -0.5125648
## Horas_pd 0.5492963 0.31829276 -0.2698032 0.4208646 -0.5891031
## Horas_af 0.1634920 -0.74524264 -0.4037878 0.4393577 0.2486042
par(mfrow=c(1,2))
corrplot::corrplot(cor(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)]), method = "color", type = "upper", number.cex = 0.4)
corrplot::corrplot(cor(princomp(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)], cor = TRUE)$scores), method = "color", type = "upper", number.cex = 0.4)
fviz_eig(PCA(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)], scale.unit = T, graph = F), addlabels = T, ylim=c(0,90), main = "")
## Warning in geom_bar(stat = "identity", fill = barfill, color = barcolor, :
## Ignoring empty aesthetic: `width`.
scree(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)],factors = FALSE, pc = TRUE, main ="")
Con base en la referencia de ,se confirma que, tras reducir la dimensionalidad del conjunto de datos y entender que sus variables estandarizadas se representan gráficamente como proyecciones de una hiperesfera de correlaciones, es esencial iniciar la interpretación de las componentes a partir de esas correlaciones. Posteriormente, se debe evaluar la calidad de las representaciones obtenidas, considerando la reducción dimensional aplicada al conjunto de datos y su impacto en las variables.
Es necesario evaluar la calidad de la representación de las variables cuantitativas en relación con el número de dimensiones calculadas que capturan la mayor proporción de variabilidad; para más detalles, consultar la sección 2.3.
Explorar las pestañas revela que reducir la dimensionalidad del conjunto de datos permite analizar la calidad de la representación, usando una escala de contribuciones relativas. Esta escala se basa en un cociente de proyecciones con propiedades aditivas y una escala continua que varía de 0 a 1. En particular:
El Círculo de Correlaciones expresa que se pueden
identificar patrones significativos entre las variables originales, en
el marco de una selección de componentes principales. Dimensión
1 (Dim1): Explica el \(22.5\%\) de la varianza. Muestra una
correlación positiva con variables como
Horas_pd y
edad_paciente, las cuales están orientadas
hacia este eje y cercanas a la frontera del círculo unitario. Esto
indica que estas variables contribuyen
significativamente a la construcción de Dim1, que podría estar
capturando características comunes a ellas.
Por otra parte, la Dimensión 2 (Dim2): Explica el
\(20.5\%\) de la varianza. Está
asociada con variables como Horas_af, que
tiene una alta correlación positiva. Por el contrario,
las variables Agudeza_visual_OD y
Agudeza_visual_OI están correlacionadas
negativamente con Dim2. Esto sugiere que Dim2 está representando un
fenómeno diferente o complementario al descrito por Dim1.
Otro aspecto destacable es la relación mostrada entre pares de
variables en el círculo: La Correlación Positiva Fuerte
entreHoras_pd y
edad_paciente presentan vectores cercanos,
indicando una relación positiva. Ademas, de tener una
*Correlación Negativa Fuerte entre
Horas_pd y
edad_paciente están en oposición directa a
Agudeza_visual_OI, lo que implica una
fuerte correlación negativa.Y unaPoca Correlación de
Ortogonalidad: en variables como
Horas_af y
Agudeza_visual_OI muestran vectores casi
perpendiculares, sugiriendo una baja relación en este contexto
bidimensional.
Esta interpretación se limita a la estructura de correlaciones representada en el gráfico y describe cómo las variables originales contribuyen a las dimensiones principales seleccionadas, sin implicar relaciones causales o de dependencia directa entre ellas.
La Matriz de Representación (\(\cos^2\)) muestra la calidad con la que cada variable es representada por las dimensiones principales. Este análisis se basa en la interpretación de la correlación entre variables (Círculo de Correlaciones), la calidad de representación (\(\cos^2\)), y la posición de los individuos (Coordenadas Individuales) en el espacio factorial:
Asociación Fuerte con Dimensión 1 (Dim1): Las
variables Horas_pd (\(\cos^2 = 0.339\)) y
Agudeza_visual_OI (\(\cos^2 = 0.303\)) tienen los valores de
coseno cuadrado más altos en relación con la Dimensión
1. Esto indica que están fuertemente asociadas con este
componente y aportan significativamente a él.
Varianza Distribuida en Dimensiones Posteriores: En
contraste, la variable edad_paciente tiene
un valor bajo de coseno cuadrado en la Dimensión 1
(0.234) y la Dimensión 2 (0.007). Esto sugiere que su
varianza se distribuye más hacia otras dimensiones, especialmente la
Dimensión 3, donde muestra una mejor representación
(0.472). Esto afecta la calidad de representación de
edad_paciente en el plano principal
(Dim1/Dim2).
El gráfico de la Calidad de Representación
(codificado por color) confirma visualmente la contribución al plano
Dim1/Dim2. Los elementos mejor representados por las componentes 1 y 2
incluyen Horas_af (el vector más rojo) y
Agudeza_visual_OD (naranja), lo cual
indica que la mayor parte de su varianza es explicada por este plano
bidimensional. Por otra parte, la variable
edad_paciente se muestra en un color más
claro (amarillo), confirmando su baja representación en
este plano bidimensional, lo cual es coherente con su fuerte \(\cos^2\) en la Dimensión 3.
Horas_af (vector alineado verticalmente),
lo que implica que, aunque la componente 1 es la principal para
Horas_pd, la componente 2 también juega un papel relevante
en la representación de ciertos aspectos.Las Coordenadas Individuales permiten identificar los perfiles de los registros (pacientes) en relación con las dimensiones principales, lo cual es clave para la segmentación:
Extremos en Dimensión 1 (Correlacionado con
Horas/Edad): Los registros # 6 (2.485) y
# 2 (1.866) tienen los valores positivos más extremos
en Dim1. Estos pacientes representan perfiles con altos valores en las
variables positivamente correlacionadas con Dim1, como
Horas_pd y edad_paciente.
Extremos en Dimensión 2 (Correlacionado con
Horas_af): En la dimensión 2, los registros
# 4 (1.622) y # 17 (1.048) destacan
por sus valores positivos. Estos pacientes muestran un comportamiento
similar en la variable Horas_af (correlacionada
positivamente con Dim2).
Perfiles Promedio o Mal Representados: Los registros con valores muy cercanos al origen (por ejemplo, # 14 con 0.034 en Dim1) son perfiles promedio o su varianza es explicada por dimensiones posteriores.
fviz_pca_var(PCA(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)], scale.unit = T, graph = F),col.var="#3B83BD", repel = T, col.circle = "#CDCDCD", ggtheme = theme_bw())
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## ℹ The deprecated feature was likely used in the ggpubr package.
## Please report the issue at <https://github.com/kassambara/ggpubr/issues>.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
## Warning: `aes_string()` was deprecated in ggplot2 3.0.0.
## ℹ Please use tidy evaluation idioms with `aes()`.
## ℹ See also `vignette("ggplot2-in-packages")` for more information.
## ℹ The deprecated feature was likely used in the factoextra package.
## Please report the issue at <https://github.com/kassambara/factoextra/issues>.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
(get_pca_var(PCA(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)], ncp = 5, scale.unit = TRUE, graph = F)))$cos2
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
## edad_paciente 0.23436466 0.006946992 0.47227316 0.1272481 0.15916706
## Agudeza_visual_OD 0.21829452 0.273719975 0.08796065 0.2784444 0.14158045
## Agudeza_visual_OI 0.30256128 0.071578979 0.19827664 0.1870052 0.24057790
## Horas_pd 0.33932255 0.103949347 0.07225545 0.1666822 0.31779045
## Horas_af 0.03006022 0.569854035 0.16183883 0.1816523 0.05659462
fviz_pca_var(PCA(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)], ncp = 5, scale.unit = TRUE, graph = F), col.var="cos2", gradient.cols=c("#00AFBB","#E7B800","#FC4E07"), repel = TRUE)
head((PCA(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)], ncp = 5, scale.unit = TRUE, graph = F))$ind$coord, n = 23L)
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
## 1 -0.42567484 -0.8821677 -0.81037907 0.4171792 -0.22422680
## 2 1.86604494 1.2597339 -0.83098479 -0.6739117 0.22347178
## 3 0.65372057 0.5546278 -0.77661411 -1.5700875 1.22578463
## 4 0.63314383 1.6222817 -0.39123679 -1.6934176 -0.62018694
## 5 -0.94713091 1.3048164 0.70942255 0.3240975 0.56308347
## 6 2.48532957 0.5249837 0.46831256 0.3126532 0.85408485
## 7 2.12642844 -0.1001646 -0.87524979 -1.3846804 0.71929520
## 8 1.25307363 1.2436255 0.81292083 -1.3715358 -1.33820037
## 9 -0.43180412 -1.5891562 0.08258649 -1.4877163 -1.57908548
## 10 -0.07915210 0.1673862 0.64700235 -1.6872994 1.25262287
## 11 2.53041935 0.8240916 0.57177885 0.4901905 0.52973350
## 12 0.50147646 -0.5134828 -0.29176430 -2.4248412 1.21107973
## 13 1.45614382 -0.2100482 0.78114382 -0.6373503 1.37220210
## 14 0.03411531 -1.7014785 1.17619498 1.0258352 -0.33980577
## 15 0.31175414 2.0452111 0.29501956 0.8661747 1.05250095
## 16 -0.47948769 0.5584902 0.27431699 -1.5271782 1.65371447
## 17 0.73078367 1.0489869 -0.76630011 -0.4862789 1.86436536
## 18 1.79252255 -0.1560454 1.72697880 -0.7917037 -0.05372953
## 19 0.22284154 1.7741026 -1.07495769 -0.7330788 -0.41988904
## 20 2.37630994 -0.3478458 0.48329022 -0.5417734 0.82060367
## 21 -0.05309752 2.4413471 -0.33777676 -0.6682993 0.31598733
## 22 1.07773961 -0.1031729 2.67445223 0.3542019 1.51730070
## 23 -1.06144476 0.6327761 0.93237029 -1.9486352 1.07637249
Los autores señalan que la interpretación de los resultados está estrechamente ligada al cálculo de elementos como coordenadas, contribuciones y cosenos cuadrados. Por lo tanto, es esencial que las variables estén bien conceptualizadas y contextualizadas para facilitar su comprensión. En este sentido, analizar la contribución de cada variable a una componente ayuda a interpretar los resultados, mostrando cómo cada una influye en la definición de las componentes generadas. Este análisis se lleva a cabo en esta sección para determinar el aporte de cada variable en la construcción de las componentes.
Basado en las variables cuantitativas del conjunto de datos descrito en la sección 1.2, se requiere determinar las contribuciones de cada variable en la construcción de las componentes.
La navegación a través de las pestañas facilita la visualización de las contribuciones de las variables del conjunto de datos en forma de representaciones numéricas y gráficas, permitiendo comprender cómo cada variable influye en la construcción de las componentes. Esto permite analizar la proporción de variabilidad que cada variable aporta a la variabilidad total de la componente con la que está asociada.
La Matriz de Contribuciones muestra cómo cada variable contribuye a la retención de variabilidad en la construcción de cada componente. Los diagramas de barras, que se visualizan en las pestañas desde Contribuciones a D1 hasta Contribuciones a D5, ilustran las contribuciones específicas de las variables para explicar la variabilidad en cada componente. Cada gráfico incluye una línea que indica la contribución media, lo que facilita la identificación de las variables que tienen mayor impacto en la explicación de la variabilidad de los componentes.
En Contribuciones a D1 se visualiza que las variables por encima de la contribución media: Agudeza_visual_OI y Horas_pd,retienen aproximadamente el \(57.07%\) de la variabilidad del componente 1.
En Contribuciones a D2 se visualiza que las variables por encima de la contribución media: Horas_af y Agudeza_visual_OD retienen aproximadamente el \(82.22%\) de la variabilidad del componente 2.
En Contribuciones a D3 se visualiza que las variables por encima de la contribución media: Edad_paciente y Agudeza_visual_OI retienen aproximadamente el \(67.56%\) de la variabilidad del componente 3.
En Contribuciones a D4 se visualiza que la variable por encima de la contribución media: Agudeza_visual_OD retiene aproximadamente el \(29.59%\) de la variabilidad del componente 4.
En Contribuciones a D5 se visualiza que las variables por encima de la contribución media: Horas_pd y Agudeza_visual_OI retienen aproximadamente el \(60.97%\) de la variabilidad del componente 5.
Con los datos procesados hasta ahora se puede proceder con la intepretación de los componentes.
(get_pca_var(PCA(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)], ncp = 5, scale.unit = TRUE, graph = F)))$contrib
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
## edad_paciente 20.839764 0.6770621 47.579177 13.52219 17.381811
## Agudeza_visual_OD 19.410803 26.6770775 8.861599 29.58925 15.461268
## Agudeza_visual_OI 26.903825 6.9761732 19.975387 19.87235 26.272267
## Horas_pd 30.172646 10.1310283 7.279378 17.71270 34.704250
## Horas_af 2.672962 55.5386588 16.304459 19.30352 6.180405
fviz_contrib(PCA(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)], ncp = 6, scale.unit = TRUE, graph = F), choice = "var", axes = 1, top = 10)
fviz_contrib(PCA(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)], ncp = 6, scale.unit = TRUE, graph = F), choice = "var", axes = 2, top = 10)
fviz_contrib(PCA(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)], ncp = 6, scale.unit = TRUE, graph = F), choice = "var", axes = 3, top = 10)
fviz_contrib(PCA(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)], ncp = 6, scale.unit = TRUE, graph = F), choice = "var", axes = 4, top = 10)
fviz_contrib(PCA(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)], ncp = 6, scale.unit = TRUE, graph = F), choice = "var", axes = 5, top = 10)
Representar los registros en un espacio de dimensiones reducidas permite situarlos en un plano de factores, lo que facilita su análisis e interpretación. Las variables reducidas se corresponden con las componentes principales, que se utilizan como ejes en el plano y cuyos valores son los puntajes de las componentes. La distancia entre los puntos representados por estos puntajes es clave para identificar similitudes entre los perfiles de las observaciones. No obstante, las similitudes pueden aparecer solo en algunas variables y no en todas. Así, se busca que las distancias en el espacio de alta dimensión se conserven en el espacio reducido, manteniendo la estructura de las relaciones entre los datos. Según ].
La navegación entre las pestañas facilita la visualización de objetos gráficos y matriciales que, al integrar los resultados de las secciones anteriores, fortalecen la interpretación de las contribuciones de las componentes calculadas. Tal como se presentó en la sección 2.3, el número de componentes seleccionadas se redujo a dos, siguiendo el criterio de Kaiser y considerando la varianza acumulada. Estas dos componentes explican conjuntamente el \(46.9\)\(%\) de la variabilidad de los datos, lo que permite capturar patrones relevantes sin perder simplicidad. En esta sección, se analizan las contribuciones específicas de cada variable a estas componentes, destacando su importancia en la interpretación de los factores clave relacionados con las afecciones cardiovasculares.
Las pestañas de Biplot de Variables y Registros Totales en las categorías Chestpain (tipo de dolor de pecho), Gender (género) y Target (presencia o ausencia de enfermedad cardiovascular) muestran, con base en las agrupaciones que estas variables categóricas pueden establecer, la representación en dimensionalidad reducida en el plano de factores generado por los componentes principales. En este sentido:
La agrupación con base en Chestpain permite observar cómo los diferentes tipos de dolor de pecho (típico, atípico, no anginal, asintomático) generan una distribución notablemente diferenciada en el espacio reducido, especialmente en las dimensiones Dim.1 y Dim.2.
La agrupación con base en Gender (masculino y femenino) muestra patrones de distribución menos pronunciados, con una menor separación entre las observaciones en el espacio de los componentes principales, lo que indica una influencia limitada del género en las variaciones representadas.
La agrupación basada en los Resultados del Electrocardiograma en Reposo (normal, anomalías ST-T e hipertrofia ventricular izquierda) muestra que las observaciones se distribuyen con cierta separación en el espacio de los componentes principales. Las categorías de “anomalías ST-T” e “hipertrofia ventricular izquierda” parecen estar más relacionadas con algunas variables específicas del análisis, lo que indica que estas condiciones tienen una influencia notable en la variación de los datos. Por ejemplo, esto puede reflejar que variables como la presión arterial, el colesterol o la frecuencia cardíaca están asociadas con estos resultados del electrocardiograma. En cambio, los resultados “normales” están más dispersos, sugiriendo que no hay una relación tan fuerte con estas variables. Esto demuestra que los resultados del electrocardiograma ayudan a identificar patrones significativos en los datos, especialmente en relación con las características de salud cardiovascular representadas.
De esta manera, la representación biplot resalta la capacidad de las variables categóricas como Chestpain y Target para establecer agrupaciones significativas, mientras que Gender tiene un menor impacto en la distribución observada.
Finalmente, para facilitar la interpretación de los puntajes en el plano definido por las primeras dos componentes principales (Dim.1 y Dim.2) y las relaciones entre variables, se generó la pestaña Coordenadas Individuales [Subconjunto ChestPain]. Esta visualización, basada en un subconjunto del \(5\) \(%\) [47] de registros seleccionados mediante muestreo aleatorio simple, permite explorar los puntajes por componentes. Este enfoque ofrece una representación clara y comprensible, sin comprometer los detalles esenciales. Es importante señalar que este procedimiento tiene fines de visualización, ya que el conjunto de datos original, mucho más grande [947 registros], dificulta la identificación visual de patrones relevantes.
`
modelo_RL_Simple = lm(ccd_vision2020_ETL$Agudeza_visual_OD~ccd_vision2020_ETL$rango_etareo)
coef(modelo_RL_Simple)
## (Intercept)
## 0.523879056
## ccd_vision2020_ETL$rango_etareoADULTO MAYOR
## 0.008833255
## ccd_vision2020_ETL$rango_etareoJÓVENES
## 0.023976686
## ccd_vision2020_ETL$rango_etareoNIÑEZ
## 0.033517981
## ccd_vision2020_ETL$rango_etareoPRIMERA INFANCIA
## 0.055371215
modelo_RL_Simple1 = lm(ccd_vision2020_ETL$Agudeza_visual_OI~ccd_vision2020_ETL$rango_etareo)
coef(modelo_RL_Simple1)
## (Intercept)
## 0.57398313
## ccd_vision2020_ETL$rango_etareoADULTO MAYOR
## -0.03223597
## ccd_vision2020_ETL$rango_etareoJÓVENES
## 0.01530552
## ccd_vision2020_ETL$rango_etareoNIÑEZ
## -0.02340862
## ccd_vision2020_ETL$rango_etareoPRIMERA INFANCIA
## -0.03652918
summary(modelo_RL_Simple)
##
## Call:
## lm(formula = ccd_vision2020_ETL$Agudeza_visual_OD ~ ccd_vision2020_ETL$rango_etareo)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.45839 -0.21971 -0.00542 0.21120 0.47479
##
## Coefficients:
## Estimate Std. Error t value
## (Intercept) 0.523879 0.011409 45.919
## ccd_vision2020_ETL$rango_etareoADULTO MAYOR 0.008833 0.019984 0.442
## ccd_vision2020_ETL$rango_etareoJÓVENES 0.023977 0.020094 1.193
## ccd_vision2020_ETL$rango_etareoNIÑEZ 0.033518 0.031284 1.071
## ccd_vision2020_ETL$rango_etareoPRIMERA INFANCIA 0.055371 0.031457 1.760
## Pr(>|t|)
## (Intercept) <2e-16 ***
## ccd_vision2020_ETL$rango_etareoADULTO MAYOR 0.6586
## ccd_vision2020_ETL$rango_etareoJÓVENES 0.2330
## ccd_vision2020_ETL$rango_etareoNIÑEZ 0.2842
## ccd_vision2020_ETL$rango_etareoPRIMERA INFANCIA 0.0786 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.2589 on 1161 degrees of freedom
## Multiple R-squared: 0.003766, Adjusted R-squared: 0.0003332
## F-statistic: 1.097 on 4 and 1161 DF, p-value: 0.3566
anova(modelo_RL_Simple)
## Analysis of Variance Table
##
## Response: ccd_vision2020_ETL$Agudeza_visual_OD
## Df Sum Sq Mean Sq F value Pr(>F)
## ccd_vision2020_ETL$rango_etareo 4 0.294 0.073540 1.0971 0.3566
## Residuals 1161 77.825 0.067033