Fase 1 [Descripciones Multivariantes]

En la primera etapa del estudio se realizarán cálculos, visualizaciones y un análisis detallado del conjunto de datos clínicos, el cual se describirá en la sección 1.2. Esta fase se enfocará desde la estadística descriptiva multivariante, con el fin de ofrecer una visión general del dataset y, al mismo tiempo, examinar de manera más profunda las relaciones entre las variables. Este enfoque permitirá identificar patrones y tendencias importantes dentro de los datos. Las visualizaciones serán fundamentales para mostrar gráficamente estas relaciones, proporcionando una forma clara y comprensible de explorarlas. Todas estas tareas se desarrollarán utilizando R y RStudio, herramientas que facilitarán la ejecución precisa de los análisis y la elaboración de gráficos interactivos para una interpretación más completa de los resultados.

1.1. Objetivos

El objetivo de este proyecto es aplicar técnicas de análisis multivariado al conjunto de datos aprobado, el cual contiene registros clínicos de la empresa oftalmológica, Visión 2020. La finalidad es organizar y procesar la información de manera eficiente, fortaleciendo las competencias en gestión y análisis de datos. Este trabajo se desarrolla en el marco del curso Gestión de Datos, orientado al programa de Ingenieria Industrial, en el segundo periodo de 2025 en la Universidad del Valle, Seccional Zarzal.

1.2. Descripción de los datos

El conjunto de datos utilizado en este estudio fue proporcionado por la empresa del sector oftalmológico Vision 2020, a partir de los registros de pacientes atendidos durante el año 2024. La información original fue entregada en un archivo plano, con 1249 registros y posteriormente sometida a un proceso de extracción, transformación y carga (ETL), en el cual se depuraron inconsistencias, se normalizaron formatos y se generaron variables derivadas para facilitar el análisis estadístico. El objetivo de este conjunto es caracterizar el perfil visual y de hábitos de uso de pantallas de los pacientes, así como su posible relación con factores demográficos y antecedentes familiares.

Tras el proceso ETL se consolidó una base con 1166 registros (uno por paciente) y 13 variables, que combinan aspectos de identificación, sociodemográficos, clínico‑visuales y de estilo de vida. Las variables se describen a continuación en el orden en que aparecen en la base de datos, indicando su tipo y escala de medición mediante la notación (tipo_de_variable::escala_de_medición[ordenamiento]).

Pac_id (cuantitativa::nominal): Identificador numérico secuencial que asigna un código único a cada paciente. Permite referenciar los registros sin revelar datos personales y no tiene interpretación métrica por sí mismo.

Edad_paciente (cuantitativa::razón): Edad del paciente expresada en años cumplidos al momento del registro. Es una variable de razón, con cero absoluto y posibilidad de realizar comparaciones de proporciones de edad.

Ocupacion (cualitativa::nominal): Profesión u oficio principal del paciente (por ejemplo, estudiante, administrativo, operario, independiente, entre otros). Se utiliza para caracterizar el tipo de actividad diaria, especialmente en términos de exposición potencial a pantallas.

Canal_difusion (cualitativa::nominal): Medio por el cual el paciente conoció la óptica (referido, redes sociales, volante, paso por el local, convenio, etc.). Esta variable permite identificar los canales de captación más frecuentes dentro de la población atendida.

Fecha_registro (cualitativa::ordinal[tiempo]): Fecha en la que el paciente fue registrado en el sistema, expresada como día/mes/año. Aunque se almacena como texto o fecha calendario, su escala es ordinal en el tiempo y se usa para ubicar la atención dentro del periodo de estudio.

Pac_sexo (cualitativa::nominal): Sexo del paciente, registrado típicamente como “Femenino” o “Masculino”. Esta variable se emplea para comparar patrones de agudeza visual y hábitos de pantalla entre grupos.

Rango_etareo (cualitativa::ordinal): Clasificación del paciente en grupos de edad (por ejemplo, ADOLESCENTE, JOVEN_ADULTO, ADULTO, ADULTO_MAYOR), construida a partir de la variable edad_paciente. Presenta un orden natural de los grupos, lo que permite análisis por categorías etarias.

Agudeza_visual_OD (cuantitativa::razón): Medida de la agudeza visual del ojo derecho, expresada en la escala establecida por la óptica (por ejemplo, conversión a una métrica continua compatible con la práctica clínica). Valores más cercanos a la referencia de visión normal indican mejor agudeza, mientras que valores que se alejan de dicho estándar representan mayor compromiso visual.

Agudeza_visual_OI (cuantitativa::razón): Análoga a la anterior, pero para el ojo izquierdo. Junto con la agudeza del ojo derecho, permite evaluar la simetría o diferencias entre ambos ojos y constituye una de las variables clínicas centrales del estudio.

Horas_pantalla_dia (cuantitativa::razón): Número de horas promedio que el paciente pasa diariamente frente a dispositivos con pantalla (computador, teléfono inteligente, tableta, televisión, consola, etc.). Es una medida continua de exposición y se considera un potencial factor de riesgo asociado a fatiga visual y otras molestias oculares.

Horas_actividadf (cuantitativa::razón): Horas promedio de actividad física que el paciente realiza al día (o en promedio diario a partir de la semana), incluyendo ejercicio estructurado y actividades recreativas. Esta variable permite explorar si un estilo de vida más activo se relaciona con mejores indicadores visuales o con menor exposición a pantallas.

Hobby_principal_pantalla (cualitativa::nominal): Indica si el pasatiempo principal del paciente implica uso intensivo de pantallas (por ejemplo, videojuegos, redes sociales, series en streaming) o no. Se codifica típicamente como “sí” o “no” y se usa para diferenciar hobbies digitales de actividades analógicas o al aire libre.

Predisposicion_genetica (cualitativa::nominal): Señala si el paciente reporta antecedentes familiares de problemas oftalmológicos relevantes (miopía alta, glaucoma, degeneración macular, entre otros). Se registra como “sí” o “no” y funciona como aproximación a un factor de riesgo genético.

Durante el proceso de depuración se verificó la coherencia de rangos (por ejemplo, edades no negativas, horas de pantalla y actividad física dentro de intervalos plausibles, valores de agudeza visual dentro de los límites aceptados por la escala utilizada). Los valores faltantes o claramente atípicos fueron revisados caso a caso; en los casos en que no fue posible recuperar información confiable, se recurrió a estrategias de imputación o exclusión controlada, documentadas en el flujo ETL. A partir de este conjunto depurado, se desarrollan las fases posteriores del análisis multivariado, centradas en la relación entre agudeza visual, hábitos de pantalla, actividad física y factores demográficos y genéticos.

Estructura del Conjunto de Datos Original

str(conjunto_de_datos_vision2020_Original)
## tibble [1,166 × 22] (S3: tbl_df/tbl/data.frame)
##  $ pac_id                  : num [1:1166] 1 2 4 5 6 7 8 9 10 11 ...
##  $ pac_carnet              : num [1:1166] 0 0 0 0 0 1 1 1 1 1 ...
##  $ nombre                  : chr [1:1166] "HECTOR GUSTAVO" "LUISA MARIA" "YOLANDA DEL SOCORRO" "MARIA GLADIS" ...
##  $ apellido                : chr [1:1166] "CUERVO" "TORO CORDOBA" "SANCHEZ" "TORO CORDOBA" ...
##  $ edad                    : num [1:1166] 29 25 55 56 35 37 1 29 41 75 ...
##  $ ocupacion               : chr [1:1166] "admin" "Asesor Comercial" "OTRO" "OTRO" ...
##  $ canal_difusion          : chr [1:1166] "Convenio" "Usuario óptica" "Paso por la óptica" "Usuario óptica" ...
##  $ fecha_registro          : POSIXct[1:1166], format: "2024-05-20" "2024-05-24" ...
##  $ pac_sexo                : chr [1:1166] "Masculino" "Femenino" "Femenino" "Femenino" ...
##  $ pac_vincula             : chr [1:1166] "No registra" "No registra" "No registra" "No registra" ...
##  $ tipo_afiliciacion       : chr [1:1166] "No registra" "Particular" "Particular" "Particular" ...
##  $ pac_observa             : chr [1:1166] NA NA NA "Ninguna" ...
##  $ rango_etareo            : chr [1:1166] "ADULTO" "JÓVENES" "ADULTO" "ADULTO" ...
##  $ pac_cond_disc           : num [1:1166] 0 0 2 0 2 0 0 0 0 0 ...
##  $ tipo_regimen            : num [1:1166] 2 2 2 2 2 2 2 2 2 2 ...
##  $ Agudeza_visual_OD       : logi [1:1166] NA NA NA NA NA NA ...
##  $ Agudeza_visual_OI2      : logi [1:1166] NA NA NA NA NA NA ...
##  $ Error_refractivo_total_D: logi [1:1166] NA NA NA NA NA NA ...
##  $ Horas_pantalla_dia      : logi [1:1166] NA NA NA NA NA NA ...
##  $ Horas_aire_libre_semana : logi [1:1166] NA NA NA NA NA NA ...
##  $ Hobby_principal         : logi [1:1166] NA NA NA NA NA NA ...
##  $ Predisposicion_genetica : logi [1:1166] NA NA NA NA NA NA ...

Estructura del Conjunto de Datos ETL

str(ccd_vision2020_ETL)
## tibble [1,166 × 13] (S3: tbl_df/tbl/data.frame)
##  $ pac_id                 : num [1:1166] 1 2 4 5 6 7 8 9 10 11 ...
##  $ edad_paciente          : num [1:1166] 29 25 55 56 35 37 1 29 41 75 ...
##  $ ocupacion              : chr [1:1166] "admin" "Asesor Comercial" "OTRO" "OTRO" ...
##  $ canal_difusion         : chr [1:1166] "Convenio" "Usuario óptica" "Paso por la óptica" "Usuario óptica" ...
##  $ fecha_registro         : POSIXct[1:1166], format: "2024-05-20" "2024-05-24" ...
##  $ pac_sexo               : chr [1:1166] "Masculino" "Femenino" "Femenino" "Femenino" ...
##  $ rango_etareo           : chr [1:1166] "ADULTO" "JÓVENES" "ADULTO" "ADULTO" ...
##  $ AV_OD                  : num [1:1166] 0.847 0.213 0.717 0.592 0.404 ...
##  $ AV_OI                  : num [1:1166] 0.488 0.765 0.799 0.142 0.974 ...
##  $ Horas_pd               : num [1:1166] 5.82 4.79 8.77 0.78 3.07 0.62 8.99 1.86 1.22 0.38 ...
##  $ Horas_af               : num [1:1166] 5 8 9 3 7 5 4 2 1 9 ...
##  $ Hobby_ppantalla        : chr [1:1166] "si" "no" "no" "no" ...
##  $ Predisposicion_genetica: chr [1:1166] "1" "1" "0" "0" ...

1.3. Estimaciones multivariadas

El vector de medias y la matriz de varianzas‑covarianzas permiten describir de forma conjunta el nivel típico, la dispersión y las relaciones lineales entre las variables métricas registradas para los pacientes de la óptica. En este estudio se consideran como variables aleatorias cuantitativas: edad_paciente, Agudeza_visual_OD, Agudeza_visual_OI, Horas_pantalla_dia y Horas_af. El vector de medias resume, para cada una de estas variables, el valor promedio observado en la muestra, de modo que sirve como referencia del “perfil medio” de los pacientes en términos de edad, condición visual y hábitos de uso de pantallas y de actividad física. La matriz de varianzas‑covarianzas, por su parte, cuantifica en su diagonal principal la variabilidad individual de cada variable alrededor de su media, mientras que en las posiciones fuera de la diagonal recoge las covarianzas entre pares de variables, las cuales describen la intensidad y el sentido de sus relaciones lineales.

Trabajar simultáneamente con el vector de medias y la matriz de varianzas‑covarianzas resulta esencial en el análisis multivariado porque permite capturar, en un solo objeto matemático, tanto la tendencia central como las interdependencias entre las variables de interés. A partir de estas estimaciones es posible derivar la matriz de correlaciones, que normaliza las covarianzas y facilita comparar la fuerza de asociación entre variables medidas en escalas diferentes, como las horas frente a pantallas y las medidas de agudeza visual. Estos elementos constituyen la base para los procedimientos posteriores de análisis de componentes principales, conglomerados y modelos de regresión.

Vector de Promedios y Boxplots

apply(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)], 2, mean)
## edad_paciente         AV_OD         AV_OI      Horas_pd      Horas_af 
##    38.7178388     0.5367784     0.5662855     4.9418525     5.4631218
ccd_vision2020_ETL_Reducido = ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)]
nombres_boxplots <- c("edad_paciente", "AV_OD", "AV_OI", "Horas_pd", "Horas_af")
par(mfrow = c(1, ncol(ccd_vision2020_ETL_Reducido)))
invisible(lapply(1:ncol(ccd_vision2020_ETL_Reducido), function(i) {
  boxplot(ccd_vision2020_ETL_Reducido[, i],
          main = nombres_boxplots[i])}))

Matriz de Varianzas-Covarianzas

round(cov(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)]),2)
##               edad_paciente AV_OD AV_OI Horas_pd Horas_af
## edad_paciente        502.21 -0.28 -0.14     2.86    -0.55
## AV_OD                 -0.28  0.07  0.00    -0.02    -0.03
## AV_OI                 -0.14  0.00  0.07    -0.05     0.00
## Horas_pd               2.86 -0.02 -0.05     8.08     0.05
## Horas_af              -0.55 -0.03  0.00     0.05     8.31

Matriz de Correlaciones

round(cor(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)]),3)
##               edad_paciente  AV_OD  AV_OI Horas_pd Horas_af
## edad_paciente         1.000 -0.048 -0.024    0.045   -0.009
## AV_OD                -0.048  1.000  0.029   -0.020   -0.042
## AV_OI                -0.024  0.029  1.000   -0.073   -0.005
## Horas_pd              0.045 -0.020 -0.073    1.000    0.006
## Horas_af             -0.009 -0.042 -0.005    0.006    1.000

El vector de medias y la matriz de varianzas-covarianzas conforman un conjunto de herramientas fundamentales para describir el comportamiento posicional, dispersivo y correlacional de las variables aleatorias en un conjunto de datos. Estas medidas son esenciales en el análisis multivariado, porque permiten capturar tanto la tendencia central como las interdependencias entre las variables.

1.4. Gráficas multivariadas

En esta sección se presenta el cálculo e interpretación de tres objetos fundamentales: Vector de Medias \(\bar x\) , Matriz de Varianzas-Covarianzas \(S\) y Matriz de Correlaciones \(R\)., construidos a partir de las variables edad_paciente, Agudeza_visual_OD, Agudeza_visual_OI, Horas_pantalla_dia y Horas_af. La pestaña correspondiente al vector de medias y a los boxplots univariantes permite describir el comportamiento posicional y dispersivo de cada variable. En términos generales, se observa si la distribución de la edad de los pacientes se aproxima a una forma aproximadamente simétrica o si presenta sesgos hacia edades más jóvenes o más avanzadas, así como el rango típico de horas diarias frente a pantallas y de actividad física. De igual manera, los diagramas de caja de las agudezas visuales del ojo derecho e izquierdo permiten detectar la presencia de valores extremos y comparar, de forma visual, posibles diferencias entre ambos ojos.

A partir de la matriz de varianzas‑covarianzas y de la matriz de correlaciones se examinan las relaciones lineales entre las variables métricas. La inspección de los coeficientes de correlación permite identificar, por ejemplo, si existe una asociación apreciable entre el tiempo de exposición diaria a pantallas y la agudeza visual, o entre la edad y la cantidad de horas de actividad física. Valores de correlación cercanos a cero indican relaciones lineales débiles o inexistentes, lo que sugiere que las variables son relativamente independientes desde el punto de vista lineal; por el contrario, coeficientes alejados de cero señalan asociaciones que pueden ser clínicamente relevantes y que conviene explorar en mayor detalle en fases posteriores del análisis. En conjunto, estos resultados proporcionan una primera aproximación a la estructura interna del conjunto de datos y orientan la selección de técnicas multivariantes apropiadas para las siguientes secciones.

Diagrama Conjunto de Dispersión, Distribución y Correlaciones[SA]

ggpairs(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)])

Diagrama Conjunto de Dispersión, Distribución y Correlaciones[CA]

ccd_vision2020_ETL$rango_etareo <- factor(ccd_vision2020_ETL$rango_etareo)
levels= c (1,2,3,4,5)
labels= c ( "Edad" , "AV_OD" , "AV_OI" , "Horas_pd" , "Horas_af")
ggpairs(ccd_vision2020_ETL, column = c(2,8,9,10,11), aes(color = rango_etareo, alpha = 0.5), upper = list(continuous = wrap("cor", size = 2.5)))

Diagrama de Estrellas

set.seed(120522)
ccd_vision2020_ETL_MUESTREADO = ccd_vision2020_ETL[sample(1:nrow(ccd_vision2020_ETL),23),-c(1,3,4,5,6,7,12,13)]
stars(ccd_vision2020_ETL_MUESTREADO, len = 1, cex = 0.4, key.loc = c(10, 2), draw.segments = TRUE)

Caras de Chernoff

set.seed(120522)
ccd_vision2020_ETL_MUESTREADO = ccd_vision2020_ETL [sample(1:nrow(ccd_vision2020_ETL),23),-c(11,3,4,5,6,7,12,13)]
faces(ccd_vision2020_ETL_MUESTREADO)

## effect of variables:
##  modified item       Var            
##  "height of face   " "pac_id"       
##  "width of face    " "edad_paciente"
##  "structure of face" "AV_OD"        
##  "height of mouth  " "AV_OI"        
##  "width of mouth   " "Horas_pd"     
##  "smiling          " "pac_id"       
##  "height of eyes   " "edad_paciente"
##  "width of eyes    " "AV_OD"        
##  "height of hair   " "AV_OI"        
##  "width of hair   "  "Horas_pd"     
##  "style of hair   "  "pac_id"       
##  "height of nose  "  "edad_paciente"
##  "width of nose   "  "AV_OD"        
##  "width of ear    "  "AV_OI"        
##  "height of ear   "  "Horas_pd"

1.5. Normalidad multivariada

Es posible analizar o determinar la distribución multivariada de un conjunto de datos mediante métodos descriptivos, como los gráficos, o inferenciales, como las pruebas estadísticas. Mientras que los procedimientos inferenciales permiten obtener conclusiones más generalizables, los gráficos resultan útiles como soporte para la interpretación de los resultados.

En este apartado se aborda la aplicación de procedimientos inferenciales para verificar si el conjunto de datos de trabajo, respecto a sus variables numéricas, sigue una distribución normal multivariada (DNM). Las pruebas de normalidad multivariada (PNM) que se aplicarán son: Mardia, Henze-Zirkler, Doornik-Hansen y Royston. Estas pruebas de normalidad se realizan bajo un nivel de significancia determinado \(\alpha = 0.05\) y a las hipótesis:\[H_0: \text {Las variables tienen una DNM}\] \[H_1: \text {Las variables NO tienen una DNM}\]

La prueba de Mardia se fundamenta en las extensiones de asimetría y curtosis, el cuadrado de la distancia de Mahalanobis, el número de variables \(p\) a analizar y el número de registros \(n\). Asimismo, se considera que la estadística de la prueba para la asimetría sigue una distribución \(\chi^2\), mientras que la estadística para la curtosis se distribuye de manera aproximada de forma normal.

La prueba de Henze-Zirkler se basa en la distancia funcional, ya que si el conjunto de datos sigue una distribución normal multivariada, el estadístico de la prueba se distribuye de manera aproximada como una lognormal, con parámetros de media \(\mu\) y varianza \(\sigma^2\).

La prueba de Doornik-Hansen se basa en la asimetría y la curtosis de un conjunto de datos multivariados, los cuales se transforman para asegurar la independencia. Se considera más potente que la prueba de Shapiro-Wilk en casos multivariados. El estadístico de la prueba se define como la suma de las transformaciones al cuadrado de la asimetría y la curtosis, y sigue aproximadamente una distribución \(\chi^2\).

Por otro lado, la prueba de Royston utiliza las pruebas de Shapiro-Wilk o Shapiro-Francia para evaluar la normalidad multivariada. Si la curtosis es mayor que 3, se emplea Shapiro-Francia para distribuciones leptocúrticas, mientras que para distribuciones platicúrticas se utiliza Shapiro-Wilk. Los parámetros en esta prueba se obtienen mediante aproximaciones polinomiales.

1.6 Planteamiento y Desarrollo

A partir del conjunto de datos descrito en la sección 1.2, se aplica una prueba estadística de normalidad multivariada con nivel de significancia \(\alpha = 0.05\), con el propósito de evaluar si el vector formado por las variables métricas proviene de una población con distribución normal multivariada. En este estudio, las variables numéricas en escala de razón son: edad_paciente, Agudeza_visual_OD, Agudeza_visual_OI, Horas_pantalla_dia y Horas_af. Antes de realizar las pruebas, estas variables se estandarizan para garantizar comparabilidad y estabilidad numérica en los cálculos.

La navegación a través de las pestañas presenta de manera separada los resultados de las principales pruebas de normalidad multivariada consideradas: Mardia, Henze–Zirkler, Doornik–Hansen y Royston. En la pestaña correspondiente a la PNM de Mardia se reportan los estadísticos de asimetría y curtosis multivariadas, junto con sus respectivos \(p\)-valores. Dado que, para al menos uno de estos componentes, el \(p\)-valor resulta menor que el nivel de significancia establecido, se procede a rechazar la hipótesis nula de normalidad multivariada, concluyendo que el conjunto de variables métricas no sigue una distribución normal multivariada.

De forma consistente, la pestaña asociada a la PNM de Henze–Zirkler muestra un \(p\)-valor inferior a \(\alpha = 0.05\), lo que lleva igualmente a rechazar la hipótesis nula y aceptar la hipótesis alternativa de que los datos no provienen de una distribución normal multivariada. Resultados análogos se observan en la PNM de Doornik–Hansen, donde el \(p\)-valor obtenido también es menor que el nivel de significancia, reforzando la decisión de rechazar la normalidad. Finalmente, la PNM de Royston presenta un \(p\)-valor inferior a \(\alpha\), confirmando que, en conjunto, las variables edad_paciente, Agudeza_visual_OD, Agudeza_visual_OI, Horas_pantalla_dia y Horas_af no se ajustan a una distribución normal multivariada. En consecuencia, todas las pruebas aplicadas coinciden en que, al nivel de significancia considerado, no se sustenta la hipótesis nula de normalidad multivariada para el vector de variables métricas, aceptándose la hipótesis alternativa.

PNM Mardia

mardia(ccd_vision2020_ETL[, -c(11,3,4,5,6,7,12,13)])
## $mv.test
##           Test Statistic p-value Result
## 1     Skewness   38.1796   0.327    YES
## 2     Kurtosis  -11.1804       0     NO
## 3 MV Normality      <NA>    <NA>     NO
## 
## $uv.shapiro
##               W      p-value UV.Normality
## pac_id        0.954  0       No          
## edad_paciente 0.9721 0       No          
## AV_OD         0.9565 0       No          
## AV_OI         0.9577 0       No          
## Horas_pd      0.9544 0       No

PNM Henze-Zirkler

mhz(ccd_vision2020_ETL[, -c(11,3,4,5,6,7,12,13)])
## $mv.test
## Statistic   p-value    Result 
##    2.4619         0        NO 
## 
## $uv.shapiro
##               W      p-value UV.Normality
## pac_id        0.954  0       No          
## edad_paciente 0.9721 0       No          
## AV_OD         0.9565 0       No          
## AV_OI         0.9577 0       No          
## Horas_pd      0.9544 0       No

PNM MSK

msk(ccd_vision2020_ETL[, -c(11,3,4,5,6,7,12,13)], B=10)
## $mv.test
## Statistic   p-value    Result 
##    163.18         0        NO 
## 
## $uv.shapiro
##               W      p-value UV.Normality
## pac_id        0.954  0       No          
## edad_paciente 0.9721 0       No          
## AV_OD         0.9565 0       No          
## AV_OI         0.9577 0       No          
## Horas_pd      0.9544 0       No

PNM nTest

mvnTest(ccd_vision2020_ETL[, -c(11,3,4,5,6,7,12,13)], B=10)
## $mv.test
##      Tn p-value  Result 
##       1       0      NO 
## 
## $uv.shapiro
##               W      p-value UV.Normality
## pac_id        0.954  0       No          
## edad_paciente 0.9721 0       No          
## AV_OD         0.9565 0       No          
## AV_OI         0.9577 0       No          
## Horas_pd      0.9544 0       No

Fase 2 [Componentes Principales]

En esta segunda etapa del estudio, se presentarán cálculos, visualizaciones e interpretaciones basadas en el conjunto de datos analizado previamente en la Fase 1. Ahora, el enfoque se centrará en el análisis de componentes principales (ACP) aplicado a las variables cuantitativas, incluyendo aspectos como la selección de componentes, calidad de representación, contribuciones y su interpretación.

2.1. Objetivos

El ACP se logra a lo largo de las siguientes fases: generación de nuevas variables, reducción dimensional del espacio de los datos, eliminación de variables de poco aporte e interpretación de los componentes resultantes en el contexto del problema del cual se obtuvieron los dato.

Estimado lector, si desea explorar los fundamentos de este análisis con mayor profundidad. Los detalles del conjunto de datos se encuentran descritos en la Sección 1.2, mientras que los principios teóricos que sustentan este estudio están cuidadosamente desarrollados en la denominada Fase 1. Una lectura detenida de estas secciones enriquecerá su comprensión y apreciación del trabajo presentado.

2.2. Selección de Componentes

Como señalan Díaz Morales y Morales Rivera (2012), el Análisis de Componentes Principales (ACP) permite reorganizar un conjunto de datos multivariado al reducir el número de variables, sin requerir suposiciones específicas sobre la distribución de probabilidad de estas. Esta reducción se alcanza mediante la creación de combinaciones lineales de las variables originales, diseñadas para captar la mayor variabilidad posible en los datos. De este modo, el ACP genera nuevas variables, denominadas componentes principales, que presentan independencia estadística y ausencia de correlación, siempre bajo el supuesto de normalidad.

2.3. Planteamiento y Desarrollo

A partir de las variables cuantitativas del conjunto de datos descrito en la Sección 1.2, se requiere inicialmente determinar el porcentaje de varianza explicado por cada dimensión tras realizar el Análisis de Componentes Principales (ACP). Posteriormente, con base en el autovalor promedio o mediante un gráfico de sedimentación, se debe decidir cuántos componentes conservar.

La navegación a través de las pestañas muestra que el conjunto de datos, en relación con sus variables numéricas, puede ser representado por un conjunto más pequeño de dimensiones que retiene el \(43.01%\) de la variabilidad total en las dos primeras dimensiones. Este resultado sugiere que la varianza está distribuida de manera relativamente uniforme entre las principales dimensiones, lo que indica una estructura interna en la que las variables originales no están altamente correlacionadas. En particular:

La Matriz ACP muestra cinco dimensiones, donde la primera retiene el \(22.49%\) de la varianza, seguida por la segunda con un \(20.52%\), y la tercera con un \(19.85\)\(%\). Las dos últimas dimensiones explican un \(18.82%\) y un \(18.31%\), respectivamente. En este sentido, la representatividad de la combinación lineal que define la dimensión 1 es moderadamente superior en comparación con las demás. Como esta matriz no proporciona información directa sobre las variables originales, se continúa explorando la identificación de las variables que más contribuyen a la dimensión con el mayor valor propio.

La Matriz de Correlaciones ayuda a describir las relaciones entre las variables que conforman la dimensión 1. Según esta matriz, las correlaciones entre las variables son en su mayoría bajas, con un valor máximo de \(0.04\) entre Horas_pd y edad_paciente. Esto indica que las variables no están fuertemente relacionadas entre sí, lo que podría influir en cómo contribuyen a la combinación lineal que define la primera dimensión.

La pestaña Valores y Vectores Propios presenta los resultados obtenidos a partir del análisis de la matriz de correlaciones del conjunto de datos clínicos. En este análisis se verifica que la suma de los valores propios coincide con el número de variables analizadas, lo que garantiza que la totalidad de la variabilidad del sistema queda representada por el conjunto de componentes principales. A partir de estos valores propios se determinan directamente las proporciones de varianza explicada por cada componente.

Por otra parte, la matriz de vectores propios proporciona los coeficientes que definen las combinaciones lineales de las variables originales que dan lugar a cada componente principal. Estos coeficientes, también conocidos como cargas factoriales, permiten identificar el peso y la dirección de la contribución de cada variable en las nuevas dimensiones del análisis.

En particular, para la primera componente principal (CP1), y considerando los coeficientes redondeados a dos cifras decimales, donde Edad corresponde a la edad del paciente, AV_OD y AV_OI representan la agudeza visual del ojo derecho e izquierdo respectivamente, Horas_PD el tiempo de uso de pantallas digitales y Horas_AF las horas de actividad física (todas variables previamente estandarizadas), la componente puede expresarse como:

\(Componente 1 = 0.46 * Edad − 0.44 * AV_OD − 0.52 * AV_OI + 0.55 * Horas_PD + 0.16 * Horas_AF\)

Esta formulación evidencia que la primera componente está principalmente influenciada por el uso de pantallas digitales, la edad del paciente y la agudeza visual, especialmente del ojo izquierdo. En consecuencia, esta dimensión resume un patrón clínico asociado a los hábitos visuales y su relación con la función visual, facilitando la interpretación de las interacciones multivariantes presentes en los datos.

Los gráficos de Cattell y Cattell-Kaiser, conocidos por sus formas de codo y sedimentación, son herramientas útiles para decidir cuántas componentes retener en un análisis de reducción de dimensión, asegurando que se conserve suficiente variabilidad para abordar el problema.

El Gráfico de Cattell muestra cómo varía la pendiente entre las componentes, destacando que la primera componente tiene una capacidad explicativa significativamente mayor, explicando el \(22.5\)\(%\) de la varianza total. Este cambio en la pendiente, también conocido como “punto de inflexión”, sugiere que los primeros componentes son clave para retener, ya que capturan la mayor parte de la variabilidad del conjunto de datos.

Además, el Gráfico de Cattell-Kaiser combina esta visualización con el criterio de Kaiser, que recomienda retener los componentes con un valor propio superior a 1. Según este criterio, solo la primera componente cumple con esta condición, lo que inicialmente respalda la elección de retener únicamente esta. Sin embargo, al considerar la varianza acumulada, se observa que los tres primeros componentes explican juntos el \(62.9%\) de la variabilidad, lo que sugiere que incluir más de un componente podría ser valioso para capturar dimensiones adicionales relevantes en el análisis, especialmente en un contexto clínico donde diferentes factores pueden influir en el diagnostico de enfermedades oculares.

Por tanto, se toma la decisión de trabajar con dos componentes, ya que permiten capturar patrones importantes relacionados con las afecciones cardiovasculares sin añadir una complejidad innecesaria al análisis. Esto facilita la interpretación de los resultados y garantiza una representación significativa de los datos.

Matriz ACP

get_eigenvalue(PCA(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)], ncp = 6, scale.unit = TRUE, graph = F))
##       eigenvalue variance.percent cumulative.variance.percent
## Dim.1  1.1246032         22.49206                    22.49206
## Dim.2  1.0260493         20.52099                    43.01305
## Dim.3  0.9926047         19.85209                    62.86515
## Dim.4  0.9410322         18.82064                    81.68579
## Dim.5  0.9157105         18.31421                   100.00000

Matriz de Correlaciones

round(cor(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)]),2)
##               edad_paciente AV_OD AV_OI Horas_pd Horas_af
## edad_paciente          1.00 -0.05 -0.02     0.04    -0.01
## AV_OD                 -0.05  1.00  0.03    -0.02    -0.04
## AV_OI                 -0.02  0.03  1.00    -0.07     0.00
## Horas_pd               0.04 -0.02 -0.07     1.00     0.01
## Horas_af              -0.01 -0.04  0.00     0.01     1.00

Valores y Vectores Propios

princomp(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)], cor = TRUE)$sdev^2
##    Comp.1    Comp.2    Comp.3    Comp.4    Comp.5 
## 1.1246032 1.0260493 0.9926047 0.9410322 0.9157105
princomp(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)], cor = TRUE)$loadings[ ,1:5]
##                   Comp.1      Comp.2     Comp.3    Comp.4     Comp.5
## edad_paciente  0.4565059  0.08228379  0.6897766 0.3677253  0.4169150
## AV_OD         -0.4405769  0.51649857 -0.2976844 0.5439600  0.3932082
## AV_OI         -0.5186890 -0.26412446  0.4469383 0.4457841 -0.5125648
## Horas_pd       0.5492963  0.31829276 -0.2698032 0.4208646 -0.5891031
## Horas_af       0.1634920 -0.74524264 -0.4037878 0.4393577  0.2486042

Correlaciones Comparadas

par(mfrow=c(1,2))
corrplot::corrplot(cor(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)]), method = "color", type = "upper", number.cex = 0.4)
corrplot::corrplot(cor(princomp(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)], cor = TRUE)$scores), method = "color", type = "upper", number.cex = 0.4)

Gráfico de Cattell

fviz_eig(PCA(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)], scale.unit = T, graph = F), addlabels = T, ylim=c(0,90), main = "")
## Warning in geom_bar(stat = "identity", fill = barfill, color = barcolor, :
## Ignoring empty aesthetic: `width`.

Gráfico de Cattell-Kaiser

scree(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)],factors = FALSE, pc = TRUE, main ="")

2.4. Calidad de Representación

Con base en la referencia de ,se confirma que, tras reducir la dimensionalidad del conjunto de datos y entender que sus variables estandarizadas se representan gráficamente como proyecciones de una hiperesfera de correlaciones, es esencial iniciar la interpretación de las componentes a partir de esas correlaciones. Posteriormente, se debe evaluar la calidad de las representaciones obtenidas, considerando la reducción dimensional aplicada al conjunto de datos y su impacto en las variables.

Es necesario evaluar la calidad de la representación de las variables cuantitativas en relación con el número de dimensiones calculadas que capturan la mayor proporción de variabilidad; para más detalles, consultar la sección 2.3.

2.5 Desarrollo del Análisis.

Explorar las pestañas revela que reducir la dimensionalidad del conjunto de datos permite analizar la calidad de la representación, usando una escala de contribuciones relativas. Esta escala se basa en un cociente de proyecciones con propiedades aditivas y una escala continua que varía de 0 a 1. En particular:

El Círculo de Correlaciones expresa que se pueden identificar patrones significativos entre las variables originales, en el marco de una selección de componentes principales. Dimensión 1 (Dim1): Explica el \(22.5\%\) de la varianza. Muestra una correlación positiva con variables como Horas_pd y edad_paciente, las cuales están orientadas hacia este eje y cercanas a la frontera del círculo unitario. Esto indica que estas variables contribuyen significativamente a la construcción de Dim1, que podría estar capturando características comunes a ellas.

Por otra parte, la Dimensión 2 (Dim2): Explica el \(20.5\%\) de la varianza. Está asociada con variables como Horas_af, que tiene una alta correlación positiva. Por el contrario, las variables Agudeza_visual_OD y Agudeza_visual_OI están correlacionadas negativamente con Dim2. Esto sugiere que Dim2 está representando un fenómeno diferente o complementario al descrito por Dim1.

Otro aspecto destacable es la relación mostrada entre pares de variables en el círculo: La Correlación Positiva Fuerte entreHoras_pd y edad_paciente presentan vectores cercanos, indicando una relación positiva. Ademas, de tener una *Correlación Negativa Fuerte entre Horas_pd y edad_paciente están en oposición directa a Agudeza_visual_OI, lo que implica una fuerte correlación negativa.Y una Poca Correlación de Ortogonalidad: en variables como Horas_af y Agudeza_visual_OI muestran vectores casi perpendiculares, sugiriendo una baja relación en este contexto bidimensional.

Esta interpretación se limita a la estructura de correlaciones representada en el gráfico y describe cómo las variables originales contribuyen a las dimensiones principales seleccionadas, sin implicar relaciones causales o de dependencia directa entre ellas.

La Matriz de Representación (\(\cos^2\)) muestra la calidad con la que cada variable es representada por las dimensiones principales. Este análisis se basa en la interpretación de la correlación entre variables (Círculo de Correlaciones), la calidad de representación (\(\cos^2\)), y la posición de los individuos (Coordenadas Individuales) en el espacio factorial:

Asociación Fuerte con Dimensión 1 (Dim1): Las variables Horas_pd (\(\cos^2 = 0.339\)) y Agudeza_visual_OI (\(\cos^2 = 0.303\)) tienen los valores de coseno cuadrado más altos en relación con la Dimensión 1. Esto indica que están fuertemente asociadas con este componente y aportan significativamente a él.

Varianza Distribuida en Dimensiones Posteriores: En contraste, la variable edad_paciente tiene un valor bajo de coseno cuadrado en la Dimensión 1 (0.234) y la Dimensión 2 (0.007). Esto sugiere que su varianza se distribuye más hacia otras dimensiones, especialmente la Dimensión 3, donde muestra una mejor representación (0.472). Esto afecta la calidad de representación de edad_paciente en el plano principal (Dim1/Dim2).

El gráfico de la Calidad de Representación (codificado por color) confirma visualmente la contribución al plano Dim1/Dim2. Los elementos mejor representados por las componentes 1 y 2 incluyen Horas_af (el vector más rojo) y Agudeza_visual_OD (naranja), lo cual indica que la mayor parte de su varianza es explicada por este plano bidimensional. Por otra parte, la variable edad_paciente se muestra en un color más claro (amarillo), confirmando su baja representación en este plano bidimensional, lo cual es coherente con su fuerte \(\cos^2\) en la Dimensión 3.

  • Roles Dimensionales: La Dimensión 2 tiene una excelente representación de Horas_af (vector alineado verticalmente), lo que implica que, aunque la componente 1 es la principal para Horas_pd, la componente 2 también juega un papel relevante en la representación de ciertos aspectos.

Las Coordenadas Individuales permiten identificar los perfiles de los registros (pacientes) en relación con las dimensiones principales, lo cual es clave para la segmentación:

  • Extremos en Dimensión 1 (Correlacionado con Horas/Edad): Los registros # 6 (2.485) y # 2 (1.866) tienen los valores positivos más extremos en Dim1. Estos pacientes representan perfiles con altos valores en las variables positivamente correlacionadas con Dim1, como Horas_pd y edad_paciente.

  • Extremos en Dimensión 2 (Correlacionado con Horas_af): En la dimensión 2, los registros # 4 (1.622) y # 17 (1.048) destacan por sus valores positivos. Estos pacientes muestran un comportamiento similar en la variable Horas_af (correlacionada positivamente con Dim2).

  • Perfiles Promedio o Mal Representados: Los registros con valores muy cercanos al origen (por ejemplo, # 14 con 0.034 en Dim1) son perfiles promedio o su varianza es explicada por dimensiones posteriores.

Círculo de Correlaciones

fviz_pca_var(PCA(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)], scale.unit = T, graph = F),col.var="#3B83BD", repel = T, col.circle = "#CDCDCD", ggtheme = theme_bw())
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## ℹ The deprecated feature was likely used in the ggpubr package.
##   Please report the issue at <https://github.com/kassambara/ggpubr/issues>.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
## Warning: `aes_string()` was deprecated in ggplot2 3.0.0.
## ℹ Please use tidy evaluation idioms with `aes()`.
## ℹ See also `vignette("ggplot2-in-packages")` for more information.
## ℹ The deprecated feature was likely used in the factoextra package.
##   Please report the issue at <https://github.com/kassambara/factoextra/issues>.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

Matriz de Representación

(get_pca_var(PCA(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)], ncp = 5, scale.unit = TRUE, graph = F)))$cos2
##                    Dim.1       Dim.2      Dim.3     Dim.4      Dim.5
## edad_paciente 0.23436466 0.006946992 0.47227316 0.1272481 0.15916706
## AV_OD         0.21829452 0.273719975 0.08796065 0.2784444 0.14158045
## AV_OI         0.30256128 0.071578979 0.19827664 0.1870052 0.24057790
## Horas_pd      0.33932255 0.103949347 0.07225545 0.1666822 0.31779045
## Horas_af      0.03006022 0.569854035 0.16183883 0.1816523 0.05659462

Calidad de Representación

fviz_pca_var(PCA(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)], ncp = 5, scale.unit = TRUE, graph = F), col.var="cos2", gradient.cols=c("#00AFBB","#E7B800","#FC4E07"), repel = TRUE)

Coordenadas Individuales

head((PCA(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)], ncp = 5, scale.unit = TRUE, graph = F))$ind$coord, n = 23L)
##          Dim.1       Dim.2       Dim.3       Dim.4       Dim.5
## 1  -0.42567484 -0.88216766 -0.81037907  0.41717919 -0.22422680
## 2  -0.01336895  1.57443439 -0.04585009 -0.19808633  0.89292052
## 3   0.49754320  0.30587312 -0.16098551  2.15496652  0.37533984
## 4   0.17002548 -0.77995612  0.47196388 -1.32851564 -1.90133626
## 5  -0.94713091  1.30481644  0.70942255  0.32409751  0.56308347
## 6  -1.14497181 -0.39163920 -0.17623904 -0.32755679 -1.57295708
## 7   0.27935505 -0.74035358 -1.52164253 -0.57119225  1.46939879
## 8  -1.36730302 -0.02579698  1.07534578 -0.88669061  0.54556754
## 9  -0.43180412 -1.58915621  0.08258649 -1.48771627 -1.57908548
## 10 -0.94234124  1.16957605  1.33834650  1.46030323 -1.64537774
## 11  1.22586500  0.20579448  0.91825949  1.17348883  1.25586736
## 12 -1.35037530 -0.14630831 -1.63139751  0.07945244 -0.68250829
## 13  0.82657970  0.11400445 -0.26658286  1.53032125 -0.91585980
## 14  0.03411531 -1.70147855  1.17619498  1.02583523 -0.33980577
## 15  0.31175414  2.04521114  0.29501956  0.86617469  1.05250095
## 16  0.66987214 -0.98774417  1.57400750  0.11141607  1.35202561
## 17 -1.44509242  0.90239818 -0.36157649 -1.47823560  0.37625363
## 18 -0.18279665 -1.10395541  0.10821778  1.35301876 -0.56745099
## 19  0.22284154  1.77410255 -1.07495769 -0.73307877 -0.41988904
## 20  1.79252255 -0.15604542  1.72697880 -0.79170369 -0.05372953
## 21 -0.21705558  0.12385166 -0.49414413  1.82978387 -0.67382747
## 22 -1.06144476  0.63277606  0.93237029 -1.94863520  1.07637249
## 23 -0.78089970  1.69774737 -0.34949488  0.64487642 -0.05193312

2.6. Contribuciones

Los autores señalan que la interpretación de los resultados está estrechamente ligada al cálculo de elementos como coordenadas, contribuciones y cosenos cuadrados. Por lo tanto, es esencial que las variables estén bien conceptualizadas y contextualizadas para facilitar su comprensión. En este sentido, analizar la contribución de cada variable a una componente ayuda a interpretar los resultados, mostrando cómo cada una influye en la definición de las componentes generadas. Este análisis se lleva a cabo en esta sección para determinar el aporte de cada variable en la construcción de las componentes.

2.7. Planteamiento y Desarrollo

Basado en las variables cuantitativas del conjunto de datos descrito en la sección 1.2, se requiere determinar las contribuciones de cada variable en la construcción de las componentes.

La navegación a través de las pestañas facilita la visualización de las contribuciones de las variables del conjunto de datos en forma de representaciones numéricas y gráficas, permitiendo comprender cómo cada variable influye en la construcción de las componentes. Esto permite analizar la proporción de variabilidad que cada variable aporta a la variabilidad total de la componente con la que está asociada.

La Matriz de Contribuciones muestra cómo cada variable contribuye a la retención de variabilidad en la construcción de cada componente. Los diagramas de barras, que se visualizan en las pestañas desde Contribuciones a D1 hasta Contribuciones a D5, ilustran las contribuciones específicas de las variables para explicar la variabilidad en cada componente. Cada gráfico incluye una línea que indica la contribución media, lo que facilita la identificación de las variables que tienen mayor impacto en la explicación de la variabilidad de los componentes.

En Contribuciones a D1 se visualiza que las variables por encima de la contribución media: Agudeza_visual_OI y Horas_pd,retienen aproximadamente el \(57.07%\) de la variabilidad del componente 1.

En Contribuciones a D2 se visualiza que las variables por encima de la contribución media: Horas_af y Agudeza_visual_OD retienen aproximadamente el \(82.22%\) de la variabilidad del componente 2.

En Contribuciones a D3 se visualiza que las variables por encima de la contribución media: Edad_paciente y Agudeza_visual_OI retienen aproximadamente el \(67.56%\) de la variabilidad del componente 3.

En Contribuciones a D4 se visualiza que la variable por encima de la contribución media: Agudeza_visual_OD retiene aproximadamente el \(29.59%\) de la variabilidad del componente 4.

En Contribuciones a D5 se visualiza que las variables por encima de la contribución media: Horas_pd y Agudeza_visual_OI retienen aproximadamente el \(60.97%\) de la variabilidad del componente 5.

Con los datos procesados hasta ahora se puede proceder con la intepretación de los componentes.

Matriz de Contribuciones

(get_pca_var(PCA(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)], ncp = 5, scale.unit = TRUE, graph = F)))$contrib
##                   Dim.1      Dim.2     Dim.3    Dim.4     Dim.5
## edad_paciente 20.839764  0.6770621 47.579177 13.52219 17.381811
## AV_OD         19.410803 26.6770775  8.861599 29.58925 15.461268
## AV_OI         26.903825  6.9761732 19.975387 19.87235 26.272267
## Horas_pd      30.172646 10.1310283  7.279378 17.71270 34.704250
## Horas_af       2.672962 55.5386588 16.304459 19.30352  6.180405

Contribuciones a D1

fviz_contrib(PCA(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)], ncp = 6, scale.unit = TRUE, graph = F), choice = "var", axes = 1, top = 10)

Contribuciones a D2

fviz_contrib(PCA(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)], ncp = 6, scale.unit = TRUE, graph = F), choice = "var", axes = 2, top = 10)

Contribuciones a D3

fviz_contrib(PCA(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)], ncp = 6, scale.unit = TRUE, graph = F), choice = "var", axes = 3, top = 10)

Contribuciones a D4

fviz_contrib(PCA(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)], ncp = 6, scale.unit = TRUE, graph = F), choice = "var", axes = 4, top = 10)

Contribuciones a D5

fviz_contrib(PCA(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)], ncp = 6, scale.unit = TRUE, graph = F), choice = "var", axes = 5, top = 10)

2.8. Interpretación

Representar los registros en un espacio de dimensiones reducidas permite situarlos en un plano de factores, lo que facilita su análisis e interpretación. Las variables reducidas se corresponden con las componentes principales, que se utilizan como ejes en el plano y cuyos valores son los puntajes de las componentes. La distancia entre los puntos representados por estos puntajes es clave para identificar similitudes entre los perfiles de las observaciones. No obstante, las similitudes pueden aparecer solo en algunas variables y no en todas. Así, se busca que las distancias en el espacio de alta dimensión se conserven en el espacio reducido, manteniendo la estructura de las relaciones entre los datos. Según ].

2.9. Planteamiento y Desarrollo

La navegación entre las pestañas facilita la visualización de objetos gráficos y matriciales que, al integrar los resultados de las secciones anteriores, fortalecen la interpretación de las contribuciones de las componentes calculadas. Tal como se presentó en la sección 2.3, el número de componentes seleccionadas se redujo a dos, siguiendo el criterio de Kaiser y considerando la varianza acumulada. Estas dos componentes explican conjuntamente el \(43.01\)\(%\) de la variabilidad de los datos, lo que permite capturar patrones relevantes sin perder simplicidad. En esta sección, se analizan las contribuciones específicas de cada variable a estas componentes, destacando su importancia en la interpretación de los factores clave relacionados con las afecciones cardiovasculares.

Las pestañas de Biplot de Variables y Registros Totales en las categorías Pac_sexo (sexo del paciente), Rango_Etareo (grupo etareo del paciente) y Hobby_ppantallay (hobby que implique uso de pantallas) muestran, con base en las agrupaciones que estas variables categóricas pueden establecer, la representación en dimensionalidad reducida en el plano de factores generado por los componentes principales.

En este sentido:

  • La agrupación con base en el rango etario (Primera infancia, Niñez, Jóvenes, Adulto y Adulto mayor) permite observar cómo las distintas etapas del ciclo de vida generan una distribución diferenciada en el espacio de los componentes principales, especialmente en las dimensiones Dim.1 y Dim.2. En particular, los grupos correspondientes a adultos mayores tienden a proyectarse hacia valores positivos de Dim.1, mostrando una mayor asociación con la variable edad del paciente y con variaciones en la agudeza visual (AV_OD y AV_OI). Por su parte, los grupos de primera infancia y niñez se concentran en regiones opuestas del espacio, lo que sugiere patrones visuales y comportamentales distintos frente a las variables analizadas.

-La agrupación con base en el uso de pantallas como hobby (sí / no) muestra una separación menos marcada entre las observaciones en el espacio de los componentes principales. No obstante, se observa que los individuos que reportan uso de pantallas presentan una mayor dispersión, especialmente en la dirección asociada a la variable Horas_pd, lo que indica que este hábito introduce variabilidad adicional en los datos. En contraste, quienes no utilizan pantallas tienden a concentrarse más cerca del origen, lo que sugiere una influencia moderada de esta variable categórica sobre la estructura global del conjunto de datos.

-De manera complementaria, el análisis de los vectores del biplot evidencia que las variables AV_OD y AV_OI presentan una alta correlación positiva, ya que se orientan en direcciones similares dentro del espacio factorial. Asimismo, las variables Horas_pd y Horas_af muestran orientaciones opuestas, lo que indica una relación inversa entre los distintos tipos de actividades visuales. La variable edad del paciente se asocia principalmente con la Dim.2, sugiriendo que la edad explica una parte específica de la variabilidad que no está directamente vinculada con la agudeza visual.

De esta manera, la representación biplot resalta la capacidad de variables categóricas como el rango etario para establecer agrupaciones significativas dentro del espacio de los componentes principales, evidenciando su influencia en los patrones de agudeza visual y hábitos asociados. En contraste, variables como el uso de pantallas como hobby muestran un impacto más limitado, ya que no generan una separación claramente definida entre los grupos, aunque sí contribuyen a una mayor dispersión de las observaciones. En conjunto, el PCA permite identificar relaciones estructurales relevantes entre la edad, la agudeza visual y las horas de actividad visual, proporcionando una visión sintética y robusta de la variabilidad presente en los datos.

Finalmente, para facilitar la interpretación de los puntajes en el plano definido por las primeras dos componentes principales (Dim.1 y Dim.2) y las relaciones entre variables, se generó la pestaña Coordenadas Individuales [Subconjunto ChestPain]. Esta visualización, basada en un subconjunto del \(5\) \(%\) [47] de registros seleccionados mediante muestreo aleatorio simple, permite explorar los puntajes por componentes. Este enfoque ofrece una representación clara y comprensible, sin comprometer los detalles esenciales. Es importante señalar que este procedimiento tiene fines de visualización, ya que el conjunto de datos original, mucho más grande [947 registros], dificulta la identificación visual de patrones relevantes.

Biplot de Variables y Registros [filtro:Pac_sexo]

ccd_vision2020_ETL <- read_excel("C:\\Users\\JOSE\\Desktop\\gdd\\ccd_vision2020_ETL.xlsx")

ccd_vision2020_ETL_Reducido <- ccd_vision2020_ETL[
sample(1:nrow(ccd_vision2020_ETL), 100),
c("edad_paciente","AV_OD","AV_OI","Horas_pd","Horas_af","pac_sexo")
]

ccd_vision2020_ETL_Reducido$pac_sexo <- factor(ccd_vision2020_ETL_Reducido$pac_sexo,levels = c(0, 1),
labels = c("Femenino", "Masculino"))

res_pca <- PCA(
ccd_vision2020_ETL_Reducido[, c("edad_paciente","AV_OD","AV_OI","Horas_pd","Horas_af")],
ncp = 5,scale.unit = TRUE,graph = FALSE)

fviz_pca_biplot(res_pca,axes = c(1, 2),repel = TRUE,habillage = ccd_vision2020_ETL_Reducido$pac_sexo)
## Warning: Removed 100 rows containing missing values or values outside the scale range
## (`geom_point()`).
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_point()`).

Biplot de Variables y Registros [filtro:Rango Etareo]

library(FactoMineR)
library(factoextra)
library(readxl)

ccd_vision2020_ETL <- read_excel("C:\\Users\\JOSE\\Desktop\\gdd\\ccd_vision2020_ETL.xlsx")

set.seed(780729)

muestra_re <- ccd_vision2020_ETL[
sample(1:nrow(ccd_vision2020_ETL), 150),
c("edad_paciente","AV_OD","AV_OI","Horas_pd","Horas_af","rango_etareo")
]

muestra_re$rango_etareo <- factor(muestra_re$rango_etareo)

res_pca_re <- PCA(
muestra_re[, c("edad_paciente","AV_OD","AV_OI","Horas_pd","Horas_af")],
ncp = 5,
scale.unit = TRUE,
graph = FALSE
)

fviz_pca_biplot(
res_pca_re,
axes = c(1, 2),
repel = TRUE,
habillage = muestra_re$rango_etareo
)

Biplot de Variables y Registros [filtro:Hobby_ppantalla]

set.seed(780729)

muestra_hb <- ccd_vision2020_ETL[
sample(1:nrow(ccd_vision2020_ETL), 150),
c("edad_paciente","AV_OD","AV_OI","Horas_pd","Horas_af","Hobby_ppantalla")
]

muestra_hb$Hobby_ppantalla <- factor(
muestra_hb$Hobby_ppantalla,
levels = c("no","si") # ajusta según codificación real
)

res_pca_hb <- PCA(
muestra_hb[, c("edad_paciente","AV_OD","AV_OI","Horas_pd","Horas_af")],
ncp = 5,
scale.unit = TRUE,
graph = FALSE
)

fviz_pca_biplot(
res_pca_hb,
axes = c(1, 2),
repel = TRUE,
habillage = muestra_hb$Hobby_ppantalla
)

Fase 3 [Correspondencias]

3.1. Objetivos

En esta tercera fase del estudio, se presentarán cálculos, visualizaciones e interpretaciones basadas en el conjunto de datos trabajado en la fase 1 y fase 2. Sin embargo, esta fase se enfocará en aplicar análisis de correspondencias simples y múltiples sobre las variables cualitativas, abarcando la construcción de tablas de contingencia y disyuntivas completas, así como la evaluación de calidades de representación, contribuciones e interpretaciones.

3.2. Correspondencias Simples

Según (Aldás & Uriel, 2017),el análisis de correspondencias simple (ACS) tiene como propósito reducir la dimensionalidad de las relaciones entre categorías de dos variables categóricas, representándolas en un espacio multidimensional. Este método permite analizar gráficamente las distancias entre las categorías de las variables, facilitando la interpretación de tablas de contingencia. El número máximo de dimensiones necesarias para explicar dichas relaciones corresponde a uno menos el número de categorías de la variable con menor cantidad de niveles.

Asimismo, el ACS, basado en tablas de contingencia, puede ampliarse para incluir más de dos variables categóricas, lo que se conoce como Análisis de correspondencias múltiples (ACM). Este enfoque utiliza una tabla disyuntiva completa, permitiendo explorar y representar relaciones más complejas entre múltiples variables categóricas.

3.3. Correspondencias Múltiples

Fase 4 [Conglomerados]

4.1. Objetivos

En esta cuarta etapa del estudio se presentarán cálculos, visualizaciones e interpretaciones, utilizando el conjunto de datos procesado en las fases previas (1, 2 y 3). El enfoque se centrará en el análisis de conglomerados, abarcando tanto su versión jerárquica mediante dendrogramas como la no jerárquica con K-medias.

4.2. Agrupación Jerárquica

El Profesor (EAMOTImo42023?), en su trabajo (al que se pueden remitir mediante el enlace), señalaba que los autores (Díaz Morales & Morales Rivera, 2012), basándose en el análisis de Everitt (1980) titulado Cluster Analysis, describen los conglomerados como zonas continuas en un espacio donde se concentra una alta densidad de puntos, separadas por áreas con menor densidad. Para identificar estas concentraciones, se emplean diferentes técnicas, destacándose los métodos jerárquicos. Estos inician con el cálculo de una matriz de distancias entre los elementos analizados, lo que permite agruparlos mediante un proceso de aglomeración. Este método comienza con conglomerados individuales y avanza hacia un único grupo final. A lo largo de este proceso, se generan fusiones y divisiones que establecen jerarquías basadas en similitudes, representadas gráficamente a través de un dendograma.

4.3. Agrupación No-Jerárquica

Fase 5 [Regresiones]

5.1. Objetivos

Este estudio tiene como propósito establecer la relación entre dos o más variables mediante la obtención de información sobre una de ellas, basada en el conocimiento de los valores de las otras. Las relaciones establecidas son de carácter no determinístico, es decir, se plantearán relaciones probabilísticas y se implementarán procedimientos para realizar inferencias sobre los modelos utilizados. Además, se obtendrán medidas cuantitativas que indiquen el grado de relación entre las variables. Los modelos considerados en este trabajo corresponden a casos específicos del modelo lineal generalizado: Regresión Lineal Simple, Regresión Lineal Múltiple y Regresión Logística. Cada modelo será descrito teóricamente en su respectiva sección, y se aplicará a un conjunto de datos específico descrito en la sección 2.

La estructura y referencias principales se basan en el Estudio de Análisis Multivariado del profesor (EAMOTImo42023?). Además, se utilizaron libros como Probabilidad y estadística para ingeniería industrial de (Devore, Jay L., 2008), Análisis estadístico de datos multivariados de (Díaz Morales & Morales Rivera, 2012), y Análisis multivariante aplicado con R de (Aldás & Uriel, 2017), que proporcionaron fundamentos clave para este análisis.

Para fines de visualización, se creó un apartado específico para el diccionario de variables. Asimismo, se aclara que se puede consultar el diccionario de variables extendido en la sección 1.2:

Desplegar el diccionario de variables

5.2. Regresión Lineal Simple

Coeficientes del Modelo RLS

modelo_RL_Simple = lm(ccd_vision2020_ETL$AV_OD~ccd_vision2020_ETL$rango_etareo)
coef(modelo_RL_Simple)
##                                     (Intercept) 
##                                     0.523879056 
##     ccd_vision2020_ETL$rango_etareoADULTO MAYOR 
##                                     0.008833255 
##          ccd_vision2020_ETL$rango_etareoJÓVENES 
##                                     0.023976686 
##            ccd_vision2020_ETL$rango_etareoNIÑEZ 
##                                     0.033517981 
## ccd_vision2020_ETL$rango_etareoPRIMERA INFANCIA 
##                                     0.055371215
modelo_RL_Simple1 = lm(ccd_vision2020_ETL$AV_OI~ccd_vision2020_ETL$rango_etareo)
coef(modelo_RL_Simple1)
##                                     (Intercept) 
##                                      0.57398313 
##     ccd_vision2020_ETL$rango_etareoADULTO MAYOR 
##                                     -0.03223597 
##          ccd_vision2020_ETL$rango_etareoJÓVENES 
##                                      0.01530552 
##            ccd_vision2020_ETL$rango_etareoNIÑEZ 
##                                     -0.02340862 
## ccd_vision2020_ETL$rango_etareoPRIMERA INFANCIA 
##                                     -0.03652918

Resumen Estadístico del Modelo RLS

summary(modelo_RL_Simple)
## 
## Call:
## lm(formula = ccd_vision2020_ETL$AV_OD ~ ccd_vision2020_ETL$rango_etareo)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.45839 -0.21971 -0.00542  0.21120  0.47479 
## 
## Coefficients:
##                                                 Estimate Std. Error t value
## (Intercept)                                     0.523879   0.011409  45.919
## ccd_vision2020_ETL$rango_etareoADULTO MAYOR     0.008833   0.019984   0.442
## ccd_vision2020_ETL$rango_etareoJÓVENES          0.023977   0.020094   1.193
## ccd_vision2020_ETL$rango_etareoNIÑEZ            0.033518   0.031284   1.071
## ccd_vision2020_ETL$rango_etareoPRIMERA INFANCIA 0.055371   0.031457   1.760
##                                                 Pr(>|t|)    
## (Intercept)                                       <2e-16 ***
## ccd_vision2020_ETL$rango_etareoADULTO MAYOR       0.6586    
## ccd_vision2020_ETL$rango_etareoJÓVENES            0.2330    
## ccd_vision2020_ETL$rango_etareoNIÑEZ              0.2842    
## ccd_vision2020_ETL$rango_etareoPRIMERA INFANCIA   0.0786 .  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2589 on 1161 degrees of freedom
## Multiple R-squared:  0.003766,   Adjusted R-squared:  0.0003332 
## F-statistic: 1.097 on 4 and 1161 DF,  p-value: 0.3566

Tabla ANOVA para el Modelo RLS

anova(modelo_RL_Simple)
## Analysis of Variance Table
## 
## Response: ccd_vision2020_ETL$AV_OD
##                                   Df Sum Sq  Mean Sq F value Pr(>F)
## ccd_vision2020_ETL$rango_etareo    4  0.294 0.073540  1.0971 0.3566
## Residuals                       1161 77.825 0.067033

5.3. Regresión Lineal Múltiple

Este modelo, que a partir de ahora se denominará como RLS, está compuesto por dos variables: una predictora y otra respuesta. Específicamente, la variable \(Y\) se considera influida por la variable predictora \(x\). La relación entre estas variables está descrita por la ecuación: \[Y = \beta_0 + \beta_1x + \varepsilon\] Donde: - \(Y\): Es la variable dependiente (la que se desea predecir o explicar). - \(x\): Es la variable independiente (predictora). - \((\beta_0)\): Es el intercepto (valor de \(Y\) cuando \((x = 0)\). - \((\beta_1)\): Es la pendiente (indica cuánto cambia \(Y\) por cada unidad que cambia \((x)\). - \((\epsilon)\): Es el término de error, que captura las desviaciones entre los valores observados y los valores predichos por el modelo.

La relación entre la variable independiente y la variable dependiente en el modelo de regresión lineal simple debe cumplir ciertas suposiciones clave para que los resultados sean válidos. Estas son las siguientes: 1. La relación entre la variable independiente \(x\) y la variable dependiente \(Y\) debe ser lineal. 2. El término de error \(ε\) sigue una distribución normal y tiene una media igual a cero. 3. Las observaciones deben ser independientes entre sí, es decir, el valor de \(Y\) para un dato no influye en los valores de \(Y\) para otros datos. 4. La varianza del término de error \(ε\) debe ser constante para todos los valores de la variable independiente \(x\), una condición conocida como homocedasticidad. La varianza de \(\varepsilon\) es constante para todos los valores de \(x\).

Para estimar los parámetros desconocidos (\(\beta_0\), \(\beta_1\) y \(\sigma^2\)), se usa el método de mínimos cuadrados, que busca minimizar la suma de los cuadrados de las desviaciones verticales entre los puntos observados y la línea de regresión:\[SCE = \sum_{i=1}^n \left(y_i - (\beta_0 + \beta_1x_i)\right)^2\]. Resolviendo este problema, las estimaciones de los parámetros son: \[\hat{\beta}_1 = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^n (x_i - \bar{x})^2}, \quad \hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x}.\] Aquí, \(\bar{x}\) y \(\bar{y}\) son las medias muestrales de \(x\) e \(y\), respectivamente.

El coeficiente de determinación indica la proporción de la variabilidad de \(Y\) que puede explicarse mediante el modelo de regresión lineal simple:\[R^2 = 1 - \frac{SCE}{STC},\] donde \(SCE\) es la suma de cuadrados del error y \(STC\) es la suma total de cuadrados. Un valor de \(R^2\) cercano a 1 indica que el modelo explica gran parte de la variabilidad observada en los datos.

Se pueden formular pruebas para determinar si los coeficientes del modelo son significativamente diferentes de cero. Las hipótesis nulas comunes son: - Para \(\beta_0\): \(H_0: \beta_0 = \beta_{00}\). - Para \(\beta_1\): \(H_0: \beta_1 = 0\) (prueba de utilidad del modelo).

El estadístico de prueba asociado es:\[ t = \frac{\hat{\beta}_1 - 0}{SE(\hat{\beta}_1)},\] donde \(SE(\hat{\beta}_1)\) es el error estándar de \(\hat{\beta}_1\) Este estadístico sigue una distribución \(t\) de Student con \(n-2\) grados de libertad.

Los intervalos de confianza para los parámetros estimados se calculan como: \[\hat{\beta}_1 \pm t_{\alpha/2, n-2} \cdot SE(\hat{\beta}_1).\] Estos intervalos brindan un rango probable para los verdaderos valores de \(\beta_0\) y \(\beta_1\).

El modelo de regresión lineal simple es una herramienta poderosa para analizar relaciones lineales. Sin embargo, debe usarse con cautela: no extrapole más allá del rango de los datos y asegúrese de que las suposiciones del modelo sean razonables para los datos. Al comprender la variabilidad explicada y no explicada por el modelo, los analistas pueden tomar decisiones fundamentadas y evaluar la utilidad del modelo en contextos específicos.

En el modelo, los puntos observados se distribuyen aleatoriamente alrededor de la línea de regresión verdadera. Para ajustarse a estos puntos, la estimación \(y = beta_0 + beta_1 x\) debe ser una línea que minimice las distancias verticales desviaciones entre los puntos observados y la línea. La calidad del ajuste se evalúa mediante la suma de los cuadrados de estas desviaciones, siendo la mejor línea aquella que minimice esta suma. Este enfoque, conocido como el principio de los mínimos cuadrados, fue desarrollado por Carl Friedrich Gauss y Adrien-Marie Legendre.

Por último, se entiende que en un modelo de regresión lineal simple un valor futuro de \(Y\) no es parámetro sino una variable aleatoria, por lo que se debe hacer referencia a un intervalo de valores factibles para un valor futuro de \(Y\), al cual se le llama intervalo de predicción. Según,(EAMOTImo42023?).

5.4. Regresión Logística Simple

###Gráfica del Modelo RLogS

umbral_OD <- 0.8 # ejemplo, reemplazar por el valor adecuado
umbral_OI <- 0.8 # ejemplo, reemplazar por el valor adecuado

ccd_vision2020_ETL$baja_AV_OD <- ifelse(ccd_vision2020_ETL$AV_OD < umbral_OD, 1, 0)
ccd_vision2020_ETL$baja_AV_OI <- ifelse(ccd_vision2020_ETL$AV_OI < umbral_OI, 1, 0)

ccd_vision2020_ETL$baja_AV_OD <- as.numeric(ccd_vision2020_ETL$baja_AV_OD)
ccd_vision2020_ETL$baja_AV_OI <- as.numeric(ccd_vision2020_ETL$baja_AV_OI)
ccd_vision2020_ETL$Horas_pantalla_dia <- as.numeric(ccd_vision2020_ETL$Horas_pd)

mod_log_OD <- glm(baja_AV_OD ~ Horas_pantalla_dia,
family = binomial,
data = ccd_vision2020_ETL)


mod_log_OI <- glm(baja_AV_OI ~ Horas_pantalla_dia,
family = binomial,
data = ccd_vision2020_ETL)


x_seq <- seq(
from = min(ccd_vision2020_ETL$Horas_pantalla_dia, na.rm = TRUE),
to = max(ccd_vision2020_ETL$Horas_pantalla_dia, na.rm = TRUE),
length.out = 200
)

par(mfrow = c(1, 2))

Gráfica del Modelo RLogS

plot(baja_AV_OD ~ Horas_pantalla_dia,
data = ccd_vision2020_ETL,
main = "Modelo RLogS: baja_AV_OD ~ Horas_pantalla_dia",
xlab = "Horas_pantalla_dia",
ylab = "baja_AV_OD (0 = No, 1 = Sí)",
col = "gold",
pch = 16)

lines(x_seq,
predict(mod_log_OD,
newdata = data.frame(Horas_pantalla_dia = x_seq),
type = "response"),
col = "orange",
lwd = 3)

Gráfica del Modelo RLogS

plot(baja_AV_OI ~ Horas_pantalla_dia,
data = ccd_vision2020_ETL,
main = "Modelo RLogS: baja_AV_OI ~ Horas_pantalla_dia",
xlab = "Horas_pantalla_dia",
ylab = "baja_AV_OI (0 = No, 1 = Sí)",
col = "gold",
pch = 16)

lines(x_seq,
predict(mod_log_OI,
newdata = data.frame(Horas_pantalla_dia = x_seq),
type = "response"),
col = "orange",
lwd = 3)

par(mfrow = c(1, 1))

5.5. Ajuste de Varianza

6. Conclusiones

7. Bibliografía

Aldás, J., & Uriel, E. (2017). Análisis multivariante aplicado con R (2nd ed.). ALFACENTAURO.
Devore, Jay L. (2008). Probabilidad y estadı́stica para ingenierı́a y ciencias (7th ed.). CENGAGE LEARNING.
Díaz Morales, L. G., & Morales Rivera, M. A. (2012). Análisis estadístico de datos multivariados (1st ed.). UNAL.
