Fase 1 [Descripciones Multivariantes]
En la primera etapa del estudio se realizarán cálculos,
visualizaciones y un análisis detallado del conjunto de datos clínicos,
el cual se describirá en la sección 1.2. Esta fase
se enfocará desde la estadística descriptiva multivariante, con el fin
de ofrecer una visión general del dataset y, al mismo tiempo, examinar
de manera más profunda las relaciones entre las variables. Este enfoque
permitirá identificar patrones y tendencias importantes dentro de los
datos. Las visualizaciones serán fundamentales para mostrar gráficamente
estas relaciones, proporcionando una forma clara y comprensible de
explorarlas. Todas estas tareas se desarrollarán utilizando R y RStudio,
herramientas que facilitarán la ejecución precisa de los análisis y la
elaboración de gráficos interactivos para una interpretación más
completa de los resultados.
1.1. Objetivos
El objetivo de este proyecto es aplicar técnicas de análisis
multivariado al conjunto de datos aprobado, el cual contiene registros
clínicos de la empresa oftalmológica, Visión 2020. La finalidad es
organizar y procesar la información de manera eficiente, fortaleciendo
las competencias en gestión y análisis de datos. Este trabajo se
desarrolla en el marco del curso Gestión de Datos, orientado al
programa de Ingenieria Industrial, en el segundo periodo de 2025 en la
Universidad del Valle, Seccional Zarzal.
1.2. Descripción de los datos
El conjunto de datos utilizado en este estudio fue proporcionado por
la empresa del sector oftalmológico Vision 2020, a partir de los
registros de pacientes atendidos durante el año 2024. La información
original fue entregada en un archivo plano, con 1249 registros y
posteriormente sometida a un proceso de extracción, transformación y
carga (ETL), en el cual se depuraron inconsistencias, se normalizaron
formatos y se generaron variables derivadas para facilitar el análisis
estadístico. El objetivo de este conjunto es caracterizar el perfil
visual y de hábitos de uso de pantallas de los pacientes, así como su
posible relación con factores demográficos y antecedentes
familiares.
Tras el proceso ETL se consolidó una base con 1166 registros (uno por
paciente) y 13 variables, que combinan aspectos de identificación,
sociodemográficos, clínico‑visuales y de estilo de vida. Las variables
se describen a continuación en el orden en que aparecen en la base de
datos, indicando su tipo y escala de medición mediante la notación
(tipo_de_variable::escala_de_medición[ordenamiento]).
Pac_id (cuantitativa::nominal): Identificador
numérico secuencial que asigna un código único a cada paciente. Permite
referenciar los registros sin revelar datos personales y no tiene
interpretación métrica por sí mismo.
Edad_paciente (cuantitativa::razón): Edad del
paciente expresada en años cumplidos al momento del registro. Es una
variable de razón, con cero absoluto y posibilidad de realizar
comparaciones de proporciones de edad.
Ocupacion (cualitativa::nominal): Profesión u oficio
principal del paciente (por ejemplo, estudiante, administrativo,
operario, independiente, entre otros). Se utiliza para caracterizar el
tipo de actividad diaria, especialmente en términos de exposición
potencial a pantallas.
Canal_difusion (cualitativa::nominal): Medio por el
cual el paciente conoció la óptica (referido, redes sociales, volante,
paso por el local, convenio, etc.). Esta variable permite identificar
los canales de captación más frecuentes dentro de la población
atendida.
Fecha_registro (cualitativa::ordinal[tiempo]): Fecha
en la que el paciente fue registrado en el sistema, expresada como
día/mes/año. Aunque se almacena como texto o fecha calendario, su escala
es ordinal en el tiempo y se usa para ubicar la atención dentro del
periodo de estudio.
Pac_sexo (cualitativa::nominal): Sexo del paciente,
registrado típicamente como “Femenino” o “Masculino”. Esta variable se
emplea para comparar patrones de agudeza visual y hábitos de pantalla
entre grupos.
Rango_etareo (cualitativa::ordinal): Clasificación
del paciente en grupos de edad (por ejemplo, ADOLESCENTE, JOVEN_ADULTO,
ADULTO, ADULTO_MAYOR), construida a partir de la variable edad_paciente.
Presenta un orden natural de los grupos, lo que permite análisis por
categorías etarias.
Agudeza_visual_OD (cuantitativa::razón): Medida de
la agudeza visual del ojo derecho, expresada en la escala establecida
por la óptica (por ejemplo, conversión a una métrica continua compatible
con la práctica clínica). Valores más cercanos a la referencia de visión
normal indican mejor agudeza, mientras que valores que se alejan de
dicho estándar representan mayor compromiso visual.
Agudeza_visual_OI (cuantitativa::razón): Análoga a
la anterior, pero para el ojo izquierdo. Junto con la agudeza del ojo
derecho, permite evaluar la simetría o diferencias entre ambos ojos y
constituye una de las variables clínicas centrales del estudio.
Horas_pantalla_dia (cuantitativa::razón): Número de
horas promedio que el paciente pasa diariamente frente a dispositivos
con pantalla (computador, teléfono inteligente, tableta, televisión,
consola, etc.). Es una medida continua de exposición y se considera un
potencial factor de riesgo asociado a fatiga visual y otras molestias
oculares.
Horas_actividadf (cuantitativa::razón): Horas
promedio de actividad física que el paciente realiza al día (o en
promedio diario a partir de la semana), incluyendo ejercicio
estructurado y actividades recreativas. Esta variable permite explorar
si un estilo de vida más activo se relaciona con mejores indicadores
visuales o con menor exposición a pantallas.
Hobby_principal_pantalla (cualitativa::nominal):
Indica si el pasatiempo principal del paciente implica uso intensivo de
pantallas (por ejemplo, videojuegos, redes sociales, series en
streaming) o no. Se codifica típicamente como “sí” o “no” y se usa para
diferenciar hobbies digitales de actividades analógicas o al aire
libre.
Predisposicion_genetica (cualitativa::nominal):
Señala si el paciente reporta antecedentes familiares de problemas
oftalmológicos relevantes (miopía alta, glaucoma, degeneración macular,
entre otros). Se registra como “sí” o “no” y funciona como aproximación
a un factor de riesgo genético.
Durante el proceso de depuración se verificó la coherencia de rangos
(por ejemplo, edades no negativas, horas de pantalla y actividad física
dentro de intervalos plausibles, valores de agudeza visual dentro de los
límites aceptados por la escala utilizada). Los valores faltantes o
claramente atípicos fueron revisados caso a caso; en los casos en que no
fue posible recuperar información confiable, se recurrió a estrategias
de imputación o exclusión controlada, documentadas en el flujo ETL. A
partir de este conjunto depurado, se desarrollan las fases posteriores
del análisis multivariado, centradas en la relación entre agudeza
visual, hábitos de pantalla, actividad física y factores demográficos y
genéticos.
Estructura del Conjunto de Datos Original
str(conjunto_de_datos_vision2020_Original)
## tibble [1,166 × 22] (S3: tbl_df/tbl/data.frame)
## $ pac_id : num [1:1166] 1 2 4 5 6 7 8 9 10 11 ...
## $ pac_carnet : num [1:1166] 0 0 0 0 0 1 1 1 1 1 ...
## $ nombre : chr [1:1166] "HECTOR GUSTAVO" "LUISA MARIA" "YOLANDA DEL SOCORRO" "MARIA GLADIS" ...
## $ apellido : chr [1:1166] "CUERVO" "TORO CORDOBA" "SANCHEZ" "TORO CORDOBA" ...
## $ edad : num [1:1166] 29 25 55 56 35 37 1 29 41 75 ...
## $ ocupacion : chr [1:1166] "admin" "Asesor Comercial" "OTRO" "OTRO" ...
## $ canal_difusion : chr [1:1166] "Convenio" "Usuario óptica" "Paso por la óptica" "Usuario óptica" ...
## $ fecha_registro : POSIXct[1:1166], format: "2024-05-20" "2024-05-24" ...
## $ pac_sexo : chr [1:1166] "Masculino" "Femenino" "Femenino" "Femenino" ...
## $ pac_vincula : chr [1:1166] "No registra" "No registra" "No registra" "No registra" ...
## $ tipo_afiliciacion : chr [1:1166] "No registra" "Particular" "Particular" "Particular" ...
## $ pac_observa : chr [1:1166] NA NA NA "Ninguna" ...
## $ rango_etareo : chr [1:1166] "ADULTO" "JÓVENES" "ADULTO" "ADULTO" ...
## $ pac_cond_disc : num [1:1166] 0 0 2 0 2 0 0 0 0 0 ...
## $ tipo_regimen : num [1:1166] 2 2 2 2 2 2 2 2 2 2 ...
## $ Agudeza_visual_OD : logi [1:1166] NA NA NA NA NA NA ...
## $ Agudeza_visual_OI2 : logi [1:1166] NA NA NA NA NA NA ...
## $ Error_refractivo_total_D: logi [1:1166] NA NA NA NA NA NA ...
## $ Horas_pantalla_dia : logi [1:1166] NA NA NA NA NA NA ...
## $ Horas_aire_libre_semana : logi [1:1166] NA NA NA NA NA NA ...
## $ Hobby_principal : logi [1:1166] NA NA NA NA NA NA ...
## $ Predisposicion_genetica : logi [1:1166] NA NA NA NA NA NA ...
Estructura del Conjunto de Datos ETL
str(ccd_vision2020_ETL)
## tibble [1,166 × 13] (S3: tbl_df/tbl/data.frame)
## $ pac_id : num [1:1166] 1 2 4 5 6 7 8 9 10 11 ...
## $ edad_paciente : num [1:1166] 29 25 55 56 35 37 1 29 41 75 ...
## $ ocupacion : chr [1:1166] "admin" "Asesor Comercial" "OTRO" "OTRO" ...
## $ canal_difusion : chr [1:1166] "Convenio" "Usuario óptica" "Paso por la óptica" "Usuario óptica" ...
## $ fecha_registro : POSIXct[1:1166], format: "2024-05-20" "2024-05-24" ...
## $ pac_sexo : chr [1:1166] "Masculino" "Femenino" "Femenino" "Femenino" ...
## $ rango_etareo : chr [1:1166] "ADULTO" "JÓVENES" "ADULTO" "ADULTO" ...
## $ AV_OD : num [1:1166] 0.847 0.213 0.717 0.592 0.404 ...
## $ AV_OI : num [1:1166] 0.488 0.765 0.799 0.142 0.974 ...
## $ Horas_pd : num [1:1166] 5.82 4.79 8.77 0.78 3.07 0.62 8.99 1.86 1.22 0.38 ...
## $ Horas_af : num [1:1166] 5 8 9 3 7 5 4 2 1 9 ...
## $ Hobby_ppantalla : chr [1:1166] "si" "no" "no" "no" ...
## $ Predisposicion_genetica: chr [1:1166] "1" "1" "0" "0" ...
1.3. Estimaciones multivariadas
El vector de medias y la matriz de varianzas‑covarianzas permiten
describir de forma conjunta el nivel típico, la dispersión y las
relaciones lineales entre las variables métricas registradas para los
pacientes de la óptica. En este estudio se consideran como variables
aleatorias cuantitativas: edad_paciente, Agudeza_visual_OD,
Agudeza_visual_OI, Horas_pantalla_dia y Horas_af. El vector de medias
resume, para cada una de estas variables, el valor promedio observado en
la muestra, de modo que sirve como referencia del “perfil medio” de los
pacientes en términos de edad, condición visual y hábitos de uso de
pantallas y de actividad física. La matriz de varianzas‑covarianzas, por
su parte, cuantifica en su diagonal principal la variabilidad individual
de cada variable alrededor de su media, mientras que en las posiciones
fuera de la diagonal recoge las covarianzas entre pares de variables,
las cuales describen la intensidad y el sentido de sus relaciones
lineales.
Trabajar simultáneamente con el vector de medias y la matriz de
varianzas‑covarianzas resulta esencial en el análisis multivariado
porque permite capturar, en un solo objeto matemático, tanto la
tendencia central como las interdependencias entre las variables de
interés. A partir de estas estimaciones es posible derivar la matriz de
correlaciones, que normaliza las covarianzas y facilita comparar la
fuerza de asociación entre variables medidas en escalas diferentes, como
las horas frente a pantallas y las medidas de agudeza visual. Estos
elementos constituyen la base para los procedimientos posteriores de
análisis de componentes principales, conglomerados y modelos de
regresión.
Vector de Promedios y Boxplots
apply(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)], 2, mean)
## edad_paciente AV_OD AV_OI Horas_pd Horas_af
## 38.7178388 0.5367784 0.5662855 4.9418525 5.4631218
ccd_vision2020_ETL_Reducido = ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)]
nombres_boxplots <- c("edad_paciente", "AV_OD", "AV_OI", "Horas_pd", "Horas_af")
par(mfrow = c(1, ncol(ccd_vision2020_ETL_Reducido)))
invisible(lapply(1:ncol(ccd_vision2020_ETL_Reducido), function(i) {
boxplot(ccd_vision2020_ETL_Reducido[, i],
main = nombres_boxplots[i])}))

Matriz de Varianzas-Covarianzas
round(cov(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)]),2)
## edad_paciente AV_OD AV_OI Horas_pd Horas_af
## edad_paciente 502.21 -0.28 -0.14 2.86 -0.55
## AV_OD -0.28 0.07 0.00 -0.02 -0.03
## AV_OI -0.14 0.00 0.07 -0.05 0.00
## Horas_pd 2.86 -0.02 -0.05 8.08 0.05
## Horas_af -0.55 -0.03 0.00 0.05 8.31
Matriz de Correlaciones
round(cor(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)]),3)
## edad_paciente AV_OD AV_OI Horas_pd Horas_af
## edad_paciente 1.000 -0.048 -0.024 0.045 -0.009
## AV_OD -0.048 1.000 0.029 -0.020 -0.042
## AV_OI -0.024 0.029 1.000 -0.073 -0.005
## Horas_pd 0.045 -0.020 -0.073 1.000 0.006
## Horas_af -0.009 -0.042 -0.005 0.006 1.000
El vector de medias y la matriz de
varianzas-covarianzas conforman un conjunto de herramientas
fundamentales para describir el comportamiento posicional, dispersivo y
correlacional de las variables aleatorias en un conjunto de datos. Estas
medidas son esenciales en el análisis multivariado, porque permiten
capturar tanto la tendencia central como las interdependencias entre las
variables.
1.4. Gráficas multivariadas
En esta sección se presenta el cálculo e interpretación de tres
objetos fundamentales: Vector de Medias \(\bar x\) , Matriz de
Varianzas-Covarianzas \(S\) y
Matriz de Correlaciones \(R\)., construidos a partir de las variables
edad_paciente, Agudeza_visual_OD, Agudeza_visual_OI, Horas_pantalla_dia
y Horas_af. La pestaña correspondiente al vector de medias y a los
boxplots univariantes permite describir el comportamiento posicional y
dispersivo de cada variable. En términos generales, se observa si la
distribución de la edad de los pacientes se aproxima a una forma
aproximadamente simétrica o si presenta sesgos hacia edades más jóvenes
o más avanzadas, así como el rango típico de horas diarias frente a
pantallas y de actividad física. De igual manera, los diagramas de caja
de las agudezas visuales del ojo derecho e izquierdo permiten detectar
la presencia de valores extremos y comparar, de forma visual, posibles
diferencias entre ambos ojos.
A partir de la matriz de varianzas‑covarianzas y de la matriz de
correlaciones se examinan las relaciones lineales entre las variables
métricas. La inspección de los coeficientes de correlación permite
identificar, por ejemplo, si existe una asociación apreciable entre el
tiempo de exposición diaria a pantallas y la agudeza visual, o entre la
edad y la cantidad de horas de actividad física. Valores de correlación
cercanos a cero indican relaciones lineales débiles o inexistentes, lo
que sugiere que las variables son relativamente independientes desde el
punto de vista lineal; por el contrario, coeficientes alejados de cero
señalan asociaciones que pueden ser clínicamente relevantes y que
conviene explorar en mayor detalle en fases posteriores del análisis. En
conjunto, estos resultados proporcionan una primera aproximación a la
estructura interna del conjunto de datos y orientan la selección de
técnicas multivariantes apropiadas para las siguientes secciones.
Diagrama Conjunto de Dispersión, Distribución y
Correlaciones[SA]
ggpairs(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)])

Diagrama Conjunto de Dispersión, Distribución y
Correlaciones[CA]
ccd_vision2020_ETL$rango_etareo <- factor(ccd_vision2020_ETL$rango_etareo)
levels= c (1,2,3,4,5)
labels= c ( "Edad" , "AV_OD" , "AV_OI" , "Horas_pd" , "Horas_af")
ggpairs(ccd_vision2020_ETL, column = c(2,8,9,10,11), aes(color = rango_etareo, alpha = 0.5), upper = list(continuous = wrap("cor", size = 2.5)))

Diagrama de Estrellas
set.seed(120522)
ccd_vision2020_ETL_MUESTREADO = ccd_vision2020_ETL[sample(1:nrow(ccd_vision2020_ETL),23),-c(1,3,4,5,6,7,12,13)]
stars(ccd_vision2020_ETL_MUESTREADO, len = 1, cex = 0.4, key.loc = c(10, 2), draw.segments = TRUE)

Caras de Chernoff
set.seed(120522)
ccd_vision2020_ETL_MUESTREADO = ccd_vision2020_ETL [sample(1:nrow(ccd_vision2020_ETL),23),-c(11,3,4,5,6,7,12,13)]
faces(ccd_vision2020_ETL_MUESTREADO)

## effect of variables:
## modified item Var
## "height of face " "pac_id"
## "width of face " "edad_paciente"
## "structure of face" "AV_OD"
## "height of mouth " "AV_OI"
## "width of mouth " "Horas_pd"
## "smiling " "pac_id"
## "height of eyes " "edad_paciente"
## "width of eyes " "AV_OD"
## "height of hair " "AV_OI"
## "width of hair " "Horas_pd"
## "style of hair " "pac_id"
## "height of nose " "edad_paciente"
## "width of nose " "AV_OD"
## "width of ear " "AV_OI"
## "height of ear " "Horas_pd"
1.5. Normalidad multivariada
Es posible analizar o determinar la distribución multivariada de un
conjunto de datos mediante métodos descriptivos, como los gráficos, o
inferenciales, como las pruebas estadísticas. Mientras que los
procedimientos inferenciales permiten obtener conclusiones más
generalizables, los gráficos resultan útiles como soporte para la
interpretación de los resultados.
En este apartado se aborda la aplicación de procedimientos
inferenciales para verificar si el conjunto de datos de trabajo,
respecto a sus variables numéricas, sigue una distribución normal
multivariada (DNM). Las pruebas de normalidad multivariada (PNM) que se
aplicarán son: Mardia, Henze-Zirkler, Doornik-Hansen y Royston. Estas
pruebas de normalidad se realizan bajo un nivel de significancia
determinado \(\alpha = 0.05\) y a las
hipótesis:\[H_0: \text {Las variables tienen
una DNM}\] \[H_1: \text {Las variables
NO tienen una DNM}\]
La prueba de Mardia se fundamenta en las extensiones
de asimetría y curtosis, el cuadrado de la distancia de Mahalanobis, el
número de variables \(p\) a analizar y
el número de registros \(n\). Asimismo,
se considera que la estadística de la prueba para la asimetría sigue una
distribución \(\chi^2\), mientras que
la estadística para la curtosis se distribuye de manera aproximada de
forma normal.
La prueba de Henze-Zirkler se basa en la distancia
funcional, ya que si el conjunto de datos sigue una distribución normal
multivariada, el estadístico de la prueba se distribuye de manera
aproximada como una lognormal, con parámetros de media \(\mu\) y varianza \(\sigma^2\).
La prueba de Doornik-Hansen se basa en la asimetría
y la curtosis de un conjunto de datos multivariados, los cuales se
transforman para asegurar la independencia. Se considera más potente que
la prueba de Shapiro-Wilk en casos multivariados. El estadístico de la
prueba se define como la suma de las transformaciones al cuadrado de la
asimetría y la curtosis, y sigue aproximadamente una distribución \(\chi^2\).
Por otro lado, la prueba de Royston utiliza las pruebas de
Shapiro-Wilk o Shapiro-Francia para evaluar la normalidad
multivariada. Si la curtosis es mayor que 3, se emplea Shapiro-Francia
para distribuciones leptocúrticas, mientras que para distribuciones
platicúrticas se utiliza Shapiro-Wilk. Los parámetros en esta prueba se
obtienen mediante aproximaciones polinomiales.
1.6 Planteamiento y Desarrollo
A partir del conjunto de datos descrito en la sección 1.2, se aplica
una prueba estadística de normalidad multivariada con nivel de
significancia \(\alpha = 0.05\), con el
propósito de evaluar si el vector formado por las variables métricas
proviene de una población con distribución normal multivariada. En este
estudio, las variables numéricas en escala de razón son:
edad_paciente, Agudeza_visual_OD,
Agudeza_visual_OI, Horas_pantalla_dia
y Horas_af. Antes de realizar las pruebas, estas
variables se estandarizan para garantizar comparabilidad y estabilidad
numérica en los cálculos.
La navegación a través de las pestañas presenta de manera separada
los resultados de las principales pruebas de normalidad multivariada
consideradas: Mardia, Henze–Zirkler, Doornik–Hansen y Royston. En la
pestaña correspondiente a la PNM de Mardia se reportan
los estadísticos de asimetría y curtosis multivariadas, junto con sus
respectivos \(p\)-valores. Dado que,
para al menos uno de estos componentes, el \(p\)-valor resulta menor que el nivel de
significancia establecido, se procede a rechazar la hipótesis nula de
normalidad multivariada, concluyendo que el conjunto de variables
métricas no sigue una distribución normal multivariada.
De forma consistente, la pestaña asociada a la PNM de
Henze–Zirkler muestra un \(p\)-valor inferior a \(\alpha = 0.05\), lo que lleva igualmente a
rechazar la hipótesis nula y aceptar la hipótesis alternativa de que los
datos no provienen de una distribución normal multivariada. Resultados
análogos se observan en la PNM de Doornik–Hansen, donde
el \(p\)-valor obtenido también es
menor que el nivel de significancia, reforzando la decisión de rechazar
la normalidad. Finalmente, la PNM de Royston presenta
un \(p\)-valor inferior a \(\alpha\), confirmando que, en conjunto, las
variables edad_paciente,
Agudeza_visual_OD, Agudeza_visual_OI,
Horas_pantalla_dia y Horas_af no se
ajustan a una distribución normal multivariada. En consecuencia, todas
las pruebas aplicadas coinciden en que, al nivel de significancia
considerado, no se sustenta la hipótesis nula de normalidad multivariada
para el vector de variables métricas, aceptándose la hipótesis
alternativa.
PNM Mardia
mardia(ccd_vision2020_ETL[, -c(11,3,4,5,6,7,12,13)])
## $mv.test
## Test Statistic p-value Result
## 1 Skewness 38.1796 0.327 YES
## 2 Kurtosis -11.1804 0 NO
## 3 MV Normality <NA> <NA> NO
##
## $uv.shapiro
## W p-value UV.Normality
## pac_id 0.954 0 No
## edad_paciente 0.9721 0 No
## AV_OD 0.9565 0 No
## AV_OI 0.9577 0 No
## Horas_pd 0.9544 0 No
PNM Henze-Zirkler
mhz(ccd_vision2020_ETL[, -c(11,3,4,5,6,7,12,13)])
## $mv.test
## Statistic p-value Result
## 2.4619 0 NO
##
## $uv.shapiro
## W p-value UV.Normality
## pac_id 0.954 0 No
## edad_paciente 0.9721 0 No
## AV_OD 0.9565 0 No
## AV_OI 0.9577 0 No
## Horas_pd 0.9544 0 No
PNM MSK
msk(ccd_vision2020_ETL[, -c(11,3,4,5,6,7,12,13)], B=10)
## $mv.test
## Statistic p-value Result
## 163.18 0 NO
##
## $uv.shapiro
## W p-value UV.Normality
## pac_id 0.954 0 No
## edad_paciente 0.9721 0 No
## AV_OD 0.9565 0 No
## AV_OI 0.9577 0 No
## Horas_pd 0.9544 0 No
PNM nTest
mvnTest(ccd_vision2020_ETL[, -c(11,3,4,5,6,7,12,13)], B=10)
## $mv.test
## Tn p-value Result
## 1 0 NO
##
## $uv.shapiro
## W p-value UV.Normality
## pac_id 0.954 0 No
## edad_paciente 0.9721 0 No
## AV_OD 0.9565 0 No
## AV_OI 0.9577 0 No
## Horas_pd 0.9544 0 No
Fase 2 [Componentes Principales]
En esta segunda etapa del estudio, se presentarán
cálculos, visualizaciones e interpretaciones basadas en el conjunto de
datos analizado previamente en la Fase 1. Ahora, el
enfoque se centrará en el análisis de componentes principales (ACP)
aplicado a las variables cuantitativas, incluyendo aspectos como la
selección de componentes, calidad de representación, contribuciones y su
interpretación.
2.1. Objetivos
El ACP se logra a lo largo de las siguientes fases:
generación de nuevas variables, reducción dimensional del espacio de los
datos, eliminación de variables de poco aporte e interpretación de los
componentes resultantes en el contexto del problema del cual se
obtuvieron los dato.
Estimado lector, si desea explorar los fundamentos de este análisis
con mayor profundidad. Los detalles del conjunto de datos se encuentran
descritos en la Sección 1.2, mientras que los
principios teóricos que sustentan este estudio están cuidadosamente
desarrollados en la denominada Fase 1. Una lectura
detenida de estas secciones enriquecerá su comprensión y apreciación del
trabajo presentado.
2.2. Selección de Componentes
Como señalan Díaz Morales y Morales Rivera (2012), el Análisis de
Componentes Principales (ACP) permite reorganizar un
conjunto de datos multivariado al reducir el número de variables, sin
requerir suposiciones específicas sobre la distribución de probabilidad
de estas. Esta reducción se alcanza mediante la creación de
combinaciones lineales de las variables originales, diseñadas para
captar la mayor variabilidad posible en los datos. De este modo, el
ACP genera nuevas variables, denominadas componentes
principales, que presentan independencia estadística y ausencia de
correlación, siempre bajo el supuesto de normalidad.
2.3. Planteamiento y Desarrollo
A partir de las variables cuantitativas del conjunto de datos
descrito en la Sección 1.2, se requiere
inicialmente determinar el porcentaje de varianza explicado por cada
dimensión tras realizar el Análisis de Componentes Principales (ACP).
Posteriormente, con base en el autovalor promedio o mediante un gráfico
de sedimentación, se debe decidir cuántos componentes conservar.
La navegación a través de las pestañas muestra que el conjunto de
datos, en relación con sus variables numéricas, puede ser representado
por un conjunto más pequeño de dimensiones que retiene el \(43.01%\) de la variabilidad total en las
dos primeras dimensiones. Este resultado sugiere que la varianza está
distribuida de manera relativamente uniforme entre las principales
dimensiones, lo que indica una estructura interna en la que las
variables originales no están altamente
correlacionadas. En particular:
La Matriz ACP muestra cinco dimensiones, donde la
primera retiene el \(22.49%\) de la
varianza, seguida por la segunda con un \(20.52%\), y la tercera con un \(19.85\)\(%\). Las dos últimas dimensiones explican
un \(18.82%\) y un \(18.31%\), respectivamente. En este sentido,
la representatividad de la combinación lineal que define la
dimensión 1 es moderadamente superior en comparación
con las demás. Como esta matriz no proporciona información directa sobre
las variables originales, se continúa explorando la identificación de
las variables que más contribuyen a la dimensión con el mayor valor
propio.
La Matriz de Correlaciones ayuda a describir las
relaciones entre las variables que conforman la dimensión 1. Según esta
matriz, las correlaciones entre las variables son en su mayoría bajas,
con un valor máximo de \(0.04\) entre
Horas_pd y edad_paciente. Esto indica
que las variables no están fuertemente relacionadas entre sí, lo que
podría influir en cómo contribuyen a la combinación lineal que define la
primera dimensión.
La pestaña Valores y Vectores Propios presenta los resultados
obtenidos a partir del análisis de la matriz de correlaciones del
conjunto de datos clínicos. En este análisis se verifica que la suma de
los valores propios coincide con el número de variables analizadas, lo
que garantiza que la totalidad de la variabilidad del sistema queda
representada por el conjunto de componentes principales. A partir de
estos valores propios se determinan directamente las proporciones de
varianza explicada por cada componente.
Por otra parte, la matriz de vectores propios proporciona los
coeficientes que definen las combinaciones lineales de las variables
originales que dan lugar a cada componente principal. Estos
coeficientes, también conocidos como cargas factoriales, permiten
identificar el peso y la dirección de la contribución de cada variable
en las nuevas dimensiones del análisis.
En particular, para la primera componente principal (CP1), y
considerando los coeficientes redondeados a dos cifras decimales, donde
Edad corresponde a la edad del paciente, AV_OD y AV_OI representan la
agudeza visual del ojo derecho e izquierdo respectivamente, Horas_PD el
tiempo de uso de pantallas digitales y Horas_AF las horas de actividad
física (todas variables previamente estandarizadas), la componente puede
expresarse como:
\(Componente 1 = 0.46 * Edad − 0.44 * AV_OD
− 0.52 * AV_OI + 0.55 * Horas_PD + 0.16 * Horas_AF\)
Esta formulación evidencia que la primera componente está
principalmente influenciada por el uso de pantallas digitales, la edad
del paciente y la agudeza visual, especialmente del ojo izquierdo. En
consecuencia, esta dimensión resume un patrón clínico asociado a los
hábitos visuales y su relación con la función visual, facilitando la
interpretación de las interacciones multivariantes presentes en los
datos.
Los gráficos de Cattell y
Cattell-Kaiser, conocidos por sus formas de codo y
sedimentación, son herramientas útiles para decidir cuántas componentes
retener en un análisis de reducción de dimensión, asegurando que se
conserve suficiente variabilidad para abordar el problema.
El Gráfico de Cattell muestra cómo varía la
pendiente entre las componentes, destacando que la primera componente
tiene una capacidad explicativa significativamente mayor, explicando el
\(22.5\)\(%\) de la varianza total. Este cambio en la
pendiente, también conocido como “punto de inflexión”, sugiere que los
primeros componentes son clave para retener, ya que capturan la mayor
parte de la variabilidad del conjunto de datos.
Además, el Gráfico de Cattell-Kaiser combina esta
visualización con el criterio de Kaiser, que recomienda retener los
componentes con un valor propio superior a 1. Según este criterio, solo
la primera componente cumple con esta condición, lo que inicialmente
respalda la elección de retener únicamente esta. Sin embargo, al
considerar la varianza acumulada, se observa que los tres primeros
componentes explican juntos el \(62.9%\) de la variabilidad, lo que sugiere
que incluir más de un componente podría ser valioso para capturar
dimensiones adicionales relevantes en el análisis, especialmente en un
contexto clínico donde diferentes factores pueden influir en el
diagnostico de enfermedades oculares.
Por tanto, se toma la decisión de trabajar con dos componentes, ya
que permiten capturar patrones importantes relacionados con las
afecciones cardiovasculares sin añadir una complejidad innecesaria al
análisis. Esto facilita la interpretación de los resultados y garantiza
una representación significativa de los datos.
Matriz ACP
get_eigenvalue(PCA(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)], ncp = 6, scale.unit = TRUE, graph = F))
## eigenvalue variance.percent cumulative.variance.percent
## Dim.1 1.1246032 22.49206 22.49206
## Dim.2 1.0260493 20.52099 43.01305
## Dim.3 0.9926047 19.85209 62.86515
## Dim.4 0.9410322 18.82064 81.68579
## Dim.5 0.9157105 18.31421 100.00000
Matriz de Correlaciones
round(cor(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)]),2)
## edad_paciente AV_OD AV_OI Horas_pd Horas_af
## edad_paciente 1.00 -0.05 -0.02 0.04 -0.01
## AV_OD -0.05 1.00 0.03 -0.02 -0.04
## AV_OI -0.02 0.03 1.00 -0.07 0.00
## Horas_pd 0.04 -0.02 -0.07 1.00 0.01
## Horas_af -0.01 -0.04 0.00 0.01 1.00
Valores y Vectores Propios
princomp(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)], cor = TRUE)$sdev^2
## Comp.1 Comp.2 Comp.3 Comp.4 Comp.5
## 1.1246032 1.0260493 0.9926047 0.9410322 0.9157105
princomp(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)], cor = TRUE)$loadings[ ,1:5]
## Comp.1 Comp.2 Comp.3 Comp.4 Comp.5
## edad_paciente 0.4565059 0.08228379 0.6897766 0.3677253 0.4169150
## AV_OD -0.4405769 0.51649857 -0.2976844 0.5439600 0.3932082
## AV_OI -0.5186890 -0.26412446 0.4469383 0.4457841 -0.5125648
## Horas_pd 0.5492963 0.31829276 -0.2698032 0.4208646 -0.5891031
## Horas_af 0.1634920 -0.74524264 -0.4037878 0.4393577 0.2486042
Correlaciones Comparadas
par(mfrow=c(1,2))
corrplot::corrplot(cor(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)]), method = "color", type = "upper", number.cex = 0.4)
corrplot::corrplot(cor(princomp(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)], cor = TRUE)$scores), method = "color", type = "upper", number.cex = 0.4)

Gráfico de Cattell
fviz_eig(PCA(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)], scale.unit = T, graph = F), addlabels = T, ylim=c(0,90), main = "")
## Warning in geom_bar(stat = "identity", fill = barfill, color = barcolor, :
## Ignoring empty aesthetic: `width`.

Gráfico de Cattell-Kaiser
scree(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)],factors = FALSE, pc = TRUE, main ="")

2.4. Calidad de Representación
Con base en la referencia de ,se confirma que, tras reducir la
dimensionalidad del conjunto de datos y entender que sus variables
estandarizadas se representan gráficamente como proyecciones de una
hiperesfera de correlaciones, es esencial iniciar la interpretación de
las componentes a partir de esas correlaciones. Posteriormente, se debe
evaluar la calidad de las representaciones obtenidas, considerando la
reducción dimensional aplicada al conjunto de datos y su impacto en las
variables.
Es necesario evaluar la calidad de la representación de las variables
cuantitativas en relación con el número de dimensiones calculadas que
capturan la mayor proporción de variabilidad; para más detalles,
consultar la sección 2.3.
2.5 Desarrollo del Análisis.
Explorar las pestañas revela que reducir la dimensionalidad del
conjunto de datos permite analizar la calidad de la representación,
usando una escala de contribuciones relativas. Esta escala se basa en un
cociente de proyecciones con propiedades aditivas y una escala continua
que varía de 0 a 1. En particular:
El Círculo de Correlaciones expresa que se pueden
identificar patrones significativos entre las variables originales, en
el marco de una selección de componentes principales. Dimensión
1 (Dim1): Explica el \(22.5\%\) de la varianza. Muestra una
correlación positiva con variables como
Horas_pd y
edad_paciente, las cuales están orientadas
hacia este eje y cercanas a la frontera del círculo unitario. Esto
indica que estas variables contribuyen
significativamente a la construcción de Dim1, que podría estar
capturando características comunes a ellas.
Por otra parte, la Dimensión 2 (Dim2): Explica el
\(20.5\%\) de la varianza. Está
asociada con variables como Horas_af, que
tiene una alta correlación positiva. Por el contrario,
las variables Agudeza_visual_OD y
Agudeza_visual_OI están correlacionadas
negativamente con Dim2. Esto sugiere que Dim2 está representando un
fenómeno diferente o complementario al descrito por Dim1.
Otro aspecto destacable es la relación mostrada entre pares de
variables en el círculo: La Correlación Positiva Fuerte
entreHoras_pd y
edad_paciente presentan vectores cercanos,
indicando una relación positiva. Ademas, de tener una
*Correlación Negativa Fuerte entre
Horas_pd y
edad_paciente están en oposición directa a
Agudeza_visual_OI, lo que implica una
fuerte correlación negativa.Y una Poca Correlación de
Ortogonalidad: en variables como
Horas_af y
Agudeza_visual_OI muestran vectores casi
perpendiculares, sugiriendo una baja relación en este contexto
bidimensional.
Esta interpretación se limita a la estructura de correlaciones
representada en el gráfico y describe cómo las variables originales
contribuyen a las dimensiones principales seleccionadas, sin
implicar relaciones causales o de dependencia directa entre
ellas.
La Matriz de Representación (\(\cos^2\)) muestra la calidad con la que
cada variable es representada por las dimensiones principales. Este
análisis se basa en la interpretación de la correlación entre variables
(Círculo de Correlaciones), la calidad de representación (\(\cos^2\)), y la posición de los individuos
(Coordenadas Individuales) en el espacio factorial:
Asociación Fuerte con Dimensión 1 (Dim1): Las
variables Horas_pd (\(\cos^2 = 0.339\)) y
Agudeza_visual_OI (\(\cos^2 = 0.303\)) tienen los valores de
coseno cuadrado más altos en relación con la Dimensión
1. Esto indica que están fuertemente asociadas con este
componente y aportan significativamente a él.
Varianza Distribuida en Dimensiones Posteriores: En
contraste, la variable edad_paciente tiene
un valor bajo de coseno cuadrado en la Dimensión 1
(0.234) y la Dimensión 2 (0.007). Esto sugiere que su
varianza se distribuye más hacia otras dimensiones, especialmente la
Dimensión 3, donde muestra una mejor representación
(0.472). Esto afecta la calidad de representación de
edad_paciente en el plano principal
(Dim1/Dim2).
El gráfico de la Calidad de Representación
(codificado por color) confirma visualmente la contribución al plano
Dim1/Dim2. Los elementos mejor representados por las componentes 1 y 2
incluyen Horas_af (el vector más rojo) y
Agudeza_visual_OD (naranja), lo cual
indica que la mayor parte de su varianza es explicada por este plano
bidimensional. Por otra parte, la variable
edad_paciente se muestra en un color más
claro (amarillo), confirmando su baja representación en
este plano bidimensional, lo cual es coherente con su fuerte \(\cos^2\) en la Dimensión 3.
- Roles Dimensionales: La Dimensión
2 tiene una excelente representación de
Horas_af (vector alineado verticalmente),
lo que implica que, aunque la componente 1 es la principal para
Horas_pd, la componente 2 también juega un papel relevante
en la representación de ciertos aspectos.
Las Coordenadas Individuales permiten identificar
los perfiles de los registros (pacientes) en relación con las
dimensiones principales, lo cual es clave para la segmentación:
Extremos en Dimensión 1 (Correlacionado con
Horas/Edad): Los registros # 6 (2.485) y
# 2 (1.866) tienen los valores positivos más extremos
en Dim1. Estos pacientes representan perfiles con altos valores en las
variables positivamente correlacionadas con Dim1, como
Horas_pd y edad_paciente.
Extremos en Dimensión 2 (Correlacionado con
Horas_af): En la dimensión 2, los registros
# 4 (1.622) y # 17 (1.048) destacan
por sus valores positivos. Estos pacientes muestran un comportamiento
similar en la variable Horas_af (correlacionada
positivamente con Dim2).
Perfiles Promedio o Mal Representados: Los
registros con valores muy cercanos al origen (por ejemplo, #
14 con 0.034 en Dim1) son perfiles promedio o su varianza es
explicada por dimensiones posteriores.
Círculo de Correlaciones
fviz_pca_var(PCA(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)], scale.unit = T, graph = F),col.var="#3B83BD", repel = T, col.circle = "#CDCDCD", ggtheme = theme_bw())
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## ℹ The deprecated feature was likely used in the ggpubr package.
## Please report the issue at <https://github.com/kassambara/ggpubr/issues>.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
## Warning: `aes_string()` was deprecated in ggplot2 3.0.0.
## ℹ Please use tidy evaluation idioms with `aes()`.
## ℹ See also `vignette("ggplot2-in-packages")` for more information.
## ℹ The deprecated feature was likely used in the factoextra package.
## Please report the issue at <https://github.com/kassambara/factoextra/issues>.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

Matriz de Representación
(get_pca_var(PCA(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)], ncp = 5, scale.unit = TRUE, graph = F)))$cos2
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
## edad_paciente 0.23436466 0.006946992 0.47227316 0.1272481 0.15916706
## AV_OD 0.21829452 0.273719975 0.08796065 0.2784444 0.14158045
## AV_OI 0.30256128 0.071578979 0.19827664 0.1870052 0.24057790
## Horas_pd 0.33932255 0.103949347 0.07225545 0.1666822 0.31779045
## Horas_af 0.03006022 0.569854035 0.16183883 0.1816523 0.05659462
Calidad de Representación
fviz_pca_var(PCA(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)], ncp = 5, scale.unit = TRUE, graph = F), col.var="cos2", gradient.cols=c("#00AFBB","#E7B800","#FC4E07"), repel = TRUE)

Coordenadas Individuales
head((PCA(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)], ncp = 5, scale.unit = TRUE, graph = F))$ind$coord, n = 23L)
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
## 1 -0.42567484 -0.88216766 -0.81037907 0.41717919 -0.22422680
## 2 -0.01336895 1.57443439 -0.04585009 -0.19808633 0.89292052
## 3 0.49754320 0.30587312 -0.16098551 2.15496652 0.37533984
## 4 0.17002548 -0.77995612 0.47196388 -1.32851564 -1.90133626
## 5 -0.94713091 1.30481644 0.70942255 0.32409751 0.56308347
## 6 -1.14497181 -0.39163920 -0.17623904 -0.32755679 -1.57295708
## 7 0.27935505 -0.74035358 -1.52164253 -0.57119225 1.46939879
## 8 -1.36730302 -0.02579698 1.07534578 -0.88669061 0.54556754
## 9 -0.43180412 -1.58915621 0.08258649 -1.48771627 -1.57908548
## 10 -0.94234124 1.16957605 1.33834650 1.46030323 -1.64537774
## 11 1.22586500 0.20579448 0.91825949 1.17348883 1.25586736
## 12 -1.35037530 -0.14630831 -1.63139751 0.07945244 -0.68250829
## 13 0.82657970 0.11400445 -0.26658286 1.53032125 -0.91585980
## 14 0.03411531 -1.70147855 1.17619498 1.02583523 -0.33980577
## 15 0.31175414 2.04521114 0.29501956 0.86617469 1.05250095
## 16 0.66987214 -0.98774417 1.57400750 0.11141607 1.35202561
## 17 -1.44509242 0.90239818 -0.36157649 -1.47823560 0.37625363
## 18 -0.18279665 -1.10395541 0.10821778 1.35301876 -0.56745099
## 19 0.22284154 1.77410255 -1.07495769 -0.73307877 -0.41988904
## 20 1.79252255 -0.15604542 1.72697880 -0.79170369 -0.05372953
## 21 -0.21705558 0.12385166 -0.49414413 1.82978387 -0.67382747
## 22 -1.06144476 0.63277606 0.93237029 -1.94863520 1.07637249
## 23 -0.78089970 1.69774737 -0.34949488 0.64487642 -0.05193312
2.6. Contribuciones
Los autores señalan que la interpretación de los resultados está
estrechamente ligada al cálculo de elementos como coordenadas,
contribuciones y cosenos cuadrados. Por lo tanto, es esencial que las
variables estén bien conceptualizadas y contextualizadas para facilitar
su comprensión. En este sentido, analizar la contribución de cada
variable a una componente ayuda a interpretar los resultados, mostrando
cómo cada una influye en la definición de las componentes generadas.
Este análisis se lleva a cabo en esta sección para determinar el aporte
de cada variable en la construcción de las componentes.
2.7. Planteamiento y Desarrollo
Basado en las variables cuantitativas del conjunto de datos descrito
en la sección 1.2, se requiere determinar las
contribuciones de cada variable en la construcción de las
componentes.
La navegación a través de las pestañas facilita la visualización de
las contribuciones de las variables del conjunto de datos en forma de
representaciones numéricas y gráficas, permitiendo comprender cómo cada
variable influye en la construcción de las componentes. Esto permite
analizar la proporción de variabilidad que cada variable aporta a la
variabilidad total de la componente con la que está asociada.
La Matriz de Contribuciones muestra cómo cada
variable contribuye a la retención de variabilidad en la construcción de
cada componente. Los diagramas de barras, que se visualizan en las
pestañas desde Contribuciones a D1 hasta
Contribuciones a D5, ilustran las contribuciones
específicas de las variables para explicar la variabilidad en cada
componente. Cada gráfico incluye una línea que indica la
contribución media, lo que facilita la identificación de las
variables que tienen mayor impacto en la explicación de la variabilidad
de los componentes.
En Contribuciones a D1 se visualiza que las
variables por encima de la contribución media:
Agudeza_visual_OI y Horas_pd,retienen
aproximadamente el \(57.07%\) de la
variabilidad del componente 1.
En Contribuciones a D2 se visualiza que las
variables por encima de la contribución media: Horas_af
y Agudeza_visual_OD retienen aproximadamente el \(82.22%\) de la variabilidad del componente
2.
En Contribuciones a D3 se visualiza que las
variables por encima de la contribución media:
Edad_paciente y Agudeza_visual_OI
retienen aproximadamente el \(67.56%\)
de la variabilidad del componente 3.
En Contribuciones a D4 se visualiza que la variable
por encima de la contribución media: Agudeza_visual_OD
retiene aproximadamente el \(29.59%\)
de la variabilidad del componente 4.
En Contribuciones a D5 se visualiza que las
variables por encima de la contribución media: Horas_pd
y Agudeza_visual_OI retienen aproximadamente el \(60.97%\) de la variabilidad del componente
5.
Con los datos procesados hasta ahora se puede proceder con la
intepretación de los componentes.
Matriz de Contribuciones
(get_pca_var(PCA(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)], ncp = 5, scale.unit = TRUE, graph = F)))$contrib
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
## edad_paciente 20.839764 0.6770621 47.579177 13.52219 17.381811
## AV_OD 19.410803 26.6770775 8.861599 29.58925 15.461268
## AV_OI 26.903825 6.9761732 19.975387 19.87235 26.272267
## Horas_pd 30.172646 10.1310283 7.279378 17.71270 34.704250
## Horas_af 2.672962 55.5386588 16.304459 19.30352 6.180405
Contribuciones a D1
fviz_contrib(PCA(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)], ncp = 6, scale.unit = TRUE, graph = F), choice = "var", axes = 1, top = 10)

Contribuciones a D2
fviz_contrib(PCA(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)], ncp = 6, scale.unit = TRUE, graph = F), choice = "var", axes = 2, top = 10)

Contribuciones a D3
fviz_contrib(PCA(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)], ncp = 6, scale.unit = TRUE, graph = F), choice = "var", axes = 3, top = 10)

Contribuciones a D4
fviz_contrib(PCA(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)], ncp = 6, scale.unit = TRUE, graph = F), choice = "var", axes = 4, top = 10)

Contribuciones a D5
fviz_contrib(PCA(ccd_vision2020_ETL[,-c(1,3,4,5,6,7,12,13)], ncp = 6, scale.unit = TRUE, graph = F), choice = "var", axes = 5, top = 10)

2.8. Interpretación
Representar los registros en un espacio de dimensiones reducidas
permite situarlos en un plano de factores, lo que facilita su análisis e
interpretación. Las variables reducidas se corresponden con las
componentes principales, que se utilizan como ejes en el plano y cuyos
valores son los puntajes de las componentes. La distancia entre los
puntos representados por estos puntajes es clave para identificar
similitudes entre los perfiles de las observaciones. No obstante, las
similitudes pueden aparecer solo en algunas variables y no en todas.
Así, se busca que las distancias en el espacio de alta dimensión se
conserven en el espacio reducido, manteniendo la estructura de las
relaciones entre los datos. Según ].
2.9. Planteamiento y Desarrollo
La navegación entre las pestañas facilita la visualización de objetos
gráficos y matriciales que, al integrar los resultados de las secciones
anteriores, fortalecen la interpretación de las contribuciones de las
componentes calculadas. Tal como se presentó en la sección 2.3, el número de componentes seleccionadas
se redujo a dos, siguiendo el criterio de Kaiser y
considerando la varianza acumulada. Estas dos componentes explican
conjuntamente el \(43.01\)\(%\) de la variabilidad de los datos, lo que
permite capturar patrones relevantes sin perder simplicidad. En esta
sección, se analizan las contribuciones específicas de cada variable a
estas componentes, destacando su importancia en la interpretación de los
factores clave relacionados con las afecciones cardiovasculares.
Las pestañas de Biplot de Variables y Registros
Totales en las categorías Pac_sexo (sexo del
paciente), Rango_Etareo (grupo etareo del paciente) y
Hobby_ppantallay (hobby que implique uso de pantallas)
muestran, con base en las agrupaciones que estas variables categóricas
pueden establecer, la representación en dimensionalidad reducida en el
plano de factores generado por los componentes principales.
En este sentido:
- La agrupación con base en el rango etario (Primera infancia,
Niñez, Jóvenes, Adulto y Adulto mayor) permite observar cómo
las distintas etapas del ciclo de vida generan una distribución
diferenciada en el espacio de los componentes principales, especialmente
en las dimensiones Dim.1 y Dim.2. En
particular, los grupos correspondientes a adultos mayores
tienden a proyectarse hacia valores positivos de Dim.1,
mostrando una mayor asociación con la variable edad del paciente y con
variaciones en la agudeza visual (AV_OD y AV_OI). Por
su parte, los grupos de primera infancia y niñez se concentran
en regiones opuestas del espacio, lo que sugiere patrones
visuales y comportamentales distintos frente a las variables
analizadas.
-La agrupación con base en el uso de pantallas como
hobby (sí / no) muestra una separación menos marcada entre las
observaciones en el espacio de los componentes principales. No obstante,
se observa que los individuos que reportan uso de pantallas presentan
una mayor dispersión, especialmente en la dirección asociada a la
variable Horas_pd, lo que indica que este hábito
introduce variabilidad adicional en los datos. En contraste, quienes no
utilizan pantallas tienden a concentrarse más cerca del origen, lo que
sugiere una influencia moderada de esta variable categórica sobre la
estructura global del conjunto de datos.
-De manera complementaria, el análisis de los vectores del biplot
evidencia que las variables AV_OD y
AV_OI presentan una alta correlación positiva, ya que
se orientan en direcciones similares dentro del espacio factorial.
Asimismo, las variables Horas_pd y Horas_af muestran orientaciones
opuestas, lo que indica una relación inversa entre los distintos tipos
de actividades visuales. La variable edad del paciente se asocia
principalmente con la Dim.2, sugiriendo que la edad
explica una parte específica de la variabilidad que no está directamente
vinculada con la agudeza visual.
De esta manera, la representación biplot resalta la capacidad de
variables categóricas como el rango etario para establecer agrupaciones
significativas dentro del espacio de los componentes principales,
evidenciando su influencia en los patrones de agudeza visual y hábitos
asociados. En contraste, variables como el uso de pantallas como hobby
muestran un impacto más limitado, ya que no generan una separación
claramente definida entre los grupos, aunque sí contribuyen a una mayor
dispersión de las observaciones. En conjunto, el PCA permite identificar
relaciones estructurales relevantes entre la edad, la agudeza visual y
las horas de actividad visual, proporcionando una visión sintética y
robusta de la variabilidad presente en los datos.
Finalmente, para facilitar la interpretación de los puntajes en el
plano definido por las primeras dos componentes principales
(Dim.1 y Dim.2) y las relaciones entre variables, se
generó la pestaña Coordenadas Individuales [Subconjunto
ChestPain]. Esta visualización, basada en un subconjunto del \(5\) \(%\)
[47] de registros seleccionados mediante muestreo aleatorio simple,
permite explorar los puntajes por componentes. Este enfoque ofrece una
representación clara y comprensible, sin comprometer los detalles
esenciales. Es importante señalar que este procedimiento tiene fines de
visualización, ya que el conjunto de datos original, mucho más grande
[947 registros], dificulta la identificación visual de
patrones relevantes.
Biplot de Variables y Registros [filtro:Pac_sexo]
ccd_vision2020_ETL <- read_excel("C:\\Users\\JOSE\\Desktop\\gdd\\ccd_vision2020_ETL.xlsx")
ccd_vision2020_ETL_Reducido <- ccd_vision2020_ETL[
sample(1:nrow(ccd_vision2020_ETL), 100),
c("edad_paciente","AV_OD","AV_OI","Horas_pd","Horas_af","pac_sexo")
]
ccd_vision2020_ETL_Reducido$pac_sexo <- factor(ccd_vision2020_ETL_Reducido$pac_sexo,levels = c(0, 1),
labels = c("Femenino", "Masculino"))
res_pca <- PCA(
ccd_vision2020_ETL_Reducido[, c("edad_paciente","AV_OD","AV_OI","Horas_pd","Horas_af")],
ncp = 5,scale.unit = TRUE,graph = FALSE)
fviz_pca_biplot(res_pca,axes = c(1, 2),repel = TRUE,habillage = ccd_vision2020_ETL_Reducido$pac_sexo)
## Warning: Removed 100 rows containing missing values or values outside the scale range
## (`geom_point()`).
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_point()`).

Biplot de Variables y Registros [filtro:Rango Etareo]
library(FactoMineR)
library(factoextra)
library(readxl)
ccd_vision2020_ETL <- read_excel("C:\\Users\\JOSE\\Desktop\\gdd\\ccd_vision2020_ETL.xlsx")
set.seed(780729)
muestra_re <- ccd_vision2020_ETL[
sample(1:nrow(ccd_vision2020_ETL), 150),
c("edad_paciente","AV_OD","AV_OI","Horas_pd","Horas_af","rango_etareo")
]
muestra_re$rango_etareo <- factor(muestra_re$rango_etareo)
res_pca_re <- PCA(
muestra_re[, c("edad_paciente","AV_OD","AV_OI","Horas_pd","Horas_af")],
ncp = 5,
scale.unit = TRUE,
graph = FALSE
)
fviz_pca_biplot(
res_pca_re,
axes = c(1, 2),
repel = TRUE,
habillage = muestra_re$rango_etareo
)

Biplot de Variables y Registros [filtro:Hobby_ppantalla]
set.seed(780729)
muestra_hb <- ccd_vision2020_ETL[
sample(1:nrow(ccd_vision2020_ETL), 150),
c("edad_paciente","AV_OD","AV_OI","Horas_pd","Horas_af","Hobby_ppantalla")
]
muestra_hb$Hobby_ppantalla <- factor(
muestra_hb$Hobby_ppantalla,
levels = c("no","si") # ajusta según codificación real
)
res_pca_hb <- PCA(
muestra_hb[, c("edad_paciente","AV_OD","AV_OI","Horas_pd","Horas_af")],
ncp = 5,
scale.unit = TRUE,
graph = FALSE
)
fviz_pca_biplot(
res_pca_hb,
axes = c(1, 2),
repel = TRUE,
habillage = muestra_hb$Hobby_ppantalla
)

Fase 5 [Regresiones]
5.1. Objetivos
Este estudio tiene como propósito establecer la relación
entre dos o más variables mediante la obtención de información
sobre una de ellas, basada en el conocimiento de los valores de las
otras. Las relaciones establecidas son de carácter no
determinístico, es decir, se plantearán relaciones
probabilísticas y se implementarán procedimientos para realizar
inferencias sobre los modelos utilizados. Además, se obtendrán medidas
cuantitativas que indiquen el grado de relación entre las variables. Los
modelos considerados en este trabajo corresponden a casos específicos
del modelo lineal generalizado: Regresión Lineal
Simple, Regresión Lineal Múltiple y
Regresión Logística. Cada modelo será descrito
teóricamente en su respectiva sección, y se aplicará a un conjunto de
datos específico descrito en la sección 2.
La estructura y referencias principales se basan en el Estudio de
Análisis Multivariado del profesor (EAMOTImo42023?).
Además, se utilizaron libros como Probabilidad y estadística para
ingeniería industrial de (Devore, Jay L., 2008), Análisis
estadístico de datos multivariados de (Díaz Morales & Morales Rivera,
2012), y Análisis multivariante aplicado con R de
(Aldás &
Uriel, 2017), que proporcionaron fundamentos clave para este
análisis.
Para fines de visualización, se creó un apartado específico para el
diccionario de variables. Asimismo, se aclara que se puede consultar el
diccionario de variables extendido en la sección
1.2:
Desplegar el diccionario de variables
5.2. Regresión Lineal Simple
Coeficientes del Modelo RLS
modelo_RL_Simple = lm(ccd_vision2020_ETL$AV_OD~ccd_vision2020_ETL$rango_etareo)
coef(modelo_RL_Simple)
## (Intercept)
## 0.523879056
## ccd_vision2020_ETL$rango_etareoADULTO MAYOR
## 0.008833255
## ccd_vision2020_ETL$rango_etareoJÓVENES
## 0.023976686
## ccd_vision2020_ETL$rango_etareoNIÑEZ
## 0.033517981
## ccd_vision2020_ETL$rango_etareoPRIMERA INFANCIA
## 0.055371215
modelo_RL_Simple1 = lm(ccd_vision2020_ETL$AV_OI~ccd_vision2020_ETL$rango_etareo)
coef(modelo_RL_Simple1)
## (Intercept)
## 0.57398313
## ccd_vision2020_ETL$rango_etareoADULTO MAYOR
## -0.03223597
## ccd_vision2020_ETL$rango_etareoJÓVENES
## 0.01530552
## ccd_vision2020_ETL$rango_etareoNIÑEZ
## -0.02340862
## ccd_vision2020_ETL$rango_etareoPRIMERA INFANCIA
## -0.03652918
Resumen Estadístico del Modelo RLS
summary(modelo_RL_Simple)
##
## Call:
## lm(formula = ccd_vision2020_ETL$AV_OD ~ ccd_vision2020_ETL$rango_etareo)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.45839 -0.21971 -0.00542 0.21120 0.47479
##
## Coefficients:
## Estimate Std. Error t value
## (Intercept) 0.523879 0.011409 45.919
## ccd_vision2020_ETL$rango_etareoADULTO MAYOR 0.008833 0.019984 0.442
## ccd_vision2020_ETL$rango_etareoJÓVENES 0.023977 0.020094 1.193
## ccd_vision2020_ETL$rango_etareoNIÑEZ 0.033518 0.031284 1.071
## ccd_vision2020_ETL$rango_etareoPRIMERA INFANCIA 0.055371 0.031457 1.760
## Pr(>|t|)
## (Intercept) <2e-16 ***
## ccd_vision2020_ETL$rango_etareoADULTO MAYOR 0.6586
## ccd_vision2020_ETL$rango_etareoJÓVENES 0.2330
## ccd_vision2020_ETL$rango_etareoNIÑEZ 0.2842
## ccd_vision2020_ETL$rango_etareoPRIMERA INFANCIA 0.0786 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.2589 on 1161 degrees of freedom
## Multiple R-squared: 0.003766, Adjusted R-squared: 0.0003332
## F-statistic: 1.097 on 4 and 1161 DF, p-value: 0.3566
Tabla ANOVA para el Modelo RLS
anova(modelo_RL_Simple)
## Analysis of Variance Table
##
## Response: ccd_vision2020_ETL$AV_OD
## Df Sum Sq Mean Sq F value Pr(>F)
## ccd_vision2020_ETL$rango_etareo 4 0.294 0.073540 1.0971 0.3566
## Residuals 1161 77.825 0.067033
5.3. Regresión Lineal Múltiple
Este modelo, que a partir de ahora se denominará como RLS, está
compuesto por dos variables: una predictora y otra respuesta.
Específicamente, la variable \(Y\) se
considera influida por la variable predictora \(x\). La relación entre estas variables está
descrita por la ecuación: \[Y = \beta_0 +
\beta_1x + \varepsilon\] Donde: - \(Y\): Es la variable dependiente (la que se
desea predecir o explicar). - \(x\): Es
la variable independiente (predictora). - \((\beta_0)\): Es el intercepto (valor de
\(Y\) cuando \((x = 0)\). - \((\beta_1)\): Es la pendiente (indica cuánto
cambia \(Y\) por cada unidad que cambia
\((x)\). - \((\epsilon)\): Es el término de error, que
captura las desviaciones entre los valores observados y los valores
predichos por el modelo.
La relación entre la variable independiente y la variable dependiente
en el modelo de regresión lineal simple debe cumplir ciertas
suposiciones clave para que los resultados sean válidos. Estas son las
siguientes: 1. La relación entre la variable independiente \(x\) y la variable dependiente \(Y\) debe ser lineal. 2. El término de error
\(ε\) sigue una distribución normal y
tiene una media igual a cero. 3. Las observaciones deben ser
independientes entre sí, es decir, el valor de \(Y\) para un dato no influye en los valores
de \(Y\) para otros datos. 4. La
varianza del término de error \(ε\)
debe ser constante para todos los valores de la variable independiente
\(x\), una condición conocida como
homocedasticidad. La varianza de \(\varepsilon\) es constante para todos los
valores de \(x\).
Para estimar los parámetros desconocidos (\(\beta_0\), \(\beta_1\) y \(\sigma^2\)), se usa el método de
mínimos cuadrados, que busca minimizar la suma de los cuadrados
de las desviaciones verticales entre los puntos observados y la línea de
regresión:\[SCE = \sum_{i=1}^n \left(y_i -
(\beta_0 + \beta_1x_i)\right)^2\]. Resolviendo este problema, las
estimaciones de los parámetros son: \[\hat{\beta}_1 = \frac{\sum_{i=1}^n (x_i -
\bar{x})(y_i - \bar{y})}{\sum_{i=1}^n (x_i - \bar{x})^2}, \quad
\hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x}.\] Aquí, \(\bar{x}\) y \(\bar{y}\) son las medias muestrales de
\(x\) e \(y\), respectivamente.
El coeficiente de determinación indica la proporción de la
variabilidad de \(Y\) que puede
explicarse mediante el modelo de regresión lineal simple:\[R^2 = 1 - \frac{SCE}{STC},\] donde \(SCE\) es la suma de cuadrados del error y
\(STC\) es la suma total de cuadrados.
Un valor de \(R^2\) cercano a 1 indica
que el modelo explica gran parte de la variabilidad observada en los
datos.
Se pueden formular pruebas para determinar si los coeficientes del
modelo son significativamente diferentes de cero. Las hipótesis nulas
comunes son: - Para \(\beta_0\): \(H_0: \beta_0 = \beta_{00}\). - Para \(\beta_1\): \(H_0:
\beta_1 = 0\) (prueba de utilidad del modelo).
El estadístico de prueba asociado es:\[ t
= \frac{\hat{\beta}_1 - 0}{SE(\hat{\beta}_1)},\] donde \(SE(\hat{\beta}_1)\) es el error estándar de
\(\hat{\beta}_1\) Este estadístico
sigue una distribución \(t\) de Student
con \(n-2\) grados de libertad.
Los intervalos de confianza para los parámetros estimados se calculan
como: \[\hat{\beta}_1 \pm t_{\alpha/2, n-2}
\cdot SE(\hat{\beta}_1).\] Estos intervalos brindan un rango
probable para los verdaderos valores de \(\beta_0\) y \(\beta_1\).
El modelo de regresión lineal simple es una herramienta poderosa para
analizar relaciones lineales. Sin embargo, debe usarse con cautela: no
extrapole más allá del rango de los datos y asegúrese de que las
suposiciones del modelo sean razonables para los datos. Al comprender la
variabilidad explicada y no explicada por el modelo, los analistas
pueden tomar decisiones fundamentadas y evaluar la utilidad del modelo
en contextos específicos.
En el modelo, los puntos observados se distribuyen
aleatoriamente alrededor de la línea de regresión
verdadera. Para ajustarse a estos puntos, la estimación \(y = beta_0 + beta_1 x\) debe ser una línea
que minimice las distancias verticales desviaciones entre los puntos
observados y la línea. La calidad del ajuste se evalúa mediante la suma
de los cuadrados de estas desviaciones, siendo la mejor línea aquella
que minimice esta suma. Este enfoque, conocido como el principio de los
mínimos cuadrados, fue desarrollado por Carl Friedrich Gauss y
Adrien-Marie Legendre.
Por último, se entiende que en un modelo de regresión lineal simple
un valor futuro de \(Y\) no es
parámetro sino una variable aleatoria, por lo que se debe hacer
referencia a un intervalo de valores factibles para un valor futuro de
\(Y\), al cual se le llama intervalo de
predicción. Según,(EAMOTImo42023?).
5.4. Regresión Logística Simple
###Gráfica del Modelo RLogS
umbral_OD <- 0.8 # ejemplo, reemplazar por el valor adecuado
umbral_OI <- 0.8 # ejemplo, reemplazar por el valor adecuado
ccd_vision2020_ETL$baja_AV_OD <- ifelse(ccd_vision2020_ETL$AV_OD < umbral_OD, 1, 0)
ccd_vision2020_ETL$baja_AV_OI <- ifelse(ccd_vision2020_ETL$AV_OI < umbral_OI, 1, 0)
ccd_vision2020_ETL$baja_AV_OD <- as.numeric(ccd_vision2020_ETL$baja_AV_OD)
ccd_vision2020_ETL$baja_AV_OI <- as.numeric(ccd_vision2020_ETL$baja_AV_OI)
ccd_vision2020_ETL$Horas_pantalla_dia <- as.numeric(ccd_vision2020_ETL$Horas_pd)
mod_log_OD <- glm(baja_AV_OD ~ Horas_pantalla_dia,
family = binomial,
data = ccd_vision2020_ETL)
mod_log_OI <- glm(baja_AV_OI ~ Horas_pantalla_dia,
family = binomial,
data = ccd_vision2020_ETL)
x_seq <- seq(
from = min(ccd_vision2020_ETL$Horas_pantalla_dia, na.rm = TRUE),
to = max(ccd_vision2020_ETL$Horas_pantalla_dia, na.rm = TRUE),
length.out = 200
)
par(mfrow = c(1, 2))
Gráfica del Modelo RLogS
plot(baja_AV_OD ~ Horas_pantalla_dia,
data = ccd_vision2020_ETL,
main = "Modelo RLogS: baja_AV_OD ~ Horas_pantalla_dia",
xlab = "Horas_pantalla_dia",
ylab = "baja_AV_OD (0 = No, 1 = Sí)",
col = "gold",
pch = 16)
lines(x_seq,
predict(mod_log_OD,
newdata = data.frame(Horas_pantalla_dia = x_seq),
type = "response"),
col = "orange",
lwd = 3)

Gráfica del Modelo RLogS
plot(baja_AV_OI ~ Horas_pantalla_dia,
data = ccd_vision2020_ETL,
main = "Modelo RLogS: baja_AV_OI ~ Horas_pantalla_dia",
xlab = "Horas_pantalla_dia",
ylab = "baja_AV_OI (0 = No, 1 = Sí)",
col = "gold",
pch = 16)
lines(x_seq,
predict(mod_log_OI,
newdata = data.frame(Horas_pantalla_dia = x_seq),
type = "response"),
col = "orange",
lwd = 3)

par(mfrow = c(1, 1))
5.5. Ajuste de Varianza
