Introducción

Este conjunto de datos proporciona un análisis detallado de los factores asociados con la enfermedad de Alzheimer, incluyendo variables demográficas, de estilo de vida, médicas, cognitivas y funcionales. Con un total de 2,149 registros de pacientes, el primer objetivo es realizar un análisis descriptivo y multivariado para explorar la estructura y características de los datos. Posteriormente, se aplicarán las técnicas de muestreo vistas en el curso Teoría del Muestreo de la carrera de Estadística en la Universidad ECCI.

Variables del Conjunto de Datos

Información del Paciente

Identificación del Paciente

Detalles Demográficos

Factores de Estilo de Vida

Historial Médico

Mediciones Clínicas

Evaluaciones Cognitivas y Funcionales

Síntomas

Información del Diagnóstico

Información Confidencial

Analisis descriptivo univariado

Age (Edad)

En nuestro conjunto de datos, tenemos 2,149 pacientes con edades que van desde los 60 hasta los 90 años. La edad promedio es de 74.91 años, y la mediana es de 75 años. La distribución de la edad es simétrica, ya que la media y la mediana son muy similares.

Se aplica prueba de Shapiro-Wilk para evaluar la normalidad

\(H_0:\) los datos siguen una distribución normal

## 
##  Shapiro-Wilk normality test
## 
## data:  Age
## W = 0.95231, p-value < 2.2e-16

con un P-valor por debajo del lumbra 0,05 rechazamos \(H_0\), por tanto decimos que los regustros de edad no siguen una distribucion normal, reforzaremos esta pruba con un grafico QQ-Plot para asi demostrar de otra manera la no normalidad de la Edad

Gender (Genero)

## # A tibble: 2 x 4
##   Gender    Conteo Media_Edad Moda_Edad
##   <fct>      <int>      <dbl> <chr>    
## 1 Masculino   1061       74.6 72       
## 2 Femenino    1088       75.2 71, 78

Ethnicity (Etnia)

EducationLevel (Nivel de Educacion) *

BMI (Indice de masa corporal)

Se aplica prueba de Shapiro-Wilk para evaluar la normalidad

\(H_0:\) los datos siguen una distribución normal

## 
##  Shapiro-Wilk normality test
## 
## data:  BMI
## W = 0.95579, p-value < 2.2e-16

Con un P-valor demaciado bajo rechazamos \(H_0\), por tanto los datos no siguien una distribucion normal, reforzaremos esta pruba con un grafico para asi demostrar de otra manera la no normalidad del BMI

Smoking (Fuma)

AlcoholConsumption (consumo de alcohol)

Se aplica prueba de Shapiro-Wilk para evaluar la normalidad

\(H_0:\) los datos siguen una distribución normal

## 
##  Shapiro-Wilk normality test
## 
## data:  AlcoholConsumption
## W = 0.95452, p-value < 2.2e-16

Con un P-valor demaciado bajo rechazamos \(H_0\), por tanto los datos no siguien una distribucion normal, reforzaremos esta pruba con un grafico para asi demostrar de otra manera la no normalidad de las respuestas de consumo de alcohol

PhysicalActivity (Actividad Fisica)

Se aplica prueba de Shapiro-Wilk para evaluar la normalidad

\(H_0:\) los datos siguen una distribución normal

## 
##  Shapiro-Wilk normality test
## 
## data:  PhysicalActivity
## W = 0.95668, p-value < 2.2e-16

Con un P-valor demaciado bajo rechazamos \(H_0\), por tanto los datos no siguien una distribucion normal, reforzaremos esta pruba con un grafico para asi demostrar de otra manera la no normalidad en la actividad fisica.

DietQuality (Calidad de la Dieta)

Se aplica prueba de Shapiro-Wilk para evaluar la normalidad

\(H_0:\) los datos siguen una distribución normal

## 
##  Shapiro-Wilk normality test
## 
## data:  DietQuality
## W = 0.95224, p-value < 2.2e-16

Con un P-valor demaciado bajo rechazamos \(H_0\), por tanto los datos no siguien una distribucion normal, reforzaremos esta pruba con un grafico para asi demostrar de otra manera la no normalidad en la calidad de la dieta

SleepQuality (Calidad del Sueño)

Se aplica prueba de Shapiro-Wilk para evaluar la normalidad

\(H_0:\) los datos siguen una distribución normal

## 
##  Shapiro-Wilk normality test
## 
## data:  SleepQuality
## W = 0.95119, p-value < 2.2e-16

Con un P-valor demaciado bajo rechazamos \(H_0\), por tanto los datos no siguien una distribucion normal, reforzaremos esta pruba con un grafico para asi demostrar de otra manera la no normalidad en la calidad del sueño

FamilyHistoryAlzheimers (familiares con alzheimer)

CardiovascularDisease

Diabetes

Depression

HeadInjury

Hypertension (Hipertención)

SystolicBP (Presión arterial sistólica)

Se aplica prueba de Shapiro-Wilk para evaluar la normalidad

\(H_0:\) los datos siguen una distribución normal

## 
##  Shapiro-Wilk normality test
## 
## data:  SystolicBP
## W = 0.95508, p-value < 2.2e-16

Con un P-valor demaciado bajo rechazamos \(H_0\), por tanto los datos no siguien una distribucion normal, reforzaremos esta pruba con un grafico para asi demostrar de otra manera la no normalidad en los registros de Presión arterial sistólica.

DiastolicBP (Presión arterial diastólica)

Se aplica prueba de Shapiro-Wilk para evaluar la normalidad

\(H_0:\) los datos siguen una distribución normal

## 
##  Shapiro-Wilk normality test
## 
## data:  DiastolicBP
## W = 0.94939, p-value < 2.2e-16

Con un P-valor demaciado bajo rechazamos \(H_0\), por tanto los datos no siguien una distribucion normal, reforzaremos esta pruba con un grafico para asi demostrar de otra manera la no normalidad en los registros de Presión arterial diastólica.

CholesterolTotal (Colesterorl Total)

Se aplica prueba de Shapiro-Wilk para evaluar la normalidad

\(H_0:\) los datos siguen una distribución normal

## 
##  Shapiro-Wilk normality test
## 
## data:  CholesterolTotal
## W = 0.95903, p-value < 2.2e-16

Con un P-valor demaciado bajo rechazamos \(H_0\), por tanto los datos no siguien una distribucion normal, reforzaremos esta pruba con un grafico para asi demostrar de otra manera la no normalidad en niveles de colesterol totales

CholesterolLDL (Colesterol LDL)

Se aplica prueba de Shapiro-Wilk para evaluar la normalidad

\(H_0:\) los datos siguen una distribución normal

## 
##  Shapiro-Wilk normality test
## 
## data:  CholesterolLDL
## W = 0.95361, p-value < 2.2e-16

Con un P-valor demaciado bajo rechazamos \(H_0\), por tanto los datos no siguien una distribucion normal, reforzaremos esta pruba con un grafico para asi demostrar de otra manera la no normalidad en niveles de colesterol LDL.

CholesterolHDL (Colesterol HDL)

Se aplica prueba de Shapiro-Wilk para evaluar la normalidad

\(H_0:\) los datos siguen una distribución normal

## 
##  Shapiro-Wilk normality test
## 
## data:  CholesterolHDL
## W = 0.95265, p-value < 2.2e-16

Con un P-valor demaciado bajo rechazamos \(H_0\), por tanto los datos no siguien una distribucion normal, reforzaremos esta pruba con un grafico para asi demostrar de otra manera la no normalidad en niveles de colesterol LDL.

CholesterolTriglycerides (Niveles Triglicéridos)

Se aplica prueba de Shapiro-Wilk para evaluar la normalidad

\(H_0:\) los datos siguen una distribución normal

## 
##  Shapiro-Wilk normality test
## 
## data:  CholesterolTriglycerides
## W = 0.95231, p-value < 2.2e-16

Con un P-valor demaciado bajo rechazamos \(H_0\), por tanto los datos no siguien una distribucion normal, reforzaremos esta pruba con un grafico para asi demostrar de otra manera la no normalidad en los niveles de triglicerios.

MMSE (Miniexamen del estado mental)

Se aplica prueba de Shapiro-Wilk para evaluar la normalidad

\(H_0:\) los datos siguen una distribución normal

## 
##  Shapiro-Wilk normality test
## 
## data:  MMSE
## W = 0.95253, p-value < 2.2e-16

Con un P-valor demaciado bajo rechazamos \(H_0\), por tanto los datos no siguien una distribucion normal, reforzaremos esta pruba con un grafico para asi demostrar de otra manera la no normalidad en los resultados del examen de del estado mental.

FunctionalAssessment (Evaluación Funcional)

Se aplica prueba de Shapiro-Wilk para evaluar la normalidad

\(H_0:\) los datos siguen una distribución normal

## 
##  Shapiro-Wilk normality test
## 
## data:  FunctionalAssessment
## W = 0.95522, p-value < 2.2e-16

Con un P-valor demaciado bajo rechazamos \(H_0\), por tanto los datos no siguien una distribucion normal, reforzaremos esta pruba con un grafico para asi demostrar de otra manera la no normalidad en los resultados del examen funcional

MemoryComplaints (Perdida de Memoria)

BehavioralProblems (Problemas de Comportamiento)

ADL (Actividades de la Vida Diaria)

Se aplica prueba de Shapiro-Wilk para evaluar la normalidad

\(H_0:\) los datos siguen una distribución normal

## 
##  Shapiro-Wilk normality test
## 
## data:  ADL
## W = 0.94822, p-value < 2.2e-16

Con un P-valor demaciado bajo rechazamos \(H_0\), por tanto los datos no siguien una distribucion normal, reforzaremos esta pruba con un grafico para asi demostrar de otra manera la no normalidad en los resultados de dependencia en actividades fisicas.

Confusion

Disorientation

PersonalityChanges

DifficultyCompletingTasks (Dificutades para Completar Tareas)

Forgetfulness (Presenta Olvidos)

Diagnosis (Diagnoticado o no)

Analisis descriptivo Bivariado

Age - Diagnosis

Distribución Edad según diagnóstico
Diagnóstico n Proporción Media Mediana Desv. Estándar
No 1389 64.6% 74.9 75.0 8.9
760 35.4% 74.8 75.0 9.1

Gender (Genero)

Tabla de Contingencia
No Sum
Masculino 675 386 1061
Femenino 714 374 1088
Sum 1389 760 2149
Note:
Prueba: Chi-cuadrado, p-valor = 0.354

Se evaluó si existe una asociación significativa entre el género (masculino/femenino) y el diagnóstico de Alzheimer (Sí/No) en una muestra de 2,149 individuos. La prueba de Chi-cuadrado se aplicó bajo la siguiente hipótesis:

  • \(H_0\): No existe asociación entre el género y el diagnóstico de Alzheimer (las variables son independientes).

Los resultados mostraron que la distribución de diagnósticos (Sí/No) fue similar entre hombres (36.4% Sí) y mujeres (34.4% Sí). El p-valor obtenido (p = 0.354) supera el nivel de significancia convencional (\(\alpha\) = 0.05), por lo que no se rechaza la hipótesis nula. Esto indica que, no hay evidencia estadística suficiente para afirmar que el género influye en la presencia de Alzheimer.

Ethnicity (Etnia)

Tabla de Contingencia
No Sum
Caucásico 815 463 1278
Afroamericano 308 146 454
Asiático 122 84 206
Otro 144 67 211
Sum 1389 760 2149
Note:
Prueba: Chi-cuadrado, p-valor = 0.098

Se evaluó si existe una asociación significativa entre la etnia (Caucásico/Afroamericano/Asiático/Otro) y el diagnóstico de Alzheimer (Sí/No), esta prueba de Chi-cuadrado se aplicó bajo la siguiente hipótesis:

  • \(H_0\): No existe asociación entre la etnia y el diagnóstico de Alzheimer (las variables son independientes).

El p-valor obtenido (p = 0.098) supera el nivel de significancia convencional (\(\alpha\) = 0.05), por lo que no se rechaza la hipótesis nula. Esto indica que no hay evidencia estadística suficiente para afirmar que la etnia influye en la presencia de Alzheimer.

EducationLevel (Nivel de Educacion)

Tabla de Contingencia
No Sum
Ninguno 272 174 446
Secundaria 552 302 854
Licenciatura 419 217 636
Superior 146 67 213
Sum 1389 760 2149
Note:
Prueba: Chi-cuadrado, p-valor = 0.217

Se evaluó si existe una asociación significativa entre el nivel educativo (Ninguno/Secundaria/Licenciatura/Superior) y el diagnóstico de Alzheimer (Sí/No), esta prueba de Chi-cuadrado se aplicó bajo la siguiente hipótesis:

  • \(H_0\): No existe asociación entre el nivel educativo y el diagnóstico de Alzheimer (las variables son independientes).

El p-valor obtenido (p = 0.217) supera el nivel de significancia convencional (\(\alpha\) = 0.05), por lo que no se rechaza la hipótesis nula. Esto indica que no hay evidencia estadística suficiente para afirmar que el nivel educativo influye en la presencia de Alzheimer.

BMI (Indice de masa corporal)

Distribución BMI según diagnóstico
Diagnóstico n Proporción Media Mediana Desv. Estándar
No 1389 64.6% 27.5 27.6 7.2
760 35.4% 27.9 28.0 7.3

Smoking (Fuma)

Tabla de Contingencia
No Sum
No 986 543 1529
403 217 620
Sum 1389 760 2149
Note:
Prueba: Chi-cuadrado, p-valor = 0.860

Se evaluó si existe una asociación significativa entre el historial de tabaquismo (No/Sí) y el diagnóstico de Alzheimer (Sí/No), esta prueba de Chi-cuadrado se aplicó bajo la siguiente hipótesis:

  • \(H_0\): No existe asociación entre el tabaquismo y el diagnóstico de Alzheimer (las variables son independientes).

El p-valor obtenido (p = 0.860) supera ampliamente el nivel de significancia convencional (\(\alpha\) = 0.05), por lo que no se rechaza la hipótesis nula. Esto indica que no hay evidencia estadística que sugiera que el tabaquismo influye en la presencia de Alzheimer.

AlcoholConsumption (consumo de alcohol)

Distribución Consumo Alcohol según diagnóstico
Diagnóstico n Proporción Media Mediana Desv. Estándar
No 1389 64.6% 10.1 10.0 5.8
760 35.4% 10.0 9.9 5.8

PhysicalActivity (Actividad Fisica)

Distribución Actividad Fisica según diagnóstico
Diagnóstico n Proporción Media Mediana Desv. Estándar
No 1389 64.6% 74.9 75.0 8.9
760 35.4% 74.8 75.0 9.1

DietQuality (Calidad de la Dieta)

Distribución Calidad del Sueño según diagnóstico
Diagnóstico n Proporción Media Mediana Desv. Estándar
No 1389 64.6% 5.0 5.1 2.9
760 35.4% 5.0 5.1 2.9

SleepQuality (Calidad del Sueño)

Estadísticos de SleepQuality por Diagnóstico
Diagnóstico n Proporción Media Mediana Desv. Estándar
No 1389 64.6% 7.1 7.2 1.8
760 35.4% 6.9 6.9 1.8

FamilyHistoryAlzheimers (familiares con alzheimer)

Tabla de Contingencia
No Sum
No 1024 583 1607
365 177 542
Sum 1389 760 2149
Note:
Prueba: Chi-cuadrado, p-valor = 0.141

Se evaluó si existe una asociación significativa entre el antecedente familiar de Alzheimer (No/Sí) y el diagnóstico de Alzheimer (Sí/No). La prueba de Chi-cuadrado se aplicó bajo la siguiente hipótesis:

  • \(H_0\): No existe asociación entre los antecedentes familiares de Alzheimer y el diagnóstico de Alzheimer en el paciente (las variables son independientes).

El p-valor obtenido (p = 0.141) supera el nivel de significancia convencional (\(\alpha\) = 0.05), por lo que no se rechaza la hipótesis nula. Aunque se observa una diferencia porcentual, esta no es estadísticamente significativa. Por lo tanto, no podemos afirmar que los antecedentes familiares influyan significativamente en el diagnóstico de Alzheimer.

CardiovascularDisease

Tabla de Contingencia
No Sum
No 1200 639 1839
189 121 310
Sum 1389 760 2149
Note:
Prueba: Chi-cuadrado, p-valor = 0.163

Se evaluó la posible asociación entre la presencia de enfermedad cardiovascular (No/Sí) y el diagnóstico de Alzheimer (Sí/No) en una muestra de 2,149 individuos. La prueba de Chi-cuadrado se aplicó bajo la siguiente hipótesis:

  • \(H_0\): No existe asociación entre enfermedad cardiovascular y diagnóstico de Alzheimer (las variables son independientes).

El p-valor obtenido (p = 0.163) supera el umbral de significancia (α = 0.05), por lo que no se rechaza la hipótesis nula. Aunque se observa una diferencia de 4.2 puntos porcentuales, esta no alcanza significancia estadística. Por lo tanto, no hay evidencia suficiente para afirmar que la enfermedad cardiovascular influya en el diagnóstico de Alzheimer.

Diabetes

Tabla de Contingencia
No Sum
No 1168 657 1825
221 103 324
Sum 1389 760 2149
Note:
Prueba: Chi-cuadrado, p-valor = 0.162

Se examinó la relación entre diabetes (No/Sí) y diagnóstico de Alzheimer (Sí/No) en una cohorte de 2,149 pacientes. El análisis mediante prueba de Chi-cuadrado evaluó:

  • Hipótesis nula (H₀): No existe asociación entre diabetes y Alzheime

El p-valor obtenido (p = 0.162) supera el umbral de significancia (α = 0.05), por lo que no se rechaza la hipótesis nula. Por lo tanto, no hay evidencia suficiente para afirmar que la diabetes influya en el diagnóstico de Alzheimer.

Depression

Tabla de Contingencia
No Sum
No 1108 610 1718
281 150 431
Sum 1389 760 2149
Note:
Prueba: Chi-cuadrado, p-valor = 0.828

Se evaluó si existe una asociación significativa entre la depresión (No/Sí) y el diagnóstico de Alzheimer (Sí/No). La prueba de Chi-cuadrado se aplicó bajo la siguiente hipótesis:

  • **Hipótesis nula (H₀):* No existe asociación entre la depresión y el diagnóstico de Alzheimer (las variables son independientes).

Los resultados mostraron que la distribución de diagnósticos (Sí/No) fue similar entre quienes no tenían depresión (35.5% Sí) y quienes sí la tenían (34.8% Sí). El p-valor obtenido (p = 0.828) supera ampliamente el nivel de significancia convencional (\(\alpha\) = 0.05), por lo que no se rechaza la hipótesis nula. Esto indica que no hay evidencia estadística suficiente para afirmar que la depresión influye en la presencia de Alzheimer.

HeadInjury

Tabla de Contingencia
No Sum
No 1254 696 1950
135 64 199
Sum 1389 760 2149
Note:
Prueba: Chi-cuadrado, p-valor = 0.360

Se evaluó si existe una asociación significativa entre los antecedentes de trauma craneoencefálico (No/Sí) y el diagnóstico de Alzheimer (Sí/No) en una muestra de 2,149 individuos. La prueba de Chi-cuadrado se aplicó bajo la siguiente hipótesis:

  • Hipótesis nula (\(H_=0\)): No existe asociación entre el trauma craneoencefálico y el diagnóstico de Alzheimer (las variables son independientes).

Los resultados mostraron que la distribución de diagnósticos (Sí/No) fue similar entre quienes no tenían antecedentes de trauma (35.7% Sí) y quienes sí los tenían (32.2% Sí). El p-valor obtenido (p = 0.360) supera el nivel de significancia convencional (\(\alpha\) = 0.05), por lo que no se rechaza la hipótesis nula. Esto indica que no hay evidencia estadística suficiente para afirmar que los traumas craneoencefálicos influyen en la presencia de Alzheimer.

Hypertension (Hipertención)

Tabla de Contingencia
No Sum
No 1195 634 1829
194 126 320
Sum 1389 760 2149
Note:
Prueba: Chi-cuadrado, p-valor = 0.118

Se aplicó una prueba de independencia chi-cuadrado con el objetivo de evaluar si existe una relación significativa entre la presencia de hipertensión (sí o no) y la presencia de diagnóstico (sí o no).

  • Hipótesis nula (\(H_0\)): No existe asociación entre la hipertensión y la presencia del diagnóstico

El resultado de la prueba arrojó un valor p de 0.118, el cual es mayor al nivel de significancia comúnmente utilizado (\(\alpha = 0.05\)). En consecuencia, no se rechaza la hipótesis nula, lo que indica que no hay evidencia estadísticamente significativa de una relación entre la hipertensión y la presencia del diagnóstico.

Por lo tanto, la hipertensión no está asociada de manera significativa con la presencia del diagnóstico.

SystolicBP (Presión arterial sistólica)

Distribución Presión Arterial sistolica según diagnóstico
Diagnóstico n Proporción Media Mediana Desv. Estándar
No 1389 64.6% 134.6 135.0 25.9
760 35.4% 133.7 133.0 26.0

DiastolicBP (Presión arterial diastólica)

Distribución Presión Arterial Distolica según diagnóstico
Diagnóstico n Proporción Media Mediana Desv. Estándar
No 1389 64.6% 89.8 90.0 17.7
760 35.4% 90.0 91.0 17.5

CholesterolTotal (Colesterorl Total)

Distribución Colesterol Total según diagnóstico
Diagnóstico n Proporción Media Mediana Desv. Estándar
No 1389 64.6% 225.0 224.5 42.2
760 35.4% 225.6 226.4 43.2

CholesterolLDL (Colesterol LDL)

Distribución Colesterol LDL según diagnóstico
Diagnóstico n Proporción Media Mediana Desv. Estándar
No 1389 64.6% 125.4 124.8 43.4
760 35.4% 122.5 121.8 43.2

CholesterolHDL (Colesterol HDL)

Distribución Colesterol HDL según diagnóstico
Diagnóstico n Proporción Media Mediana Desv. Estándar
No 1389 64.6% 58.7 58.3 23.1
760 35.4% 60.8 61.8 23.2

CholesterolTriglycerides (Niveles Triglicéridos)

Distribución Niveles Trigligerios según diagnóstico
Diagnóstico n Proporción Media Mediana Desv. Estándar
No 1389 64.6% 226.6 226.1 101.9
760 35.4% 231.4 239.6 102.1

MMSE (Miniexamen del estado mental)

Distribución MiniExamen Estado Mental según diagnóstico
Diagnóstico n Proporción Media Mediana Desv. Estándar
No 1389 64.6% 16.3 17.1 8.9
760 35.4% 12.0 11.6 7.2

FunctionalAssessment (Evaluación Funcional)

Distribución Evaluación Funcional según diagnóstico
Diagnóstico n Proporción Media Mediana Desv. Estándar
No 1389 64.6% 5.9 6.2 2.8
760 35.4% 3.7 3.3 2.6

MemoryComplaints (Perdida de Memoria)

Tabla de Contingencia
No Sum
No 1228 474 1702
161 286 447
Sum 1389 760 2149
Note:
Prueba: Chi-cuadrado, p-valor = 0.000

Se aplicó una prueba de independencia chi-cuadrado con el objetivo de evaluar si existe una relación significativa entre perdidas de memoria (sí o no) y la presencia de diagnóstico (sí o no).

  • Hipótesis nula (\(H_0\)): No existe asociación entre perdidas de memoria y la presencia del diagnóstico

El resultado de la prueba arrojo un p valor menor al nivel de significancia comúnmente utilizado (\(\alpha = 0.05\)). En consecuencia, se rechaza la hipótesis nula, lo que indica que hay evidencia estadísticamente significativa de una relación entre las perdidas de memoria y la presencia del diagnóstico.

BehavioralProblems (Problemas de Comportamiento)

Tabla de Contingencia
No Sum
No 1255 557 1812
134 203 337
Sum 1389 760 2149
Note:
Prueba: Chi-cuadrado, p-valor = 0.000

Se aplicó una prueba de independencia chi-cuadrado con el objetivo de evaluar si existe una relación significativa entre los problemas de comportamiento (sí o no) y la presencia de diagnóstico (sí o no).

  • Hipótesis nula (\(H_0\)): No existe asociación entre los problemas de comportamiento y la presencia del diagnóstico.

El resultado de la prueba arrojó un valor p menor al nivel de significancia comúnmente utilizado (\(\alpha = 0.05\)). En consecuencia, se rechaza la hipótesis nula, lo que indica que hay evidencia estadísticamente significativa de una relación entre los problemas de comportamiento y la presencia del diagnóstico.

ADL (Actividades de la Vida Diaria)

Distribución Actividades Vida Diaria según diagnóstico
Diagnóstico n Proporción Media Mediana Desv. Estándar
No 1389 64.6% 5.7 6.1 2.8
760 35.4% 3.7 3.2 2.7

Confusion

Tabla de Contingencia
No Sum
No 1096 612 1708
293 148 441
Sum 1389 760 2149
Note:
Prueba: Chi-cuadrado, p-valor = 0.405

Se aplicó una prueba de independencia chi-cuadrado con el objetivo de evaluar si existe una relación significativa entre la confusión (sí o no) y la presencia de diagnóstico (sí o no).

  • Hipótesis nula (\(H_0\)): No existe asociación entre la confusión y la presencia del diagnóstico.

El resultado de la prueba arrojó un valor p de 0.405, el cual es mayor al nivel de significancia comúnmente utilizado (\(\alpha = 0.05\)). En consecuencia, no se rechaza la hipótesis nula, lo que indica que no hay evidencia estadísticamente significativa de una relación entre la confusión y la presencia del diagnóstico.

Disorientation

Tabla de Contingencia
No Sum
No 1160 649 1809
229 111 340
Sum 1389 760 2149
Note:
Prueba: Chi-cuadrado, p-valor = 0.280

Se aplicó una prueba de independencia chi-cuadrado con el objetivo de evaluar si existe una relación significativa entre la desorientación (sí o no) y la presencia de diagnóstico (sí o no).

  • Hipótesis nula (\(H_0\)): No existe asociación entre la desorientación y la presencia del diagnóstico.

El resultado de la prueba arrojó un valor p de 0.280, el cual es mayor al nivel de significancia comúnmente utilizado (\(\alpha = 0.05\)). En consecuencia, no se rechaza la hipótesis nula, lo que indica que no hay evidencia estadísticamente significativa de una relación entre la desorientación y la presencia del diagnóstico.

PersonalityChanges

Tabla de Contingencia
No Sum
No 1172 653 1825
217 107 324
Sum 1389 760 2149
Note:
Prueba: Chi-cuadrado, p-valor = 0.372

Se aplicó una prueba de independencia chi-cuadrado con el objetivo de evaluar si existe una relación significativa entre los cambios de personalidad (sí o no) y la presencia de diagnóstico (sí o no).

  • Hipótesis nula (\(H_0\)): No existe asociación entre los cambios de personalidad y la presencia del diagnóstico.

El resultado de la prueba arrojó un valor p de 0.372, el cual es mayor al nivel de significancia comúnmente utilizado (\(\alpha = 0.05\)). En consecuencia, no se rechaza la hipótesis nula, lo que indica que no hay evidencia estadísticamente significativa de una relación entre los cambios de personalidad y la presencia del diagnóstico.

DifficultyCompletingTasks (Dificutades para Completar Tareas)

Tabla de Contingencia
No Sum
No 1172 636 1808
217 124 341
Sum 1389 760 2149
Note:
Prueba: Chi-cuadrado, p-valor = 0.720

Se aplicó una prueba de independencia chi-cuadrado con el objetivo de evaluar si existe una relación significativa entre las dificultades para completar tareas (sí o no) y la presencia de diagnóstico (sí o no).

  • Hipótesis nula (\(H_0\)): No existe asociación entre las dificultades para completar tareas y la presencia del diagnóstico.

El resultado de la prueba arrojó un valor p de 0.720, el cual es mayor al nivel de significancia comúnmente utilizado (\(\alpha = 0.05\)). En consecuencia, no se rechaza la hipótesis nula, lo que indica que no hay evidencia estadísticamente significativa de una relación entre las dificultades para completar tareas y la presencia del diagnóstico.

Forgetfulness (Presenta Olvidos)

Tabla de Contingencia
No Sum
No 970 531 1501
419 229 648
Sum 1389 760 2149
Note:
Prueba: Chi-cuadrado, p-valor = 1.000

Se aplicó una prueba de independencia chi-cuadrado con el objetivo de evaluar si existe una relación significativa entre la presencia de olvidos (sí o no) y la presencia de diagnóstico (sí o no).

  • Hipótesis nula (\(H_0\)): No existe asociación entre los olvidos y la presencia del diagnóstico.

El resultado de la prueba arrojó un valor p de 1.000, el cual es significativamente mayor al nivel de significancia comúnmente utilizado (\(\alpha = 0.05\)). En consecuencia, no se rechaza la hipótesis nula, lo que indica que no hay evidencia estadísticamente significativa de una relación entre los olvidos y el diagnostico diagnóstico.

Asociacion variables

## [1] "Variables significativas (p < 0.05):"
##                                  Variable  Association
## FunctionalAssessment FunctionalAssessment 8.991514e-65
## ADL                                   ADL 6.050180e-53
## MemoryComplaints         MemoryComplaints 1.526605e-45
## MMSE                                 MMSE 6.621144e-28
## BehavioralProblems     BehavioralProblems 4.731447e-25
## SleepQuality                 SleepQuality 9.359779e-03
## CholesterolHDL             CholesterolHDL 4.864476e-02

Muestreo

Se realizaran los diferentes muestreos vistos en el curso “Teoria del Muestreo” para asi seleccionar una submuestra representativa del conjunto de datos original y comparar sus características descriptivas con las de la población.

Se utilizaran los diseños muestrales BERNOULLI y MUESTREO ALEATOEREO SIMPLE

Se define cada diseño muestral.

Diseño Muestral.

Bernoulli

  • Probabilidad de inclusión (\(\pi_k\)): 25%

  • Tamaño poblacional (N): 2149

## # A tibble: 6 x 34
##   PatientID   Age Gender    Ethnicity EducationLevel   BMI Smoking
##       <dbl> <dbl> <fct>     <fct>     <fct>          <dbl> <fct>  
## 1      4751    73 Masculino Caucásico Licenciatura    22.9 No     
## 2      4760    87 Masculino Caucásico Ninguno         35.5 Sí     
## 3      4762    78 Masculino Caucásico Licenciatura    22.5 Sí     
## 4      4769    72 Masculino Caucásico Licenciatura    37.9 No     
## 5      4770    68 Masculino Caucásico Superior        20.0 No     
## 6      4771    82 Femenino  Caucásico Ninguno         36.2 No     
## # i 27 more variables: AlcoholConsumption <dbl>, PhysicalActivity <dbl>,
## #   DietQuality <dbl>, SleepQuality <dbl>, FamilyHistoryAlzheimers <fct>,
## #   CardiovascularDisease <fct>, Diabetes <fct>, Depression <fct>,
## #   HeadInjury <fct>, Hypertension <fct>, SystolicBP <dbl>, DiastolicBP <dbl>,
## #   CholesterolTotal <dbl>, CholesterolLDL <dbl>, CholesterolHDL <dbl>,
## #   CholesterolTriglycerides <dbl>, MMSE <dbl>, FunctionalAssessment <dbl>,
## #   MemoryComplaints <fct>, BehavioralProblems <fct>, ADL <dbl>, ...

Para esta obtenemos un tamaño de 541 muestras (\(N(s)\))

Aleatoreo Simple

  • Error máximo tolerado: Error máximo tolerado \(\pm2\)%.

  • proporcion: 0.25%

## $n
## [1] 751
## 
## $no
## [1] 1153

Se define un tamaño de muestra de 751

## # A tibble: 751 x 34
##    PatientID   Age Gender    Ethnicity     EducationLevel   BMI Smoking
##        <dbl> <dbl> <fct>     <fct>         <fct>          <dbl> <fct>  
##  1      4752    89 Masculino Caucásico     Ninguno         26.8 No     
##  2      4758    75 Masculino Caucásico     Secundaria      18.8 No     
##  3      4759    72 Femenino  Afroamericano Ninguno         27.8 No     
##  4      4761    89 Masculino Otro          Secundaria      39.5 No     
##  5      4764    78 Femenino  Caucásico     Secundaria      28.9 Sí     
##  6      4765    64 Femenino  Caucásico     Licenciatura    27.9 No     
##  7      4766    69 Masculino Caucásico     Secundaria      18.0 No     
##  8      4767    63 Femenino  Afroamericano Licenciatura    22.8 Sí     
##  9      4769    72 Masculino Caucásico     Licenciatura    37.9 No     
## 10      4773    82 Femenino  Caucásico     Superior        37.6 No     
## # i 741 more rows
## # i 27 more variables: AlcoholConsumption <dbl>, PhysicalActivity <dbl>,
## #   DietQuality <dbl>, SleepQuality <dbl>, FamilyHistoryAlzheimers <fct>,
## #   CardiovascularDisease <fct>, Diabetes <fct>, Depression <fct>,
## #   HeadInjury <fct>, Hypertension <fct>, SystolicBP <dbl>, DiastolicBP <dbl>,
## #   CholesterolTotal <dbl>, CholesterolLDL <dbl>, CholesterolHDL <dbl>,
## #   CholesterolTriglycerides <dbl>, MMSE <dbl>, FunctionalAssessment <dbl>, ...

Se seleccionaron dos muestras a partir del conjunto de datos Alzheimer utilizando dos diseños muestrales diferentes: muestreo de Bernoulli y muestreo aleatorio simple (MAS). En el primero, cada observación fue incluida con una probabilidad fija del 25%, lo cual dio como resultado un tamaño muestral de 541. En el segundo, se estableció un tamaño fijo de n = 751. Posteriormente.

Tabla comparativa de proporciones para la variable ‘Diagnosis’
Categoría Población Muestra Bernoulli Muestra MAS
No 64.6 68.4 67
35.4 31.6 33
Tabla comparativa de proporciones para la variable ‘MemoryComplaints’
Categoría Población Muestra Bernoulli Muestra MAS
No 79.2 82.1 78.4
20.8 17.9 21.6
Tabla comparativa de proporciones para la variable ‘BehavioralProblems’
Categoría Población Muestra Bernoulli Muestra MAS
No 84.3 86.7 84.7
15.7 13.3 15.3
Tabla comparativa de proporciones para la variable ‘Ethnicity’
Categoría Población Muestra Bernoulli Muestra MAS
Caucásico 59.5 59.9 57.1
Afroamericano 21.1 21.1 20.6
Asiático 9.6 10.5 10.8
Otro 9.8 8.5 11.5
##                          N           y
## Estimation     2164.000000 2848.000000
## Standard Error   80.572948  112.463327
## CVE               3.723334    3.948853
## DEFF                   Inf    8.995733
##                   N           y
## Estimation     2149 2858.656458
## Standard Error    0   29.765354
## CVE               0    1.041236
## DEFF            NaN    1.000000

Ambos métodos estiman un total similar de personas diagnosticadas en la población (alrededor de 2950). Sin embargo, se observan diferencias importantes en la precisión y eficiencia de las estimaciones:

El muestreo Bernoulli presenta un error estándar considerablemente mayor (116.55) en comparación con el MAS (30.60), lo que indica mayor inestabilidad en sus estimaciones.

El coeficiente de variación (CVE) en el muestreo aleatorio simple es bajo (1.04%), lo cual indica alta precisión de la estimación. En contraste, el CVE de Bernoulli (3.95%) es aceptable, pero menos preciso.

El efecto del diseño (DEFF) en Bernoulli es 9.02, lo cual significa que su varianza es nueve veces mayor que la del MAS con igual tamaño muestral. En cambio, el DEFF del MAS es 1, como se espera en este diseño

Conclucion

A partir de los indicadores anteriores, se concluye que el muestreo aleatorio simple (MAS) proporciona estimaciones más precisas y eficientes que el muestreo Bernoulli en este caso, por lo que es preferible para representar adecuadamente la población.