Caso #1

Autor/a
Afiliación

Universidad del Norte, Barranquilla

Fecha de publicación

18 de mayo de 2024

Importante

  1. El puntaje asociado a cada conjunto de preguntas se encuentra entre ().
  2. Pueden utilizarse herramientas y/o conceptos de otras asignaturas en caso de ser necesario.
  3. Tenga en cuenta que aunque los cálculos son importantes, el análisis e interpretación tendrán un mayor peso en la calificación.
  4. La solución debe enviarse en formato HTML a a más tardar el Viernes 31 de Mayo de 2024 a las 2 PM.

Contexto Analítico

Un grupo de investigación de una prestigiosa Universidad estudia una transtorno del neurodesarollo que se presenta principalmente en niños.

Los datos pueden leerse en R haciendo:

Código
## data set
x <- read.table('https://tinyurl.com/PsychoDB', 
                sep = ',', header = TRUE)

En total se registraron datos en 22 variables en 408 individuos. Las columnas relevantes para el desarrollo del exámen son:

  1. Family: Familia a la que pertenece el individuo;
  2. UID: Identificador de la persona;
  3. Father: Si el individuo es papá, la variable toma el valor de 0;
  4. Mother: Si el individuo es mamá, la variable toma el valor de 0;
  5. Sex: Sexo del individuo (M: Male, F: Female);
  6. Age: Edad en años al momento del diagnóstico;
  7. ADHD: Diagnóstico (yes: enfermo; no: sano);
  8. cluster: Grupo de severidad al que pertenece;
  9. inatsymptoms: Número de síntomas de inatención;
  10. impsymptoms: Número de síntomas de impulsividad;
  11. hypsymptoms: Número de síntomas de hyperactividad;
  12. trait1: Tiempo de reacción en milisegundos (ms) para terminar una tarea.

Estos datos han sido utilizados como parte de investigaciones previas en ADHD (ver por ejemplo este, este, este y este artículo). Sin enmbargo, los investigadores tienen preguntas adicionales y están interesados en hipotetizar sobre otros aspectos relevantes a la enfermedad. Por ello, los contratan como apoyo en todo lo relacionado Analítica de Datos.

Ejercicio 1 (10 puntos)

Seleccione sólo las columnas correspondientes a las variables relevantes. Analice la distribución de frecuencias de ADHD, cluster y Sex. Concluya.

Inicialmente, cargamos las librerías necesarias y seleccionamos las variables de interés

Código
library(dplyr)
library(knitr)
library(ggplot2)
library(tidyr)
library(gridExtra)
library(grid)
library(ggpubr)
Código
datos_sel <- x %>% 
  select(Family, UID, Father, Mother, Sex, Age, ADHD, cluster, inatsymptoms, impsymptoms, hypsymptoms, trait1)
knitr::kable(head(datos_sel))
Family UID Father Mother Sex Age ADHD cluster inatsymptoms impsymptoms hypsymptoms trait1
F1 3 1 2 F 7 yes 3 0 1 1 895.50
F1 1 0 0 M 35 no 1 9 2 5 420.67
F1 2 0 0 F 39 no 4 3 1 2 528.83
F2 7 4 5 M 6 yes 3 0 1 0 737.83
F2 6 4 5 M 12 no 1 0 0 0 569.52
F2 5 0 0 F 39 no 1 7 4 6 485.25
Código
freq_adhd <- table(datos_sel$ADHD)
p1 <- ggplot(datos_sel, aes(x = ADHD, fill = ADHD)) +
  geom_bar() +
  geom_text(stat = 'count', aes(label = scales::percent(..count../sum(..count..))), 
            vjust = 1, position = position_stack(vjust = 1.0),
            angle = 90) +
  scale_fill_brewer(palette = "Pastel1") +
  ggtitle("ADHD") +
  xlab("Diagnóstico de ADHD") +
  ylab("Frecuencia")+
  theme(legend.position = "none")

freq_cluster <- table(datos_sel$cluster)
p2 <- ggplot(datos_sel, aes(x = factor(cluster), fill = factor(cluster))) +
  geom_bar() +
  geom_text(stat = 'count', aes(label = scales::percent(..count../sum(..count..))), 
            vjust = 1, position = position_stack(vjust = 1.0),
            angle = 90) +
  scale_fill_brewer(palette = "Pastel2") +
  ggtitle("Clúster") +
  xlab("Clúster de Severidad") +
  ylab("Frecuencia")+
  theme(legend.position = "none")

freq_sex <- table(datos_sel$Sex)
p3 <- ggplot(datos_sel, aes(x = Sex, fill = Sex)) +
  geom_bar() +
  geom_text(stat = 'count', aes(label = scales::percent(..count../sum(..count..))), 
            vjust = 1, position = position_stack(vjust = 1.0),
            angle = 90) +
  scale_fill_brewer(palette = "Pastel1") +
  ggtitle("Sexo") +
  xlab("Sexo") +
  ylab("Frecuencia")+
  theme(legend.position = "none")


grid.arrange(
  p3, p2, p3, 
  ncol = 3,
  top = textGrob("Distribución de variables de interes", 
                 gp = gpar(fontface = "bold", fontsize = 20, col = "black")) 
)

El análisis de la distribución por sexo muestra que hay una mayor proporción de individuos masculinos (57%) en comparación con los femeninos (43%) en la muestra estudiada. El gráfico de diagnóstico de TDAH muestra que una mayoría de los sujetos (58%) en la muestra están diagnosticados con TDAH, mientras que el 42% no lo están.

La distribución de severidad de TDAH, categorizada en seis clústeres, muestra que el clúster 1, correspondiente a la menor severidad, contiene la menor proporción de individuos (9.5%). Los clústeres incrementan en frecuencia hasta el clúster 5, que representa la mayor proporción (33.09%), indicando una concentración significativa de casos de TDAH de severidad moderada a alta.

Ejercicio 2 (10 puntos)

Es posible afirmar que la mayoría de las personas afectadas por la enfermedad corresponde a menores de edad? Visualice sus resultados. Determine qué patrón ocurre al desagregar la información por Sex. Concluya.

Código
datos_tadhd <- datos_sel %>%
  filter(ADHD == "yes") %>%
  mutate(Categoria_Edad = ifelse(Age < 18, "Menor de Edad", "Mayor de Edad")) %>%
  group_by(Categoria_Edad) %>%
  summarise(Frecuencia = n()) %>%
  mutate(Porcentaje = (Frecuencia / sum(Frecuencia)) * 100)

names(datos_tadhd) <- c("Tipo de Población", "Frecuencia", "Porcentaje")

knitr::kable(datos_tadhd, caption = "Frecuencia y Porcentaje de ADHD por Tipo de Población")
Frecuencia y Porcentaje de ADHD por Tipo de Población
Tipo de Población Frecuencia Porcentaje
Mayor de Edad 101 42.79661
Menor de Edad 135 57.20339
Código
ggplot(data = as.data.frame(frecuencias_edad), aes(x = Var1, y = Freq, fill = Var1)) +
  geom_bar(stat = "identity") +
  geom_text(aes(label = sprintf("%.1f%%", Freq / sum(Freq) * 100)), vjust = -0.5) +
  ggtitle("Distribución de Edad entre los Diagnosticados con TDAH") +
  xlab("Categoría de Edad") +
  ylab("Frecuencia")

Aproximadamente el 57.20% de los pacientes con TDAH son menores de edad, mientras que el 42.80% son mayores de edad. Esta distribución indica una prevalencia mayor del TDAH en menores de edad en comparación con los mayores de edad dentro de la muestra analizada. Este resultado puede sugerir que el TDAH es más comúnmente diagnosticado o más fácilmente identificable en poblaciones más jóvenes, lo cual es consistente con la literatura que señala que el TDAH es un trastorno que generalmente se identifica en la infancia.

Ahora, Para determinar si existe una diferencia significativa en la proporción de pacientes con TDAH entre menores de edad y mayores de edad, podemos realizar una prueba de hipótesis usando una prueba de proporciones,

Planteamiento de las Hipótesis

Hipótesis Nula (H0): No hay diferencia en la proporción de pacientes con TDAH entre menores de edad y mayores de edad.

\[ H_0 : p_{\text{menores}} = p_{\text{mayores}} \]

Hipótesis Alternativa (H1): Existe una diferencia en la proporción de pacientes con TDAH entre menores de edad y mayores de edad.

\[ H_1 : p_{\text{menores}} \neq p_{\text{mayores}} \]

Donde \(p_{\text{menores}}\) es la proporción de menores de edad con TDAH y \(p_{\text{mayores}}\) es la proporción de mayores de edad con TDAH.

Código
datos_tadhd <- datos_sel %>%
  filter(ADHD == "yes") %>%
  mutate(Categoria_Edad = ifelse(Age < 18, "Menor de Edad", "Mayor de Edad")) %>%
  group_by(Categoria_Edad) %>%
  summarise(Conteo = n())

total_tadhd <- sum(datos_tadhd$Conteo)

conteo_menores <- datos_tadhd$Conteo[datos_tadhd$Categoria_Edad == "Menor de Edad"]
conteo_mayores <- datos_tadhd$Conteo[datos_tadhd$Categoria_Edad == "Mayor de Edad"]

resultado_test <- prop.test(x = c(conteo_menores, conteo_mayores), 
                            n = c(total_tadhd, total_tadhd))

print(resultado_test)

    2-sample test for equality of proportions with continuity correction

data:  c(conteo_menores, conteo_mayores) out of c(total_tadhd, total_tadhd)
X-squared = 9.2288, df = 1, p-value = 0.002382
alternative hypothesis: two.sided
95 percent confidence interval:
 0.05055699 0.23757860
sample estimates:
   prop 1    prop 2 
0.5720339 0.4279661 

Con un valor p de 0.002382, rechazamos la hipótesis nula de que no hay diferencia en las proporciones de TDAH entre los dos grupos de edad. Este resultado sugiere que la edad es un factor importante en la prevalencia del TDAH, con una mayor proporción de menores de edad diagnosticados con esta condición en comparación con los mayores de edad.

Ahora procedemos a revisar los resultados considerando el Sexo.

Código
ggplot(datos_sel, aes(x = Age, fill = ADHD)) + 
  geom_histogram(binwidth = 1, alpha = 0.6, position = "identity") + 
  facet_grid(Sex ~ ADHD) + 
  labs(title = "Distribución de Edad por Sexo y Presencia de TDAH",
       x = "Edad",
       y = "Frecuencia",
       fill = "Diagnóstico de TDAH") +
  theme_minimal() +
  theme(panel.spacing = grid::unit(1, "lines")) 

Se ilustra la distribución de edad para individuos diagnosticados y no diagnosticados con TDAH, discriminada por sexo. Se observa que los diagnosticados con TDAH, tanto hombres como mujeres, muestran picos significativos en las cohortes más jóvenes, especialmente bajo los 20 años, lo que refleja la tendencia común de diagnosticar el TDAH en la infancia.

Código
ggplot(datos_sel, aes(x = Sex, fill = ADHD)) +
  geom_bar(position = "fill") +
  labs(title = "Distribución de TDAH por Sexo",
       x = "Sexo",
       y = "Proporción",
       fill = "Diagnóstico de TDAH") +
  theme_minimal() 

Una menor proporción de mujeres ha sido diagnosticada con TDAH en comparación con los hombres. Esto podría sugerir que el TDAH es menos frecuentemente diagnosticado o posiblemente menos prevalente en mujeres, El gráfico apunta a la importancia de considerar diferencias de género en el diagnóstico y tratamiento del TDAH.

Para tener un criterio mas objetivo, se utiliza una prueba de chi-cuadrado de Pearson con el fin de evaluar la independencia entre dos variables categóricas: el sexo (Femenino, Masculino) y el diagnóstico de TDAH (Sí, No)

Código
tabla_sex_adhd <- table(datos_sel$Sex, datos_sel$ADHD)

knitr::kable(tabla_sex_adhd, caption = "Frecuencia de ADHD por Tipo de Sexo")
Frecuencia de ADHD por Tipo de Sexo
no yes
F 100 75
M 72 161
Código
# Realizar prueba de chi-cuadrado
test_chi <- chisq.test(tabla_sex_adhd)
test_chi

    Pearson's Chi-squared test with Yates' continuity correction

data:  tabla_sex_adhd
X-squared = 27.156, df = 1, p-value = 1.876e-07

El valor p muy bajo permite rechazar la hipótesis nula de que no hay asociación entre el sexo y la presencia de TDAH. Esto implica que existe una diferencia estadísticamente significativa en la proporción de diagnósticos de TDAH entre hombres y mujeres.

Ejercicio 3 (10 puntos)

Podemos decir que existe una asociación entre el cluster y el número de síntomas de la enfermedad? En qué cluster parece encontrarse la mayor cantidad de personas con ADHD? Cuál es el UID de la persona sin ADHD con el mayor número de síntomas, y el UID de la persona diagnosticada con ADHD con el menor número de síntomas?

Código
datos_sel$total_symptoms <- datos_sel$inatsymptoms + datos_sel$impsymptoms + datos_sel$hypsymptoms
Código
ggplot(datos_sel, aes(x = as.factor(cluster), y = total_symptoms)) +
  geom_boxplot(aes(fill = as.factor(cluster)), alpha = 0.6) +  # Añadir un poco de transparencia con alpha
  scale_fill_brewer(palette = "Paired") +  # Usa una paleta de colores para diferenciar los clusters
  labs(title = "Distribución de Número Total de Síntomas por Cluster de Severidad",
       x = "Cluster de Severidad",
       y = "Número Total de Síntomas") +
  theme_minimal() +  # Aplica un tema minimalista para una mejor presentación
  theme(legend.position = "none")

Los clusters 1 y 2 muestran medianas más bajas y menor dispersión en los datos, lo que podría indicar que los casos más leves de TDAH están agrupados aquí. Los clusters 3 a 6 muestran medianas progresivamente más altas y una mayor dispersión, especialmente los clusters 5 y 6, lo que indica que estos podrían representar casos de mayor severidad.

Aunque el boxplot proporciona una visión visual clara de las diferencias en la distribución del número total de síntomas entre los diferentes clusters de severidad del TDAH, es esencial confirmar estadísticamente estas observaciones para asegurar que las diferencias son significativas y no productos del azar. La prueba de Kruskal-Wallis es adecuada para este propósito, ya que es una prueba no paramétrica que puede usarse para comparar las medianas de dos o más grupos

Código
tabla_contingencia <- table(datos_sel$cluster, datos_sel$total_symptoms)
kruskal.test(cluster ~ total_symptoms, data = datos_sel)

    Kruskal-Wallis rank sum test

data:  cluster by total_symptoms
Kruskal-Wallis chi-squared = 23.282, df = 20, p-value = 0.2752

Con un valor p de 0.2752, no podemos rechazar la hipótesis nula. Esto indica que, a nivel estadístico, no hay evidencia suficiente para afirmar que existen diferencias significativas en el número total de síntomas entre los diferentes clusters de severidad del TDAH.

Ahora, para saber en qué cluster parece encontrarse la mayor cantidad de personas con ADHD

Código
cont_diag_adhd_por_clust <- datos_sel %>%
  filter(ADHD == "yes") %>%  
  group_by(cluster) %>%  
  summarise(cont = n()) %>%  
  arrange(desc(cont))
knitr::kable(cont_diag_adhd_por_clust, caption = "Frecuencia  de ADHD por Cluster")
Frecuencia de ADHD por Cluster
cluster cont
2 63
3 59
6 34
5 32
4 30
1 18

los clusters 2 y 3 contienen la mayor cantidad de personas diagnosticadas con ADHD, con 63 y 59 individuos respectivamente.

Por ultimo para conocer cuál es el UID de la persona sin ADHD con el mayor número de síntomas, y el UID de la persona diagnosticada con ADHD con el menor número de síntomas

Código
uid_max_sintomas_sin_adhd <- datos_sel %>%
  filter(ADHD == "no") %>%  
  arrange(desc(total_symptoms)) %>%  
  slice(1) %>%  
  pull(UID)  

uid_min_sintomas_con_adhd <- datos_sel %>%
  filter(ADHD == "yes") %>%  
  arrange(total_symptoms) %>%  
  slice(1) %>%  
  pull(UID)  
Código
cat("UID sin ADHD con más síntomas:", uid_max_sintomas_sin_adhd, "\n")
UID sin ADHD con más síntomas: 32 

Es un hombre de 40 años, que no ha sido diagnosticado con ADHD. Está clasificado en el cluster de severidad 4. En términos de síntomas, ha reportado 10 síntomas de inatención, 4 de impulsividad, y 6 de hiperactividad, sumando un total de 20 síntomas. Además, su tiempo de reacción para completar una tarea específica (trait1) es de 581.40 milisegundos. Este perfil sugiere que, a pesar de no estar diagnosticado con ADHD, el sujeto presenta un número considerable de síntomas asociados con la condición.

Código
cat("UID con ADHD con menos síntomas:", uid_min_sintomas_con_adhd)
UID con ADHD con menos síntomas: 14

Es un niño de 6 años, diagnosticado con ADHD, clasificado en el cluster de severidad 6, lo que indica un alto nivel de severidad según los criterios del estudio. A pesar de su diagnóstico y severidad en la clasificación, sorprendentemente, no reporta síntomas en ninguna de las categorías evaluadas: inatención, impulsividad o hiperactividad, todas con un conteo de 0. Además, su tiempo de reacción (trait1) es de 873.50 milisegundos.

Ejercicio 4 (10 puntos)

De acuerdo con inatsymtoms, quiénes son más inatentos? Los Fathers o las Mothers? Determine el número de individuos Father con ADHD y compárelo con los individuos Mother con el diagnóstico. Es posible afirmar que en esta población los Fathers son más inatentos que las Mothers? Use un nivel de significancia \(alpha=0.05\) para todas las pruebas que considere necesario realizar.

Código
inat_padre <- datos_sel %>%
  filter(Sex == 'M', Father == 0, inatsymptoms > 0) %>%
  nrow()

inat_madre <- datos_sel %>%
  filter(Sex == 'F', Mother == 0, inatsymptoms > 0) %>%
  nrow()

tabla_inatencion <- data.frame(
  Grupo = c("Padres", "Madres"),
  Frecuencia = c(inat_padre, inat_madre)
)


knitr::kable(tabla_inatencion, caption = "Frecuencia inantenciones Padres y Madres")
Frecuencia inantenciones Padres y Madres
Grupo Frecuencia
Padres 108
Madres 88
Código
ggplot(tabla_inatencion, aes(x = Grupo, y = Frecuencia, fill = Grupo)) +
  geom_col(show.legend = FALSE) +
  labs(title = "Frecuencia de Padres y Madres con Síntomas de Inatención",
       x = "Grupo",
       y = "Frecuencia") +
  theme_minimal()

Se observa que los padres presentan una frecuencia ligeramente mayor de síntomas de inatención comparados con las madres. Para saber si existe una diferencia significativa en las proporciones de inatención entre padres y madres podemos realizar un test de proporciones.

Código
test <- prop.test(
  c(inat_padre, inat_madre), 
  c(sum(datos_sel$Sex == "M" & datos_sel$Father == 0), sum(datos_sel$Sex == "F" & datos_sel$Mother == 0)),
  alternative = "two.sided"
)

test

    2-sample test for equality of proportions with continuity correction

data:  c(inat_padre, inat_madre) out of c(sum(datos_sel$Sex == "M" & datos_sel$Father == 0), sum(datos_sel$Sex == "F" & datos_sel$Mother == 0))
X-squared = 10.046, df = 1, p-value = 0.001526
alternative hypothesis: two.sided
95 percent confidence interval:
 0.06272345 0.27060988
sample estimates:
   prop 1    prop 2 
0.9000000 0.7333333 

Los resultados de la prueba de proporciones indican una diferencia estadísticamente significativa entre los padres y las madres en términos de síntomas de inatención. La prueba chi-cuadrada, con un valor de 10.046 y un grado de libertad, resulta en un valor de p de 0.001526, lo que sugiere que la diferencia observada en las proporciones es altamente significativa. Esto confirma que la proporción de padres con síntomas de inatención es mayor que la de madres bajo el nivel de confianza del 95%.

Para determinar si los Fathers o las Mothers tienen una mayor frecuencia de ADHD y evaluar si los Fathers son más inatentos, podemos comenzar identificando el número de Fathers y Mothers diagnosticados con ADHD

Código
adhd_padres <- datos_sel %>%
  filter(Sex == 'M', Father == 0, ADHD == "yes", inatsymptoms > 0) %>%
  nrow()

adhd_madres <- datos_sel %>%
  filter(Sex == 'F', Mother == 0, ADHD == "yes", inatsymptoms > 0) %>%
  nrow()

tabla_adhd <- data.frame(
  Grupo = c("Padres", "Madres"),
  Frecuencia_ADHD = c(adhd_padres, adhd_madres)
)

knitr::kable(tabla_adhd, caption = "Frecuencia de ADHD en Padres  y Madres")
Frecuencia de ADHD en Padres y Madres
Grupo Frecuencia_ADHD
Padres 59
Madres 34
Código
ggplot(tabla_adhd, aes(x = Grupo, y = Frecuencia_ADHD, fill = Grupo)) +
  geom_col(show.legend = FALSE) +
  labs(title = "Frecuencia de ADHD entre Padres y Madres",
       x = "Grupo",
       y = "Frecuencia de ADHD") +
  theme_minimal()

Hay más padres (59) que madres (34) diagnosticados con TDAH. Este hallazgo sugiere que, dentro de este grupo específico, los padres tienden a presentar una mayor prevalencia de TDAH comparado con las madres. Para determinar si existe una diferencia significativa en las proporciones de inatención entre Fathers y Mothers, usaremos un test de proporciones

Código
test <- prop.test(
  c(adhd_padres, adhd_madres), 
  c(sum(datos_sel$Sex == "M" & datos_sel$Father == 0 & datos_sel$inatsymptoms > 0), sum(datos_sel$Sex == "F" & datos_sel$Mother == 0& datos_sel$inatsymptoms > 0)),
  alternative = "two.sided"
)

print(test)

    2-sample test for equality of proportions with continuity correction

data:  c(adhd_padres, adhd_madres) out of c(sum(datos_sel$Sex == "M" & datos_sel$Father == 0 & datos_sel$inatsymptoms > 0), sum(datos_sel$Sex == "F" & datos_sel$Mother == 0 & datos_sel$inatsymptoms > 0))
X-squared = 4.3534, df = 1, p-value = 0.03694
alternative hypothesis: two.sided
95 percent confidence interval:
 0.01118146 0.30868386
sample estimates:
   prop 1    prop 2 
0.5462963 0.3863636 

El resultado de la prueba de proporciones para comparar la presencia de TDAH entre padres y madres revela diferencias estadísticamente significativas. El intervalo de confianza del 95% para la diferencia de proporciones está entre 0.011 y 0.308, sugiriendo que la proporción de padres con TDAH es consistentemente mayor que la de las madres.

Ejercicio 5 (10 puntos)

Podemos decir que existe una relación entre Age y trait1 en personas menores de edad? Utilice EDA para ello. Ahora, determine si existe diferencia en la trait1 promedio entre los individuos Male y Female menores edad diagnosticados con ADHD. Qué pasa si comparamos menores de edad Male con ADHD vs. Male sin ADHD? Use un nivel de significancia \(alpha=0.05\) para todas las pruebas que considere necesario realizar. Concluya.

Primero, filtraremos los datos para incluir solo a los individuos menores de edad

Código
datos_menores <- datos_sel %>%
  filter(Age < 18)

cat("Número de menores en el estudio:", nrow(datos_menores), "\n")
Número de menores en el estudio: 162 

Generamos un EDA para las dos variables de interes

Código
age_summary <- summary(datos_menores$Age)
trait1_summary <- summary(datos_menores$trait1)

summary_df <- data.frame(
  Edad = c(age_summary[1], age_summary[2], age_summary[3], age_summary[4], age_summary[5], age_summary[6]),
  Trait1 = c(trait1_summary[1], trait1_summary[2], trait1_summary[3], trait1_summary[4], trait1_summary[5], trait1_summary[6])
)

knitr::kable(summary_df, caption = "Resumen Estadístico de Edad y Trait1 para Menores de Edad")
Resumen Estadístico de Edad y Trait1 para Menores de Edad
Edad Trait1
Min. 6.000000 317.6100
1st Qu. 7.000000 512.8400
Median 8.000000 595.3150
Mean 8.962963 619.8018
3rd Qu. 11.000000 724.4800
Max. 17.000000 982.9500
Código
par(mfrow = c(2, 2))  

hist(datos_menores$Age, main = "Histograma de Edad", xlab = "Edad", breaks = 10, col = "blue")

qqnorm(datos_menores$Age, main = "QQ-plot para Edad")
qqline(datos_menores$Age, col = "red")

hist(datos_menores$trait1, main = "Histograma de Trait1", xlab = "Trait1", breaks = 10, col = "green")

qqnorm(datos_menores$trait1, main = "QQ-plot para Trait1")
qqline(datos_menores$trait1, col = "red")

las variables age y Trait1 parece no tener comportamiento normal sin embargo se corroborara con un test estadistico

Código
shapiro_test_age <- shapiro.test(datos_menores$Age)

shapiro_test_trait1 <- shapiro.test(datos_menores$trait1)
knitr::kable(
  data.frame(
    Variable = c("Edad", "Trait1"),
    Estadístico_W = c(shapiro_test_age$statistic, shapiro_test_trait1$statistic),
    P_Valor = c(shapiro_test_age$p.value, shapiro_test_trait1$p.value)
  ),
  caption = "Resultados de la Prueba de Shapiro-Wilk para Normalidad"
)
Resultados de la Prueba de Shapiro-Wilk para Normalidad
Variable Estadístico_W P_Valor
Edad 0.8622008 0.0000000
Trait1 0.9780145 0.0110569

Los resultados muestran que tanto la variable Edad como Trait1 para los menores de edad no siguen una distribución normal, ya que ambos p-valores son significativamente menores que 0.05.

Código
ggplot(datos_menores, aes(x = Age, y = trait1)) +
  geom_point(aes(color = factor(cluster)), alpha = 0.6) + 
  geom_smooth(method = "lm", se = TRUE, color = "blue") +
  labs(title = "Relación entre Edad y Tiempo de Reacción en Menores",
       x = "Edad (años)",
       y = "Tiempo de Reacción (ms)") +
  theme_minimal() +
  scale_color_brewer(palette = "Set1")

Se observa una tendencia general en la que, a medida que aumenta la edad, disminuye el tiempo de reacción. No obstante, aunque hay una de mejora en el tiempo de reacción con la edad, los factores de severidad no muestran una relación clara y directa con el tiempo de reacción en esta muestra de datos.

Para determinar si existe diferencia en la trait1 promedio entre los individuos Male y Female menores edad diagnosticados con ADHD utilizaremo La prueba de Mann-Whitney U, la cual es útil para comparar las diferencias entre dos grupos independientes cuando los datos no siguen una distribución normal.

Código
datos_menores_tdha <- datos_sel %>%
  filter(Age < 18, ADHD == "yes" )

# Realizar la prueba de Mann-Whitney U
test_result <- ggpubr::compare_means(trait1 ~ Sex, data = datos_menores_tdha , method = "wilcox.test")

knitr::kable(test_result, caption = "Resultados de la prueba de Mann-Whitney U para Trait1 entre sexos")
Resultados de la prueba de Mann-Whitney U para Trait1 entre sexos
.y. group1 group2 p p.adj p.format p.signif method
trait1 F M 0.6695973 0.67 0.67 ns Wilcoxon

Los resultados de la prueba de Mann-Whitney U, como se muestra en la tabla, indican que no hay diferencias estadísticamente significativas en la mediana del tiempo de reacción (trait1) entre los sexos masculino (M) y femenino (F) entre los menores de edad diagnosticados con ADHD. Lo que sugiere que el tiempo de reacción no varía significativamente entre los niños y las niñas con ADHD. Esto implica que el sexo no parece ser un factor diferenciador en el tiempo de reacción para las tareas asignadas en este grupo de pacientes jóvenes con ADHD.

Por ultimo, al comparar menores de edad Male con ADHD vs. Male sin ADHD

Código
datos_femeninos <- datos_menores %>% 
  filter(Sex == 'F') %>%
  select(ADHD, trait1)

ggplot(datos_femeninos, aes(x = ADHD, y = trait1, fill = ADHD)) +
  geom_boxplot() +
  labs(title = "Comparación de Tiempo de Reacción en Mujeres Menores de Edad",
       x = "Diagnóstico de ADHD",
       y = "Tiempo de Reacción (ms)") +
  scale_fill_brewer(palette = "Pastel1") +
  theme_minimal()

Código
datos_male_adhd <- datos_menores %>% filter(Sex == 'M', ADHD == 'yes')
datos_male_no_adhd <- datos_menores %>% filter(Sex == 'M', ADHD == 'no')
test_result <- wilcox.test(trait1 ~ ADHD, data = rbind(datos_male_adhd, datos_male_no_adhd), 
                           exact = FALSE, correct = TRUE)

print(test_result)

    Wilcoxon rank sum test with continuity correction

data:  trait1 by ADHD
W = 384, p-value = 0.05104
alternative hypothesis: true location shift is not equal to 0

Dado que se estableció un nivel de significancia de \(\alpha = 0.05\) para las pruebas, el valor p obtenido de 0.05104 está muy cerca de este umbral, pero aún así no es suficientemente pequeño como para rechazar la hipótesis nula de que no hay diferencias en los tiempos de reacción (trait1) entre las mujeres menores de edad con ADHD y sin ADHD.

Conclusiones:

A lo largo de este análisis, hemos explorado diversas dimensiones de un trastorno neurodesarrollativo prevalente en una población de menores de edad, utilizando un enfoque riguroso para examinar la distribución de características como la severidad de los síntomas, la prevalencia de ADHD según sexo y edad, y la variabilidad de los tiempos de reacción. Los resultados sugieren una mayor incidencia de ADHD en menores de edad y diferencias significativas en la presencia del trastorno entre sexos, con una mayor prevalencia en varones. Además, no se encontraron diferencias estadísticamente significativas en los tiempos de reacción en las subpoblaciones comparadas, excepto en algunos grupos donde las diferencias estuvieron al borde de la significancia estadística.