Código
## data set
x <- read.table('https://tinyurl.com/PsychoDB',
sep = ',', header = TRUE)Caso #1
HTML a jvelezv@uninorte.edu.co a más tardar el Viernes 31 de Mayo de 2024 a las 2 PM.Un grupo de investigación de una prestigiosa Universidad estudia una transtorno del neurodesarollo que se presenta principalmente en niños.
Los datos pueden leerse en R haciendo:
## data set
x <- read.table('https://tinyurl.com/PsychoDB',
sep = ',', header = TRUE)En total se registraron datos en 22 variables en 408 individuos. Las columnas relevantes para el desarrollo del exámen son:
Family: Familia a la que pertenece el individuo;UID: Identificador de la persona;Father: Si el individuo es papá, la variable toma el valor de 0;Mother: Si el individuo es mamá, la variable toma el valor de 0;Sex: Sexo del individuo (M: Male, F: Female);Age: Edad en años al momento del diagnóstico;ADHD: Diagnóstico (yes: enfermo; no: sano);cluster: Grupo de severidad al que pertenece;inatsymptoms: Número de síntomas de inatención;impsymptoms: Número de síntomas de impulsividad;hypsymptoms: Número de síntomas de hyperactividad;trait1: Tiempo de reacción en milisegundos (ms) para terminar una tarea.Estos datos han sido utilizados como parte de investigaciones previas en ADHD (ver por ejemplo este, este, este y este artículo). Sin enmbargo, los investigadores tienen preguntas adicionales y están interesados en hipotetizar sobre otros aspectos relevantes a la enfermedad. Por ello, los contratan como apoyo en todo lo relacionado Analítica de Datos.
Seleccione sólo las columnas correspondientes a las variables relevantes. Analice la distribución de frecuencias de ADHD, cluster y Sex. Concluya.
Inicialmente, cargamos las librerías necesarias y seleccionamos las variables de interés
library(dplyr)
library(knitr)
library(ggplot2)
library(tidyr)
library(gridExtra)
library(grid)
library(ggpubr)datos_sel <- x %>%
select(Family, UID, Father, Mother, Sex, Age, ADHD, cluster, inatsymptoms, impsymptoms, hypsymptoms, trait1)
knitr::kable(head(datos_sel))| Family | UID | Father | Mother | Sex | Age | ADHD | cluster | inatsymptoms | impsymptoms | hypsymptoms | trait1 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| F1 | 3 | 1 | 2 | F | 7 | yes | 3 | 0 | 1 | 1 | 895.50 |
| F1 | 1 | 0 | 0 | M | 35 | no | 1 | 9 | 2 | 5 | 420.67 |
| F1 | 2 | 0 | 0 | F | 39 | no | 4 | 3 | 1 | 2 | 528.83 |
| F2 | 7 | 4 | 5 | M | 6 | yes | 3 | 0 | 1 | 0 | 737.83 |
| F2 | 6 | 4 | 5 | M | 12 | no | 1 | 0 | 0 | 0 | 569.52 |
| F2 | 5 | 0 | 0 | F | 39 | no | 1 | 7 | 4 | 6 | 485.25 |
freq_adhd <- table(datos_sel$ADHD)
p1 <- ggplot(datos_sel, aes(x = ADHD, fill = ADHD)) +
geom_bar() +
geom_text(stat = 'count', aes(label = scales::percent(..count../sum(..count..))),
vjust = 1, position = position_stack(vjust = 1.0),
angle = 90) +
scale_fill_brewer(palette = "Pastel1") +
ggtitle("ADHD") +
xlab("Diagnóstico de ADHD") +
ylab("Frecuencia")+
theme(legend.position = "none")
freq_cluster <- table(datos_sel$cluster)
p2 <- ggplot(datos_sel, aes(x = factor(cluster), fill = factor(cluster))) +
geom_bar() +
geom_text(stat = 'count', aes(label = scales::percent(..count../sum(..count..))),
vjust = 1, position = position_stack(vjust = 1.0),
angle = 90) +
scale_fill_brewer(palette = "Pastel2") +
ggtitle("Clúster") +
xlab("Clúster de Severidad") +
ylab("Frecuencia")+
theme(legend.position = "none")
freq_sex <- table(datos_sel$Sex)
p3 <- ggplot(datos_sel, aes(x = Sex, fill = Sex)) +
geom_bar() +
geom_text(stat = 'count', aes(label = scales::percent(..count../sum(..count..))),
vjust = 1, position = position_stack(vjust = 1.0),
angle = 90) +
scale_fill_brewer(palette = "Pastel1") +
ggtitle("Sexo") +
xlab("Sexo") +
ylab("Frecuencia")+
theme(legend.position = "none")
grid.arrange(
p3, p2, p3,
ncol = 3,
top = textGrob("Distribución de variables de interes",
gp = gpar(fontface = "bold", fontsize = 20, col = "black"))
)El análisis de la distribución por sexo muestra que hay una mayor proporción de individuos masculinos (57%) en comparación con los femeninos (43%) en la muestra estudiada. El gráfico de diagnóstico de TDAH muestra que una mayoría de los sujetos (58%) en la muestra están diagnosticados con TDAH, mientras que el 42% no lo están.
La distribución de severidad de TDAH, categorizada en seis clústeres, muestra que el clúster 1, correspondiente a la menor severidad, contiene la menor proporción de individuos (9.5%). Los clústeres incrementan en frecuencia hasta el clúster 5, que representa la mayor proporción (33.09%), indicando una concentración significativa de casos de TDAH de severidad moderada a alta.
Es posible afirmar que la mayoría de las personas afectadas por la enfermedad corresponde a menores de edad? Visualice sus resultados. Determine qué patrón ocurre al desagregar la información por Sex. Concluya.
datos_tadhd <- datos_sel %>%
filter(ADHD == "yes") %>%
mutate(Categoria_Edad = ifelse(Age < 18, "Menor de Edad", "Mayor de Edad")) %>%
group_by(Categoria_Edad) %>%
summarise(Frecuencia = n()) %>%
mutate(Porcentaje = (Frecuencia / sum(Frecuencia)) * 100)
names(datos_tadhd) <- c("Tipo de Población", "Frecuencia", "Porcentaje")
knitr::kable(datos_tadhd, caption = "Frecuencia y Porcentaje de ADHD por Tipo de Población")| Tipo de Población | Frecuencia | Porcentaje |
|---|---|---|
| Mayor de Edad | 101 | 42.79661 |
| Menor de Edad | 135 | 57.20339 |
ggplot(data = as.data.frame(frecuencias_edad), aes(x = Var1, y = Freq, fill = Var1)) +
geom_bar(stat = "identity") +
geom_text(aes(label = sprintf("%.1f%%", Freq / sum(Freq) * 100)), vjust = -0.5) +
ggtitle("Distribución de Edad entre los Diagnosticados con TDAH") +
xlab("Categoría de Edad") +
ylab("Frecuencia")Aproximadamente el 57.20% de los pacientes con TDAH son menores de edad, mientras que el 42.80% son mayores de edad. Esta distribución indica una prevalencia mayor del TDAH en menores de edad en comparación con los mayores de edad dentro de la muestra analizada. Este resultado puede sugerir que el TDAH es más comúnmente diagnosticado o más fácilmente identificable en poblaciones más jóvenes, lo cual es consistente con la literatura que señala que el TDAH es un trastorno que generalmente se identifica en la infancia.
Ahora, Para determinar si existe una diferencia significativa en la proporción de pacientes con TDAH entre menores de edad y mayores de edad, podemos realizar una prueba de hipótesis usando una prueba de proporciones,
Planteamiento de las Hipótesis
Hipótesis Nula (H0): No hay diferencia en la proporción de pacientes con TDAH entre menores de edad y mayores de edad.
\[ H_0 : p_{\text{menores}} = p_{\text{mayores}} \]
Hipótesis Alternativa (H1): Existe una diferencia en la proporción de pacientes con TDAH entre menores de edad y mayores de edad.
\[ H_1 : p_{\text{menores}} \neq p_{\text{mayores}} \]
Donde \(p_{\text{menores}}\) es la proporción de menores de edad con TDAH y \(p_{\text{mayores}}\) es la proporción de mayores de edad con TDAH.
datos_tadhd <- datos_sel %>%
filter(ADHD == "yes") %>%
mutate(Categoria_Edad = ifelse(Age < 18, "Menor de Edad", "Mayor de Edad")) %>%
group_by(Categoria_Edad) %>%
summarise(Conteo = n())
total_tadhd <- sum(datos_tadhd$Conteo)
conteo_menores <- datos_tadhd$Conteo[datos_tadhd$Categoria_Edad == "Menor de Edad"]
conteo_mayores <- datos_tadhd$Conteo[datos_tadhd$Categoria_Edad == "Mayor de Edad"]
resultado_test <- prop.test(x = c(conteo_menores, conteo_mayores),
n = c(total_tadhd, total_tadhd))
print(resultado_test)
2-sample test for equality of proportions with continuity correction
data: c(conteo_menores, conteo_mayores) out of c(total_tadhd, total_tadhd)
X-squared = 9.2288, df = 1, p-value = 0.002382
alternative hypothesis: two.sided
95 percent confidence interval:
0.05055699 0.23757860
sample estimates:
prop 1 prop 2
0.5720339 0.4279661
Con un valor p de 0.002382, rechazamos la hipótesis nula de que no hay diferencia en las proporciones de TDAH entre los dos grupos de edad. Este resultado sugiere que la edad es un factor importante en la prevalencia del TDAH, con una mayor proporción de menores de edad diagnosticados con esta condición en comparación con los mayores de edad.
Ahora procedemos a revisar los resultados considerando el Sexo.
ggplot(datos_sel, aes(x = Age, fill = ADHD)) +
geom_histogram(binwidth = 1, alpha = 0.6, position = "identity") +
facet_grid(Sex ~ ADHD) +
labs(title = "Distribución de Edad por Sexo y Presencia de TDAH",
x = "Edad",
y = "Frecuencia",
fill = "Diagnóstico de TDAH") +
theme_minimal() +
theme(panel.spacing = grid::unit(1, "lines")) Se ilustra la distribución de edad para individuos diagnosticados y no diagnosticados con TDAH, discriminada por sexo. Se observa que los diagnosticados con TDAH, tanto hombres como mujeres, muestran picos significativos en las cohortes más jóvenes, especialmente bajo los 20 años, lo que refleja la tendencia común de diagnosticar el TDAH en la infancia.
ggplot(datos_sel, aes(x = Sex, fill = ADHD)) +
geom_bar(position = "fill") +
labs(title = "Distribución de TDAH por Sexo",
x = "Sexo",
y = "Proporción",
fill = "Diagnóstico de TDAH") +
theme_minimal() Una menor proporción de mujeres ha sido diagnosticada con TDAH en comparación con los hombres. Esto podría sugerir que el TDAH es menos frecuentemente diagnosticado o posiblemente menos prevalente en mujeres, El gráfico apunta a la importancia de considerar diferencias de género en el diagnóstico y tratamiento del TDAH.
Para tener un criterio mas objetivo, se utiliza una prueba de chi-cuadrado de Pearson con el fin de evaluar la independencia entre dos variables categóricas: el sexo (Femenino, Masculino) y el diagnóstico de TDAH (Sí, No)
tabla_sex_adhd <- table(datos_sel$Sex, datos_sel$ADHD)
knitr::kable(tabla_sex_adhd, caption = "Frecuencia de ADHD por Tipo de Sexo")| no | yes | |
|---|---|---|
| F | 100 | 75 |
| M | 72 | 161 |
# Realizar prueba de chi-cuadrado
test_chi <- chisq.test(tabla_sex_adhd)
test_chi
Pearson's Chi-squared test with Yates' continuity correction
data: tabla_sex_adhd
X-squared = 27.156, df = 1, p-value = 1.876e-07
El valor p muy bajo permite rechazar la hipótesis nula de que no hay asociación entre el sexo y la presencia de TDAH. Esto implica que existe una diferencia estadísticamente significativa en la proporción de diagnósticos de TDAH entre hombres y mujeres.
Podemos decir que existe una asociación entre el cluster y el número de síntomas de la enfermedad? En qué cluster parece encontrarse la mayor cantidad de personas con ADHD? Cuál es el UID de la persona sin ADHD con el mayor número de síntomas, y el UID de la persona diagnosticada con ADHD con el menor número de síntomas?
datos_sel$total_symptoms <- datos_sel$inatsymptoms + datos_sel$impsymptoms + datos_sel$hypsymptomsggplot(datos_sel, aes(x = as.factor(cluster), y = total_symptoms)) +
geom_boxplot(aes(fill = as.factor(cluster)), alpha = 0.6) + # Añadir un poco de transparencia con alpha
scale_fill_brewer(palette = "Paired") + # Usa una paleta de colores para diferenciar los clusters
labs(title = "Distribución de Número Total de Síntomas por Cluster de Severidad",
x = "Cluster de Severidad",
y = "Número Total de Síntomas") +
theme_minimal() + # Aplica un tema minimalista para una mejor presentación
theme(legend.position = "none")Los clusters 1 y 2 muestran medianas más bajas y menor dispersión en los datos, lo que podría indicar que los casos más leves de TDAH están agrupados aquí. Los clusters 3 a 6 muestran medianas progresivamente más altas y una mayor dispersión, especialmente los clusters 5 y 6, lo que indica que estos podrían representar casos de mayor severidad.
Aunque el boxplot proporciona una visión visual clara de las diferencias en la distribución del número total de síntomas entre los diferentes clusters de severidad del TDAH, es esencial confirmar estadísticamente estas observaciones para asegurar que las diferencias son significativas y no productos del azar. La prueba de Kruskal-Wallis es adecuada para este propósito, ya que es una prueba no paramétrica que puede usarse para comparar las medianas de dos o más grupos
tabla_contingencia <- table(datos_sel$cluster, datos_sel$total_symptoms)
kruskal.test(cluster ~ total_symptoms, data = datos_sel)
Kruskal-Wallis rank sum test
data: cluster by total_symptoms
Kruskal-Wallis chi-squared = 23.282, df = 20, p-value = 0.2752
Con un valor p de 0.2752, no podemos rechazar la hipótesis nula. Esto indica que, a nivel estadístico, no hay evidencia suficiente para afirmar que existen diferencias significativas en el número total de síntomas entre los diferentes clusters de severidad del TDAH.
Ahora, para saber en qué cluster parece encontrarse la mayor cantidad de personas con ADHD
cont_diag_adhd_por_clust <- datos_sel %>%
filter(ADHD == "yes") %>%
group_by(cluster) %>%
summarise(cont = n()) %>%
arrange(desc(cont))
knitr::kable(cont_diag_adhd_por_clust, caption = "Frecuencia de ADHD por Cluster")| cluster | cont |
|---|---|
| 2 | 63 |
| 3 | 59 |
| 6 | 34 |
| 5 | 32 |
| 4 | 30 |
| 1 | 18 |
los clusters 2 y 3 contienen la mayor cantidad de personas diagnosticadas con ADHD, con 63 y 59 individuos respectivamente.
Por ultimo para conocer cuál es el UID de la persona sin ADHD con el mayor número de síntomas, y el UID de la persona diagnosticada con ADHD con el menor número de síntomas
uid_max_sintomas_sin_adhd <- datos_sel %>%
filter(ADHD == "no") %>%
arrange(desc(total_symptoms)) %>%
slice(1) %>%
pull(UID)
uid_min_sintomas_con_adhd <- datos_sel %>%
filter(ADHD == "yes") %>%
arrange(total_symptoms) %>%
slice(1) %>%
pull(UID) cat("UID sin ADHD con más síntomas:", uid_max_sintomas_sin_adhd, "\n")UID sin ADHD con más síntomas: 32
Es un hombre de 40 años, que no ha sido diagnosticado con ADHD. Está clasificado en el cluster de severidad 4. En términos de síntomas, ha reportado 10 síntomas de inatención, 4 de impulsividad, y 6 de hiperactividad, sumando un total de 20 síntomas. Además, su tiempo de reacción para completar una tarea específica (trait1) es de 581.40 milisegundos. Este perfil sugiere que, a pesar de no estar diagnosticado con ADHD, el sujeto presenta un número considerable de síntomas asociados con la condición.
cat("UID con ADHD con menos síntomas:", uid_min_sintomas_con_adhd)UID con ADHD con menos síntomas: 14
Es un niño de 6 años, diagnosticado con ADHD, clasificado en el cluster de severidad 6, lo que indica un alto nivel de severidad según los criterios del estudio. A pesar de su diagnóstico y severidad en la clasificación, sorprendentemente, no reporta síntomas en ninguna de las categorías evaluadas: inatención, impulsividad o hiperactividad, todas con un conteo de 0. Además, su tiempo de reacción (trait1) es de 873.50 milisegundos.
De acuerdo con inatsymtoms, quiénes son más inatentos? Los Fathers o las Mothers? Determine el número de individuos Father con ADHD y compárelo con los individuos Mother con el diagnóstico. Es posible afirmar que en esta población los Fathers son más inatentos que las Mothers? Use un nivel de significancia \(alpha=0.05\) para todas las pruebas que considere necesario realizar.
inat_padre <- datos_sel %>%
filter(Sex == 'M', Father == 0, inatsymptoms > 0) %>%
nrow()
inat_madre <- datos_sel %>%
filter(Sex == 'F', Mother == 0, inatsymptoms > 0) %>%
nrow()
tabla_inatencion <- data.frame(
Grupo = c("Padres", "Madres"),
Frecuencia = c(inat_padre, inat_madre)
)
knitr::kable(tabla_inatencion, caption = "Frecuencia inantenciones Padres y Madres")| Grupo | Frecuencia |
|---|---|
| Padres | 108 |
| Madres | 88 |
ggplot(tabla_inatencion, aes(x = Grupo, y = Frecuencia, fill = Grupo)) +
geom_col(show.legend = FALSE) +
labs(title = "Frecuencia de Padres y Madres con Síntomas de Inatención",
x = "Grupo",
y = "Frecuencia") +
theme_minimal()Se observa que los padres presentan una frecuencia ligeramente mayor de síntomas de inatención comparados con las madres. Para saber si existe una diferencia significativa en las proporciones de inatención entre padres y madres podemos realizar un test de proporciones.
test <- prop.test(
c(inat_padre, inat_madre),
c(sum(datos_sel$Sex == "M" & datos_sel$Father == 0), sum(datos_sel$Sex == "F" & datos_sel$Mother == 0)),
alternative = "two.sided"
)
test
2-sample test for equality of proportions with continuity correction
data: c(inat_padre, inat_madre) out of c(sum(datos_sel$Sex == "M" & datos_sel$Father == 0), sum(datos_sel$Sex == "F" & datos_sel$Mother == 0))
X-squared = 10.046, df = 1, p-value = 0.001526
alternative hypothesis: two.sided
95 percent confidence interval:
0.06272345 0.27060988
sample estimates:
prop 1 prop 2
0.9000000 0.7333333
Los resultados de la prueba de proporciones indican una diferencia estadísticamente significativa entre los padres y las madres en términos de síntomas de inatención. La prueba chi-cuadrada, con un valor de 10.046 y un grado de libertad, resulta en un valor de p de 0.001526, lo que sugiere que la diferencia observada en las proporciones es altamente significativa. Esto confirma que la proporción de padres con síntomas de inatención es mayor que la de madres bajo el nivel de confianza del 95%.
Para determinar si los Fathers o las Mothers tienen una mayor frecuencia de ADHD y evaluar si los Fathers son más inatentos, podemos comenzar identificando el número de Fathers y Mothers diagnosticados con ADHD
adhd_padres <- datos_sel %>%
filter(Sex == 'M', Father == 0, ADHD == "yes", inatsymptoms > 0) %>%
nrow()
adhd_madres <- datos_sel %>%
filter(Sex == 'F', Mother == 0, ADHD == "yes", inatsymptoms > 0) %>%
nrow()
tabla_adhd <- data.frame(
Grupo = c("Padres", "Madres"),
Frecuencia_ADHD = c(adhd_padres, adhd_madres)
)
knitr::kable(tabla_adhd, caption = "Frecuencia de ADHD en Padres y Madres")| Grupo | Frecuencia_ADHD |
|---|---|
| Padres | 59 |
| Madres | 34 |
ggplot(tabla_adhd, aes(x = Grupo, y = Frecuencia_ADHD, fill = Grupo)) +
geom_col(show.legend = FALSE) +
labs(title = "Frecuencia de ADHD entre Padres y Madres",
x = "Grupo",
y = "Frecuencia de ADHD") +
theme_minimal()Hay más padres (59) que madres (34) diagnosticados con TDAH. Este hallazgo sugiere que, dentro de este grupo específico, los padres tienden a presentar una mayor prevalencia de TDAH comparado con las madres. Para determinar si existe una diferencia significativa en las proporciones de inatención entre Fathers y Mothers, usaremos un test de proporciones
test <- prop.test(
c(adhd_padres, adhd_madres),
c(sum(datos_sel$Sex == "M" & datos_sel$Father == 0 & datos_sel$inatsymptoms > 0), sum(datos_sel$Sex == "F" & datos_sel$Mother == 0& datos_sel$inatsymptoms > 0)),
alternative = "two.sided"
)
print(test)
2-sample test for equality of proportions with continuity correction
data: c(adhd_padres, adhd_madres) out of c(sum(datos_sel$Sex == "M" & datos_sel$Father == 0 & datos_sel$inatsymptoms > 0), sum(datos_sel$Sex == "F" & datos_sel$Mother == 0 & datos_sel$inatsymptoms > 0))
X-squared = 4.3534, df = 1, p-value = 0.03694
alternative hypothesis: two.sided
95 percent confidence interval:
0.01118146 0.30868386
sample estimates:
prop 1 prop 2
0.5462963 0.3863636
El resultado de la prueba de proporciones para comparar la presencia de TDAH entre padres y madres revela diferencias estadísticamente significativas. El intervalo de confianza del 95% para la diferencia de proporciones está entre 0.011 y 0.308, sugiriendo que la proporción de padres con TDAH es consistentemente mayor que la de las madres.
Podemos decir que existe una relación entre Age y trait1 en personas menores de edad? Utilice EDA para ello. Ahora, determine si existe diferencia en la trait1 promedio entre los individuos Male y Female menores edad diagnosticados con ADHD. Qué pasa si comparamos menores de edad Male con ADHD vs. Male sin ADHD? Use un nivel de significancia \(alpha=0.05\) para todas las pruebas que considere necesario realizar. Concluya.
Primero, filtraremos los datos para incluir solo a los individuos menores de edad
datos_menores <- datos_sel %>%
filter(Age < 18)
cat("Número de menores en el estudio:", nrow(datos_menores), "\n")Número de menores en el estudio: 162
Generamos un EDA para las dos variables de interes
age_summary <- summary(datos_menores$Age)
trait1_summary <- summary(datos_menores$trait1)
summary_df <- data.frame(
Edad = c(age_summary[1], age_summary[2], age_summary[3], age_summary[4], age_summary[5], age_summary[6]),
Trait1 = c(trait1_summary[1], trait1_summary[2], trait1_summary[3], trait1_summary[4], trait1_summary[5], trait1_summary[6])
)
knitr::kable(summary_df, caption = "Resumen Estadístico de Edad y Trait1 para Menores de Edad")| Edad | Trait1 | |
|---|---|---|
| Min. | 6.000000 | 317.6100 |
| 1st Qu. | 7.000000 | 512.8400 |
| Median | 8.000000 | 595.3150 |
| Mean | 8.962963 | 619.8018 |
| 3rd Qu. | 11.000000 | 724.4800 |
| Max. | 17.000000 | 982.9500 |
par(mfrow = c(2, 2))
hist(datos_menores$Age, main = "Histograma de Edad", xlab = "Edad", breaks = 10, col = "blue")
qqnorm(datos_menores$Age, main = "QQ-plot para Edad")
qqline(datos_menores$Age, col = "red")
hist(datos_menores$trait1, main = "Histograma de Trait1", xlab = "Trait1", breaks = 10, col = "green")
qqnorm(datos_menores$trait1, main = "QQ-plot para Trait1")
qqline(datos_menores$trait1, col = "red")las variables age y Trait1 parece no tener comportamiento normal sin embargo se corroborara con un test estadistico
shapiro_test_age <- shapiro.test(datos_menores$Age)
shapiro_test_trait1 <- shapiro.test(datos_menores$trait1)
knitr::kable(
data.frame(
Variable = c("Edad", "Trait1"),
Estadístico_W = c(shapiro_test_age$statistic, shapiro_test_trait1$statistic),
P_Valor = c(shapiro_test_age$p.value, shapiro_test_trait1$p.value)
),
caption = "Resultados de la Prueba de Shapiro-Wilk para Normalidad"
)| Variable | Estadístico_W | P_Valor |
|---|---|---|
| Edad | 0.8622008 | 0.0000000 |
| Trait1 | 0.9780145 | 0.0110569 |
Los resultados muestran que tanto la variable Edad como Trait1 para los menores de edad no siguen una distribución normal, ya que ambos p-valores son significativamente menores que 0.05.
ggplot(datos_menores, aes(x = Age, y = trait1)) +
geom_point(aes(color = factor(cluster)), alpha = 0.6) +
geom_smooth(method = "lm", se = TRUE, color = "blue") +
labs(title = "Relación entre Edad y Tiempo de Reacción en Menores",
x = "Edad (años)",
y = "Tiempo de Reacción (ms)") +
theme_minimal() +
scale_color_brewer(palette = "Set1")Se observa una tendencia general en la que, a medida que aumenta la edad, disminuye el tiempo de reacción. No obstante, aunque hay una de mejora en el tiempo de reacción con la edad, los factores de severidad no muestran una relación clara y directa con el tiempo de reacción en esta muestra de datos.
Para determinar si existe diferencia en la trait1 promedio entre los individuos Male y Female menores edad diagnosticados con ADHD utilizaremo La prueba de Mann-Whitney U, la cual es útil para comparar las diferencias entre dos grupos independientes cuando los datos no siguen una distribución normal.
datos_menores_tdha <- datos_sel %>%
filter(Age < 18, ADHD == "yes" )
# Realizar la prueba de Mann-Whitney U
test_result <- ggpubr::compare_means(trait1 ~ Sex, data = datos_menores_tdha , method = "wilcox.test")
knitr::kable(test_result, caption = "Resultados de la prueba de Mann-Whitney U para Trait1 entre sexos")| .y. | group1 | group2 | p | p.adj | p.format | p.signif | method |
|---|---|---|---|---|---|---|---|
| trait1 | F | M | 0.6695973 | 0.67 | 0.67 | ns | Wilcoxon |
Los resultados de la prueba de Mann-Whitney U, como se muestra en la tabla, indican que no hay diferencias estadísticamente significativas en la mediana del tiempo de reacción (trait1) entre los sexos masculino (M) y femenino (F) entre los menores de edad diagnosticados con ADHD. Lo que sugiere que el tiempo de reacción no varía significativamente entre los niños y las niñas con ADHD. Esto implica que el sexo no parece ser un factor diferenciador en el tiempo de reacción para las tareas asignadas en este grupo de pacientes jóvenes con ADHD.
Por ultimo, al comparar menores de edad Male con ADHD vs. Male sin ADHD
datos_femeninos <- datos_menores %>%
filter(Sex == 'F') %>%
select(ADHD, trait1)
ggplot(datos_femeninos, aes(x = ADHD, y = trait1, fill = ADHD)) +
geom_boxplot() +
labs(title = "Comparación de Tiempo de Reacción en Mujeres Menores de Edad",
x = "Diagnóstico de ADHD",
y = "Tiempo de Reacción (ms)") +
scale_fill_brewer(palette = "Pastel1") +
theme_minimal()datos_male_adhd <- datos_menores %>% filter(Sex == 'M', ADHD == 'yes')
datos_male_no_adhd <- datos_menores %>% filter(Sex == 'M', ADHD == 'no')
test_result <- wilcox.test(trait1 ~ ADHD, data = rbind(datos_male_adhd, datos_male_no_adhd),
exact = FALSE, correct = TRUE)
print(test_result)
Wilcoxon rank sum test with continuity correction
data: trait1 by ADHD
W = 384, p-value = 0.05104
alternative hypothesis: true location shift is not equal to 0
Dado que se estableció un nivel de significancia de \(\alpha = 0.05\) para las pruebas, el valor p obtenido de 0.05104 está muy cerca de este umbral, pero aún así no es suficientemente pequeño como para rechazar la hipótesis nula de que no hay diferencias en los tiempos de reacción (trait1) entre las mujeres menores de edad con ADHD y sin ADHD.
A lo largo de este análisis, hemos explorado diversas dimensiones de un trastorno neurodesarrollativo prevalente en una población de menores de edad, utilizando un enfoque riguroso para examinar la distribución de características como la severidad de los síntomas, la prevalencia de ADHD según sexo y edad, y la variabilidad de los tiempos de reacción. Los resultados sugieren una mayor incidencia de ADHD en menores de edad y diferencias significativas en la presencia del trastorno entre sexos, con una mayor prevalencia en varones. Además, no se encontraron diferencias estadísticamente significativas en los tiempos de reacción en las subpoblaciones comparadas, excepto en algunos grupos donde las diferencias estuvieron al borde de la significancia estadística.