Análisis de datos TDHA

Teniendo en cuenta que el trastorno de déficit de atención e hiperactividad (TDAH) es uno de los trastornos más comunes en la niñez y puede continuar hasta la adolescencia y la edad adulta. Análisamos una serie de variables de interés de la base de datos TDHA que se basa en la medición de síntomas incluyen dificultad para concentrarse y prestar atención, dificultad para controlar la conducta e hiperactividad (actividad excesiva), además de otras características inherentes al fenomeno.

Análisis exploratorio de datos.

En este apartado buscamos mediante estadísticas de resumen y ciertos gráficos representativos que nos permitan identificar patrones de comportamiento en los datos, las variables importantes que ayudan a la descripción del fenomeno son:

Genero
Tipo de transtorno
- Predominantemente hiperactivo-impulsivo
- Predominantemente inatento
- Combinación hiperactivo-impulsivo e inatento
Diagnostico

Así, empezamos a analizar mediante estadísticas que resumen un poco la naturaleza de los datos

Resumen de los datos

A continuación observamos una tabla que evidencia algunas de las más comunes estadísticas de resumen en las que encontramos rangos muy amplios como los de las variables saltolar y reacción, de igual forma observamos que la edad en la que los niños pueden ser sencibles a dicho trasntornos es cercana a los ocho años y que las actividades que los niños realizan por esa edad simpre es muy homogenea para todos como se nota con la media y mediana de la dsiribución.

	edad	saltolar	reaccion	wells	harvard	isometri
mínimo	5.000000	42.00000	5.00000	-24.000000	96.00000	0.6471702
máximo	12.000000	179.00000	60.00000	31.000000	199.00000	26.5088339
media	8.704492	115.01418	33.03428	-2.145390	151.67258	13.1166728
mediana	9.000000	115.00000	31.00000	-1.000000	150.00000	12.8785029
Q1.25%	7.000000	99.00000	26.00000	-6.000000	132.00000	10.3761976
Q3.75%	10.000000	132.00000	40.00000	2.000000	170.00000	15.7433703
Desv.Stan	1.956970	24.14938	10.83005	5.931075	23.92974	4.0308594

Debido que con estadísticas descriptivas no tenemos la imagen general de la situación, siempre es importante evidenciar de manera gráfica algún patron que contengan los datos, así procedemos a ver algúnas relaciones entre variables y factores que inciden en el estudio del fenomeno.

En este observamos que los individuos son mayormente de genero masculino pero a escala se observa que los diagnosticos son homogenos aunque se observe una leve tendencia a que sean mas los ‘No’ diagnosticados.

Esta imagen nos muestra como es la distrubución de los datos por tipos de transtorno teniendo en cuenta el genero de la población, se observa que existe una fuerte preciencia de datos faltantes debido a la interacción del factor diagnostico y se observa también que los individuos de genero masculino son en su mayoria pertenecientes a los pacientes de tipo que de TDHA que combina los transtornos.

Teniendo en cuenta que el rango de edades nos indica que los individuos son niños menores de doce años, se verifica mediante este gráfico un primer indicio que nos diga que tan diferentes pueden ser las poblaciones de niños y niñas respecto a su diagnostico, así vemos que por la varible de interés wells parece haber una leve diferencia entre sus valores medios afirmación a la que hay que apoyar luego con una prueba de hipotesis formal.

De manera muy similar se hace en este gráfico un análisis de la situación pero esta vez se toma como objetivo la variable de interés harvard que nos da los mismos indicios de diferencias significativas en los valores medios inclusive de forma más notoria que la anterior, pero esta vez sin dejarnos ver valores extremos en la dsitribución.

Por último se observa en esta imagen como para los valores medios de la variable de interés isometri en los no diagnosticados no existe a simple vista una diferencia significativa, con la prudencia de decir que esto hay que crroborarlo con una prueba formal, además se observan también individuos cuyos valores están bastante alejados de la media de la distribución.

Ahora mostramos un poco como esta configurada la distribución de la variable saltolar en los niveles del factor genero para cada uno de los tipos de transtorno y observamos que las distribuciones tienden a aser bimodales exceptuando la del predomino en la hiperactividad, con lo que tenemos información para determinar ciertos objetivos claves en el análisis de esto datos

Planteamiento de objetivos.

En este apartado buscaremos confirmar mediante pruebas formales algunos de los hallazgos mencionados en las etapas anteriores, esto lo hacemos basandonos en los análisis gráficos realizados previamente, así se propone de manera especifica dos objetivos

Realizar pruebas de hipótesis tipo \(t\) para dos poblaciones basadas en el factor genero con el fin de indagar acerca de la probable diferencia estadística entre ellas
Diseñar e implemntar un diseño factorial para indagar más a fondo el efecto de los factores de interés sobre la variable respuesta

Metodología

En esta parte del estudio tratamos de lograr el primer objetivo planteado que es el de realizar ciertas pruebas para determinar si hay diferencia entre las medias de las poblaciones para cada una de las variables de interés

## 
##  Welch Two Sample t-test
## 
## data:  saltolar by genero
## t = 10.0678, df = 435.7, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  13.74719 20.41657
## sample estimates:
## mean in group MASCULINO  mean in group FEMENINO 
##                119.5169                102.4350

En primera medida vemos que comparando las medias de las poblaciones por grupos de genero estas son estadísticamente diferentes, el p-valor a un nivel de confianza del \(95\)% nos confirma la primera sospecha basada en el genero en este caso para la variable saltolar

## 
##  Welch Two Sample t-test
## 
## data:  wells by genero
## t = 0.5796, df = 383.356, p-value = 0.5625
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.6493514  1.1922618
## sample estimates:
## mean in group MASCULINO  mean in group FEMENINO 
##               -2.073836               -2.345291

En segunda medida vemos que comparando las medias de las poblaciones por grupos de genero estas no son estadísticamente diferentes, el p-valor a un nivel de confianza del \(95\)% nos confirma la segunda sospecha basada en el genero en este caso para la variable wells la “leve” diferencia se evidencio al no existir.

## 
##  Welch Two Sample t-test
## 
## data:  reaccion by genero
## t = -4.9537, df = 412.437, p-value = 1.065e-06
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -5.616905 -2.425491
## sample estimates:
## mean in group MASCULINO  mean in group FEMENINO 
##                31.97432                35.99552

## 
##  Welch Two Sample t-test
## 
## data:  harvard by genero
## t = 6.3596, df = 461.021, p-value = 4.877e-10
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##   7.422475 14.060887
## sample estimates:
## mean in group MASCULINO  mean in group FEMENINO 
##                154.5040                143.7623

Discución

Es de notar por estas pruebas y los análisis gráficos anterioremente hechos que se puede decir en general que el factor genero si afecta directamente a las medidas de interés que intervienen en el fenomeno del TDHA, es decir, para esta población en particular los niños y las niñas tienen diferentes comportamientos en las variables observadas en este experimento.

Diseño factorial

El objetivo planteado acá es determinar si existen diferencias signifativas entre las medias de los distintos tipos de transtorno para la variable saltolar, para ello se conforma un diseño factorial a una vía de clasificación.

	Estimate	Std. Error	t value	Pr(>\|t\|)
(Intercept)	106.614286	2.638410	40.4085293	0.0000000
tipoTDAH PREDOMINIO HIPERACTIVO	4.964949	3.102252	1.6004339	0.1102978
tipoTDAH PREDOMINIO INATENCION	1.086395	3.205631	0.3389019	0.7348628

En la tabla anterior vemos como los valores medios para la variable saltolar incrementan en casi 5 unidades para el los del tipo hiperactivo con respecto a los del tipo combinado, de igual forma se observa que existe un incremento de casi una unidad en el saltolar para los del tipo inatención con respecto también a los del tipo combinado.

	Df	Sum Sq	Mean Sq	F value	Pr(>F)
tipo	2	1831.493	915.7466	1.879285	0.1540552
Residuals	397	193452.017	487.2847	NA	NA

Luego viendo la tabla ANOVA concluimos que acorde a lo anterior donde se evidencia que no existen incrementos muy significativos entre los distintos tipos de trastorno y el p-valor n nos indican que no existe diferencia significativa entre los niveles del factor, es decir, las medias del salto largo de los niños diagnosticados en algún tipo de trastorno son similares estadísticamente, lo que en este caso lleva a concluir que la medida del salto no depende enteramente del tipo de transtorno del niño diagnosticado y que pueden haber otros componentes del fenomeno que se están midiendo o teniendo en cuenta en el estudio.