Caso #1

Autor/a
Afiliación

Universidad del Norte, Barranquilla

Fecha de publicación

18 de mayo de 2024

Importante

  1. El puntaje asociado a cada conjunto de preguntas se encuentra entre ().
  2. Pueden utilizarse herramientas y/o conceptos de otras asignaturas en caso de ser necesario.
  3. Tenga en cuenta que aunque los cálculos son importantes, el análisis e interpretación tendrán un mayor peso en la calificación.
  4. La solución debe enviarse en formato HTML a a más tardar el Viernes 31 de Mayo de 2024 a las 2 PM.

Contexto Analítico

Un grupo de investigación de una prestigiosa Universidad estudia una transtorno del neurodesarollo que se presenta principalmente en niños.

Los datos pueden leerse en R haciendo:

Código
## data set
x <- read.table('https://tinyurl.com/PsychoDB', 
                sep = ',', header = TRUE)

En total se registraron datos en 22 variables en 408 individuos. Las columnas relevantes para el desarrollo del exámen son:

  1. Family: Familia a la que pertenece el individuo;
  2. UID: Identificador de la persona;
  3. Father: Si el individuo es papá, la variable toma el valor de 0;
  4. Mother: Si el individuo es mamá, la variable toma el valor de 0;
  5. Sex: Sexo del individuo (M: Male, F: Female);
  6. Age: Edad en años al momento del diagnóstico;
  7. ADHD: Diagnóstico (yes: enfermo; no: sano);
  8. cluster: Grupo de severidad al que pertenece;
  9. inatsymptoms: Número de síntomas de inatención;
  10. impsymptoms: Número de síntomas de impulsividad;
  11. hypsymptoms: Número de síntomas de hyperactividad;
  12. trait1: Tiempo de reacción en milisegundos (ms) para terminar una tarea.

Estos datos han sido utilizados como parte de investigaciones previas en ADHD (ver por ejemplo este, este, este y este artículo). Sin enmbargo, los investigadores tienen preguntas adicionales y están interesados en hipotetizar sobre otros aspectos relevantes a la enfermedad. Por ello, los contratan como apoyo en todo lo relacionado Analítica de Datos.

Ejercicio 1 (10 puntos)

Seleccione sólo las columnas correspondientes a las variables relevantes. Analice la distribución de frecuencias de ADHD, cluster y Sex. Concluya.

Solución:

Se muestra la nueva base de datos con las variables relevantes para el estudio.

Código
relevant <- x[ , c("Family", "UID", "Father", "Mother", "Sex", "Age", "ADHD", 
                   "cluster", "inatsymptoms", "impsymptoms", "hypsymptoms", "trait1")]

kbl(relevant) %>%
  kable_styling(bootstrap_options = c("striped", "hover"))%>% 
    scroll_box(width = "920px", height = "300px")
Family UID Father Mother Sex Age ADHD cluster inatsymptoms impsymptoms hypsymptoms trait1
F1 3 1 2 F 7 yes 3 0 1 1 895.50
F1 1 0 0 M 35 no 1 9 2 5 420.67
F1 2 0 0 F 39 no 4 3 1 2 528.83
F2 7 4 5 M 6 yes 3 0 1 0 737.83
F2 6 4 5 M 12 no 1 0 0 0 569.52
F2 5 0 0 F 39 no 1 7 4 6 485.25
F2 4 0 0 M 43 no 1 3 1 1 420.65
F3 11 8 9 F 9 yes 6 9 0 0 686.35
F3 10 8 9 M 12 yes 6 0 2 0 526.60
F3 8 0 0 M 38 yes 5 8 0 3 681.97
F3 9 0 0 F 42 no 1 8 4 1 384.05
F4 14 12 13 M 6 yes 6 0 0 0 873.50
F4 13 0 0 F 28 yes 1 3 1 2 405.58
F4 12 0 0 M 35 no 1 10 1 4 547.60
F5 17 15 16 M 7 yes 3 8 3 3 732.12
F5 16 0 0 F 33 no 1 0 0 0 499.88
F5 15 0 0 M 35 yes 2 9 4 6 363.84
F7 21 18 19 M 6 yes 2 1 1 0 914.96
F7 20 18 19 F 9 yes 2 0 0 0 532.19
F7 19 0 0 F 38 no 1 7 1 6 622.54
F7 18 0 0 M 47 no 1 5 4 5 485.25
F8 26 22 23 M 7 yes 6 0 0 0 562.84
F8 25 22 23 F 9 no 3 0 1 0 747.71
F8 24 22 23 M 11 yes 5 9 2 1 508.17
F8 23 0 0 F 39 no 1 9 3 4 369.55
F8 22 0 0 M 43 no 1 7 2 1 377.19
F9 31 27 28 F 12 yes 3 0 2 3 538.78
F9 30 27 28 M 15 no 1 10 0 0 468.17
F9 29 27 28 F 17 no 1 7 4 5 539.08
F9 28 0 0 F 44 yes 6 3 2 0 400.09
F9 27 0 0 M 46 yes 4 0 1 1 493.50
F10 34 32 33 M 7 yes 3 4 2 4 735.57
F10 32 0 0 M 40 no 4 10 4 6 581.40
F10 33 0 0 F 40 no 4 1 2 0 521.04
F11 38 35 36 F 6 no 1 0 2 0 785.94
F11 37 35 36 M 7 yes 2 2 0 0 579.61
F11 36 0 0 F 38 no 1 1 0 0 387.00
F11 35 0 0 M 39 no 1 5 2 3 550.22
F12 42 39 40 M 8 yes 2 0 0 0 519.38
F12 41 39 40 M 11 yes 3 2 2 0 444.72
F12 40 0 0 F 37 no 4 8 2 4 437.38
F12 39 0 0 M 40 no 1 8 4 6 485.25
F13 45 43 44 M 8 yes 1 10 2 4 787.30
F13 44 0 0 F 33 no 3 1 1 0 422.78
F13 43 0 0 M 34 no 1 0 0 0 485.25
F14 48 46 47 M 8 yes 2 1 1 3 451.56
F14 47 0 0 F 37 yes 4 3 3 3 413.70
F14 46 0 0 M 53 no 1 4 3 3 439.97
F15 51 49 50 M 10 yes 3 10 4 6 759.61
F15 50 0 0 F 36 yes 2 7 3 5 513.30
F15 49 0 0 M 37 yes 3 9 3 6 480.60
F16 54 52 53 M 8 yes 3 1 0 0 628.14
F16 53 0 0 F 34 yes 5 6 2 0 461.47
F16 52 0 0 M 42 no 1 9 3 6 431.86
F17 57 55 56 M 7 yes 3 8 3 3 582.28
F17 56 0 0 F 29 yes 5 5 0 0 432.79
F17 55 0 0 M 31 yes 6 10 4 6 362.71
F18 61 58 59 F 8 yes 2 0 0 1 698.75
F18 60 58 59 M 12 no 1 7 2 5 393.17
F18 59 0 0 F 36 yes 2 9 1 6 443.78
F18 58 0 0 M 38 no 1 4 0 0 392.00
F19 64 62 63 F 7 yes 6 5 4 4 969.25
F19 62 0 0 M 43 yes 2 10 1 0 466.13
F19 63 0 0 F 43 yes 4 3 3 6 403.00
F20 67 65 66 M 7 yes 6 4 0 0 592.43
F20 65 0 0 M 30 yes 4 10 2 1 473.17
F20 66 0 0 F 31 no 4 3 0 1 510.57
F21 70 68 69 M 7 yes 2 0 1 1 608.52
F21 69 0 0 F 27 no 1 3 2 0 425.95
F21 68 0 0 M 41 no 4 5 3 6 456.62
F22 73 72 71 M 8 yes 2 0 1 1 586.32
F22 72 0 0 F 35 no 1 0 2 2 390.76
F22 71 0 0 M 43 no 1 5 2 4 423.00
F23 76 74 75 M 8 yes 3 0 0 0 679.53
F23 75 0 0 F 34 no 1 0 0 0 501.68
F23 74 0 0 M 43 no 1 10 2 6 589.44
F24 80 77 78 F 8 yes 6 0 0 0 567.44
F24 79 77 78 M 12 no 1 5 2 1 345.78
F24 77 0 0 M 45 no 1 0 0 0 321.57
F24 78 0 0 F 47 yes 5 6 2 2 401.96
F25 83 81 82 M 8 yes 3 6 3 2 878.70
F25 82 0 0 F 41 no 1 0 0 1 435.91
F25 81 0 0 M 42 yes 5 10 3 5 489.10
F26 86 84 85 M 8 yes 3 0 2 5 598.88
F26 85 0 0 F 40 yes 6 10 2 4 430.29
F26 84 0 0 M 41 yes 4 10 4 6 400.57
F27 90 87 88 M 8 no 2 6 2 1 592.86
F27 89 87 88 M 19 yes 5 0 0 1 528.20
F27 88 0 0 F 43 no 1 5 2 5 416.72
F27 87 0 0 M 44 yes 5 8 0 0 363.92
F28 93 91 92 M 6 yes 2 5 4 2 982.95
F28 91 0 0 M 35 yes 6 5 4 6 378.70
F28 92 0 0 F 35 yes 4 10 0 1 485.25
F30 96 94 95 F 8 no 1 1 0 0 642.63
F30 94 0 0 M 40 no 1 3 0 1 433.14
F30 95 0 0 F 41 no 1 0 1 1 462.86
F31 101 97 98 F 6 yes 3 0 0 0 623.71
F31 100 97 98 M 10 yes 1 0 2 1 715.16
F31 99 97 98 F 12 yes 5 2 2 2 463.31
F31 98 0 0 F 33 no 1 10 3 5 329.00
F31 97 0 0 M 35 no 1 5 0 0 481.92
F32 105 102 103 M 8 yes 2 3 3 3 739.25
F32 104 102 103 M 12 no 1 1 0 0 422.04
F32 103 0 0 F 45 no 1 6 1 5 490.04
F32 102 0 0 M 49 yes 2 3 0 0 407.04
F33 109 106 107 F 6 no 1 5 0 1 589.50
F33 108 106 107 M 9 yes 3 1 0 0 481.33
F33 107 0 0 F 31 no 1 0 1 0 468.22
F33 106 0 0 M 36 yes 4 10 2 4 476.04
F34 113 110 111 M 7 yes 2 0 0 0 585.39
F34 112 110 111 F 16 no 1 0 0 0 542.00
F34 111 0 0 F 44 no 1 5 2 4 433.38
F34 110 0 0 M 48 no 1 0 0 0 392.85
F35 116 114 115 M 7 yes 5 5 1 2 647.88
F35 115 0 0 F 26 no 4 4 0 1 570.05
F35 114 0 0 M 27 yes 5 8 1 0 569.33
F36 120 117 118 F 14 yes 3 7 3 4 656.67
F36 119 117 118 M 15 no 1 1 0 0 512.42
F36 118 0 0 F 39 no 1 10 4 6 419.33
F36 117 0 0 M 43 yes 2 0 0 0 366.12
F37 123 121 122 M 7 yes 2 7 1 4 576.28
F37 122 0 0 F 26 yes 4 10 3 6 339.65
F37 121 0 0 M 30 yes 3 5 1 3 374.18
F38 126 124 125 M 15 yes 6 6 4 5 494.50
F38 125 0 0 F 38 no 1 0 0 0 406.23
F38 124 0 0 M 43 yes 2 10 0 1 521.54
F39 129 127 128 F 6 yes 6 3 0 0 885.55
F39 128 0 0 F 30 yes 4 5 1 2 476.59
F39 127 0 0 M 38 no 1 10 2 0 477.46
F40 132 130 131 M 7 yes 3 10 4 2 772.33
F40 131 0 0 F 25 yes 5 7 0 0 465.11
F40 130 0 0 M 32 yes 6 10 2 6 514.31
F41 135 133 134 M 6 yes 3 8 0 1 885.88
F41 134 0 0 F 31 no 1 0 1 0 431.36
F41 133 0 0 M 41 yes 5 9 4 6 547.08
F42 136 138 137 M 6 yes 2 6 0 6 546.15
F42 137 0 0 F 39 no 1 0 0 0 444.40
F42 138 0 0 M 47 no 5 4 1 1 373.29
F43 141 139 140 F 7 yes 5 10 4 6 930.71
F43 139 0 0 M 48 yes 3 5 0 0 494.25
F43 140 0 0 F 48 no 1 0 3 0 422.36
F44 144 142 143 M 10 yes 3 4 1 2 614.43
F44 143 0 0 F 34 no 1 2 0 0 485.25
F44 142 0 0 M 40 no 4 8 4 6 485.25
F45 148 145 146 M 7 yes 3 6 0 3 496.77
F45 147 145 146 M 16 yes 6 2 2 2 494.33
F45 146 0 0 F 39 yes 4 8 2 4 465.32
F45 145 0 0 M 42 yes 2 8 1 4 490.30
F46 151 149 150 F 12 yes 6 10 4 6 506.56
F46 150 0 0 F 38 yes 5 6 2 0 485.30
F46 149 0 0 M 50 yes 3 10 3 3 365.04
F47 154 152 153 M 12 yes 3 7 0 4 449.62
F47 153 0 0 F 31 no 1 1 0 0 504.59
F47 152 0 0 M 33 yes 2 10 4 6 413.95
F48 157 155 156 M 6 yes 2 2 1 0 728.94
F48 156 0 0 F 35 no 1 1 1 0 536.17
F48 155 0 0 M 37 no 1 8 0 5 429.08
F49 161 158 159 M 6 yes 3 1 0 0 817.36
F49 160 158 159 M 12 yes 2 0 0 0 411.29
F49 158 0 0 M 44 no 1 7 2 4 406.00
F49 159 0 0 F 47 no 1 10 4 6 380.95
F50 164 162 163 F 11 yes 2 5 0 2 540.68
F50 163 0 0 F 40 no 1 3 0 0 532.00
F50 162 0 0 M 42 yes 4 7 2 5 485.70
F51 168 165 166 F 9 yes 2 5 2 2 523.58
F51 167 165 166 M 11 yes 2 1 2 2 507.67
F51 166 0 0 F 44 no 4 3 1 3 443.61
F51 165 0 0 M 49 yes 4 6 4 2 384.45
F52 171 169 170 F 8 yes 2 0 1 1 515.35
F52 169 0 0 M 35 no 1 7 4 6 508.35
F52 170 0 0 F 35 no 1 1 2 1 436.35
F53 175 172 173 F 6 yes 2 3 0 4 788.92
F53 174 172 173 M 7 no 3 0 1 0 770.44
F53 172 0 0 M 37 yes 4 10 4 5 442.62
F53 173 0 0 F 40 no 1 7 3 6 485.25
F54 178 176 177 M 7 yes 3 4 1 2 526.46
F54 177 0 0 F 32 yes 3 9 4 6 361.94
F54 176 0 0 M 45 yes 4 10 4 6 629.00
F55 181 179 180 M 10 no 4 7 0 3 466.63
F55 180 0 0 F 37 no 5 3 1 1 487.50
F55 179 0 0 M 39 yes 5 2 3 0 416.74
F56 185 182 183 F 10 no 1 7 1 0 565.95
F56 184 182 183 F 13 yes 6 1 2 0 473.40
F56 182 0 0 M 40 yes 5 10 2 0 447.55
F56 183 0 0 F 44 no 1 0 0 0 400.68
F57 188 186 187 F 7 yes 5 6 3 5 842.04
F57 187 0 0 F 29 yes 2 6 3 4 460.19
F57 186 0 0 M 31 yes 2 7 2 0 381.00
F58 191 189 190 M 7 yes 2 3 2 0 500.37
F58 189 0 0 M 39 no 4 4 2 4 720.73
F58 190 0 0 F 39 yes 4 2 1 3 470.69
F59 194 192 193 M 7 yes 2 1 0 0 645.11
F59 193 0 0 F 38 no 1 0 1 0 452.67
F59 192 0 0 M 46 no 1 4 2 3 421.78
F60 197 195 196 M 13 yes 3 5 1 0 508.68
F60 198 195 196 M 17 yes 6 6 0 0 713.06
F60 196 0 0 F 45 no 5 10 4 5 463.30
F60 195 0 0 M 48 yes 5 8 2 1 456.67
F61 201 199 200 M 6 yes 6 1 0 1 557.56
F61 200 0 0 F 34 no 1 0 0 0 432.03
F61 199 0 0 M 36 no 1 10 3 4 482.56
F62 205 202 203 F 6 yes 3 3 1 0 735.63
F62 204 202 203 F 10 yes 2 3 0 1 563.94
F62 203 0 0 F 32 no 1 8 4 6 499.19
F62 202 0 0 M 35 no 4 6 0 4 346.29
F63 208 206 207 M 7 yes 2 0 1 1 678.37
F63 207 0 0 F 36 no 1 0 0 2 387.36
F63 206 0 0 M 56 no 1 4 2 5 490.83
F64 211 209 210 M 7 yes 3 6 0 0 535.50
F64 210 0 0 F 36 no 1 0 0 0 415.22
F64 209 0 0 M 42 yes 5 9 4 6 383.58
F65 214 212 213 M 6 yes 3 4 1 6 719.04
F65 212 0 0 M 28 yes 1 8 2 4 428.13
F65 213 0 0 F 28 no 2 0 0 1 414.29
F66 217 215 216 M 6 yes 3 4 1 5 621.11
F66 216 0 0 F 29 no 1 3 0 0 479.92
F66 215 0 0 M 31 yes 2 10 4 6 452.56
F67 220 218 219 M 14 yes 6 1 3 2 464.44
F67 218 0 0 M 32 yes 1 2 1 1 370.18
F67 219 0 0 F 32 no 4 8 2 3 455.78
F68 223 221 222 F 7 no 1 3 0 1 630.80
F68 224 221 222 F 7 yes 2 5 2 0 515.67
F68 222 0 0 F 38 no 1 6 3 3 443.86
F68 221 0 0 M 45 no 5 0 0 0 485.25
F69 227 225 226 M 8 yes 6 0 4 2 696.56
F69 226 0 0 F 30 yes 4 2 0 1 495.71
F69 225 0 0 M 34 yes 1 8 2 3 454.96
F70 230 228 229 M 7 yes 3 1 0 2 546.84
F70 228 0 0 M 37 no 4 0 1 0 385.76
F70 229 0 0 F 41 yes 1 10 4 3 471.52
F71 233 231 232 M 13 yes 3 5 1 2 395.55
F71 232 0 0 F 39 no 1 0 3 0 440.63
F71 231 0 0 M 50 yes 4 10 4 4 512.86
F72 236 234 235 M 8 yes 2 4 2 0 653.18
F72 234 0 0 M 34 no 5 10 3 4 626.48
F72 235 0 0 F 34 no 4 5 0 0 531.41
F73 240 237 238 M 8 yes 1 0 0 0 535.75
F73 241 237 238 M 8 no 2 0 0 0 468.72
F73 239 237 238 F 15 no 1 7 1 2 555.13
F73 238 0 0 F 37 no 1 0 0 0 460.70
F73 237 0 0 M 47 no 1 0 0 0 365.56
F74 244 242 243 F 7 yes 2 9 1 5 732.63
F74 242 0 0 M 34 yes 1 6 2 4 642.40
F74 243 0 0 F 34 no 2 0 0 1 577.96
F75 247 245 246 F 14 yes 6 0 0 0 350.63
F75 245 0 0 M 48 no 1 10 0 1 413.00
F75 246 0 0 F 50 no 1 0 0 0 417.58
F76 250 248 249 M 7 yes 3 0 0 1 725.81
F76 249 0 0 F 34 yes 2 1 1 6 344.04
F76 248 0 0 M 40 no 1 10 3 6 507.91
F77 254 251 252 M 6 yes 2 4 2 6 461.61
F77 255 251 252 M 6 yes 2 0 0 0 769.67
F77 256 251 252 M 6 yes 2 1 1 0 636.48
F77 253 251 252 F 12 yes 6 1 2 6 684.73
F77 251 0 0 M 41 no 1 10 2 1 459.83
F77 252 0 0 F 41 no 1 5 3 6 396.38
F78 259 257 258 M 7 yes 6 0 0 0 570.14
F78 258 0 0 F 26 no 1 0 0 0 456.80
F78 257 0 0 M 34 no 1 10 2 4 603.78
F79 262 260 261 F 10 yes 5 0 0 0 456.32
F79 263 260 261 F 10 yes 5 0 0 1 608.00
F79 261 0 0 F 34 no 1 6 0 0 399.92
F79 260 0 0 M 48 no 1 7 0 0 455.33
F80 266 264 265 M 6 yes 3 0 0 0 722.44
F80 265 0 0 F 40 no 1 0 0 0 416.86
F80 264 0 0 M 42 no 1 8 4 6 366.62
F81 270 267 268 M 9 yes 3 7 4 5 386.20
F81 269 267 268 F 11 no 1 2 1 0 317.61
F81 268 0 0 F 39 no 1 10 4 6 457.13
F81 267 0 0 M 40 yes 3 1 0 0 419.38
F82 273 271 272 M 8 yes 3 7 1 0 725.16
F82 272 0 0 F 38 no 1 2 2 1 470.67
F82 271 0 0 M 42 yes 5 8 3 5 473.88
F83 276 274 275 M 15 yes 6 1 0 0 399.26
F83 275 0 0 F 52 no 1 0 2 1 523.92
F83 274 0 0 M 54 no 1 8 0 3 447.04
F84 280 277 278 F 7 yes 2 6 1 1 675.05
F84 279 277 278 F 21 no 1 0 0 1 514.39
F84 278 0 0 F 47 no 1 7 2 2 440.07
F84 277 0 0 M 48 yes 5 0 0 0 489.42
F85 283 281 282 M 7 yes 2 4 2 0 561.29
F85 282 0 0 F 34 yes 6 10 0 0 580.58
F85 281 0 0 M 49 no 5 6 2 4 484.77
F86 286 284 285 M 10 yes 3 0 4 5 483.18
F86 285 0 0 F 34 yes 2 6 2 4 580.58
F86 284 0 0 M 41 yes 4 10 3 6 485.25
F87 289 287 288 M 9 yes 3 4 4 5 655.67
F87 288 0 0 F 29 no 2 4 0 3 479.33
F87 287 0 0 M 45 yes 2 10 4 6 556.92
F88 293 290 291 M 12 yes 3 1 0 0 503.80
F88 292 290 291 F 15 no 1 2 1 1 458.52
F88 290 0 0 M 37 no 1 0 0 0 530.81
F88 291 0 0 F 37 no 1 10 2 5 467.95
F89 296 294 295 F 7 yes 2 2 1 2 652.89
F89 295 0 0 F 27 yes 6 9 2 0 426.08
F89 294 0 0 M 31 no 4 8 1 6 451.38
F90 299 297 298 F 6 yes 3 2 0 0 774.09
F90 298 0 0 F 36 yes 4 1 4 2 430.08
F90 297 0 0 M 38 no 1 10 3 6 369.32
F92 302 300 301 M 7 yes 3 5 4 4 924.95
F92 301 0 0 F 34 yes 2 6 4 4 541.20
F92 300 0 0 M 42 yes 2 10 3 6 416.40
F93 305 303 304 M 6 yes 4 4 2 1 754.48
F93 303 0 0 M 32 yes 4 3 2 1 483.83
F93 304 0 0 F 34 no 2 7 0 3 408.95
F94 309 306 307 F 9 yes 6 6 0 0 553.59
F94 308 306 307 M 18 no 1 3 0 0 512.08
F94 306 0 0 M 47 yes 5 3 1 1 470.13
F94 307 0 0 F 48 no 5 10 1 2 466.11
F95 313 310 311 M 10 yes 1 3 1 4 562.30
F95 312 310 311 F 17 no 6 0 0 1 469.27
F95 311 0 0 F 47 no 1 0 0 0 547.42
F95 310 0 0 M 60 no 1 1 0 0 439.55
F96 317 314 315 M 8 yes 2 9 1 2 632.57
F96 316 314 315 M 11 yes 2 9 0 5 709.29
F96 315 0 0 F 37 yes 3 6 1 4 485.25
F96 314 0 0 M 48 yes 2 9 3 6 368.41
F97 320 318 319 M 12 yes 6 8 1 5 446.32
F97 319 0 0 F 29 no 3 0 0 0 437.21
F97 318 0 0 M 39 yes 2 10 3 6 430.60
F98 324 321 322 M 6 yes 1 5 0 4 898.30
F98 323 321 322 M 7 yes 1 5 2 3 675.17
F98 321 0 0 M 40 yes 2 8 2 6 372.77
F98 322 0 0 F 45 yes 2 0 0 2 611.71
F99 327 325 326 M 8 yes 2 10 3 3 852.39
F99 325 0 0 M 33 yes 3 10 4 6 461.14
F99 326 0 0 F 38 no 6 1 1 2 624.91
F100 331 328 329 F 14 yes 4 3 2 1 395.87
F100 330 328 329 F 19 no 6 0 0 0 349.13
F100 329 0 0 F 44 no 4 10 0 1 438.96
F100 328 0 0 M 45 no 1 4 1 2 502.39
F101 337 332 333 M 8 yes 5 1 0 0 759.75
F101 336 332 333 F 9 no 2 10 1 4 688.47
F101 335 332 333 M 11 yes 1 5 2 4 933.89
F101 334 332 333 F 13 no 2 0 0 0 482.04
F101 333 0 0 F 32 yes 1 7 3 6 415.21
F101 332 0 0 M 33 no 6 0 0 0 525.54
F102 340 338 339 F 7 yes 1 3 1 3 518.33
F102 338 0 0 M 29 no 3 9 3 6 428.96
F102 339 0 0 F 29 yes 4 6 1 3 483.15
F103 344 341 342 F 22 yes 4 0 0 0 496.15
F103 343 341 342 M 28 no 6 4 1 2 416.27
F103 342 0 0 F 54 no 4 10 1 2 455.78
F103 341 0 0 M 55 yes 5 3 3 2 372.23
F104 348 345 346 F 8 yes 3 5 1 5 942.55
F104 347 345 346 F 9 no 5 0 0 0 802.37
F104 346 0 0 F 35 no 1 10 3 5 372.48
F104 345 0 0 M 38 yes 2 5 0 1 564.95
F105 351 349 350 M 7 yes 3 2 0 0 636.24
F105 350 0 0 F 42 yes 5 8 0 0 444.22
F105 349 0 0 M 50 no 1 10 2 5 431.93
F106 354 352 353 M 7 yes 3 5 0 1 459.83
F106 352 0 0 M 34 yes 5 10 4 6 404.14
F106 353 0 0 F 35 no 1 0 1 0 480.21
F107 358 355 356 F 8 yes 3 10 3 1 595.43
F107 357 355 356 M 10 yes 6 2 0 1 688.95
F107 356 0 0 F 36 no 1 8 4 6 492.91
F107 355 0 0 M 51 yes 6 10 2 2 556.70
F108 362 359 360 M 11 yes 2 2 1 0 422.87
F108 361 359 360 M 15 yes 5 1 0 1 396.88
F108 360 0 0 F 40 no 1 1 2 5 437.67
F108 359 0 0 M 41 no 4 7 0 1 366.88
F109 365 363 364 F 9 yes 2 2 2 3 816.10
F109 364 0 0 F 41 no 4 1 1 2 449.45
F109 363 0 0 M 44 yes 4 6 3 4 409.87
F110 368 366 367 M 8 yes 1 0 1 2 614.90
F110 367 0 0 F 43 yes 4 5 1 3 487.21
F110 366 0 0 M 47 no 4 1 0 0 390.62
F111 371 369 370 M 12 yes 6 0 0 0 692.96
F111 370 0 0 F 43 yes 1 1 0 0 836.86
F111 369 0 0 M 59 no 1 9 1 5 360.52
F112 374 372 373 M 7 no 2 6 4 4 849.00
F112 373 0 0 F 31 no 4 1 2 3 443.86
F112 372 0 0 M 36 yes 2 2 1 3 408.39
F113 377 375 376 M 6 yes 3 0 2 6 693.35
F113 376 0 0 F 42 yes 4 0 1 0 346.61
F113 375 0 0 M 45 yes 1 10 3 5 401.05
F115 380 378 379 M 9 yes 3 2 3 5 376.13
F115 379 0 0 F 32 yes 4 0 0 0 397.67
F115 378 0 0 M 34 no 1 10 4 6 650.93
F116 383 381 382 F 8 yes 6 7 3 5 566.74
F116 382 0 0 F 30 no 1 3 1 0 485.25
F116 381 0 0 M 40 yes 2 10 3 0 390.63
F117 386 384 385 M 6 yes 2 4 2 2 523.25
F117 385 0 0 F 36 no 4 0 2 3 526.04
F117 384 0 0 M 37 no 5 5 2 6 432.81
F118 389 388 387 M 7 yes 3 6 0 0 514.10
F118 388 0 0 F 27 no 1 2 0 0 347.79
F118 387 0 0 M 37 yes 5 8 4 6 448.35
F119 392 390 391 M 7 yes 3 6 1 1 803.25
F119 391 0 0 F 40 no 1 1 0 1 432.70
F119 390 0 0 M 51 yes 5 10 3 6 863.25
F120 395 393 394 M 6 yes 3 2 1 2 691.50
F120 394 0 0 F 29 no 4 2 1 0 912.81
F120 393 0 0 M 34 no 4 10 4 5 496.58
F121 398 396 397 M 6 yes 3 0 2 1 554.61
F121 397 0 0 F 39 yes 4 2 3 5 574.15
F121 396 0 0 M 42 no 4 10 4 6 431.50
F122 401 399 400 M 6 yes 3 9 3 5 595.20
F122 400 0 0 F 30 no 1 0 0 0 473.52
F122 399 0 0 M 31 yes 3 10 4 6 452.96
F123 404 402 403 M 6 yes 3 3 2 3 727.55
F123 403 0 0 F 32 no 1 0 0 1 485.25
F123 402 0 0 M 33 yes 4 10 4 6 446.73
F124 408 405 406 M 9 no 1 3 3 2 634.52
F124 407 405 406 M 12 yes 6 0 0 0 645.32
F124 406 0 0 F 33 no 1 10 1 2 616.67
F124 405 0 0 M 43 no 4 0 0 0 655.24

Ahora, para analizar la distribución de frecuencias de cada una de las variables mencionadas en el ejercicio, se realiza un histograma con cada una de ellas.

Histograma de la variable ADHD:

Código
ggplot(x, aes(x = ADHD, fill = ADHD)) +
  geom_bar(color = "black") +
  theme_minimal() +
  labs(title = "Distribución de frecuencias según diagnóstico de ADHD", 
       x = "Diagnóstico de ADHD",
       y = "Frecuencia") +
  theme(plot.title = element_text(hjust = 0.5))

Con una diferencia cercana a los 75 individuos, es sensato concluir de la gráfica que puede haber una prevalencia del diagnóstico de ADHD dentro de la muestra. Esto sugiere dos posibles opciones: que haya una gran cantidad de personas diagnosticadas en todos los clusters, o que los individuos que poseen la enfermedad se encuentren concentrados en un solo cluster. Más adelante se estudiará esta distribución teniendo en cuenta variantes como el sexo y el cluster para determinar dónde se concentran estos individuos.

Histograma de la variable cluster:

Código
ggplot(relevant, aes(x = as.factor(cluster), fill =as.factor(cluster))) +
  geom_bar(color = "black") +
  theme_minimal() +
  labs(title = "Distribución de frecuencias según el cluster", 
       x = "Cluster",
       y = "Frecuencia", 
       fill = "Cluster") +
  theme(plot.title = element_text(hjust = 0.5))

La distribución de los individuos en cada uno de los clusters puede dar la idea de que la mayoría se encuentra en los clusters de baja categoría. Esto hace que pueda esperarse que a medida que el número de síntomas aumente, haya menos individuos que los padezcan, lo que nos permitiría concluir una relación entre los síntomas y la severidad de la condición del individuo. De esta distribución se espera que la mayoría de los individuos en la muestra sean sanas, al estar estas en el cluster 1.

Histograma de la variable Sex:

Código
ggplot(relevant, aes(x = Sex, fill = Sex)) +
  geom_bar(color = "black") +
  theme_minimal() +
  labs(title = "Distribución de frecuencias según el sexo", 
       x = "Sexo",
       y = "Frecuencia", 
       fill = "Sexo") +
  theme(plot.title = element_text(hjust = 0.5))

De la gráfica se observa que claramente hay más hombres presentes en el estudio. Esto podría significar un sesgo en la evaluación del rendimiento de los individuos, ya que si gran parte de la muestra son niños, pueden haber factores de la étapa de crecimiento que afecten su desempeño y puedan asociarse erroneamente al diagnostico que presente.

Ejercicio 2 (10 puntos)

Es posible afirmar que la mayoría de las personas afectadas por la enfermedad corresponde a menores de edad? Visualice sus resultados. Determine qué patrón ocurre al desagregar la información por Sex. Concluya.

Solución:

Se define, para empezar, la variable age_groupque clasificará a los individuos es mayores o menores de edad, teniendo en cuenta que todos los individuos plasmados en este conjunto presentan la enfermedad.

Código
por_grupo<- filter(relevant, ADHD == "yes") %>%
  mutate(age_group = ifelse(Age >= 18, "Over 18", "Under 18"))


df_graph <- por_grupo%>%
  group_by(age_group)%>%
  summarise(count = n()) %>%
  mutate(proportion = count / sum(count))

kbl(df_graph)%>%
  kable_styling(bootstrap_options = c("striped", "hover"))
age_group count proportion
Over 18 101 0.4279661
Under 18 135 0.5720339

Aquí la gráfica de distribución de frecuencias del diagnóstico basado en la mayoría de edad.

Código
ggplot(df_graph, aes(x = age_group, y = proportion,  fill = age_group)) +
  geom_col( color = "black", stat ="identity" ) +
  theme_minimal() +
  labs(title = "Distribución de frecuencias según el grupo de edad", 
     x = "Grupo de Edad",
     y = "Proporción",
     fill = "Grupo de Edad") +
  theme(plot.title = element_text(hjust = 0.5))

La gráfica nos muestra que hay una predominancia de menores de edad dentro de la muestra de individuos que poseen la enfermedad, lo que daría a entender que esta enfermedad es más frecuente en niños. Sin embargo, dada la naturaleza de los datos, es importante tener en cuenta que provienen de hijos y sus correspondientes padres, por lo que se podría presentar el caso en el que una familia tenga un número considerable de hijos. Esto haría que la presencia de menores de edad sea mucho mayor en comparación a los mayores de edad.

Ahora, teniendo en cuenta el sexo y la edad del individuo, podemos obtener la siguientes proporciones teniendo en cuenta la presencia de la enfermedad.

Código
df_graph_2 <- por_grupo%>%
  group_by(age_group, Sex)%>%
  summarise(count = n()) %>%
  mutate(proportion = count / sum(count))

kbl(df_graph)%>%
  kable_styling(bootstrap_options = c("striped", "hover"))
Código
ggplot(df_graph_2, aes(x = "", y = proportion, fill = Sex)) +
  geom_bar(stat = "identity", color = "black") +
  geom_text(aes(label = paste0(round(100 * proportion), "%")), position = position_stack(vjust = 0.5)) +
  coord_polar("y", start = 0) +
  facet_wrap(~age_group) +
  theme_void() +
  labs(title = "Proporción de cada grupo de edad por sexo") +
  theme(plot.title = element_text(hjust = 0.5))

El patrón que se puede obervar al discriminar la información también por el sexo del individuo, es que hay una predominancia de hombres en la muestra de la investigación. La diferencia de procentajes de hombres entre los mayores y menores de edad se puede deber a las razones explicadas anteriormente: la presencia de padres en el estudio hace que el sexo de este grupo sea más parejo, mientras que es imposible asegura cuántos hijos varones hay presentes en cada familia que puedan generar la predominancias de niños.

Ejercicio 3 (10 puntos)

Podemos decir que existe una asociación entre el cluster y el número de síntomas de la enfermedad? En qué cluster parece encontrarse la mayor cantidad de personas con ADHD? Cuál es el UID de la persona sin ADHD con el mayor número de síntomas, y el UID de la persona diagnosticada con ADHD con el menor número de síntomas?

Solución:

Para verificar si existe una asociación entre el cluster y el número de sintomas de la enfermedad, es importante notar que se va a tener en cuenta el total de síntomas, sumando cada uno de ellos en cada individuo.

Para esto se realizará una prueba de Kruskal-Wallis, la cual estudia diferencias entre grupos a través de su mediana. Las hipótesis a tener en cuenta son:

\[ H_0: \textrm{Las medianas de las poblaciones son iguales} \] \[\textrm{vs.}\] \[ H_0: \textrm{Las medianas de las poblaciones son diferentes} \]

Código
x$total <- x$inatsymptoms + x$impsymptoms + x$hypsymptoms
kruskal_result <- kruskal.test(cluster ~ total, data = x)

kruskal_result

    Kruskal-Wallis rank sum test

data:  cluster by total
Kruskal-Wallis chi-squared = 23.282, df = 20, p-value = 0.2752

Dado que el p-valor de la prueba es 0.275168 > 0.05, no es posible rechazar, con un nivel de significancia de 0.05, la hipótesis nula de que la mediana de los grupos son iguales. En este contexto, es posible inferir que en efecto existe una asociación entre los cluster y el número de sintomas del individuo, ´pues no hay evidencia de que exista una diferencia significativa entre las variables.

Ahora, para ver en qué cluster se encuentra la mayor parte de los portadores de la enfermedad, simplemente hacemos un conteo cuántos enfermos hay en cada uno de los clusters.

Código
adhd_by_cluster <- relevant%>%
                      group_by(cluster)%>%
                      summarise(conteo_adhd = sum(ADHD == "yes"))

kbl(adhd_by_cluster)%>%
  kable_styling(bootstrap_options = c("striped", "hover"))
cluster conteo_adhd
1 18
2 63
3 59
4 30
5 32
6 34

Por los resultados encontrados en la tabla, el cluster con el mayor número de personas con ADHD es el cluster 2.

Por último, se hallarán los uid de los individuos con mayor y menor número de síntomas basados en si son portadores de la enfermedad o no, para así visualizar la asociación de las variables estudiada previamente en el ejercicio.

Personas con mayor número de síntomas sin ADHD:

Código
total_symp <- x%>%
  mutate(total_symptoms = inatsymptoms + hypsymptoms + impsymptoms)%>%
  filter(ADHD == "no")

maximo <- max(total_symp$total_symptoms)
max_id <- which(total_symp$total_symptoms == maximo)

max_uid <- total_symp[max_id, 2]

Los uid de los individuos con mayor número de síntomas que no son diagnosticados con ADHD son: 32, 118, 159, 268, 378, 396.

Personas con menor número de síntomas con ADHD:

Código
total_symp_con <- x%>%
  mutate(total_symptoms = inatsymptoms + hypsymptoms + impsymptoms)%>%
  filter(ADHD == "yes")

minimo <- min(total_symp_con$total_symptoms)
min_id <- which(total_symp_con$total_symptoms == minimo)

min_uid <- total_symp_con[min_id, 2]

Los uid de los individuos con menor número de síntomas que son diagnosticados con ADHD son: 14, 20, 26, 42, 76, 80, 101, 113, 117, 160, 240, 247, 255, 259, 262, 266, 277, 344, 371, 379, 407.

Ejercicio 4 (10 puntos)

De acuerdo con inatsymtoms, quiénes son más inatentos? Los Fathers o las Mothers? Determine el número de individuos Father con ADHD y compárelo con los individuos Mother con el diagnóstico. Es posible afirmar que en esta población los Fathers son más inatentos que las Mothers? Use un nivel de significancia \(alpha=0.05\) para todas las pruebas que considere necesario realizar.

Solución:

Para determinar quienes son más inantentos, se calcularán cuántos Fathers y cuántas Mothers que sufran de ADHD presentan síntomas de inantención. Con este conteo, será sencillo calcular las porporciones de cada uno y realizar una prueba de diferencia de proporciones.

Código
father_adhd <- x %>%
  filter(Sex == "M", Father == 0, ADHD == "yes", inatsymptoms > 0)%>%
  nrow()

mother_adhd <- x %>%
  filter(Sex == "F", Mother == 0, ADHD == "yes", inatsymptoms > 0)%>%
  nrow()

padres_test <- prop.test(c(father_adhd, mother_adhd), 
          c(sum(x$Father == 0 & x$Sex == "M" & x$inatsymptoms > 0), 
            sum(x$Mother == 0 & x$Sex == "F" & x$inatsymptoms > 0)), 
          alternative = "greater")

padres_test

    2-sample test for equality of proportions with continuity correction

data:  c(father_adhd, mother_adhd) out of c(sum(x$Father == 0 & x$Sex == "M" & x$inatsymptoms > 0), sum(x$Mother == 0 & x$Sex == "F" & x$inatsymptoms > 0))
X-squared = 4.3534, df = 1, p-value = 0.01847
alternative hypothesis: greater
95 percent confidence interval:
 0.03343891 1.00000000
sample estimates:
   prop 1    prop 2 
0.5462963 0.3863636 

En este estudio, el hay 59padres con ADHD que presentan síntomas de inatención, y 34 madres en las mismas condiciones

Dado que el p-valor de la prueba es 0.0184676< 0.01, se rechaza con un nivel de significancia de 0.05 la hipótesis nula de que las proporciones son iguales. Además, es posible concluir que la diferencia presente entre las proporciones determina una predominancia en la inatención de los padres debido a que los valores incluidos en el intervalo de confianza \(I = (0.03344, 1)\) indican que la diferencia es postiva, por lo que la proporción de padres inatentos es mayor.

Ejercicio 5 (10 puntos)

Podemos decir que existe una relación entre Age y trait1 en personas menores de edad? Utilice EDA para ello. Ahora, determine si existe diferencia en la trait1 promedio entre los individuos Male y Female menores edad diagnosticados con ADHD. Qué pasa si comparamos menores de edad Male con ADHD vs. Male sin ADHD? Use un nivel de significancia \(\alpha=0.05\) para todas las pruebas que considere necesario realizar. Concluya.

Solución:

Código
menores <- filter(x, Age < 18)

ggplot(menores, aes(x = Age, y = trait1, color = Sex)) +
  geom_point(color = "#333333") +
  geom_smooth(method = "loess", aes(fill = Sex)) + 
  labs(title = "Tiempo de ejecución de trait1 por edad del individuo",
      x = "Edad", y = "Tiempo de ejecución (ms)") +
  theme_minimal() + 
  theme(plot.title = element_text(hjust = 0.5))

A partir del gráfico de dispersión, se puede inferir una conexión entre las variables Age y trait1. Es decir, los participantes más jóvenes muestran una mayor variabilidad en los tiempos de reacción. Además, los tiempos de reacción tienden a ser más prolongados en los encuestados de menor edad. Así mismo, al ver la curva aproximada a la distribución, se puede observar que los tiempos de ejecución tienen su punto promedio más bajo alrededor de los 13 años.

Ahora, para saber si existe diferencia entre los tiempo de ejecución de la tarea si se separa esta información por sexo, ya se tiene una aproximación visual en la gráfica de arriba, en onde las medias se comportan bastante similar: con valores muy cercanos alrededore de los 13 años, dispersion creciente al momento de cumplir la mayoría de edad, etc.

Sin embargo, para confirmar estos resultados, se aplica un test de Kruskal-Wallis que ayudará a estudiar de manera analítica las medianas de ambos grupos.

Código
menores_adhd <- filter(menores, ADHD == "yes")

kruskal.test(trait1 ~ Sex, data = menores_adhd)

    Kruskal-Wallis rank sum test

data:  trait1 by Sex
Kruskal-Wallis chi-squared = 0.18418, df = 1, p-value = 0.6678

Dado que el p-valor es de 0.6678 > 0.05, no existe evidencia para rechazar la hipótesis nula de que los grupos son iguales en cuanto a su mediana. Esto nos permite concluir que no existe una diferencia significativa en cuanto al sexo en los tiempos de respuesta del trait1.

Finalmente, se realiza un análisis similar para comparar grupos de hombres con y sin ADHD.

Código
menores_hombres <- filter(menores, Sex == "M")%>%
  group_by(ADHD)%>%
  summarise(count = n())%>%
  mutate(proportion = count / sum(count))

kbl(menores_hombres)%>%
  kable_styling(bootstrap_options = c("striped", "hover"))
ADHD count proportion
no 12 0.1090909
yes 98 0.8909091

De entrada es notoria la gran premodinancia de los hombres con el diagnóstico sobre los que no lo tienen. Sin embargo, se aplica una prueba analítica para determinar esta diferencia.

Código
menores_hom_test <- filter(menores, Sex == "M")

kruskal.test(trait1 ~ ADHD, data = menores_hom_test)

    Kruskal-Wallis rank sum test

data:  trait1 by ADHD
Kruskal-Wallis chi-squared = 3.8257, df = 1, p-value = 0.05047

La prueba de hipótesis indica que no tenemos suficiente evidencia para rechazar la hipótesis nula. Esto sugiere que no hay una diferencia significativa entre los individuos masculinos con ADHD y aquellos sin la enfermedad. Esta conclusión se basa en el p-valor obtenido, que es mayor que el nivel de significancia.