Quiero saber cuántos CDR_FINAL tengo. Existen dos variantes:
CDR_FINAL puntaje total.
CDR_FINAL sum of boxes.
Tenemos entonces:
Baseline: 811+229 = 1040 CDR_FINAL’s.
12 meses: 660+196+3 = 859 CDR_FINAL’s.
24 meses: 674+195+5+1 = 875 CDR_FINAL’s.
Considerando que, de evaluaciones, tenemos 1065 en baseline, 875 en 12 meses y 877 en 24 meses. Es llamativo el número de bajas en 12 meses.
Si visualizamos los números brutos del CDR_FINAL, se ven así.
## Warning: Removed 421 rows containing non-finite outside the scale range
## (`stat_count()`).
## Removed 421 rows containing non-finite outside the scale range
## (`stat_count()`).
Si - en cambio - quisiéramos ver los porcentajes, se ven así:
##
## 0 0.5 1 <NA>
## 0 562 113 0 136
## 0.5 94 83 3 49
## <NA> 4 0 0 21
##
## 0 0.5 1 2 <NA>
## 0 546 81 1 0 32
## 0.5 87 94 2 0 13
## 1 0 0 2 1 0
## <NA> 41 20 0 0 145
Si lo quisiese graficar, se vería así:
En resumen:
La gran tendencia está en permanecer en 0.
Existen algunas variaciones particulares: de 0 a 0.5 y luego a 0 y viceversa. Quizás el criterio del pasaje de 0 a 0.5 es muy subjetivo, depende de cuánto alguien se queje. Y eso es realmente variable. Y también podría depender del evaluador.
Muchos que permanecen siempre en 0.5.
En teoría el Sum of Boxes debería - en buena parte - estar alineado con el CDR_FINAL total. Lo primero que quisiera ver es si los NA coinciden.
Por lo general los NA coinciden salvo en 4 casos: 316-110 316-86, 319-26 y 324-40. En estos participantes tenemos el CDR_FINAL final calculado pero el score de sum of boxes está vacío.
Al revés la situación es buena: no hay sum of boxes sin que haya CDR_FINAL final.
Lo que continúa a la vista son las no-coincidencias. Acá el terreno es más complejo. Esta es la escala de interpretación:
Miremos primero los valores:
ggplot(CDR_FINAL_df, aes(x = CDR_SB, fill = Eventos))+
geom_bar(position = "dodge")+
facet_grid(~ Eventos)+
theme_bw()+
scale_fill_manual(values = c("base" = "olivedrab2",
"12m" = "#8968CD",
"24m" = "#698B22"))
## Warning: Removed 421 rows containing non-finite outside the scale range
## (`stat_count()`).
ggplot(CDR_FINAL_df, aes(x = CDR_SB, y = CDR_FINAL))+
geom_point(position = position_jitter(width = 0.1, height = 0.1),
alpha = 0.4, size = 2)+
facet_grid(~ Eventos)
## Warning: Removed 421 rows containing missing values or values outside the scale range
## (`geom_point()`).
Acá lo que me parece que podríamos mirar es… si hay valores raros en el CDR_FINAL sum of boxes. O sea: que no coincida mucho con el CDR_FINAL final.