SADCAT para ROLES en Animales

Author

Alejandro Martínez-Mingo

SADCAT para Roles en Animales

Notebook de análisis del dataset ROLESTODO mediante el cálculo de las puntuaciones en distintas facetas y dimensiones de teoría de estereotipos a partir del diccionario SADCAT en español.

Este notebook está preparado para analizar el dataset de roles en animales. Comenzamos con su importación y análisis de estructura:

animales <- read_csv("dat/ROLESTODO_animales_descriptores_long.csv")
str(animales)
spc_tbl_ [73 × 6] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
 $ CODIGO           : num [1:73] 101 102 103 104 105 106 107 108 109 110 ...
 $ TIPO_cuestionario: num [1:73] 1 1 1 1 1 1 1 1 1 1 ...
 $ item             : chr [1:73] "PA1.ANIMAL_CANICHE" "PA1.ANIMAL_CANICHE" "PA1.ANIMAL_CANICHE" "PA1.ANIMAL_CANICHE" ...
 $ descripcion      : chr [1:73] "Pequeño, chillón, Molesto, irritable, feo, rata, patada, gruñón, abuela, pija" "Pequeño, Agresivo, Ruidoso, Feo, Cabezón, Adorable" "Infantil, Pijo y adinerado, Como una rata, Poca personalidad, Tonto" "Mono, Cobarde, Débil, Vulnerable, Achuchable, Bonito, Amariconado" ...
 $ fase             : chr [1:73] "PA1" "PA1" "PA1" "PA1" ...
 $ target           : chr [1:73] "ANIMAL_CANICHE" "ANIMAL_CANICHE" "ANIMAL_CANICHE" "ANIMAL_CANICHE" ...
 - attr(*, "spec")=
  .. cols(
  ..   CODIGO = col_double(),
  ..   TIPO_cuestionario = col_double(),
  ..   item = col_character(),
  ..   descripcion = col_character(),
  ..   fase = col_character(),
  ..   target = col_character()
  .. )
 - attr(*, "problems")=<externalptr> 

División de descriptores

Las descripciones quedan definidas en la columna descripcion del dataset y están separadas por ,. Se ha diseñado una función en el script Data.R, ya importado a este notebook en la inicialización, para separar los descriptores y limpiarlos. Aplicamos la función:

animales_split <- split_descriptors(animales,input_type = "data", desc_col = "descripcion")

Accediendo a la cabecera del dataset vemos que los descriptores aparecen cada uno en una columna, eliminando acentos, mayúsculas y caraceteres especiales, y uniendo los n_gramas (SADCAT está diseñado para evaluar n_gramas unidos).

head(animales_split)

Análisis de cobertura global

Posteriormente, se aplica una función definida en Dictionary.R para analizar el coverage global del diccionario. Esto nos permite analizar qué descripciones son quedan mejor representadas en el diccionario SADCAT en español, y nos permitirá más adelante evaluar la posible eliminación de casos, o la limpieza de los descriptores. Un ejemplo de esto puede ser el caso 124, si nos fijamos, tiene 6 descriptores y una cobertura del 0%. Esto sucede porque utiliza el plural en todos sus descriptores, y la función dict_coverage() aún no tiene implementada una solución a este problema. Este tipo de situaciones deben de quedar documentadas para realizar los cambios pertinentes en las funciones.

animales_cov <- dict_coverage(animales_split, prefix = "descriptor_")
animales_cov

Análisis de cobertura por dimensión

A continuación, se utiliza la función dict_dim_coverage_all() para combrobar la cobertura de cada dimensión y faceta del diccionario por separado en cada uno de los casos. Los resultados muestran una baja cobertura en la mayoría de las facetas. En muchos casos, esto puede ser normal, ya que la tarea no fué diseñada para evaluar dichas facetas.

animales_cov_dims <- dict_dim_coverage_all(animales_cov, prefix = "descriptor_")

Para evaluar la cobertura de las dimensiones y facetas con mayor precisión, a continuación se prepara un bloque de resumen de la cobertura media (media por casos) para cada uno de estos elementos. Se ordena de forma descendente.

cov_cols <- grep("^cov_", names(animales_cov_dims), value = TRUE)

m <- colMeans(animales_cov_dims[, cov_cols, drop = FALSE], na.rm = TRUE)

means_cov <- data.frame(
  variable = names(m),
  mean_coverage = as.numeric(m),
  row.names = NULL
)

means_cov <- means_cov[order(means_cov$mean_coverage, decreasing = TRUE), ]
means_cov

Cálculo de dirección para cada dimensión y faceta

Finalmente, se calcula la dirección media en cada faceta y dimensión. Este procedimiento está definido en la función dict_dim_dirmean_all() en el script Dictionary.R que ya ha sido importado en el cuaderno. El procedimiento utilizado es el recomendado por Gandalf Nicolás, documentado en (referencia SADCAT):

Para cada fila (p. ej., un animal descrito por varios descriptor_n) y para cada dimensión X_dir del diccionario, tomamos solo los descriptores que:

  1. aparecen en SADCAT::Spanishdicts$Palabra, y
  2. tienen un valor no-NA en X_dir (típicamente -1, 0 o 1).

Entonces:

\[ dirmean_X = \text{mean}(X\_dir) \in [-1,1] \]

Si una fila no tiene ningún descriptor aplicable a esa dimensión, dirmean_X = NA.

Resultados esperables:

  • dirmean_X ≈ 1 → todos los descriptores aplicables son “alto” en X.
  • dirmean_X ≈ -1 → todos los descriptores aplicables son “bajo” en X.
  • dirmean_X ≈ 0 → mezcla de altos y bajos (o presencia de neutros si el diccionario usa 0).
  • dirmean_X = NA → no hay evidencia para esa dimensión (ningún descriptor con X_dir no-NA).
animales_con_dirmean <- dict_dim_dirmean_all(animales_cov_dims, prefix = "descriptor_")

A continuación se prepara un bloque de análisis de los resultados en los que se pueden ver los descriptivos de cobertura, dirección media, y número de descriptores que contribuyen a estimar esta dirección media.

Descriptivos de cobertura, dirección y ocurrencias

cov_cols     <- grep("^cov_",     names(animales_con_dirmean), value = TRUE)
dirmean_cols <- grep("^dirmean_", names(animales_con_dirmean), value = TRUE)
n_cols       <- grep("^n_dirmean_", names(animales_con_dirmean), value = TRUE)
summary_block <- function(df, cols) {
  x <- df[, cols, drop = FALSE]
  out <- data.frame(
    variable = cols,
    n = sapply(x, function(z) sum(!is.na(z))),
    na = sapply(x, function(z) sum(is.na(z))),
    mean = sapply(x, function(z) mean(z, na.rm = TRUE)),
    sd = sapply(x, function(z) sd(z, na.rm = TRUE)),
    min = sapply(x, function(z) min(z, na.rm = TRUE)),
    q25 = sapply(x, function(z) quantile(z, 0.25, na.rm = TRUE, names = FALSE)),
    median = sapply(x, function(z) median(z, na.rm = TRUE)),
    q75 = sapply(x, function(z) quantile(z, 0.75, na.rm = TRUE, names = FALSE)),
    max = sapply(x, function(z) max(z, na.rm = TRUE)),
    row.names = NULL
  )
  out
}

cov_summary     <- summary_block(animales_con_dirmean, cov_cols)
dirmean_summary <- summary_block(animales_con_dirmean, dirmean_cols)
n_summary       <- summary_block(animales_con_dirmean, n_cols)

cov_summary[order(cov_summary$mean, decreasing = TRUE), ]
dirmean_summary[order(abs(dirmean_summary$mean), decreasing = TRUE), ] 
n_summary[order(n_summary$mean, decreasing = TRUE), ]

Guardado de los datos

Exportamos el dataset con toda la información para continuar con en análisis predictivo a partir de los modelos lineales en los siguientes bloques.

write.csv(
  animales_con_dirmean,
  file = "./dat/animales_SADCAT.csv",
  row.names = FALSE,
  fileEncoding = "UTF-8"
)

Modelado de dimensiones de competencia y cordialidad

Importamos tanto el dataset guardado, como el dataset con las puntuaciones de los participantes en la investigación. (en este punto habría que documentar bien qué significa cada variable en el dataset de ROLESTODO)

path_roles  <- "./dat/ROLESTODO_animales_scores.csv"
path_sadcat <- "./dat/animales_SADCAT.csv"

roles  <- read_csv(path_roles,  show_col_types = FALSE)
sadcat <- read_csv(path_sadcat, show_col_types = FALSE)

El dataset sadcat está en modo “long” porque resultaba más sencillo aplicar las funciones de cálculo de dirección y cobertura, pero para realizar los análisis predictivos debemos de ponerlo en modo “wide”. Esto lo hacemos en el siguiente bloque.

# Claves de unión (usa TIPO_cuestionario solo si está en ambos)
by_keys <- "CODIGO"
if ("TIPO_cuestionario" %in% names(roles) && "TIPO_cuestionario" %in% names(sadcat)) {
  by_keys <- c("CODIGO", "TIPO_cuestionario")
}

# Recodifica target a un sufijo limpio
# (evitamos acentos y nombres largos en columnas)
sadcat_wide <- sadcat %>%
  mutate(animal = case_when(
    str_detect(target, "CANICHE") ~ "caniche",
    str_detect(target, "COLIBR")  ~ "colibri",
    TRUE ~ make.names(target)
  )) %>%
  select(-target) %>%
  pivot_wider(
    id_cols    = all_of(by_keys),
    names_from = animal,
    values_from = -c(all_of(by_keys), animal),
    names_glue = "{.value}_{animal}",
    values_fn  = dplyr::first   # <- clave: devuelve un valor escalar, no una lista
  )

# 2) Une al dataset de roles (mantiene CODIGO y todo lo de roles)
df_roles_sadcat <- roles %>%
  left_join(sadcat_wide, by = by_keys)

Una vez disponemos del dataset df_roles_sadcat en el formato adecuado, podemos estimar los modelos de regresión simple para cada faceta o dimensión. A continuación se pueden ver algunos ejemplos con las dimensiones de cordialidad y competencia.

# Caniche
m_cord_caniche <- lm(cordialidad_caniche ~ dirmean_Warmth_caniche,
                     data = df_roles_sadcat, na.action = na.exclude)

m_comp_caniche <- lm(competencia_caniche ~ dirmean_Competence_caniche,
                     data = df_roles_sadcat, na.action = na.exclude)

# Colibrí
m_cord_colibri <- lm(cordialidad_colibri ~ dirmean_Warmth_colibri,
                     data = df_roles_sadcat, na.action = na.exclude)

m_comp_colibri <- lm(competencia_colibri ~ dirmean_Competence_colibri,
                     data = df_roles_sadcat, na.action = na.exclude)
# Ver resultados
summary(m_cord_caniche)

Call:
lm(formula = cordialidad_caniche ~ dirmean_Warmth_caniche, data = df_roles_sadcat, 
    na.action = na.exclude)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.8245 -1.1025  0.1755  1.0739  3.3825 

Coefficients:
                       Estimate Std. Error t value Pr(>|t|)    
(Intercept)              4.0589     0.2799  14.499 7.17e-16 ***
dirmean_Warmth_caniche   1.7656     0.4038   4.372 0.000116 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.652 on 33 degrees of freedom
  (2 observations deleted due to missingness)
Multiple R-squared:  0.3668,    Adjusted R-squared:  0.3476 
F-statistic: 19.12 on 1 and 33 DF,  p-value: 0.0001156
summary(m_comp_caniche)

Call:
lm(formula = competencia_caniche ~ dirmean_Competence_caniche, 
    data = df_roles_sadcat, na.action = na.exclude)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.33149 -0.95623 -0.08097  0.87693  2.79429 

Coefficients:
                           Estimate Std. Error t value Pr(>|t|)    
(Intercept)                  3.5810     0.3578  10.010 1.53e-08 ***
dirmean_Competence_caniche   0.2495     0.4068   0.613    0.548    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.449 on 17 degrees of freedom
  (18 observations deleted due to missingness)
Multiple R-squared:  0.02164,   Adjusted R-squared:  -0.03591 
F-statistic: 0.3761 on 1 and 17 DF,  p-value: 0.5478
summary(m_cord_colibri)

Call:
lm(formula = cordialidad_colibri ~ dirmean_Warmth_colibri, data = df_roles_sadcat, 
    na.action = na.exclude)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.1139 -0.6139 -0.1139  1.3861  2.3971 

Coefficients:
                       Estimate Std. Error t value Pr(>|t|)    
(Intercept)              4.4979     0.5677   7.923 6.06e-09 ***
dirmean_Warmth_colibri   0.1160     0.6297   0.184    0.855    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.494 on 31 degrees of freedom
  (4 observations deleted due to missingness)
Multiple R-squared:  0.001094,  Adjusted R-squared:  -0.03113 
F-statistic: 0.03396 on 1 and 31 DF,  p-value: 0.855
summary(m_comp_colibri)

Call:
lm(formula = competencia_colibri ~ dirmean_Competence_colibri, 
    data = df_roles_sadcat, na.action = na.exclude)

Residuals:
    Min      1Q  Median      3Q     Max 
-1.9207 -0.7341  0.2659  0.7659  1.2659 

Coefficients:
                           Estimate Std. Error t value Pr(>|t|)    
(Intercept)                  4.4208     0.3708  11.924 1.11e-09 ***
dirmean_Competence_colibri   0.8133     0.4160   1.955   0.0672 .  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.045 on 17 degrees of freedom
  (18 observations deleted due to missingness)
Multiple R-squared:  0.1836,    Adjusted R-squared:  0.1355 
F-statistic: 3.822 on 1 and 17 DF,  p-value: 0.06722
# Ver gráficos de residuos (comentado para el render)
# plot(m_cord_caniche)
# plot(m_comp_caniche)
# plot(m_cord_colibri)
# plot(m_comp_colibri)

Debido a la elevada cantidad de NAs probamos a separar dirección de ocurrencia, y ver si el efecto de la no ocurrencia de descriptores está afectando a nuestros modelos:

# has_* = 1 si hay evidencia (n_dirmean > 0); 0 si no.
# warmth_ o competence_ = dirmean cuando has=1, y 0 cuando has=0.
# Esto aplica a todos los modelos.

df_roles_sadcat$has_warmth_caniche <- as.integer(df_roles_sadcat$n_dirmean_Warmth_caniche > 0)
df_roles_sadcat$warmth_caniche <- ifelse(df_roles_sadcat$has_warmth_caniche == 1,
                                           df_roles_sadcat$dirmean_Warmth_caniche, 0)

m_cord_caniche <- lm(cordialidad_caniche ~ warmth_caniche + has_warmth_caniche,
                     data = df_roles_sadcat, na.action = na.exclude)
summary(m_cord_caniche)

Call:
lm(formula = cordialidad_caniche ~ warmth_caniche + has_warmth_caniche, 
    data = df_roles_sadcat, na.action = na.exclude)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.8245 -0.8818  0.1755  0.9411  3.3825 

Coefficients:
                   Estimate Std. Error t value Pr(>|t|)    
(Intercept)          6.0000     1.1542   5.198 9.50e-06 ***
warmth_caniche       1.7656     0.3989   4.426 9.41e-05 ***
has_warmth_caniche  -1.9411     1.1869  -1.635    0.111    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.632 on 34 degrees of freedom
Multiple R-squared:  0.3933,    Adjusted R-squared:  0.3576 
F-statistic: 11.02 on 2 and 34 DF,  p-value: 0.0002046

Entre sujetos con evidencia de Warmth (has=1), si dirmean_Warmth aumenta 1 unidad (p. ej. de 0 a 1), la cordialidad sube ~1.77 puntos.

Como dirmean está en [-1, 1], pasar de -1 a +1 implica un cambio esperado de ~3.53 puntos (2×1.77). Eso es grande en una escala típica tipo 1–7.

El origen = 6.00 es la cordialidad esperada cuando has=0 (sin evidencia de Warmth). Si hay pocos casos has=0, este valor puede ser inestable.

Aquí sí parece que el diccionario capta un componente que se alinea con cordialidad.

df_roles_sadcat$has_comp_caniche <- as.integer(df_roles_sadcat$n_dirmean_Competence_caniche > 0)
df_roles_sadcat$comp_caniche  <- ifelse(df_roles_sadcat$has_comp_caniche == 1,
                                         df_roles_sadcat$dirmean_Competence_caniche, 0)

m_comp_caniche <- lm(competencia_caniche ~ comp_caniche + has_comp_caniche,
                     data = df_roles_sadcat, na.action = na.exclude)
summary(m_comp_caniche)

Call:
lm(formula = competencia_caniche ~ comp_caniche + has_comp_caniche, 
    data = df_roles_sadcat, na.action = na.exclude)

Residuals:
    Min      1Q  Median      3Q     Max 
-2.3315 -1.2353 -0.1581  0.7647  2.7943 

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)        3.2353     0.3264   9.912 2.02e-11 ***
comp_caniche       0.2495     0.3777   0.660    0.514    
has_comp_caniche   0.3457     0.4657   0.742    0.463    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.346 on 33 degrees of freedom
  (1 observation deleted due to missingness)
Multiple R-squared:  0.02319,   Adjusted R-squared:  -0.03601 
F-statistic: 0.3917 on 2 and 33 DF,  p-value: 0.679

Ni la dirección de Competence ni la mera presencia de términos de Competence parecen asociarse a la competencia percibida del caniche.

df_roles_sadcat$has_warmth_colibri <- as.integer(df_roles_sadcat$n_dirmean_Warmth_colibri > 0)
df_roles_sadcat$warmth_colibri  <- ifelse(df_roles_sadcat$has_warmth_colibri == 1,
                                           df_roles_sadcat$dirmean_Warmth_colibri, 0)

m_cord_colibri <- lm(cordialidad_colibri ~ warmth_colibri + has_warmth_colibri,
                     data = df_roles_sadcat, na.action = na.exclude)
summary(m_cord_colibri)

Call:
lm(formula = cordialidad_colibri ~ warmth_colibri + has_warmth_colibri, 
    data = df_roles_sadcat, na.action = na.exclude)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.1139 -0.6139 -0.1139  1.3861  2.3971 

Coefficients:
                   Estimate Std. Error t value Pr(>|t|)   
(Intercept)          3.5000     1.0432   3.355  0.00206 **
warmth_colibri       0.1160     0.6220   0.187  0.85319   
has_warmth_colibri   0.9979     1.1844   0.843  0.40573   
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.475 on 32 degrees of freedom
  (2 observations deleted due to missingness)
Multiple R-squared:  0.03223,   Adjusted R-squared:  -0.02825 
F-statistic: 0.5329 on 2 and 32 DF,  p-value: 0.592

Misma interpretación que en el caso anterior.

df_roles_sadcat$has_comp_colibri <- as.integer(df_roles_sadcat$n_dirmean_Competence_colibri > 0)
df_roles_sadcat$comp_colibri  <- ifelse(df_roles_sadcat$has_comp_colibri == 1,
                                         df_roles_sadcat$dirmean_Competence_colibri, 0)

m_comp_colibri <- lm(competencia_colibri ~ comp_colibri + has_comp_colibri,
                     data = df_roles_sadcat, na.action = na.exclude)
summary(m_comp_colibri)

Call:
lm(formula = competencia_colibri ~ comp_colibri + has_comp_colibri, 
    data = df_roles_sadcat, na.action = na.exclude)

Residuals:
    Min      1Q  Median      3Q     Max 
-2.3750 -0.8045  0.1250  0.7659  2.1250 

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)        3.8750     0.2841  13.642 6.96e-15 ***
comp_colibri       0.8133     0.4524   1.798   0.0816 .  
has_comp_colibri   0.5458     0.4932   1.107   0.2767    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.136 on 32 degrees of freedom
  (2 observations deleted due to missingness)
Multiple R-squared:  0.2619,    Adjusted R-squared:  0.2158 
F-statistic: 5.677 on 2 and 32 DF,  p-value: 0.007761

Entre quienes tienen evidencia de Competence (has=1), más dirección positiva en Competence tiende a asociarse con más competencia percibida (pendiente positiva).

Que el F global sea significativo mientras b1 no lo es al 5% suele pasar cuando hay colinealidad entre comp_colibri_0 y has_comp_colibri (en tu construcción, comp_0 solo puede ser distinta de 0 cuando has=1, así que es normal que estén correlacionados).

Hay señal plausible, pero conviene re-estimar de forma más estable. A continuación se hace un modelo en el que se añade no solo las puntuaciones en competencia para los casos con evidencia, sino también el propio tamaño de la evidencia (el número de descriptores de competencia para cada caso).

m_comp_colibri <- lm(competencia_colibri ~ comp_colibri + n_dirmean_Competence_colibri,
   data = df_roles_sadcat)
summary(m_comp_colibri)

Call:
lm(formula = competencia_colibri ~ comp_colibri + n_dirmean_Competence_colibri, 
    data = df_roles_sadcat)

Residuals:
    Min      1Q  Median      3Q     Max 
-2.3434 -0.8205  0.1566  0.6566  2.1566 

Coefficients:
                             Estimate Std. Error t value Pr(>|t|)    
(Intercept)                    3.8434     0.2499  15.379 2.46e-16 ***
comp_colibri                   0.7567     0.3915   1.933   0.0622 .  
n_dirmean_Competence_colibri   0.3487     0.1816   1.921   0.0637 .  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.096 on 32 degrees of freedom
  (2 observations deleted due to missingness)
Multiple R-squared:  0.3129,    Adjusted R-squared:  0.2699 
F-statistic: 7.285 on 2 and 32 DF,  p-value: 0.002471