1. Introducción

Este documento acompaña la presentación Cómo tratar los ‘No sé’ y los ‘Sin respuesta’, basada en material clásico de metodología de encuestas. Se abordan los tipos de respuestas faltantes, sus implicancias analíticas y estrategias de reducción.

2. Tipología de respuestas

Tipo de respuesta	Definición	Tratamiento sugerido
‘No sé’ legítimo	Respuesta válida: el entrevistado no posee información o certeza.	Se comunica junto a las respuestas válidas; nunca se elimina.
‘Sin respuesta’ o faltante	No se logró registrar respuesta (error de campo o rechazo).	Evaluar si es aleatorio; excluir o ponderar.

3. Ejemplos de cuadros

Cuadro IV.1. Identificación de la marca de la compañía Y

Respuesta	Porcentaje
Identificada correctamente	25
Identificada incorrectamente con la compañía X	21
Con otras compañías	3
No supo de qué compañía era	51
Total	100

Interpretación: Más de la mitad de los entrevistados respondió No sé, lo que no implica error sino falta de conocimiento; debe analizarse como dato legítimo.

Cuadro IV.2. Sexo de los aficionados que escribieron al programa

Sexo	Porcentaje
Conocido	82
Hombres	54
Mujeres	28
Desconocido	18
Total	100

Interpretación: El 18% con sexo desconocido indica un problema de categorización: las categorías deben ser excluyentes para evitar superposición.

Cuadro IV.3. Sexo de los aficionados por estrato socioeconómico

Estrato	Hombres	Mujeres	Sexo desconocido	Total
Superiores	57	29	14	100
Inferiores	52	28	20	100

Nota: Las diferencias entre estratos pueden ser artefactos de la falta de información. No se deben conservar los No sé en el cuerpo del cuadro si su proporción es alta.

4. Qué hacer con los ‘No sé’ como faltantes

Si su proporción es insignificante, se puede excluir sin sesgo relevante.
Si varía sistemáticamente entre subgrupos, es necesario reestimar proporciones o ponderar.

5. Ejemplo de tratamiento en R

# Paquetes
library(tidyverse)
library(janitor)

## Warning: package 'janitor' was built under R version 4.3.3

library(survey)

## Warning: package 'Matrix' was built under R version 4.3.3

# Datos de ejemplo:
# Si ya tenés 'encuesta_no_se' en tu ambiente, se usará.
# Si no, generamos un ejemplo reproducible.
if (!exists("encuesta_no_se")) {
  set.seed(123)
  n <- 500
  encuesta_no_se <- tibble(
    sexo = sample(c("Hombre","Mujer","Desconocido"), n, replace = TRUE, prob = c(0.46, 0.46, 0.08)),
    uso_auto = sample(c("Diario","Semanal","Ocasional","No usa","No sé"), n, replace = TRUE, prob = c(0.3,0.25,0.2,0.15,0.1)),
    pref_caja = sample(c("Banco A","Banco B","Banco C", NA), n, replace = TRUE, prob = c(0.4,0.35,0.2,0.05))
  ) |> clean_names()
}

enc <- encuesta_no_se

a) Tasas de ‘No sé’ y NA

enc |>
  summarize(
    n = n(),
    tasa_sexo_desconocido = mean(sexo == "Desconocido"),
    tasa_pref_na = mean(is.na(pref_caja)),
    tasa_no_se_auto = mean(uso_auto == "No sé")
  )

## # A tibble: 1 × 4
##       n tasa_sexo_desconocido tasa_pref_na tasa_no_se_auto
##   <int>                 <dbl>        <dbl>           <dbl>
## 1   500                 0.078        0.044           0.088

b) Tabulado simple con ‘No sé’

enc |> 
  count(sexo, uso_auto) |> 
  group_by(sexo) |> 
  mutate(pct = round(100 * n / sum(n), 1)) |>
  arrange(sexo, desc(pct))

## # A tibble: 15 × 4
## # Groups:   sexo [3]
##    sexo        uso_auto      n   pct
##    <chr>       <chr>     <int> <dbl>
##  1 Desconocido Semanal      11  28.2
##  2 Desconocido Ocasional     9  23.1
##  3 Desconocido Diario        8  20.5
##  4 Desconocido No usa        7  17.9
##  5 Desconocido No sé         4  10.3
##  6 Hombre      Diario       65  29.7
##  7 Hombre      Ocasional    50  22.8
##  8 Hombre      Semanal      48  21.9
##  9 Hombre      No usa       29  13.2
## 10 Hombre      No sé        27  12.3
## 11 Mujer       Diario       71  29.3
## 12 Mujer       Semanal      69  28.5
## 13 Mujer       No usa       49  20.2
## 14 Mujer       Ocasional    40  16.5
## 15 Mujer       No sé        13   5.4

c) Excluir ‘No sé’ del denominador

enc |> 
  filter(uso_auto != "No sé") |> 
  count(sexo, uso_auto) |> 
  group_by(sexo) |> 
  mutate(pct = round(100 * n / sum(n), 1))

## # A tibble: 12 × 4
## # Groups:   sexo [3]
##    sexo        uso_auto      n   pct
##    <chr>       <chr>     <int> <dbl>
##  1 Desconocido Diario        8  22.9
##  2 Desconocido No usa        7  20  
##  3 Desconocido Ocasional     9  25.7
##  4 Desconocido Semanal      11  31.4
##  5 Hombre      Diario       65  33.9
##  6 Hombre      No usa       29  15.1
##  7 Hombre      Ocasional    50  26  
##  8 Hombre      Semanal      48  25  
##  9 Mujer       Diario       71  31  
## 10 Mujer       No usa       49  21.4
## 11 Mujer       Ocasional    40  17.5
## 12 Mujer       Semanal      69  30.1

6. Posestratificación (corrección por sexo)

enc_conocido <- enc |> filter(sexo %in% c("Hombre","Mujer"))
design <- svydesign(ids = ~1, data = enc_conocido, weights = ~1)

# Objetivo poblacional 50/50 (modificá aquí a 52/48 para el ejercicio)
post <- data.frame(sexo = c("Hombre","Mujer"), Freq = c(0.5, 0.5))

design_ps <- postStratify(design, strata = ~sexo, population = post)

# Estimar proporciones de preferencia de caja por sexo (ignora NAs)
svyby(~factor(pref_caja), ~sexo, design_ps, svymean, na.rm = TRUE)

##          sexo factor(pref_caja)Banco A factor(pref_caja)Banco B
## Hombre Hombre                0.4037559                0.3802817
## Mujer   Mujer                0.4148472                0.4061135
##        factor(pref_caja)Banco C se.factor(pref_caja)Banco A
## Hombre                0.2159624                  0.03365528
## Mujer                 0.1790393                  0.03259361
##        se.factor(pref_caja)Banco B se.factor(pref_caja)Banco C
## Hombre                  0.03329903                  0.02822535
## Mujer                   0.03248847                  0.02536233

7. Reducción del número de ‘No sé’

Modificar redacción de la pregunta: ofrecer opciones concretas o escalas.
Usar numerales indefinidos: alto, medio, bajo / rara vez, a menudo.
Facilitar el recuerdo: dividir preguntas largas en partes simples.

8. Ejercicio práctico

Repite la posestratificación con distribución 52/48.
Reetiqueta las respuestas “No sé” en uso_auto como NA.
Compara los tabulados con y sin imputación.
Redacta un párrafo interpretando las diferencias.

Fin del taller

Cómo tratar los ‘No sé’ y los ‘Sin respuesta’

Juan Pablo Tedesca

2025-10-12