Contexto:
Este documento responde a la solicitud de revisión y mejora del Manual de Ponderación (borrador) previamente remitido.
El objetivo es proponer un procedimiento alternativo que reduzca la brecha entre las estimaciones ponderadas (p. ej. 40 % de educación superior) y los valores oficiales del INE (≈ 12 %) a partir de una muestra telefónica de 500 casos.


1 Fundamentos teóricos

La ponderación corrige los sesgos muestrales mediante tres componentes principales [Cochran 1977; Little & Valliant 2012]:

  1. Peso de diseño (w₀): inverso de la probabilidad de selección.
  2. Ajuste por no respuesta (w₁): corrige la diferencia entre entrevistados y no entrevistados.
  3. Calibración (w₂): fuerza la coincidencia con totales externos (post‑estratificación, raking o regresión de calibración).

Cuando los canales de recolección introducen fuertes sesgos de cobertura (p. ej. encuestas telefónicas), es imprescindible calibrar simultáneamente por variables fuertemente correlacionadas con la probabilidad de inclusión (edad, sexo, zona) y con la variable de interés (educación, actividad).
El ajuste iterativo de proporciones (rake) y el recorte de pesos (trimming) minimizan la distorsión sin inflar excesivamente la varianza de diseño [Brick & Montaquila 2009].


2 Flujo metodológico propuesto

Fase Producto Objetivo
2.1 w0 – Peso de diseño Recuperar la probabilidad de selección / cuota
2.2 w1 – Ajuste por no respuesta Deshacer la auto‑selección de entrevistados
2.3 w_rake – Calibración multivariable Alinear márgenes con INE (sexo × edad, sexo × educación, etc.)
2.4 w_trim – Recorte + re‑calibración Limitar pesos extremos y restaurar márgenes
2.5 Validación Comparar distribuciones y evaluar design effect

2.1 Peso de diseño (w0)

Si cada llamada tuvo probabilidad constante, fije w0 = 1.
Para cuotas iguales por sexo:

\[ w_{0i} \;=\; \frac{N_{\text{sexo}}}{n_{\text{sexo}}}. \]

N_{sexo} proviene del INE; n_{sexo} es el número de entrevistas en la cuota.


2.2 Ajuste por no respuesta (w1)

Modelar la probabilidad de respuesta \(\hat p_i\) empleando un logit con variables auxiliares (edad, sexo, hora de contacto, etc.):

\[ \hat p_i = \Pr(\text{respuesta}=1\mid X_i). \]

\[ w_{1i} = \frac{w_{0i}}{\hat p_i}, \qquad \sum_i w_{1i} = \sum_i w_{0i}. \]


2.3 Calibración (Raking / IPF)

Variables de control y fuentes sugeridas:

Margen Fuente INE Obligatoriedad
Sexo × Edad (18–34, 35–44, 45–54, 55+) Proyecciones 2024 Obligatorio
Sexo × Nivel educativo (≤ Prim, Sec, Sup) EPH continua Obligatorio
Sexo × Condición de actividad (Ocup, Inact) EPH continua Recomendado
Área (Urbano/Rural) EPH continua Opcional

2.3.1 Código R mínimo

library(survey)

# diseño con w1
des <- svydesign(ids = ~1, data = encuestas,
                 weights = ~w1)

# márgenes poblacionales: data frames con columnas de clasificación + Freq
pop_sex_age  <- list(~sexo + edad_grp,  data = pop_sex_age_df)
pop_sex_educ <- list(~sexo + educ3,     data = pop_sex_educ_df)

des_rake <- rake(design = des,
                 sample.margins      = list(~sexo + edad_grp,
                                            ~sexo + educ3),
                 population.margins  = list(pop_sex_age,
                                            pop_sex_educ),
                 control = list(maxit = 50, epsilon = 1e-6))

2.4 Recorte de pesos y re‑calibración

Para evitar varianzas exageradas:

# vector de pesos calibrados
w_rake <- weights(des_rake)

# puntos de corte: 0.3×mediana y 3×mediana
w_med  <- median(w_rake)
lower  <- 0.3 * w_med
upper  <- 3   * w_med

w_trim <- pmin(pmax(w_rake, lower), upper)

# re‑calibra preservando márgenes tras el recorte
des_trim <- calibrate(design = des,
                      population = pop_sex_age_df,
                      calfun = "raking",
                      bounds = c(lower, upper),
                      aggregate.weights = TRUE)

2.5 Validación

# Educación superior ponderada vs. INE
svymean(~I(educ == "Superior"), design = des_trim)

# Diseño: efecto de los pesos
deff(trimmed) <- deff(des_trim)
  • Aceptación: proporción de educación superior 12 % ± 0.5 pp.
  • Design effect < 2.0 y CV(w_trim) < 30 %.

3 Implementación en Excel / Google Sheets

  1. Peso de diseño:
    • Campo auxiliar w0 con fórmula

      =N_poblacion_estrato / n_muestra_estrato
  2. Calibración por raking:
    • Utilizar Power Query (Excel 365) o Add‑in IPF de QStep (https://qstep.org/ipf).
    • Alternativa manual: dos iteraciones sobre márgenes con TABLAS DINÁMICAS y función BUSCARV para propagar factores.
  3. Recorte:
    • Columna auxiliar w_trim:

      =MAX(MIN(w_rake, 3*MEDIANA($w_rake$)), 0.3*MEDIANA($w_rake$))
  4. Recalibración ligera (opcional):
    • Ajustar por multiplicador global

      =w_trim * PAT  # PAT = Total_pobl / SUMA(w_trim)

Se adjunta en anexo un libro de ejemplo con hojas Datos, Márgenes y Pesos.


4 Entregables para la empresa

Entregable Descripción Formato
Script ponderacion.R Funciones calc_w0(), ajuste_noresp(), rake_weights(), trim_weights() con argumentos paramétricos .R
Informe HTML Documento reproducible (este R Markdown) con resultados de prueba y design diagnostics .html
Plantilla Excel Hoja con macros / Power Query para repetir la calibración y recorte .xlsx
Manual de usuario Guía paso a paso (5 páginas) para aplicar la metodología .pdf

5 Presupuesto estimado

Concepto Horas Tarifa (Gs/h) Subtotal (Gs)
Diagnóstico inicial (revisión base, márgenes INE) 3 100 000 300 000
Desarrollo script R (+ validación) 7 100 000 700 000
Desarrollo plantilla Excel / Google Sheets 4 100 000 400 000
Documentación y manual de usuario 3 100 000 300 000
Taller de capacitación (on-line, 4 h) 3 100 000 300 000
Total 20 2 000 000

Nota:
– Tarifas incluyen IVA
– Tiempo de ejecución estimado: 2 semanas desde la aprobación.
– Los márgenes agregados finales (sexo × edad, sexo × educación, etc.) se obtendrán de https://prod.redatam.org/binpry/RpWebEngine.exe/Portal?BASE=CPV2022.


6 Conclusiones

La estrategia propuesta –peso de diseño → ajuste de no respuesta → calibración multivariable → recorte– es el estándar recomendado para encuestas telefónicas de pequeño tamaño [De Leeuw et al., 2018]. Su aplicación reducirá la sobre‑representación de personas con educación superior de 40 % a un nivel coherente con el 12 % oficial y garantizará estimaciones consistentes con el INE para otras variables clave.


7 Referencias