Contexto:
Este documento responde a la solicitud de revisión y mejora del Manual de Ponderación (borrador) previamente remitido.
El objetivo es proponer un procedimiento alternativo que reduzca la brecha entre las estimaciones ponderadas (p. ej. 40 % de educación superior) y los valores oficiales del INE (≈ 12 %) a partir de una muestra telefónica de 500 casos.
La ponderación corrige los sesgos muestrales mediante tres componentes principales [Cochran 1977; Little & Valliant 2012]:
Cuando los canales de recolección introducen fuertes sesgos de
cobertura (p. ej. encuestas telefónicas), es imprescindible calibrar
simultáneamente por variables fuertemente
correlacionadas con la probabilidad de inclusión (edad, sexo, zona)
y con la variable de interés (educación,
actividad).
El ajuste iterativo de proporciones (rake
) y el recorte de
pesos (trimming
) minimizan la distorsión sin inflar
excesivamente la varianza de diseño [Brick & Montaquila 2009].
Fase | Producto | Objetivo |
---|---|---|
2.1 | w0 – Peso de diseño |
Recuperar la probabilidad de selección / cuota |
2.2 | w1 – Ajuste por no respuesta |
Deshacer la auto‑selección de entrevistados |
2.3 | w_rake – Calibración multivariable |
Alinear márgenes con INE (sexo × edad, sexo × educación, etc.) |
2.4 | w_trim – Recorte + re‑calibración |
Limitar pesos extremos y restaurar márgenes |
2.5 | Validación | Comparar distribuciones y evaluar design effect |
w0
)Si cada llamada tuvo probabilidad constante, fije
w0 = 1
.
Para cuotas iguales por sexo:
\[ w_{0i} \;=\; \frac{N_{\text{sexo}}}{n_{\text{sexo}}}. \]
N_{sexo}
proviene del INE; n_{sexo}
es el
número de entrevistas en la cuota.
w1
)Modelar la probabilidad de respuesta \(\hat p_i\) empleando un logit con variables auxiliares (edad, sexo, hora de contacto, etc.):
\[ \hat p_i = \Pr(\text{respuesta}=1\mid X_i). \]
\[ w_{1i} = \frac{w_{0i}}{\hat p_i}, \qquad \sum_i w_{1i} = \sum_i w_{0i}. \]
Variables de control y fuentes sugeridas:
Margen | Fuente INE | Obligatoriedad |
---|---|---|
Sexo × Edad (18–34, 35–44, 45–54, 55+) | Proyecciones 2024 | Obligatorio |
Sexo × Nivel educativo (≤ Prim, Sec, Sup) | EPH continua | Obligatorio |
Sexo × Condición de actividad (Ocup, Inact) | EPH continua | Recomendado |
Área (Urbano/Rural) | EPH continua | Opcional |
library(survey)
# diseño con w1
des <- svydesign(ids = ~1, data = encuestas,
weights = ~w1)
# márgenes poblacionales: data frames con columnas de clasificación + Freq
pop_sex_age <- list(~sexo + edad_grp, data = pop_sex_age_df)
pop_sex_educ <- list(~sexo + educ3, data = pop_sex_educ_df)
des_rake <- rake(design = des,
sample.margins = list(~sexo + edad_grp,
~sexo + educ3),
population.margins = list(pop_sex_age,
pop_sex_educ),
control = list(maxit = 50, epsilon = 1e-6))
Para evitar varianzas exageradas:
# vector de pesos calibrados
w_rake <- weights(des_rake)
# puntos de corte: 0.3×mediana y 3×mediana
w_med <- median(w_rake)
lower <- 0.3 * w_med
upper <- 3 * w_med
w_trim <- pmin(pmax(w_rake, lower), upper)
# re‑calibra preservando márgenes tras el recorte
des_trim <- calibrate(design = des,
population = pop_sex_age_df,
calfun = "raking",
bounds = c(lower, upper),
aggregate.weights = TRUE)
# Educación superior ponderada vs. INE
svymean(~I(educ == "Superior"), design = des_trim)
# Diseño: efecto de los pesos
deff(trimmed) <- deff(des_trim)
Design effect
< 2.0 y CV(w_trim)
< 30 %.Campo auxiliar w0
con fórmula
=N_poblacion_estrato / n_muestra_estrato
BUSCARV
para
propagar factores.Columna auxiliar w_trim
:
=MAX(MIN(w_rake, 3*MEDIANA($w_rake$)), 0.3*MEDIANA($w_rake$))
Ajustar por multiplicador global
=w_trim * PAT # PAT = Total_pobl / SUMA(w_trim)
Se adjunta en anexo un libro de ejemplo con hojas Datos, Márgenes y Pesos.
Entregable | Descripción | Formato |
---|---|---|
Script ponderacion.R |
Funciones calc_w0() , ajuste_noresp() ,
rake_weights() , trim_weights() con argumentos
paramétricos |
.R |
Informe HTML | Documento reproducible (este R Markdown) con resultados de prueba y design diagnostics | .html |
Plantilla Excel | Hoja con macros / Power Query para repetir la calibración y recorte | .xlsx |
Manual de usuario | Guía paso a paso (5 páginas) para aplicar la metodología | .pdf |
Concepto | Horas | Tarifa (Gs/h) | Subtotal (Gs) |
---|---|---|---|
Diagnóstico inicial (revisión base, márgenes INE) | 3 | 100 000 | 300 000 |
Desarrollo script R (+ validación) | 7 | 100 000 | 700 000 |
Desarrollo plantilla Excel / Google Sheets | 4 | 100 000 | 400 000 |
Documentación y manual de usuario | 3 | 100 000 | 300 000 |
Taller de capacitación (on-line, 4 h) | 3 | 100 000 | 300 000 |
Total | 20 | — | 2 000 000 |
Nota:
– Tarifas incluyen IVA
– Tiempo de ejecución estimado: 2 semanas desde la aprobación.
– Los márgenes agregados finales (sexo × edad, sexo × educación, etc.) se obtendrán de https://prod.redatam.org/binpry/RpWebEngine.exe/Portal?BASE=CPV2022.
La estrategia propuesta –peso de diseño → ajuste de no respuesta → calibración multivariable → recorte– es el estándar recomendado para encuestas telefónicas de pequeño tamaño [De Leeuw et al., 2018]. Su aplicación reducirá la sobre‑representación de personas con educación superior de 40 % a un nivel coherente con el 12 % oficial y garantizará estimaciones consistentes con el INE para otras variables clave.