Preliminares

Muestreo

¿Muestra o Censo?

¿Cuántas veces aparece la letra N __?

EU VIM COM A NAÇÃO ZUMBI / AO SEU OUVIDO FALAR / QUERO VER A POEIRA SUBIR / E MUITA FUMAÇA NO AR / CHEGUEI COM O MEU UNIVERSO / E ATERRISO NO SEU PENSAMENTO / TRAGO AS LUZES DOS POSTES NOS OLHOS / RIOS E PONTES NO CORAÇÃO / PERNAMBUCO EM BAIXO DOS PÉS / E MINHA MENTE NA IMENSIDÃO

Reseña histórica

Año Hito
1662 Primera estimación mediante razonamiento estadístico (en el sentido actual) a partir de una muestra (Graunt (1665))
1991 Se demuestra empíricamente que, seleccionando muestras estratificadas, se obtienen mejores resultados en las estimaciones de medias y totales (Kiaer (1901))
1906 Uso de aproximaciones de la distribución normal para la estimación de proporciones y propuesta de fórmula para estimación de varianza en muestreo estratificado (A. L. Bowley (1906))
1926 Propuesta de métodos de selección representativos con probabilidades de inclusión iguales (A. Bowley (1926))
1927 Publicación de tablas de números aleatorios (Tippett (1927))
1927 Se publica el artículo considerado como uno de los pilares del muestreo como se conoce hoy en día. Libera el muestreo de las probabilidades de inclusión iguales. Introdujo en su artículo las ideas de eficiencia, asignación óptima, generalización del teorema de Markov, muestreo por conglomerados y presenta un caso donde el muestreo por conveniencia lleva a resultados equivocados (Neyman (1934))
1952 Se completa el fundamento de la inferencia basada en el diseño. Se proporciona un marco de trabajo para la teoría de muestreo proporcional sin reemplazo (Horvitz (1952))
1955 Pone en tela de juicio el concepto de eficiencia al que Neyman se refería; se prueba que, bajo la inferencia basada en el diseño de muestreo, no existe un estimador insesgado de varianza mínima (V. P. Godambe (1955))
1960 Ejemplo pionero de inferencia basada en modelos. Trabajo realizado para estimar variabilidad espacial (Matérn (1960))
1977 Se sugiere que se debe buscar una manera para que los estimadores tengan sentido en ambas doctrinas (V. Godambe and Thompson (1977))
1992 Se publica Model Assited Survey Sampling, aquí la inferencia se basa en el diseño pero la estrategia de muestreo se complementa con un modelo para la estimación del parámetro de interés. (Sarndal (1992))
  • 1662-1952: se caracteriza por tener a la IBDI como predominante, ya al final de intervalo es donde se empieza a cuestionar fuertemente esta perspectiva.
  • 1952-1976: la discusión sobre la pertinencia de la IBDI o la IBMO está puesta sobre la mesa en diferentes congresos internacionales de estadística.
  • Desde 1977: con la aparición del libro Model Assited Survey Sampling, de C.E. Särndal, se empieza a visualizar una reconciliación entre ambas posturas.

Diseño muestral

¿Cuál es la variable aleatoria?

  • Sea \(\mathcal{U} = \{u_1,\ldots,u_k,\ldots,u_N\}\) una población finita de \(N\) elementos con etiquetas \(k=1\ldots,N\). \(Y\) es la variable de estudio -cualitativa o cuantitativa-.

  • \(Y_k\) denota el valor del \(k\)-ésimo elemento de la población \(\mathcal{U}\).

  • \(X_k'\) un vector de información auxiliar de dimensión \(p\times1\).

Así, el objetivo es la estimación de una función \(g(T_y)\), donde los casos más usados son,

  • \(T_y = \sum_{k\in\mathcal{U}}Y_k\) para el total,
  • \(g(T_y) = T_y/N\) para la media y
  • \(g(T_y) = T_y/T_x=R\) para la razón.

Sea \(\Omega\) el conjunto de todas las muestras posibles y sea \(p(\cdot)\) una función tal que \(p(s)\) devuelve la probabilidad de seleccionar cualquier muestra \(s\) de la variable aleatoria \(S\) (la función \(p(\cdot)\), también conocida como diseño muestral, determina la distribución de probabilidad de \(S\)).

Sea \(I_k\) una variable aleatoria de inclusión muestral (\(I_k=1\) si se selecciona el \(k\)-ésimo elemento o \(I_k=0\) en caso contrario). La probabilidad de que un elemento \(k\) sea incluido en la muestra bajo un diseño \(p(\cdot)\) es:

\[\begin{equation}\label{RL_eq:001} \pi_k = Prob(I_k = 1) = \sum_{S\in\Omega}I_kp(s) = \sum_{S\in\Omega_k}p(s) \end{equation}\]

donde \(S\in\Omega_k\) denota que la suma es sobre todas las muestras \(s\) que contienen un \(k\) dado. Finalmente, \(\nu = \sum_{k\in\mathcal{U}}I_k\) denota el número de elementos distintos en una muestra de tamaño \(n\) (Para más detalle y ejemplos véase (Sarndal (1992)) y (Gregoire (1998)).).

Un ejemplo ilustrativo:

Usando la librería TeachingSampling (Gutierrez-Rojas (2015))

library(TeachingSampling)
U <- c("Sofía", "Cynthia", "Fausto", "Den", "Mario")
N <- length(U)
# El tamaño de la muestra es n=2
n <- 2

# Cálculo del soporte:
Support(N,n,U)
##       [,1]      [,2]     
##  [1,] "Sofía"   "Cynthia"
##  [2,] "Sofía"   "Fausto" 
##  [3,] "Sofía"   "Den"    
##  [4,] "Sofía"   "Mario"  
##  [5,] "Cynthia" "Fausto" 
##  [6,] "Cynthia" "Den"    
##  [7,] "Cynthia" "Mario"  
##  [8,] "Fausto"  "Den"    
##  [9,] "Fausto"  "Mario"  
## [10,] "Den"     "Mario"
# p es la prob de selección de cada muestra
# p <- rep(1,10)/10
p <- c(.13,.2,.15,.1,.15,.04,.02,.06,.07,.08)
# Note que los elementos suman 1 y ninguno es negativo
sum(p)
## [1] 1
# 10 posibles muestras:
Ind <- Ik(N,n)
Q <- Support(N,n,U)
data.frame(Q,p,Ind)
##         X1      X2    p X1.1 X2.1 X3 X4 X5
## 1    Sofía Cynthia 0.13    1    1  0  0  0
## 2    Sofía  Fausto 0.20    1    0  1  0  0
## 3    Sofía     Den 0.15    1    0  0  1  0
## 4    Sofía   Mario 0.10    1    0  0  0  1
## 5  Cynthia  Fausto 0.15    0    1  1  0  0
## 6  Cynthia     Den 0.04    0    1  0  1  0
## 7  Cynthia   Mario 0.02    0    1  0  0  1
## 8   Fausto     Den 0.06    0    0  1  1  0
## 9   Fausto   Mario 0.07    0    0  1  0  1
## 10     Den   Mario 0.08    0    0  0  1  1
# Se calculan las probabilidades de inclusion:
multip <- p*Ind
colSums(multip)
## [1] 0.58 0.34 0.48 0.33 0.27
pik <- Pik(p,Ind)
names(pik) <- U
sum(pik)
## [1] 2
# Se requiere estimar el total de y:
y <- c(32, 34, 46, 89, 35)
names(y) <- U
(ty <- sum(y)/5)
## [1] 47.2
# Se realiza la muestra
s <- c("Sofía","Mario")
ys <- y[s]
pik_s <- pik[s]
(round(HT <- sum(ys / pik_s)/5,2))
## [1] 36.96
# ¿Por qué es insesgado?
PIK <- matrix(rep(pik,10),ncol=5,byrow=TRUE)
Y <- matrix(rep(y,10),ncol=5,byrow=TRUE)
Y <- (Y)/(Ind*PIK)
Y[Y == Inf] = 0

# Todas las posibles muestras:
round(apply(Y,1,mean),2)
##  [1] 31.03 30.20 64.97 36.96 39.17 73.94 45.93 73.11 45.09 79.87
sum(apply(Y,1,mean)*p)
## [1] 47.2

IBDI VS IBMO

IBDI

  • Se prescinde de la idea de que la población ha sido aleatorizada, los \(y_k\) se consideran fijos y asociados a un elemento de la población finita \(\mathcal{U}\).
  • El diseño \(p(\cdot)\) y un estimador específico \(T\) generan una distribución de estimaciones llamada distribución de referencia.
  • La distribución de referencia induce las propiedades estadísticas de los esimadores.
  • La inferencia se hace sobre el ahora, sobre el estado actual de la población \(\mathcal{U}\).

El estimador del total poblacional \(T_y = \sum_{k\in \mathcal{U}}y_k\), también conocido como estimador de Horvitz-Thomson (HT), es uno de los más usados en la literatura:

\[\begin{equation}\label{RL_eq:002} \hat{T_y} = \sum_{k\in S}\frac{y_k}{\pi_k} = \sum_{k\in \mathcal{U}}\frac{y_k I_k}{\pi_k}. \end{equation}\]

Note que \(y_k\) es fijo, por tanto lo único aleatorio en \(\hat{T_y}\) es el cómo opera \(I_k\) para que el elemento \(k\) sea incluido en la muestra.

IBMO

  • La población se considera como la realización de un proceso estocástico.
  • La distribución de probabilidad del modelo induce una distribución de referencia.
  • Las propiedades de los estimadores dependen de la muestra y del modelo asumido.
  • El diseño muestral es irrelevante para la inferencia, pero un muestreo probabilístico puede ayudar a disminuir errores de especificación del modelo.

Así como a una muestra se la puede considerar como una subpoblación de \(\mathcal{U}\), también existe el concepto de superpoblación. En la IBMO la población es considerada como una realización de un proceso aleatorio, un modelo \(\xi\) o superpoblación. Es decir, los valores \(y_1,\ldots,y_N\) son realizaciones de las variables aleatorias \(Y_1,\ldots,Y_N\) (Gregoire (1998)) donde éstas constituyen la superpoblación.

Sea \(\hat{\theta}_s\) un estimador de \(\theta\) y \(\xi\) el modelo asumido. En esta configuración la inferencia puede ser con respecto a un parámetro de la población (\(g(T_y)\)) o de la superpoblación (\(\theta\)), tal que

\[\begin{equation}\label{RL_eq:005} E_{\xi}[(\hat{\theta}_s-\theta)^2|s] \end{equation}\]

sea lo más pequeño posible. Es decir, se buscar minimizar el error cuadrático medio dado la muestra \(s\).

¿Cuál elegir?

Parámetros de interés Tipo de inferencia
A. Parámetros de la población finita \(\mathcal{U}\) Inferencia basada en el diseño
B. Parámetros de la población finita \(\mathcal{U}\) Inferencia basada en el modelo
C. Parámetros de la superpoblación \(\xi\) Inferencia de teoría clásica de regresión lineal
  • Caso 1 (\(Y_k\)): Solo podría hacer estadística descriptiva de la subpoblación \(k\in s\)
  • Caso 2 (\(Y_k\) y \(w_k\)): Puede hacer estimación de los parámetros de la población finita \(\mathcal{U}\). Debe tomar en cuenta que el cálculo de la varianza de los estimadores asume que el muestreo probabilístico fue realizado bajo muestreo aleatorio simple, de no ser éste el caso (como de hecho ocurre con la ENEMDU o la ENIGHUR), la inferencia se ve afectada.
  • Caso 3 (\(Y_k\), \(w_k\) y \(p(\cdot)\)): En este caso se puede hacer estimación e inferencia sobre la población finita \(\mathcal{U}\) bajo la lógica de la IBDI.
  • Caso 4 (\(Y_k\), \(w_k\), \(p(\cdot)\) y \(X_k\)):En este caso puede optar por cualquiera de las opciones de la tabla , esto es, IBDI o IBMO.

Resultados

Los datos

Variables Promedio SD Mínimo Máximo
Ingreso mensual 370.76 317.26 100.8 4603
Horas de trabajdo semanales 47.77 13.2 31 110
Salario horario 2.06 1.81 0.3 22.2
Mujer 0.41 0.49 0 1
Edad 38.64 11.99 16 85
Años de educación 13.2 4.12 0 21
Postgrado 0.03 0.18 0 1
Blanco 0.09 0.29 0 1
Indígena, negro mulato 0.03 0.18 0 1
Casado 0.51 0.5 0 1
Sector público 0.51 0.5 0 1

Estimación Puntual

Coeficientes de variación

Variables Tipo \(n=2812\) \(n=304\) \(n=286\) \(n=256\)
Ingreso mensual Muestra 1.614 2.522 2.352 3.155
Factor 1.631 2.536 2.397 3.152
Diseño 2.134 2.698 2.781 3.255
Horas de trabajo Muestra 0.521 1.149 0.682 1.447
Factor 0.523 1.196 0.711 1.448
Diseño 0.608 1.533 0.779 1.511
Salario por hora Muestra 1.656 2.657 2.408 3.401
Factor 1.674 2.652 2.464 3.387
Diseño 2.223 2.662 2.834 3.476
Mujer Muestra 2.269 5.379 3.917 4.651
Factor 2.271 5.31 3.937 4.609
Diseño 2.366 5.017 3.752 4.555
Edad Muestra 0.585 1.521 1.57 1.713
Factor 0.586 1.547 1.545 1.725
Diseño 0.624 1.654 1.626 1.849
Años de educación Muestra 0.588 1.179 1.158 2.079
Factor 0.584 1.173 1.132 2.032
Diseño 0.794 1.296 1.201 2.229
Postgrado Muestra 10.373 31.15 32.862 27.075
Factor 10.174 30.16 30.854 26.992
Diseño 11.923 38.681 32.054 30.077
Blanco Muestra 5.947 16.749 23.563 24.254
Factor 5.949 16.612 24.026 23.124
Diseño 7.543 17.744 25.299 24.281

Regresión

Esta sección analiza el modelo de Las diferencias salariales entre el sector público y privado en el Ecuador (Carrillo (2004)) con el objeto de enfatizar las diferencias en el uso de la lógica IBDI e IBMO. La validez del modelo desde la teoría económica no es discutido, se lo toma como referencia en el sentido netamente estadístico.

El modelo para establecer los determinantes del salario, es una ecuación semi-logarítimica:

\[\begin{equation}\label{RL_eq:007} ln(w_i) = X_i\beta+\delta P_i + \epsilon_i \end{equation}\]

Conclusiones

Las pautas aquí presentadas permiten hacer uso de encuestas aún cuando falte información -por ejemplo- del factor de expansión o del diseño muestral.

En la lógica IBDI se genera aleatoriedad en función del diseño muestral, que a su vez genera una distribución de referencia. Mientras que en la IBMO, lo aleatorio responde al modelo \(\xi\) asumido.

Se ha evidenciado las diferencias en cuanto a la estimación puntual. El coeficiente de variación bajo la lógica IBDI es mayor que en la IBMO. Sin embargo, al prescindir de un supuesto distribucional, en este caso es más confiable la IBDI que la IBMO a menos que el investigador esté seguro del supuesto distribucional.

Referencias

Bowley, A. L. 1906. “Address to the Economic Science and Statistics Section of the British Association for the Advancement of Sciences.” Journal of the Statistical Royal Society 69 (3): 540–58.

Bowley, AL. 1926. “Measurement of the Precision Attained in Sampling.(Annex a to the Report by Jensen.) Bulletin of the International Statistical Institute, 22.” Supplement to 54 (1): 1–62.

Carrillo, Paúl. 2004. “Las Diferencias Salariales Entre El Sector Público Y Privado En El Ecuador.” Cuestiones Económicas 20 (2:3). Banco Central del Ecuador: 165–74.

Godambe, V. P. 1955. “A Unified Theory of Sampling for the Finite Populations.” Journal of the Royal Statistical Society 17 (B17): 73–96.

Godambe, VP, and ME Thompson. 1977. “Robust Near Optimal Estimation in Survey Practice.” IS% Bulletin 47: 129–46.

Graunt, John. 1665. Natural and Political Observations Made Upon the Bills of Mortality. 3rd ed. The Royal Society.

Gregoire, Timothy G. 1998. “Design-Based and Model-Based Inference in Survey Sampling: Appreciating the Difference.” Canadian Journal of Forest Research 28 (10). NRC Research Press: 1429–47.

Gutierrez-Rojas, Hugo Andres. 2015. TeachingSampling: Selection of Samples and Parameter Estimation in Finite Population. https://CRAN.R-project.org/package=TeachingSampling.

Horvitz, D. & Thompson. 1952. “A Generalization of Sampling Without Replacement from a Finite Universe.” Journal of the American Statistical Association 47 (47): 663–85.

Kiaer, A. N. 1901. “Sur Les Methodes Representatives Ou Typologiques.” Bulletin of the International Statistical Institute.

Matérn, Bertil. 1960. “Spatial Variation.” Medd. Statens Skogsforskingsintitu 49 (5): 100–135.

Neyman, Jerzy. 1934. “On the Two Different Aspects of the Representative Method: The Method of Stratified Sampling and the Method of Purposive Selection.” Journal of the Royal Statistical Society 97 (4). JSTOR: 558–625.

Sarndal, B. & Wretman J., C. Swensson. 1992. Model Assited Survey Sampling. Springer.

Tippett, LHC. 1927. “Random Number Tables.” Tracts for Computers, no. 15. Cambridge University press.