¿Cuántas veces aparece la letra N __?
EU VIM COM A NAÇÃO ZUMBI / AO SEU OUVIDO FALAR / QUERO VER A POEIRA SUBIR / E MUITA FUMAÇA NO AR / CHEGUEI COM O MEU UNIVERSO / E ATERRISO NO SEU PENSAMENTO / TRAGO AS LUZES DOS POSTES NOS OLHOS / RIOS E PONTES NO CORAÇÃO / PERNAMBUCO EM BAIXO DOS PÉS / E MINHA MENTE NA IMENSIDÃO
Año | Hito |
---|---|
1662 | Primera estimación mediante razonamiento estadístico (en el sentido actual) a partir de una muestra (Graunt (1665)) |
1991 | Se demuestra empíricamente que, seleccionando muestras estratificadas, se obtienen mejores resultados en las estimaciones de medias y totales (Kiaer (1901)) |
1906 | Uso de aproximaciones de la distribución normal para la estimación de proporciones y propuesta de fórmula para estimación de varianza en muestreo estratificado (A. L. Bowley (1906)) |
1926 | Propuesta de métodos de selección representativos con probabilidades de inclusión iguales (A. Bowley (1926)) |
1927 | Publicación de tablas de números aleatorios (Tippett (1927)) |
1927 | Se publica el artículo considerado como uno de los pilares del muestreo como se conoce hoy en día. Libera el muestreo de las probabilidades de inclusión iguales. Introdujo en su artículo las ideas de eficiencia, asignación óptima, generalización del teorema de Markov, muestreo por conglomerados y presenta un caso donde el muestreo por conveniencia lleva a resultados equivocados (Neyman (1934)) |
1952 | Se completa el fundamento de la inferencia basada en el diseño. Se proporciona un marco de trabajo para la teoría de muestreo proporcional sin reemplazo (Horvitz (1952)) |
1955 | Pone en tela de juicio el concepto de eficiencia al que Neyman se refería; se prueba que, bajo la inferencia basada en el diseño de muestreo, no existe un estimador insesgado de varianza mínima (V. P. Godambe (1955)) |
1960 | Ejemplo pionero de inferencia basada en modelos. Trabajo realizado para estimar variabilidad espacial (Matérn (1960)) |
1977 | Se sugiere que se debe buscar una manera para que los estimadores tengan sentido en ambas doctrinas (V. Godambe and Thompson (1977)) |
1992 | Se publica Model Assited Survey Sampling, aquí la inferencia se basa en el diseño pero la estrategia de muestreo se complementa con un modelo para la estimación del parámetro de interés. (Sarndal (1992)) |
¿Cuál es la variable aleatoria?
Sea \(\mathcal{U} = \{u_1,\ldots,u_k,\ldots,u_N\}\) una población finita de \(N\) elementos con etiquetas \(k=1\ldots,N\). \(Y\) es la variable de estudio -cualitativa o cuantitativa-.
\(Y_k\) denota el valor del \(k\)-ésimo elemento de la población \(\mathcal{U}\).
\(X_k'\) un vector de información auxiliar de dimensión \(p\times1\).
Así, el objetivo es la estimación de una función \(g(T_y)\), donde los casos más usados son,
Sea \(\Omega\) el conjunto de todas las muestras posibles y sea \(p(\cdot)\) una función tal que \(p(s)\) devuelve la probabilidad de seleccionar cualquier muestra \(s\) de la variable aleatoria \(S\) (la función \(p(\cdot)\), también conocida como diseño muestral, determina la distribución de probabilidad de \(S\)).
Sea \(I_k\) una variable aleatoria de inclusión muestral (\(I_k=1\) si se selecciona el \(k\)-ésimo elemento o \(I_k=0\) en caso contrario). La probabilidad de que un elemento \(k\) sea incluido en la muestra bajo un diseño \(p(\cdot)\) es:
\[\begin{equation}\label{RL_eq:001} \pi_k = Prob(I_k = 1) = \sum_{S\in\Omega}I_kp(s) = \sum_{S\in\Omega_k}p(s) \end{equation}\]donde \(S\in\Omega_k\) denota que la suma es sobre todas las muestras \(s\) que contienen un \(k\) dado. Finalmente, \(\nu = \sum_{k\in\mathcal{U}}I_k\) denota el número de elementos distintos en una muestra de tamaño \(n\) (Para más detalle y ejemplos véase (Sarndal (1992)) y (Gregoire (1998)).).
Usando la librería TeachingSampling
(Gutierrez-Rojas (2015))
library(TeachingSampling)
U <- c("Sofía", "Cynthia", "Fausto", "Den", "Mario")
N <- length(U)
# El tamaño de la muestra es n=2
n <- 2
# Cálculo del soporte:
Support(N,n,U)
## [,1] [,2]
## [1,] "Sofía" "Cynthia"
## [2,] "Sofía" "Fausto"
## [3,] "Sofía" "Den"
## [4,] "Sofía" "Mario"
## [5,] "Cynthia" "Fausto"
## [6,] "Cynthia" "Den"
## [7,] "Cynthia" "Mario"
## [8,] "Fausto" "Den"
## [9,] "Fausto" "Mario"
## [10,] "Den" "Mario"
# p es la prob de selección de cada muestra
# p <- rep(1,10)/10
p <- c(.13,.2,.15,.1,.15,.04,.02,.06,.07,.08)
# Note que los elementos suman 1 y ninguno es negativo
sum(p)
## [1] 1
# 10 posibles muestras:
Ind <- Ik(N,n)
Q <- Support(N,n,U)
data.frame(Q,p,Ind)
## X1 X2 p X1.1 X2.1 X3 X4 X5
## 1 Sofía Cynthia 0.13 1 1 0 0 0
## 2 Sofía Fausto 0.20 1 0 1 0 0
## 3 Sofía Den 0.15 1 0 0 1 0
## 4 Sofía Mario 0.10 1 0 0 0 1
## 5 Cynthia Fausto 0.15 0 1 1 0 0
## 6 Cynthia Den 0.04 0 1 0 1 0
## 7 Cynthia Mario 0.02 0 1 0 0 1
## 8 Fausto Den 0.06 0 0 1 1 0
## 9 Fausto Mario 0.07 0 0 1 0 1
## 10 Den Mario 0.08 0 0 0 1 1
# Se calculan las probabilidades de inclusion:
multip <- p*Ind
colSums(multip)
## [1] 0.58 0.34 0.48 0.33 0.27
pik <- Pik(p,Ind)
names(pik) <- U
sum(pik)
## [1] 2
# Se requiere estimar el total de y:
y <- c(32, 34, 46, 89, 35)
names(y) <- U
(ty <- sum(y)/5)
## [1] 47.2
# Se realiza la muestra
s <- c("Sofía","Mario")
ys <- y[s]
pik_s <- pik[s]
(round(HT <- sum(ys / pik_s)/5,2))
## [1] 36.96
# ¿Por qué es insesgado?
PIK <- matrix(rep(pik,10),ncol=5,byrow=TRUE)
Y <- matrix(rep(y,10),ncol=5,byrow=TRUE)
Y <- (Y)/(Ind*PIK)
Y[Y == Inf] = 0
# Todas las posibles muestras:
round(apply(Y,1,mean),2)
## [1] 31.03 30.20 64.97 36.96 39.17 73.94 45.93 73.11 45.09 79.87
sum(apply(Y,1,mean)*p)
## [1] 47.2
El estimador del total poblacional \(T_y = \sum_{k\in \mathcal{U}}y_k\), también conocido como estimador de Horvitz-Thomson (HT), es uno de los más usados en la literatura:
\[\begin{equation}\label{RL_eq:002} \hat{T_y} = \sum_{k\in S}\frac{y_k}{\pi_k} = \sum_{k\in \mathcal{U}}\frac{y_k I_k}{\pi_k}. \end{equation}\]Note que \(y_k\) es fijo, por tanto lo único aleatorio en \(\hat{T_y}\) es el cómo opera \(I_k\) para que el elemento \(k\) sea incluido en la muestra.
Así como a una muestra se la puede considerar como una subpoblación de \(\mathcal{U}\), también existe el concepto de superpoblación. En la IBMO la población es considerada como una realización de un proceso aleatorio, un modelo \(\xi\) o superpoblación. Es decir, los valores \(y_1,\ldots,y_N\) son realizaciones de las variables aleatorias \(Y_1,\ldots,Y_N\) (Gregoire (1998)) donde éstas constituyen la superpoblación.
Sea \(\hat{\theta}_s\) un estimador de \(\theta\) y \(\xi\) el modelo asumido. En esta configuración la inferencia puede ser con respecto a un parámetro de la población (\(g(T_y)\)) o de la superpoblación (\(\theta\)), tal que
\[\begin{equation}\label{RL_eq:005} E_{\xi}[(\hat{\theta}_s-\theta)^2|s] \end{equation}\]sea lo más pequeño posible. Es decir, se buscar minimizar el error cuadrático medio dado la muestra \(s\).
Parámetros de interés | Tipo de inferencia |
---|---|
A. Parámetros de la población finita \(\mathcal{U}\) | Inferencia basada en el diseño |
B. Parámetros de la población finita \(\mathcal{U}\) | Inferencia basada en el modelo |
C. Parámetros de la superpoblación \(\xi\) | Inferencia de teoría clásica de regresión lineal |
Los datos
Variables | Promedio | SD | Mínimo | Máximo |
---|---|---|---|---|
Ingreso mensual | 370.76 | 317.26 | 100.8 | 4603 |
Horas de trabajdo semanales | 47.77 | 13.2 | 31 | 110 |
Salario horario | 2.06 | 1.81 | 0.3 | 22.2 |
Mujer | 0.41 | 0.49 | 0 | 1 |
Edad | 38.64 | 11.99 | 16 | 85 |
Años de educación | 13.2 | 4.12 | 0 | 21 |
Postgrado | 0.03 | 0.18 | 0 | 1 |
Blanco | 0.09 | 0.29 | 0 | 1 |
Indígena, negro mulato | 0.03 | 0.18 | 0 | 1 |
Casado | 0.51 | 0.5 | 0 | 1 |
Sector público | 0.51 | 0.5 | 0 | 1 |
Coeficientes de variación
Variables | Tipo | \(n=2812\) | \(n=304\) | \(n=286\) | \(n=256\) |
---|---|---|---|---|---|
Ingreso mensual | Muestra | 1.614 | 2.522 | 2.352 | 3.155 |
Factor | 1.631 | 2.536 | 2.397 | 3.152 | |
Diseño | 2.134 | 2.698 | 2.781 | 3.255 | |
Horas de trabajo | Muestra | 0.521 | 1.149 | 0.682 | 1.447 |
Factor | 0.523 | 1.196 | 0.711 | 1.448 | |
Diseño | 0.608 | 1.533 | 0.779 | 1.511 | |
Salario por hora | Muestra | 1.656 | 2.657 | 2.408 | 3.401 |
Factor | 1.674 | 2.652 | 2.464 | 3.387 | |
Diseño | 2.223 | 2.662 | 2.834 | 3.476 | |
Mujer | Muestra | 2.269 | 5.379 | 3.917 | 4.651 |
Factor | 2.271 | 5.31 | 3.937 | 4.609 | |
Diseño | 2.366 | 5.017 | 3.752 | 4.555 | |
Edad | Muestra | 0.585 | 1.521 | 1.57 | 1.713 |
Factor | 0.586 | 1.547 | 1.545 | 1.725 | |
Diseño | 0.624 | 1.654 | 1.626 | 1.849 | |
Años de educación | Muestra | 0.588 | 1.179 | 1.158 | 2.079 |
Factor | 0.584 | 1.173 | 1.132 | 2.032 | |
Diseño | 0.794 | 1.296 | 1.201 | 2.229 | |
Postgrado | Muestra | 10.373 | 31.15 | 32.862 | 27.075 |
Factor | 10.174 | 30.16 | 30.854 | 26.992 | |
Diseño | 11.923 | 38.681 | 32.054 | 30.077 | |
Blanco | Muestra | 5.947 | 16.749 | 23.563 | 24.254 |
Factor | 5.949 | 16.612 | 24.026 | 23.124 | |
Diseño | 7.543 | 17.744 | 25.299 | 24.281 |
Esta sección analiza el modelo de Las diferencias salariales entre el sector público y privado en el Ecuador (Carrillo (2004)) con el objeto de enfatizar las diferencias en el uso de la lógica IBDI e IBMO. La validez del modelo desde la teoría económica no es discutido, se lo toma como referencia en el sentido netamente estadístico.
El modelo para establecer los determinantes del salario, es una ecuación semi-logarítimica:
\[\begin{equation}\label{RL_eq:007} ln(w_i) = X_i\beta+\delta P_i + \epsilon_i \end{equation}\]Las pautas aquí presentadas permiten hacer uso de encuestas aún cuando falte información -por ejemplo- del factor de expansión o del diseño muestral.
En la lógica IBDI se genera aleatoriedad en función del diseño muestral, que a su vez genera una distribución de referencia. Mientras que en la IBMO, lo aleatorio responde al modelo \(\xi\) asumido.
Se ha evidenciado las diferencias en cuanto a la estimación puntual. El coeficiente de variación bajo la lógica IBDI es mayor que en la IBMO. Sin embargo, al prescindir de un supuesto distribucional, en este caso es más confiable la IBDI que la IBMO a menos que el investigador esté seguro del supuesto distribucional.
Bowley, A. L. 1906. “Address to the Economic Science and Statistics Section of the British Association for the Advancement of Sciences.” Journal of the Statistical Royal Society 69 (3): 540–58.
Bowley, AL. 1926. “Measurement of the Precision Attained in Sampling.(Annex a to the Report by Jensen.) Bulletin of the International Statistical Institute, 22.” Supplement to 54 (1): 1–62.
Carrillo, Paúl. 2004. “Las Diferencias Salariales Entre El Sector Público Y Privado En El Ecuador.” Cuestiones Económicas 20 (2:3). Banco Central del Ecuador: 165–74.
Godambe, V. P. 1955. “A Unified Theory of Sampling for the Finite Populations.” Journal of the Royal Statistical Society 17 (B17): 73–96.
Godambe, VP, and ME Thompson. 1977. “Robust Near Optimal Estimation in Survey Practice.” IS% Bulletin 47: 129–46.
Graunt, John. 1665. Natural and Political Observations Made Upon the Bills of Mortality. 3rd ed. The Royal Society.
Gregoire, Timothy G. 1998. “Design-Based and Model-Based Inference in Survey Sampling: Appreciating the Difference.” Canadian Journal of Forest Research 28 (10). NRC Research Press: 1429–47.
Gutierrez-Rojas, Hugo Andres. 2015. TeachingSampling: Selection of Samples and Parameter Estimation in Finite Population. https://CRAN.R-project.org/package=TeachingSampling.
Horvitz, D. & Thompson. 1952. “A Generalization of Sampling Without Replacement from a Finite Universe.” Journal of the American Statistical Association 47 (47): 663–85.
Kiaer, A. N. 1901. “Sur Les Methodes Representatives Ou Typologiques.” Bulletin of the International Statistical Institute.
Matérn, Bertil. 1960. “Spatial Variation.” Medd. Statens Skogsforskingsintitu 49 (5): 100–135.
Neyman, Jerzy. 1934. “On the Two Different Aspects of the Representative Method: The Method of Stratified Sampling and the Method of Purposive Selection.” Journal of the Royal Statistical Society 97 (4). JSTOR: 558–625.
Sarndal, B. & Wretman J., C. Swensson. 1992. Model Assited Survey Sampling. Springer.
Tippett, LHC. 1927. “Random Number Tables.” Tracts for Computers, no. 15. Cambridge University press.