La población es el conjunto de todos los elementos que nos interesa estudiar y a estos elementos los definimos como unidades de estudio.
Se considera una población finita compuesta por \(N\) unidades de observación, donde cada una de las unidades puede identificarse mediante una etiqueta. Sea \(U\) el conjunto de etiquetas, tal que \[U=\left\lbrace 1,...,k,...,N \right\rbrace.\]
Se pretende estudiar una característica de interés denotada por \(y\), que toma el valor \(y_k\) para la unidad \(k\) en la población. El objetivo es estimar el valor de una función \(\theta\), llamada , de la característica de interés de la población.
\[\theta= f(y_1,...,y_k,...,y_N).\]
Las funciones de interés más frecuentemente utilizadas, son el total \[t_y=\displaystyle \sum_{k \in U} y_k,\] la media \[\overline{y}_U=\frac{1}{N} \displaystyle \sum_{k \in U} y_k = \frac{t_y}{N},\]
y la varianza poblacional \[S^2_{y_U}=\frac{1}{N-1} \displaystyle \sum_{k \in U} (y_k - \overline{y}_U)^2.\]
No siempre sera posible tener acceso a la población, a continuación se nombran tres situaciones en las que se dificultad estudiar la totalidad de la población.
La población es desconocida o se carece de un marco muestral. Ejemplo: estudio acerca de los niveles de conocimiento sobre VIH y SIDA que tienen las trabajadoras sexuales.
La población es inaccesible. Ejemplo: conocer el valor de la hemoglobina de un paciente.
La población es inalcanzable por su magnitud. Ejemplo: encuestas de preferencias electorales
Una muestra es un subconjunto de la población que tenemos que estudiar para poder sacar conclusiones acerca de la característica de la población, a este procedimiento se le conoce como inferencia y se hará efectivo únicamente si hemos seleccionado una muestra representativa.
Una muestra probabilística \(s\) es un subconjunto de \(U\) extraído a través de algún mecanismo estadístico. Un diseño de muestreo \(p(.)\) es una distribución de probabilidad para el conjunto de todas las posibles muestras, de tal manera que
\[p(s)\geqslant 0, \ \ \text{para todo} \ \ s \subseteq U \ \ \text{y} \ \ \displaystyle \sum_{s \subseteq U} p(s)=1.\]
Si \(S\) es una variable de muestra aleatoria que toma el valor \(s\) con probabilidad \(p(s)\), tal que \[Pr(S=s)=p(s), \ \ \text{para todo} \ \ s \subseteq U, \]
entonces \(p(.)\) es llamado un diseño muestral.
El tamaño de muestra \(n(S)\) puede ser aleatorio. Si la muestra es de tamaño fijo, se denota el tamaño simplemente como \(n\).
La variable indicadora para la presencia de unidades en la muestra está definida por
\[I_k= \left\lbrace \begin{array}{l} 1 \ \ \text{si} \ \ k \in s \\ 0 \ \ \text{si} \ \ k \notin s. \end{array} \right.\]
La probabilidad de inclusión de primer orden es la probabilidad de que la unidad \(k\) pertenezca a la muestra \[\pi_k= Pr(k \in s)=E(I_k)= \displaystyle \sum_{s \ni k}p(s).\]
La probabilidad de inclusión de segundo orden es la probabilidad de que la unidad \(k\) y la unidad \(l\) pertenezcan a la muestra simultáneamente \[\pi_{kl}= Pr(k \in s \ \text{y} \ l \in s )=E(I_kI_l)= \displaystyle \sum_{s \ni k,l}p(s).\]
La covarianza de las variables indicadoras esta dada por
\[ \Delta_{kl}=Cov(I_k,I_l)= \left\lbrace \begin{array}{l} \pi_k(1-\pi_k) \ \ \text{si} \ \ k = l \\ \pi_{kl}-\pi_k\pi_l \ \ \text{si} \ \ k \not= l. \end{array} \right.\]
Siguiendo a Gutierrez (2009)[pág. 29], un estimador es una función \(\hat{\theta}=\hat{\theta}(s)\) que se usa para estimar un parámetro \(\theta\).
El valor esperado de \(\hat{\theta}\) viene dado por
\[E(\hat{\theta})=\displaystyle \sum_{s}p(s)\hat{\theta}(s)\]
y la varianza por \[Var(\hat{\theta})=\displaystyle \sum_{s}p(s)\left[ \hat{\theta}(s)-E(\hat{\theta})\right]^2.\]
Según Sarndal (1992) [pág. 40], dos propiedades muy importantes de un estimador \(\hat{\theta}\) son el sesgo y el error cuadrático medio.
La diferencia del valor encontrado en la muestra (estimador) con el valor real que corresponde a la población (parámetro) se denomina sesgo, y habrá menos sesgo mientras más representativa sea la muestra, mientras hayamos considerado la técnica de muestreo apropiada.
El sesgo de \(\hat{\theta}\) se define por \[B(\hat{\theta})=E(\hat{\theta}) -\theta.\]
El cociente \[RB(\hat{\theta})=\frac{B(\hat{\theta})}{\theta}\]
se denomina sesgo relativo del estimador \(\hat{\theta}\).
Un estimador \(\hat{\theta}\) se dice que es insesgado para \(\theta\) si \[B(\hat{\theta})=0.\]
El error cuadrático medio (ECM) de \(\hat{\theta}\) está dado por \[\begin{split} ECM(\hat{\theta})&=E\left[ (\hat{\theta}-\theta)^2\right] \\ &=Var(\hat{\theta})+[B(\hat{\theta})]^2. \end{split}\]
El aporte relativo del sesgo al ECM de \(\hat{\theta}\) se define como
\[\xi(\hat{\theta})=\frac{B(\hat{\theta})^2}{B(\hat{\theta})^2+Var(\hat{\theta})}.\]
El coeficiente de variación de \(\hat{\theta}\) viene dado por
\[CV=\frac{\sqrt{Var(\hat{\theta})}}{\hat{\theta}}.\]
El estimador de Horvitz-Thompson para el total \(t_y\) se define por
\[\hat{t}_{y\pi}=\displaystyle \sum_{s} \frac{y_k}{\pi_k}.\]
Este estimador es insesgado si todas las probabilidades de inclusión de primer orden son estrictamente positivas.
Sarndal (1992)[pág. 43] muestra que la varianza del estimador de horvitz está dada por
\[Var(\hat{t}_{y\pi})=\displaystyle \sum_{U}\displaystyle \sum_{U} \Delta_{kl} \frac{y_k}{\pi_k}\frac{y_l}{\pi_l}.\]
La unidad de muestreo es la unidad mínima de observación de la que se obtendrá información de las variables útiles. Ejemplo: seleccionar una muestra de trabajadores del ministerio de salud.
La construcción de la muestra no siempre es a partir de las unidades de estudio; de hecho, la muestra se construye a partir de las unidades de muestreo.
Unidades de muestreo propias. La unidad de estudio es igual a la unidad de muestreo.
Unidad de muestreo conjunta. Se trata de un conjunto de unidades de estudio donde las características del conjunto representan proporcionalmente a las características de la población. Conglomerados.
Unidad de muestreo identificadora. Cuando es preciso ubicar elementos que nos permita identificar a la unidad de estudio con la finalidad de ejecutar el muestreo. (Medico - Paciente)
Unidad de muestreo contenedora También se le conoce como secciones censales, porque son muy utilizados para realizar estudios de la población en las Ciencias Sociales; pueden ser áreas geográficas que contienen a la unidad de estudio. (Vivienda - Persona)
\[\hat{\theta} = \bar{X} = \frac{1}{n}\sum_{i=1}^{n} X_i\]
\[E(\bar{X}) = \mu \quad\quad V(\bar{X}) = \frac{\sigma^2}{n}\] donde, \(\mu=E(X)\) es el promedio poblacional y \(\sigma^2=V(X)\) es la varianza poblacional.
Si \(\overline{X}\) es la media de una muestra aleatoria de tamaño \(n\), tomada de una población con media \(\mu\) y varianza finita \(\sigma^2\), entonces la forma límite de la distribución de
\[ Z=\dfrac{\overline{X}-\mu}{\sigma/\sqrt{n}}\]
a medida que \(n \longrightarrow \infty\), es la distribución normal estándar \(n(z;0,1)\).
\[ \hat{\theta} = \hat{P} = \frac{X}{n}\] donde \(X\) representa el número de éxitos en \(n\) ensayos.
\[E(\hat{P}) = E\left(\dfrac{X}{n}\right)=p \quad\quad\] \[Var(\hat{P})=Var \left(\dfrac{X}{n} \right)=\dfrac{p(1-p)}{n}\]
Un estadístico natural a considerar para tratar con las inferencias sobre \(\mu\) cuando se desconoce \(\sigma^2\) es
\[T=\dfrac{\bar{X}-\mu}{S/\sqrt{n}}\]
dado que \(S\) es el análogo de la muestra para \(\sigma\). Si el tamaño de la muestra es pequeño, los valores de \(S^2\) fluctúan de forma considerable de una muestra a otra y la distribución de \(T\) se desvía de forma apreciable de la de una distribución normal estándar.
Si el tamaño de la muestra es suficientemente grande, digamos \(n \geq 30\), la distribución de \(T\) no difiere mucho de la normal estándar. Sin embargo, para \(n < 30\) es útil tratar con la distribución exacta de \(T\). Para desarrollar la distribución muestral de \(T\), supondremos que nuestra muestra aleatoria se seleccionó de una población normal. Podemos escribir, entonces,
\[T=\dfrac{(\bar{X}-\mu)(\sigma/\sqrt{n})}{\sqrt{S^/\sigma^2}}=\dfrac{Z}{V/(n-1)}\] donde
\(Z=\dfrac{\bar{X}-\mu}{\sigma/\sqrt{n}} \sim N(0,1) \ \text{y} \ V=\dfrac{(n-1)S^2}{\sigma^2} \sim \chi^2_{n-1}\)
Sea \(Z\) una variable aleatoria normal estándar y \(V\) una variable aleatoria chi cuadrada con \(v\) grados de libertad. Si \(Z\) y \(V\) son independientes, entonces la distribución de la variable aleatoria \(T\), donde \[ T=\dfrac{Z}{\sqrt{V/v}}, \] es dada por la función de densidad
\[f(x)=\dfrac{\Gamma[(v+1)/2]}{\Gamma(v/2)\sqrt{\pi v}}\left( 1+\dfrac{x^2}{v} \right)^{-(v+1)/2}, \quad -\infty<x<\infty.\]
Ésta se conoce como la distribución T con \(v\) grados de libertad. Donde
\(E(X)=\mu\) y \(V(X)=n/(n-2)\).
Un caso especial muy importante de la distribución gamma se obtiene al permitir que \(\alpha=v/2\) y \(\beta = 2\), donde \(v\) es un entero positivo. Este resultado se conoce como distribución chi cuadrada. La distribución tiene un solo parámetro, \(v\), denominado grados de libertad.
La variable aleatoria continua \(X\) tiene una distribución chi cuadrada, con \(v\) grados de libertad, si su función de densidad esta dada por
\[f(x;v)=\frac{1}{2^{v/2}\Gamma(v/2)}x^{{v/2}-1}e^{\frac{-x}{2}}, \ x>0\]
donde,
\[ \mu=v \quad \text{y} \quad \sigma^2=2v\]
Teorema
Si \(X_1, X_2,\cdots, X_n\) son variables aleatorias independientes que tienen distribuciones normales idénticas, con media \(\mu\) y varianza \(\sigma^2\), entonces la variable aleatoria
\[Y=\sum_{i=1}^{n}\left( \dfrac{X_i-\mu}{\sigma} \right)^2\]
tiene una distribución chi cuadrada con \(v = n\) grados de libertad.
Si se extrae una muestra aleatoria de tamaño \(n\) de una población normal con media \(\mu\) y varianza \(\sigma^2\), y se calcula la varianza muestral, se obtiene un valor del estadístico \(S^2\).
Procederemos a considerar la distribución del estadístico \(\frac{(n-1)S^2}{\sigma^2}\).
Si \(S^2\) es la varianza de una muestra aleatoria de tamaño \(n\) que se toma de una población normal que tiene la varianza \(\sigma^2\), entonces el estadístico
\[\chi^2=\dfrac{(n-1)S^2}{\sigma^2}=\sum_{i=1}^{n}\left( \dfrac{X_i-\bar{X}}{\sigma} \right)^2\] tiene una distribución chi cuadrada con \(v = n - 1\) grados de libertad.
El estadístico \(F\) se define como el cociente de dos variables aleatorias chi cuadrada independientes, dividida cada una entre su número de grados de libertad. En consecuencia, se puede escribir
\[F=\dfrac{U/v_1}{V/v_2}\] donde \(U\) y \(V\) son variables aleatorias independientes que tienen distribuciones chi cuadrada con \(v_1\) y \(v_2\) grados de libertad, respectivamente.
Teorema:
Si \(S^2_1\) y \(S^2_2\) son las varianzas de muestras aleatorias independientes de tamaño \(n_1\) y \(n_2\) tomadas de poblaciones normales con varianzas \(\sigma^2_1\) y \(\sigma^2_2\), respectivamente, entonces,
\[F=\dfrac{S^2_1/\sigma^2_1}{S^2_2/\sigma^2_2}=\dfrac{\sigma^2_2 S^2_1}{\sigma^2_1 S^2_2}\]
tiene una distribución \(F\) con \(v_1 = n_1-1\) y \(v_2 = n_2 - 1\) grados de libertad.
Al escribir \(f_\alpha(v_1, v_2)\) para \(f_\alpha\) con \(v_1\) y \(v_2\) grados de libertad, obtenemos
\[f_{1-\alpha}(v_1 , v_2)=\dfrac{1}{f_\alpha(v_2 ,v_1)}.\]
Sea \(X\) una variable aleatoria de interés en un experimento aleatorio, y supongamos que \(X\) tiene una distribución de probabilidad con función de densidad \(f(x;\theta)\), en donde \(\theta\) es el parámetro o el conjunto de parámetros de la distribución. El problema de estimación puntual consiste en encontrar un número, con base en las observaciones realizadas de la variable aleatoria, que sirva como estimación del parámetro desconocido \(\theta\). Ilustraremos el problema con un par de ejemplos.
Se desea conocer el estado de la calidad de un conjunto de 1000 artículos. Dada la imposibilidad de someter a prueba a todos ellos, se escogen 20 artículos al azar obteniéndose los siguientes resultados: \(0,1,1,0,1,1,0,1,0,1,1,1,0,1,1,1,1,1,1,0\), en donde cero indica que el artículo no pasó el control de calidad y uno indica que el artículo pasó el control de calidad. Suponga que \(X\) es la variable que indica si un artículo escogido al azar pasa o no pasa el control de calidad. Entonces \(X\) tiene una distribución \(Ber(p)\), en donde \(p\) es desconocido. ¿Cómo podría estimarse el verdadero valor de \(p\) con base en los datos de la muestra?
El tiempo en minutos que un conjunto de 10 empleados escogidos al azar invierte en trasladarse de la casa al lugar de trabajo es: \(30,70,65,10,25,15,5,50,20,15.\) Suponga que tal variable puede modelarse mediante la distribución \(exp(\lambda)\). ¿Cómo podría estimarse el valor de \(\lambda\) con base en las observaciones realizadas?
Un estimador puntual para el parámetro \(\theta\) es una función de una muestra aleatoria \(X_1, \ldots ,X_n\) que se usa para estimar \(\theta\).
Una estadística o un estadístico es una función cualquiera de una muestra aleatoria \(X_1, \ldots ,X_n\), y por lo tanto es también una variable aleatoria.
Un estimador \(\hat{\theta}\) del parámetro \(\theta\) es insesgado si \(E(\hat{\theta}) = \theta\).
Si \(\hat{\theta}\) no es insesgado, entonces se dice que es sesgado, y a la diferencia \(E(\hat{\theta}) - \theta\) se le llama sesgo.
Se dice que un estimador es más eficiente o más preciso que otro estimador, si la varianza del primero es menor que la del segundo. Nota: Consular el teorema de Cramér-Rao
Un estimador \(\hat{\theta}\) consistente es un estimador asintóticamente insesgado cuando
\[\lim\limits_{n \to \inf} E(\hat{\theta})=\theta \ \text{y} \ \lim\limits_{n \to \inf} V(\hat{\theta})=0\]
Si consideramos todos los posibles estimadores insesgados de algún parámetro \(\theta\), al que tiene la menor varianza lo llamamos estimador más eficaz de \(\theta\).
A un estimador del parámetro \(\theta\) se le denota regularmente por \(\hat{\theta}\) (se lee “teta gorro”). Observe que un estimador puntual es una estadística y puede escribirse como \(\hat{\theta} = \hat{\theta}(X_1, \ldots ,X_n)\).
Veremos a continuación dos métodos para encontrar estimadores puntuales.
Sea \(f(x;\theta)\) la función de densidad de una variable aleatoria \(X\) que depende de un parámetro desconocido \(\theta\). Recordemos que el \(k-\)ésimo momento población de \(X\) es el número \(E(X^k)\), cuando esta esperanza existe. Ahora, dada una muestra aleatoria \(X_1, \ldots ,X_n\) de esta distribución, se define el \(k-\)ésimo momento muestral como \(\frac{1}{n}\sum_{i=1}^{n}X^k_i\).
El método de momentos para estimar el parámetro \(\theta\) es muy sencillo, consiste en igualar los momentos muestrales con los correspondientes momentos poblacionales, y resolver esta ecuación o sistema de ecuaciones para el parámetro \(\theta\) cuando ello sea posible.
Demostrar que \(\bar{X}\) es un estimador insesgado para el parámetro \(\mu\).
Demuestre que \(S^2\) es un estimador insesgado del parámetro \(\sigma^2\).
Sea \(X\) una variable aleatoria discreta con función de probabilidad dada por: \(P(X=0)=\theta\), \(P(X=1)=2\theta\) y \(P(X=2)=1-3\theta\). Para estimar \(\theta\), se tomó una muestra aleatoria de tamaño \(n=4\) que arrojó los siguientes valores: \(0,1,2,2\). El estimador para \(\theta\) por el método de momentos es:
Sea \(\alpha \in (0, 1)\). Un intervalo de confianza para un parámetro desconocido \(\theta\) de una distribución de probabilidad es un intervalo aleatorio de la forma \((\hat{\theta}_1, \hat{\theta}_2)\), en donde \((\hat{\theta}_1\) y \(\hat{\theta}_2)\) son estadísticas (funciones de una muestra aleatoria) tales que
\[P(\hat{\theta}_1 < \theta < \hat{\theta}_2) = 1-\alpha.\]