Estas notas están elaboradas a partir de los apuntes de la materia “Estadística Aplicada I”, impartida por el Prof. Sergio E. Pereda E. durante el semestre Agosto-Diciembre de 2000 en el ITAM.
La tarea fundamental de la Estadística, sacar conclusiones a partir de datos observados, depende desde luego de que se cuente con los datos en cuestión. Para ello, si lo planteamos de manera muy simplista, tenemos (al menos en teoría) dos alternativas: recoger todos los datos relativos al problema que estamos estudiando, o bien, recoger un subconjunto de la totalidad de los datos que nos permita conocer razonablemente bien nuestro problema. En el primer caso, estaríamos hablando de realizar un censo; en el segundo, de levantar una muestra.
Obtener datos a través de muestras tiene, desde luego, la desventaja (aparentemente) de que aún con la información recogida habrá incertidumbre respecto del valor real de las características del fenómeno que estamos estudiando. En otras palabras, podemos solamente estimar las características. Por otra parte, tienen también claras ventajas: los costos en tiempo y recursos pueden ser mucho menores que los de realizar un censo, pero incluso en ocasiones, por la naturaleza propia del fenómeno que queremos estudiar, realizar un censo puede ser materialmente imposible.
Como ya se mencionó, se utiliza el muestreo cuando necesitamos recabar información y, por algún motivo, no es posible o conveniente recabar todos los datos, es decir, realizar un censo. Para entender qué es el muestreo y qué tipo de muestreo nos interesa, primero debemos establecer algunas definiciones.
Para el correcto levantamiento de una muestra, es muy importante observar que la unidad muestral debe estar inequívocamente definida, y las unidades muestrales deben ser mutuamente excluyentes (si se trata de unidades con componentes, los componentes de dichas unidades deben pertenecer a una y solo una unidad muestral).
La selección de una muestra se puede realizar de múltiples maneras pudiendo distinguir de manera fundamental entre los métodos de selección aleatorios de los métodos no aleatorios. Seleccionar una muestra en forma aleatoria tiene dos grandes ventajas:
Permite asegurar que la muestra representa razonablemente bien a la población (decimos, en ese caso, que se trata de una muestra representativa), sin importar el tipo de distribución aleatoria que siga la característica de interés.
Permite tener una medida de precisión de las estimaciones que se realicen respecto de la población.
En este sentido, si \(\hat{X}\) es la característica observada en la muestra (estimada a partir de los datos obtenidos en la muestra), a la cual consideraremos como un estimador de \(X\), la característica observada en la población, podemos entonces calcular su:
Exactitud: \(X - E[\hat{X}]\);
Precisión: \(\hat{X} - E[\hat{X}]\);
Error cuadrático medio: \(E^2[\hat{X}] + Var[\hat{X}]\).
La exactitud y precisión de los estimadores muestrales dependerá, en gran medida, de qué tan bien la muestra recogida representa a la totalidad de la población. Pero es importante observar que, aún cuando la exactitud del estimador sea pobre, es posible que una muestra bien levantada sea confiable. Por otro lado, no sería raro toparnos con estimaciones muy precisas pero poco confiables.
El diseño de una muestra está compuesto por dos elementos:
El esquema de muestreo: es decir, la manera en la que se seleccionará a las unidades muestrales, y
El método de estimación: la manera en la que se elaborarán los estimadores de interés.
Decimos que un esquema de muestreo es aleatorio si la probabilidad de selección de cada unidad experimental es conocida y mayor a cero.
La característica que define a un muestreo aleatorio simple es que todas las muestras de tamaño \(n\) de una población de tamaño \(N\) tienen la misma probabilidad de ser seleccionadas, \(\frac{1}{C^N_n}\).