Inferir, con base en una encuesta, información acerca de una población bajo estudio.
Información para aproximarse a los valores poblacionales, fijos y constantes denominados parametros
Mecánismo para la selección de los elemnetos de la población para ser parte de la muestra.
Muestra cuyo esquema de selección garantiza el conocimiento de todas las probabilidades de selección de cada muestra
Todo elemento en la muetra es observado y medido de acuerdo con las variable de interés
Los valores de las variables recolectados son usados para realizar estimaciones
Las estimaciones son finalmente publicadas, y son útiles en la toma de decisiones.
La búsqueda de ideas abstractas acerca de las cuales se desea inferir
Lo ideal es elaborar preguntas que apunten a medir los constructores
Es clave por ser el entrevistado quien asume el rol de dar la información de acuerdo a su criterio
Intento por encontrar datos atípicos y revisar la coherencia de la información a fin de tener la mejor medida posible
Obtención y publicación de estimaciones que arrojen información relevante acerca del objetivo de la investigación
En este tipo de investigaciones se consideran dos tipos de objetos:
Unidades individuales sobre las que realizar la medición
Unidades colectivas homogéneas en su interior, o dentro de ellas, y heterogéneas entre ellas
Son cualquier tipo de dispositivo, en formato de listado, que permita identificar y ubicar a los elementos de la población bajo estudio a fin de seleccionar sus elementos como parte de una muestra aleatoria.
Son cualquier tipo de dispositivo, en formato cartográfico, que permita identificar y ubicar a los elementos de la población bajo estudio a fin de seleccionar sus elementos como parte de una muestra aleatoria.
Un marco muestral tiene, entre otras, las siguientes características:
Toda unidad de la población está incluida en el marco muestral.
Toda unidad solo aparece una vez.
No incluye elementos erróneamente clasificados como parte de la población objetivo.
Tiene las mismas cualidades de un buen marco muestral, y además:
Las unidades cuentan con información tanto de la variable de interés como de variables adicionales.
Permite identificar subconjuntos para los que se requieren estimadores con precisión y confianza.
Construir subconjuntos que faciliten el control operativo y aprovechen mejor el tamaño de muestra.
Incluye variables que permiten asignar probabilidades y que mejore el proceso de selección.
Controlar los costos y el error reduciendo la dispersión de la muestra.
Un marco de muestreo es defectuoso si presenta alguna de las siguientes características
Subcobertura: Caso en el cual elementos que hacen parte de la población no forman parte del marco de muestreo
Sobrecobertura: Caso en el cual elementos que no hacen parte de la población forman parte del marco de muestreo
Duplicados: Caso en el cual aparecen de forma múltiple elementos que son parte de la población
El muestreo se enfoca en poblaciones finitas principalmente, y aunque existen soluciones muestrales para poblaciones infinitas; estas raramente se encuentran en el campo aplicado.
Partiendo de un conjunto de elementos \(\left\{e_1,e_2,\ldots,e_N\right\}\). Se define el Universo como \(U=\left\{1,2,\ldots,N\right\}\)
El tamaño de la poblacion puede llegar a ser desconocido
El universo esta conformado por \(N<\infty\) elementos
En algunas investigaciones el objetivo es estimar el tamaño de la población \(N\)
Cualquier subconjunto de la población elegido mediante un mecanísmo aleatorio o estadístico corresponde a una muestra; se denota por \(S\) a la variable aleatoria y por \(s\) a una muestra en patícular obtenida
\[s=\left\{1,2,\ldots,n(S)\right\}\]
Al cardinal de \(s\) se le denomina tamaño de la muestra, y éste puede ser aleatorio; mientras que al conjunto de todas las muestras posibles se le llama soporte
Se define como un vector columna:
\[s=\left(s_1,s_2,\ldots,s_N\right)^t\in\left\{0,1\right\}\]
en donde \(s_k\) es igual a uno si el elemento pertenece a la muestra y cero sino
\[n(S)=\sum_{k\in{s}}1\]
Si la muestra contiene todos los elementos de la Población, entonces la muestra es un censo.
Se define como un vector columna:
\[s=\left(s_1,s_2,\ldots,s_N\right)^t\in\mathbf{N}^N\]
en donde \(s_k\) es igual al número de veces que el elemento \(k\)-ésimo pertenece a la muestra
\[n(S)=\sum_{k=1}^{m}1\]
Si un elemento es seleccionado más de una vez en la muestra se le llama repetido.
Esta definido como un conjunto de muestras; se tienen dos distinciones básicas:
Tipo de muestreo: Selección de unidades con reemplazo o sin reeemplazo
Tamaño de muestra: Tamaño de muestra fijo o aleatorio
Un soporte se llama simétrico si para cualquier \(s{\in}Q\) todas las permutaciones de \(s\) también son elementos de \(Q\). Algunos ejemplos son los siguientes:
- Soporte simétrico sin reemplazo
\[\mathcal{S}=\left\{0, 1\right\}^N\]
\[\#\left(\mathcal{S}\right)=2^N\]
\[N=3{\implies}\mathcal{S}=\left\{\left(0,0,0\right),\left(1,0,0\right),\left(0,1,0\right),\left(0,0,1\right),\left(1,1,0\right),\left(0,1,1\right),\left(1,0,1\right),\left(1,1,1\right)\right\}\]
- Soporte simétrico sin reemplazo de tamaño fijo
\[\mathcal{S}_n=\left\{s{\in}\mathcal{S}| \sum_{k{\in}U}s_k=n\right\}\]
\[\#\left(\mathcal{S}\right)=\binom{N}{n}\]
\[N=3,n=2{\implies}\mathcal{S}=\left\{\left(1,0,1\right),\left(0,1,1\right),\left(1,1,0\right)\right\}\]
- Soporte simétrico con reemplazo de tamaño fijo
\[\mathcal{R}_n=\left\{s{\in}\mathcal{R}| \sum_{k{\in}U}s_k=m\right\}\]
\[\#\left(\mathcal{R}\right)=\binom{N+m-1}{m}\]
\[N=3,n=2{\implies}\mathcal{S}=\left\{\left(1,0,1\right),\left(0,1,1\right),\left(1,1,0\right),\left(2,0,0\right),\left(0,2,0\right),\left(0,0,2\right)\right\}\]
- Geométricamente cada vector s representa el vértice de un N-cubo y además:
\[S,S_n\text{ y }\mathbf{R}_n\text{ son soportes simétricos}\]
\[S{\subset}\mathbb{N}^{n}\]
\[\left\{\mathcal{S}_0,\mathcal{S}_1,\ldots,\mathcal{S}_\mathbb{N}\right\}\text{ es una partición de }\mathcal{S}\]
\[\left\{\mathcal{R}_0,\mathcal{R}_1,\ldots\right\}\text{ es una partición infinita de }\mathbb{N}^{N}\]
\[S{\in}\mathbb{N}^{n}\text{ para todo }n=0,1,\ldots,N\]
Una muestra, con o sin reemplazo, es probabilística si:
Es posible construir o definir desde un punto de vista teórico un soporte \(Q=\left\{s_1,\ldots,s_Q\right\}\) de todas las muestras posibles obtenidas de acuerdo a algún método de selección; en donde \(s_q{\in}Q\) con \(q=1,2,\ldots,Q\).
Las probabilidades de selección que el proceso aleatorio otorga a cada una de las muestras en el soporte es conocido previamente a la selección de la muestra final.
Sin marco de muestreo es imposible realizar un muestreo probabilístico aún cuando se realicen métodos aleatorios de inclusión de elementos a menos que se trate de un censo, además si la muestra no es de tipo probabilístico no es factible construir estimaciones del tipo probabilístico y cualquier daño resultante de una mala práxis del muestreo estadístico será responsabilidad del estadístico bien sea por ignorancia o por comodidad.
\[{\forall}_{s{\in}Q}Pr\left(S=s\right)=p(s){\implies}p(\cdot)\text{ es un diseño de muestreo}\]
Se define un diseño de muestreo \(p(\cdot)\) sobre un soporte \(Q\) como una distribución de probabilidad multivariada sobre \(Q\), es decir, \(p(\cdot)\) es una función tal que:
\(p:Q^2{\rightarrow}(0,1]\)
\({\forall}_{s{\in}Q}p(s){\geq}0\)
\(\sum_{s{\in}Q}p(s)=1\)
Level Zone Income Employees Taxes
Big : 83 A:307 Min. : 1.0 Min. : 1.00 Min. : 0.50
Medium: 737 B:727 1st Qu.: 230.0 1st Qu.: 38.00 1st Qu.: 2.00
Small :1576 C:974 Median : 390.0 Median : 63.00 Median : 7.00
D:223 Mean : 432.1 Mean : 63.42 Mean : 11.96
E:165 3rd Qu.: 576.0 3rd Qu.: 84.00 3rd Qu.: 15.00
Max. :2510.0 Max. :263.00 Max. :305.00
SPAM
no : 937
yes:1459
[1] "ID" "Ubication" "Level" "Zone" "Income" "Employees"
[7] "Taxes" "SPAM"
This data set corresponds to a random sample of BigLucy. It contains some financial variables of 2396 industrial companies of a city in a particular fiscal year.
ID: The identifier of the company. It correspond to an alphanumeric sequence (two letters and three digits)
Ubication: The address of the principal office of the company in the city
Level: The industrial companies are discrimitnated according to the Taxes declared. There are small, medium and big companies
Zone: The city is divided by geoghrafical zones. A company is classified in a particular zone according to its address
Income: The total ammount of a company’s earnings (or profit) in the previuos fiscal year. It is calculated by taking revenues and adjusting for the cost of doing business
Employees: The total number of persons working for the company in the previuos fiscal year
Taxes: The total ammount of a company’s income Tax
SPAM: Indicates if the company uses the Internet and WEBmail options in order to make self-propaganda.
[1] 1035217
[1] 151950
[1] 28653.5
Big Medium Small
103706 487351 444160
Level
SPAM Big Medium Small
no 31914 190852 175186
yes 71792 296499 268974
Glass, G. V., Stanley, J. C., Gómez, E. G., & Guzmán, E. (1986). Métodos estadísticos aplicados a las ciencias sociales. Prentice-Hall Hispanoamericana.
Ruiz, C. Q. (1993). Elementos de inferencia estadística. Editorial Universidad de Costa Rica.
Gomez Villegas, M. A. (2005). Inferencia estadística. Ediciones Díaz de Santos
Osuna, J. R., Ferreras, M. L., & Núñez, A. (1991). Inferencia estadística, niveles de precisión y diseño muestral. Reis, (54), 139-162.
Inzunsa Cazares, S. (2010). Entornos virtuales de aprendizaje: un enfoque alternativo para la enseñanza y aprendizaje de la inferencia estadística. Revista mexicana de investigación educativa, 15(45), 423-452.
Vargas Biesuz, B. E. (2014). Tópicos de inferencia estadística: El método inductivo y el problema del tamaño de la muestra. Fides et Ratio-Revista de Difusión cultural y científica de la Universidad La Salle en Bolivia, 7(7), 86-92.
Alvarado, H., Galindo, M., & Retamal, L. (2013). Comprensión de la distribución muestral mediante configuraciones didácticas y su implicación en la inferencia estadística. Enseñanza de las Ciencias, 31(2), 0075-91.
Gómez, D., Condado, J., Adriazola, Y., & Solano, O. (2005). Introducción a la inferencia estadística.