Definiciones

Row

Colección de todas los elementos bajo estudio

Población objetivo

Es cualquier subconjunto de la población

Muestra

Elemento a ser seleccionado en la muestra

Unidad muestral

Elemento sobre el que se realiza la observación

Unidad de observación

Column

Características de una encuesta

Objetivo:

Inferir, con base en una encuesta, información acerca de una población bajo estudio.

Variables de interés:

Información para aproximarse a los valores poblacionales, fijos y constantes denominados parametros

Algoritmo de muestreo

Mecánismo para la selección de los elemnetos de la población para ser parte de la muestra.

Muestra probabilística

Muestra cuyo esquema de selección garantiza el conocimiento de todas las probabilidades de selección de cada muestra

Observación de elementos

Todo elemento en la muetra es observado y medido de acuerdo con las variable de interés

Cálculo de estimaciones

Los valores de las variables recolectados son usados para realizar estimaciones

Publicación

Las estimaciones son finalmente publicadas, y son útiles en la toma de decisiones.

Ciclo de vida de una encuesta

Búsqueda de constructores

La búsqueda de ideas abstractas acerca de las cuales se desea inferir

Medición

Lo ideal es elaborar preguntas que apunten a medir los constructores

Respuesta

Es clave por ser el entrevistado quien asume el rol de dar la información de acuerdo a su criterio

Edición

Intento por encontrar datos atípicos y revisar la coherencia de la información a fin de tener la mejor medida posible

Análisis y entrega de resultados

Obtención y publicación de estimaciones que arrojen información relevante acerca del objetivo de la investigación

Column

Marco de muestreo

En este tipo de investigaciones se consideran dos tipos de objetos:

Elementos

Unidades individuales sobre las que realizar la medición

Conglomerados

Unidades colectivas homogéneas en su interior, o dentro de ellas, y heterogéneas entre ellas

Marcos de muestreo y características

Row

De lista y de área

Variable de interés

Investigación estadística, cuyo objetivo es la estimación

Encuesta

Marco de lista

Son cualquier tipo de dispositivo, en formato de listado, que permita identificar y ubicar a los elementos de la población bajo estudio a fin de seleccionar sus elementos como parte de una muestra aleatoria.

Marco de área

Son cualquier tipo de dispositivo, en formato cartográfico, que permita identificar y ubicar a los elementos de la población bajo estudio a fin de seleccionar sus elementos como parte de una muestra aleatoria.

Column

Generalidades del marco

Un marco muestral tiene, entre otras, las siguientes características:

Cualidades

  • Toda unidad de la población está incluida en el marco muestral.

  • Toda unidad solo aparece una vez.

  • No incluye elementos erróneamente clasificados como parte de la población objetivo.

Idealmente

Tiene las mismas cualidades de un buen marco muestral, y además:

  • Las unidades cuentan con información tanto de la variable de interés como de variables adicionales.

  • Permite identificar subconjuntos para los que se requieren estimadores con precisión y confianza.

  • Construir subconjuntos que faciliten el control operativo y aprovechen mejor el tamaño de muestra.

  • Incluye variables que permiten asignar probabilidades y que mejore el proceso de selección.

  • Controlar los costos y el error reduciendo la dispersión de la muestra.

Defectos

Un marco de muestreo es defectuoso si presenta alguna de las siguientes características

  • Subcobertura: Caso en el cual elementos que hacen parte de la población no forman parte del marco de muestreo

  • Sobrecobertura: Caso en el cual elementos que no hacen parte de la población forman parte del marco de muestreo

  • Duplicados: Caso en el cual aparecen de forma múltiple elementos que son parte de la población

Muestras probabilísticas y estimadores

Row

Secuencia alfanumérica de letras y dígitos

Identificador

Información que permite la ubicación del elemento en cuestión

Ubicación

Muestras probabilìsticas y estimadores

El muestreo se enfoca en poblaciones finitas principalmente, y aunque existen soluciones muestrales para poblaciones infinitas; estas raramente se encuentran en el campo aplicado.

Column

Poblacion y muestra

Población finita

  • Partiendo de un conjunto de elementos \(\left\{e_1,e_2,\ldots,e_N\right\}\). Se define el Universo como \(U=\left\{1,2,\ldots,N\right\}\)

  • El tamaño de la poblacion puede llegar a ser desconocido

  • El universo esta conformado por \(N<\infty\) elementos

  • En algunas investigaciones el objetivo es estimar el tamaño de la población \(N\)

Muestra aleatoria

Cualquier subconjunto de la población elegido mediante un mecanísmo aleatorio o estadístico corresponde a una muestra; se denota por \(S\) a la variable aleatoria y por \(s\) a una muestra en patícular obtenida

\[s=\left\{1,2,\ldots,n(S)\right\}\]

Al cardinal de \(s\) se le denomina tamaño de la muestra, y éste puede ser aleatorio; mientras que al conjunto de todas las muestras posibles se le llama soporte

  • Muestra aleatorio sin reeemplazo

Se define como un vector columna:

\[s=\left(s_1,s_2,\ldots,s_N\right)^t\in\left\{0,1\right\}\]

en donde \(s_k\) es igual a uno si el elemento pertenece a la muestra y cero sino

\[n(S)=\sum_{k\in{s}}1\]

Si la muestra contiene todos los elementos de la Población, entonces la muestra es un censo.

  • Muestra aleatorio sin reeemplazo

Se define como un vector columna:

\[s=\left(s_1,s_2,\ldots,s_N\right)^t\in\mathbf{N}^N\]

en donde \(s_k\) es igual al número de veces que el elemento \(k\)-ésimo pertenece a la muestra

\[n(S)=\sum_{k=1}^{m}1\]

Si un elemento es seleccionado más de una vez en la muestra se le llama repetido.

Soporte de muestreo \(Q\)

Esta definido como un conjunto de muestras; se tienen dos distinciones básicas:

  • Tipo de muestreo: Selección de unidades con reemplazo o sin reeemplazo

  • Tamaño de muestra: Tamaño de muestra fijo o aleatorio

Un soporte se llama simétrico si para cualquier \(s{\in}Q\) todas las permutaciones de \(s\) también son elementos de \(Q\). Algunos ejemplos son los siguientes:

- Soporte simétrico sin reemplazo

\[\mathcal{S}=\left\{0, 1\right\}^N\]

\[\#\left(\mathcal{S}\right)=2^N\]

\[N=3{\implies}\mathcal{S}=\left\{\left(0,0,0\right),\left(1,0,0\right),\left(0,1,0\right),\left(0,0,1\right),\left(1,1,0\right),\left(0,1,1\right),\left(1,0,1\right),\left(1,1,1\right)\right\}\]

- Soporte simétrico sin reemplazo de tamaño fijo

\[\mathcal{S}_n=\left\{s{\in}\mathcal{S}| \sum_{k{\in}U}s_k=n\right\}\]

\[\#\left(\mathcal{S}\right)=\binom{N}{n}\]

\[N=3,n=2{\implies}\mathcal{S}=\left\{\left(1,0,1\right),\left(0,1,1\right),\left(1,1,0\right)\right\}\]

- Soporte simétrico con reemplazo de tamaño fijo

\[\mathcal{R}_n=\left\{s{\in}\mathcal{R}| \sum_{k{\in}U}s_k=m\right\}\]

\[\#\left(\mathcal{R}\right)=\binom{N+m-1}{m}\]

\[N=3,n=2{\implies}\mathcal{S}=\left\{\left(1,0,1\right),\left(0,1,1\right),\left(1,1,0\right),\left(2,0,0\right),\left(0,2,0\right),\left(0,0,2\right)\right\}\]

- Geométricamente cada vector s representa el vértice de un N-cubo y además:

\[S,S_n\text{ y }\mathbf{R}_n\text{ son soportes simétricos}\]

\[S{\subset}\mathbb{N}^{n}\]

\[\left\{\mathcal{S}_0,\mathcal{S}_1,\ldots,\mathcal{S}_\mathbb{N}\right\}\text{ es una partición de }\mathcal{S}\]

\[\left\{\mathcal{R}_0,\mathcal{R}_1,\ldots\right\}\text{ es una partición infinita de }\mathbb{N}^{N}\]

\[S{\in}\mathbb{N}^{n}\text{ para todo }n=0,1,\ldots,N\]

Muestras probabilísticas

Una muestra, con o sin reemplazo, es probabilística si:

  • Es posible construir o definir desde un punto de vista teórico un soporte \(Q=\left\{s_1,\ldots,s_Q\right\}\) de todas las muestras posibles obtenidas de acuerdo a algún método de selección; en donde \(s_q{\in}Q\) con \(q=1,2,\ldots,Q\).

  • Las probabilidades de selección que el proceso aleatorio otorga a cada una de las muestras en el soporte es conocido previamente a la selección de la muestra final.

Sin marco de muestreo es imposible realizar un muestreo probabilístico aún cuando se realicen métodos aleatorios de inclusión de elementos a menos que se trate de un censo, además si la muestra no es de tipo probabilístico no es factible construir estimaciones del tipo probabilístico y cualquier daño resultante de una mala práxis del muestreo estadístico será responsabilidad del estadístico bien sea por ignorancia o por comodidad.

Diseño de muestreo

\[{\forall}_{s{\in}Q}Pr\left(S=s\right)=p(s){\implies}p(\cdot)\text{ es un diseño de muestreo}\]

Se define un diseño de muestreo \(p(\cdot)\) sobre un soporte \(Q\) como una distribución de probabilidad multivariada sobre \(Q\), es decir, \(p(\cdot)\) es una función tal que:

  • \(p:Q^2{\rightarrow}(0,1]\)

  • \({\forall}_{s{\in}Q}p(s){\geq}0\)

  • \(\sum_{s{\in}Q}p(s)=1\)

Estimadores de muestreo

Resumen del marco de datos

library(TeachingSampling)
data(Lucy)
summary(Lucy[,3:ncol(Lucy)])
    Level      Zone        Income         Employees          Taxes       
 Big   :  83   A:307   Min.   :   1.0   Min.   :  1.00   Min.   :  0.50  
 Medium: 737   B:727   1st Qu.: 230.0   1st Qu.: 38.00   1st Qu.:  2.00  
 Small :1576   C:974   Median : 390.0   Median : 63.00   Median :  7.00  
               D:223   Mean   : 432.1   Mean   : 63.42   Mean   : 11.96  
               E:165   3rd Qu.: 576.0   3rd Qu.: 84.00   3rd Qu.: 15.00  
                       Max.   :2510.0   Max.   :263.00   Max.   :305.00  
  SPAM     
 no : 937  
 yes:1459  
           
           
           
           

Variables del marco

colnames(Lucy)
[1] "ID"        "Ubication" "Level"     "Zone"      "Income"    "Employees"
[7] "Taxes"     "SPAM"     

Description

This data set corresponds to a random sample of BigLucy. It contains some financial variables of 2396 industrial companies of a city in a particular fiscal year.

Format

  • ID: The identifier of the company. It correspond to an alphanumeric sequence (two letters and three digits)

  • Ubication: The address of the principal office of the company in the city

  • Level: The industrial companies are discrimitnated according to the Taxes declared. There are small, medium and big companies

  • Zone: The city is divided by geoghrafical zones. A company is classified in a particular zone according to its address

  • Income: The total ammount of a company’s earnings (or profit) in the previuos fiscal year. It is calculated by taking revenues and adjusting for the cost of doing business

  • Employees: The total number of persons working for the company in the previuos fiscal year

  • Taxes: The total ammount of a company’s income Tax

  • SPAM: Indicates if the company uses the Internet and WEBmail options in order to make self-propaganda.

Marco de datos

Lucy %>% datatable()

Estimación del total poblacional

total <- function(x){length(x)*mean(x)}
total(Income); total(Employees); total(Taxes)
[1] 1035217
[1] 151950
[1] 28653.5
tapply(Income, Level, total)
   Big Medium  Small 
103706 487351 444160 
xtabs(Income ~ SPAM + Level) %>% formattable()
     Level
SPAM  Big    Medium Small 
  no   31914 190852 175186
  yes  71792 296499 268974

Muestras probabilísticas

Row

Población y muestra aleatoria

Población finita

Muestra aleatoria

Población finita

Estimadores de muestreo

Bibliografia

Glass, G. V., Stanley, J. C., Gómez, E. G., & Guzmán, E. (1986). Métodos estadísticos aplicados a las ciencias sociales. Prentice-Hall Hispanoamericana.

Ruiz, C. Q. (1993). Elementos de inferencia estadística. Editorial Universidad de Costa Rica.

Gomez Villegas, M. A. (2005). Inferencia estadística. Ediciones Díaz de Santos

Osuna, J. R., Ferreras, M. L., & Núñez, A. (1991). Inferencia estadística, niveles de precisión y diseño muestral. Reis, (54), 139-162.

Inzunsa Cazares, S. (2010). Entornos virtuales de aprendizaje: un enfoque alternativo para la enseñanza y aprendizaje de la inferencia estadística. Revista mexicana de investigación educativa, 15(45), 423-452.

Vargas Biesuz, B. E. (2014). Tópicos de inferencia estadística: El método inductivo y el problema del tamaño de la muestra. Fides et Ratio-Revista de Difusión cultural y científica de la Universidad La Salle en Bolivia, 7(7), 86-92.

Alvarado, H., Galindo, M., & Retamal, L. (2013). Comprensión de la distribución muestral mediante configuraciones didácticas y su implicación en la inferencia estadística. Enseñanza de las Ciencias, 31(2), 0075-91.

Gómez, D., Condado, J., Adriazola, Y., & Solano, O. (2005). Introducción a la inferencia estadística.