Insesgadez de la media muestral

Inspirado en la clase de Econometria I de la Dr. Marisol Luna Contreras

Author

Tidyverso

Published

January 19, 2023

Introducción

Ante la imposibilidad de medir los fenómenos de interés a nivel poblacional, surge la inferencia estadística como tecnica analitica para conocer con cierto grado de probabilidad los parámetros poblacionales a partir de estadísticos muestrales.
Uno de los desarrollos teóricos que sostiene a estas técnicas de análisis son las propiedades de los estimadores, estas garantizan patrones de comportamiento o “grados de ajuste” entre lo que obtenemos de la muestra y lo que obtendríamos de la población.
A continuación abordaremos a partir de un ejemplo la propiedad de insesgadez de la media muestral y de las proporciones en variables categóricas.

Insesgadez

Decimos que el estimador media muestral (\bar{X}) es un estimador insesgado de la media poblacional \mu si la esperanza matemática de la media muestral es igual a la media poblacional, en notación matemática: E(\bar{X}) = \mu

Razonamiento de la fórmula E(\bar{X}) = \mu

Si tenemos en cuenta parte de la lógica de variables aleatorias, es correcto afirmar que la media muestral es solo uno de los posibles valores que obtendríamos en un proceso de muestreo aleatorio, pues existe la posibilidad de que cada vez que tomemos una muestra obtengamos una muestra distinta, por lo tanto, suponiendo que podemos obtener todas las muestras posibles de una población y reemplazando E(\bar{X}) por su forma expandida en la expresión anterior, tendríamos que:

\bar{X}_{1}*P(X_{1})+\bar{X}_{2}*P(X_{2})+\bar{X}_{3}*P(X_{3})+...+\bar{X}_{n}*P(X_{n}) = \mu Siendo n el total de muestras posibles que se pueden obtener de la población

La expresión anterior se lee como:

la media muestral de X_{1} por la probabilidad de obtener la muestra X_{1}, más la media muestral X_{2} por la probabilidad de obtener la muestra X_{2}, más la media muestral X_{3} por la probabilidad de obtener X_{3} … más la media muestral X_{n} por la probabilidad de obtener X_{n}, es igual a la media poblacional \mu.

Es análoga a la expresión:

\sum_{i=1}^{n}\bar{X}_{i}*P(X_{i})=\mu Que se lee como:

la suma desde i = 1 hasta n de la media muestral X_{i} por la probabilidad de obtener la muestra X_{i}, es igual a la media poblacional \mu.

Ejemplo

Demostraremos la propiedad anterior a partir de un ejemplo en el que tenemos una población de 6 unidades de observación, dichas observaciones corresponden a hogares y los datos corresponden al ingreso salarial y al sexo del jefe de hogar de cada una de las observaciones, trabajaremos con un tamaño de muestra de n = 3.
Para demostrar la propiedad de insesgadez del estimador debemos:

Determinar la cantidad total de muestras posibles que responde al combinatorio C_{3}^{6}.
Obtener el total de muestras posibles de n = 3.
Calcular la media de ingresos de cada una de las muestras obtenidas.
Calcular E(\bar{X}) como la suma ponderada presentada en el apartado anterior.
Verificar que E(\bar{X}) es igual a \mu.

A continuación se presenta la tabla de datos y el desarrollo de cada uno de estos 5 puntos.

Tabla con datos Poblacionales

poblacion <- tibble(Hogar = c(1:6),
                    Ing_Mensual = c(1942.80,4662.72,6799.80,7771.20,9714,11656.80),
                    jefe_hogar = c(1,0,1,1,0,1))

poblacion

# A tibble: 6 × 3
  Hogar Ing_Mensual jefe_hogar
  <int>       <dbl>      <dbl>
1     1       1943.          1
2     2       4663.          0
3     3       6800.          1
4     4       7771.          1
5     5       9714           0
6     6      11657.          1

Desarrollo del ejemplo:

1. Número de muestras posibles

La cantidad de muestras diferentes de tamaño 3 que podemos obtener de una población de tamaño 6, es igual al combinatorio de 3 en 6, formalmente expresado como:

C_{3}^{6} = \frac{6!}{3!(6 - 3)!} = \frac{6*5*4*3*2*1}{3*2*1(3*2*1)}=\frac{6*5*4}{3*2*1}=\frac{120}{6}=20

2. Obtención de muestras posibles

En R, podemos realizar este cálculo de manera simple a partir del uso de la función combn(), cuyos argumentos son:

x = vector de valores posibles.
m = tamaño de muestra a obtener.

Lo ejecutaremos asignando a x la variable poblacion$Hogar y estableciendo un m = 3 y lo guardamos en un objeto llamado “muestras”

muestras <- combn(x = poblacion$Hogar, m = 3, simplify = F)

muestras

[[1]]
[1] 1 2 3

[[2]]
[1] 1 2 4

[[3]]
[1] 1 2 5

[[4]]
[1] 1 2 6

[[5]]
[1] 1 3 4

[[6]]
[1] 1 3 5

[[7]]
[1] 1 3 6

[[8]]
[1] 1 4 5

[[9]]
[1] 1 4 6

[[10]]
[1] 1 5 6

[[11]]
[1] 2 3 4

[[12]]
[1] 2 3 5

[[13]]
[1] 2 3 6

[[14]]
[1] 2 4 5

[[15]]
[1] 2 4 6

[[16]]
[1] 2 5 6

[[17]]
[1] 3 4 5

[[18]]
[1] 3 4 6

[[19]]
[1] 3 5 6

[[20]]
[1] 4 5 6

Lo que obtuvimos del muestreo es una objeto de tipo lista de 20 elementos, donde cada uno de los 20 elementos corresponde a una de las muestras posibles de tamaño 3 obtenidos de una población de tamaño 6, pero dichas muestras aun no contienen los valores de las variables Ing_Mensual y jefe_hogar.
El proceso a través del cual asignamos dichos valores a cada una de las muestras, es con la función left_join() la cual se aplica de manera iterativa con la función map(), podemos por ahora obviar lo de “iterativo”, lo importante en principio es ver como hacerlo con una de las muestras como se observa a continuación.

# Proceso iterativo para todas las muestras

muestras <- muestras %>% map(.f = as.data.frame)

muestras <- muestras %>% 
  map(.f = ~{
    .x %>% 
      rename("hogarMuestra" = `.x[[i]]`) %>% 
      left_join(y = poblacion, by = c("hogarMuestra" = "Hogar"))
  })

# Proceso aplicado en cada muestra

# 1. Convertirlo en data.frame
# 2. Renombrar variable hogar 
# 3. Left_join() para pegar datos de la tabla poblacion  

muestraEj <- sample(x = poblacion$Hogar, size = 3, replace = F)

muestraEj <- muestraEj %>% as.data.frame() # 1.

muestraEj <- muestraEj %>% 
  rename("hogarMuestra" = ".") %>%         # 2.
  left_join(y = poblacion, by = c("hogarMuestra" = "Hogar"))   # 3.

muestraEj

  hogarMuestra Ing_Mensual jefe_hogar
1            6     11656.8          1
2            5      9714.0          0
3            1      1942.8          1

3. Calcular la media de ingreso de cada una de las muestras obtenidas

Para hacer el cálculo de la media para cada una de las muestras, podemos utilizar el verbo de dplyr::summarise(), lo que haremos es primero generar una función que obtenga la media de ingresos y la proporción de hombres jefes de hogar en la muestra y la aplicaremos sobre cada muestra, una vez más esto se hace a través de un proceso iterativo, pero se ejemplificara lo que hacemos a cada muestra con la tabla muestraEj que generamos en el punto anterior.

Creación de función

Entendiendo a la función como una regla de transformación que toma ciertos inputs con los cuales genera determinados outputs, nuestros inputs serán las muestras y nuestros outputs serán una base de datos por cada muestra que contenga la media de ingresos y la proporción de hombres jefe de hogar.

funMedia <- function(datos){
  datos %>% summarise(MediaIngreso = mean(Ing_Mensual, na.rm = T),
                            Proporcion = mean(jefe_hogar, na.rm = T))
}

Aplicación de la función

# Proceso Iterativo sobre la lista de muestras

resumenes <- muestras %>% map(.f = funMedia)

# Proceso aplicado en cada muestra

muestraEj %>% funMedia()

  MediaIngreso Proporcion
1       7771.2  0.6666667

4. Cálculo de E(\bar{X})

Para facilitar este cálculo convertiremos la lista de 20 elementos que contiene los resúmenes en una tabla de datos y crearemos una nueva variable que guarde el resultado de: \bar{X}_{i}*P(X_{i}) Teniendo en cuenta que las 20 medias son diferentes, la probabilidad de obtener una de las 20 medias es de 1/20.

Reemplazando, nuestra nueva variable va a ser igual a: \bar{X}_{i}*\frac{1}{20} Y la suma de esta variable creada es igual a la esperanza matemática de \bar{X} o E(\bar{X}).

# Conversion de la  lista en data.frame

resumenes <- resumenes %>% bind_rows()

# Creacion de nueva variable

resumenes <- resumenes %>% 
  mutate(Esperanza = MediaIngreso*1/20,
         EsperanzaProp = Proporcion*1/20)

resumenes$Esperanza

 [1] 223.422 239.612 271.992 304.372 275.230 307.610 339.990 323.800 356.180
[10] 388.560 320.562 352.942 385.322 369.132 401.512 433.892 404.750 437.130
[19] 469.510 485.700

Sumamos el vector de valores obtenidos en la nueva variable y lo guardamos en un objeto

EsperanzaX <- sum(resumenes$Esperanza, na.rm = T)

EsperanzaX

[1] 7091.22

5. Verificación de que E(\bar{X}) = \mu

Obtenida la esperanza matemática de la media muestral solo nos queda demostrar que dicho valor es igual a la media poblacional para garantizar la insesgadez del estimador

# Calculo del parametro poblacional

mediaPoblacional <- mean(poblacion$Ing_Mensual, na.rm = T)

# Evaluacion de igualdad

mediaPoblacional

[1] 7091.22

EsperanzaX

[1] 7091.22

mediaPoblacional == EsperanzaX

[1] TRUE

Como vemos, los valores son idénticos y con ello queda demostrada la insesgadez del estimador, una condición deseable en los estimadores y necesaria para poder realizar inferencia sobre el comportamiento de la población a partir de datos muestrales, cuya única restricción es que los datos muestrales hayan sido obtenidos de manera aleatoria.

Insesgadez del estimador de porporción \hat{\theta}

La logica y fundamentos matematicos que hacen que la esperanza matematica de la porporción muestral sea identica a la proporción poblacional, es la misma que acabamos de mostrar con la media.
Ya tenemos parte de lo que necesitamos para su demostración, pues la función que creamos funMedia() cálcula la proporción de hommbres en cada una de las muestras y ya realizamos el producto de cada una de estas proporciones por la probabilidad de haber seleccionado a su respectiva muestra.
Nos hace falta sumar dichos valores guardados en la variable EsperanzaProp y corroborar que sea identica a la proporción poblacional.

Formalmente:

E(\hat{\theta})=\sum_{i = 1}^{n}\hat{\theta}_{i}*P(X_{i}) = \sum_{i = 1}^{n}\hat{\theta}_{i}*\frac{1}{20} = \theta

# Suma de resumenes$EsperanzaProp

EsperanzaProp <- sum(resumenes$EsperanzaProp, na.rm = T)

# Calculo de la porporcion poblacional

propPoblacional <- mean(poblacion$jefe_hogar, na.rm = T)

# Corroboracion de igualdad

EsperanzaProp

[1] 0.6666667

propPoblacional

[1] 0.6666667

EsperanzaProp == propPoblacional

[1] TRUE

--- title: "Insesgadez de la media muestral" subtitle: "Inspirado en la clase de Econometria I de la Dr. Marisol Luna Contreras" author: "Tidyverso" date: "January 19, 2023" toc: true format: html: css: styles.css html-math-method: katex code-tools: true self-contained: true execute: warning: false --- ## Introducción Ante la imposibilidad de medir los fenómenos de interés a nivel poblacional, surge la **inferencia estadística** como tecnica analitica para conocer con cierto grado de probabilidad los *parámetros poblacionales* a partir de *estadísticos muestrales*.\ Uno de los desarrollos teóricos que sostiene a estas técnicas de análisis son las propiedades de los estimadores, estas garantizan patrones de comportamiento o "grados de ajuste" entre lo que obtenemos de la muestra y lo que obtendríamos de la población.\ A continuación abordaremos a partir de un ejemplo la propiedad de **insesgadez** de la media muestral y de las proporciones en variables categóricas. ## Insesgadez Decimos que el estimador media muestral $(\bar{X})$ es un estimador insesgado de la media poblacional $\mu$ si la esperanza matemática de la media muestral es igual a la media poblacional, en notación matemática: $$E(\bar{X}) = \mu$$ ### Razonamiento de la fórmula $E(\bar{X}) = \mu$ Si tenemos en cuenta parte de la lógica de variables aleatorias, es correcto afirmar que la media muestral es solo uno de los posibles valores que obtendríamos en un proceso de muestreo aleatorio, pues existe la posibilidad de que cada vez que tomemos una muestra obtengamos una muestra distinta, por lo tanto, suponiendo que podemos obtener todas las muestras posibles de una población y reemplazando $E(\bar{X})$ por su forma expandida en la expresión anterior, tendríamos que: $$\bar{X}_{1}*P(X_{1})+\bar{X}_{2}*P(X_{2})+\bar{X}_{3}*P(X_{3})+...+\bar{X}_{n}*P(X_{n}) = \mu$$ *Siendo n el total de muestras posibles que se pueden obtener de la población* La expresión anterior se lee como:\ ::: {.callout-note appearance="simple"} la media muestral de $X_{1}$ por la probabilidad de obtener la muestra $X_{1}$, más la media muestral $X_{2}$ por la probabilidad de obtener la muestra $X_{2}$, más la media muestral $X_{3}$ por la probabilidad de obtener $X_{3}$ ... más la media muestral $X_{n}$ por la probabilidad de obtener $X_{n}$, **es igual** a la media poblacional $\mu$. ::: Es análoga a la expresión: $$\sum_{i=1}^{n}\bar{X}_{i}*P(X_{i})=\mu$$ Que se lee como:\ ::: {.callout-note appearance="simple"} la suma desde $i = 1$ hasta $n$ de la media muestral $X_{i}$ por la probabilidad de obtener la muestra $X_{i}$, **es igual** a la media poblacional $\mu$. ::: ## Ejemplo Demostraremos la propiedad anterior a partir de un ejemplo en el que tenemos una población de 6 unidades de observación, dichas observaciones corresponden a hogares y los datos corresponden al ingreso salarial y al sexo del jefe de hogar de cada una de las observaciones, trabajaremos con un tamaño de muestra de $n = 3$.\ Para demostrar la propiedad de insesgadez del estimador debemos: ::: {.callout-note appearance="simple"} 1. Determinar la cantidad total de muestras posibles que responde al combinatorio $C_{3}^{6}$. 2. Obtener el total de muestras posibles de $n = 3$. 3. Calcular la media de ingresos de cada una de las muestras obtenidas. 4. Calcular $E(\bar{X})$ como la suma ponderada presentada en el apartado anterior. 5. Verificar que $E(\bar{X})$ es igual a $\mu$. ::: A continuación se presenta la tabla de datos y el desarrollo de cada uno de estos 5 puntos. ```{r} #| echo: false #| message: false #| warning: false rm(list = ls()) library(tidyverse) ``` ### Tabla con datos Poblacionales ```{r} #| message: false #| warning: false poblacion <- tibble(Hogar = c(1:6), Ing_Mensual = c(1942.80,4662.72,6799.80,7771.20,9714,11656.80), jefe_hogar = c(1,0,1,1,0,1)) poblacion ``` ### Desarrollo del ejemplo: #### 1. Número de muestras posibles La cantidad de muestras diferentes de tamaño 3 que podemos obtener de una población de tamaño 6, es igual al combinatorio de 3 en 6, formalmente expresado como: $$C_{3}^{6} = \frac{6!}{3!(6 - 3)!} = \frac{6*5*4*3*2*1}{3*2*1(3*2*1)}=\frac{6*5*4}{3*2*1}=\frac{120}{6}=20$$ #### 2. Obtención de muestras posibles En R, podemos realizar este cálculo de manera simple a partir del uso de la función ***combn()***, cuyos argumentos son: - x = vector de valores posibles. - m = tamaño de muestra a obtener. Lo ejecutaremos asignando a **x** la variable **poblacion$Hogar** y estableciendo un **m = 3** y lo guardamos en un objeto llamado *"muestras"* ```{r} #| message: false #| warning: false muestras <- combn(x = poblacion$Hogar, m = 3, simplify = F) muestras ``` Lo que obtuvimos del muestreo es una objeto de tipo *lista* de 20 elementos, donde cada uno de los 20 elementos corresponde a una de las muestras posibles de tamaño 3 obtenidos de una población de tamaño 6, pero dichas muestras aun no contienen los valores de las variables **Ing_Mensual** y **jefe_hogar**.\ El proceso a través del cual asignamos dichos valores a cada una de las muestras, es con la función ***left_join()*** la cual se aplica de manera iterativa con la función ***map()***, podemos por ahora obviar lo de "iterativo", lo importante en principio es ver como hacerlo con una de las muestras como se observa a continuación. ```{r} #| message: false #| warning: false # Proceso iterativo para todas las muestras muestras <- muestras %>% map(.f = as.data.frame) muestras <- muestras %>% map(.f = ~{ .x %>% rename("hogarMuestra" = `.x[[i]]`) %>% left_join(y = poblacion, by = c("hogarMuestra" = "Hogar")) }) # Proceso aplicado en cada muestra # 1. Convertirlo en data.frame # 2. Renombrar variable hogar # 3. Left_join() para pegar datos de la tabla poblacion muestraEj <- sample(x = poblacion$Hogar, size = 3, replace = F) muestraEj <- muestraEj %>% as.data.frame() # 1. muestraEj <- muestraEj %>% rename("hogarMuestra" = ".") %>% # 2. left_join(y = poblacion, by = c("hogarMuestra" = "Hogar")) # 3. muestraEj ``` #### 3. Calcular la media de ingreso de cada una de las muestras obtenidas Para hacer el cálculo de la media para cada una de las muestras, podemos utilizar el verbo de ***dplyr::summarise()***, lo que haremos es primero generar una función que obtenga la media de ingresos y la proporción de hombres jefes de hogar en la muestra y la aplicaremos sobre cada muestra, una vez más esto se hace a través de un proceso iterativo, pero se ejemplificara lo que hacemos a cada muestra con la tabla **muestraEj** que generamos en el punto anterior. ##### Creación de función Entendiendo a la función como una regla de transformación que toma ciertos *inputs* con los cuales genera determinados *outputs*, nuestros inputs serán las muestras y nuestros outputs serán una base de datos por cada muestra que contenga la media de ingresos y la proporción de hombres jefe de hogar. ```{r} #| warning: false #| message: false funMedia <- function(datos){ datos %>% summarise(MediaIngreso = mean(Ing_Mensual, na.rm = T), Proporcion = mean(jefe_hogar, na.rm = T)) } ``` ##### Aplicación de la función ```{r} #| warning: false #| message: false # Proceso Iterativo sobre la lista de muestras resumenes <- muestras %>% map(.f = funMedia) # Proceso aplicado en cada muestra muestraEj %>% funMedia() ``` #### 4. Cálculo de $E(\bar{X})$ Para facilitar este cálculo convertiremos la lista de 20 elementos que contiene los resúmenes en una tabla de datos y crearemos una nueva variable que guarde el resultado de: $$\bar{X}_{i}*P(X_{i})$$ Teniendo en cuenta que las 20 medias son diferentes, la probabilidad de obtener una de las 20 medias es de 1/20.\ Reemplazando, nuestra nueva variable va a ser igual a: $$\bar{X}_{i}*\frac{1}{20}$$ Y la suma de esta variable creada es igual a la esperanza matemática de $\bar{X}$ o $E(\bar{X})$. ```{r} #| warning: false #| message: false # Conversion de la lista en data.frame resumenes <- resumenes %>% bind_rows() # Creacion de nueva variable resumenes <- resumenes %>% mutate(Esperanza = MediaIngreso*1/20, EsperanzaProp = Proporcion*1/20) resumenes$Esperanza ``` Sumamos el vector de valores obtenidos en la nueva variable y lo guardamos en un objeto ```{r} #| warning: false #| message: false EsperanzaX <- sum(resumenes$Esperanza, na.rm = T) EsperanzaX ``` #### 5. Verificación de que $E(\bar{X}) = \mu$ Obtenida la esperanza matemática de la media muestral solo nos queda demostrar que dicho valor es igual a la media poblacional para garantizar la insesgadez del estimador ```{r} #| warning: false #| message: false # Calculo del parametro poblacional mediaPoblacional <- mean(poblacion$Ing_Mensual, na.rm = T) # Evaluacion de igualdad mediaPoblacional EsperanzaX mediaPoblacional == EsperanzaX ``` Como vemos, los valores son idénticos y con ello queda demostrada la insesgadez del estimador, una condición deseable en los estimadores y necesaria para poder realizar inferencia sobre el comportamiento de la población a partir de datos muestrales, cuya única restricción es que los datos muestrales hayan sido obtenidos de manera aleatoria. ## Insesgadez del estimador de porporción $\hat{\theta}$ La logica y fundamentos matematicos que hacen que la esperanza matematica de la porporción muestral sea identica a la proporción poblacional, es la misma que acabamos de mostrar con la media.\ Ya tenemos parte de lo que necesitamos para su demostración, pues la función que creamos ***funMedia()*** cálcula la proporción de hommbres en cada una de las muestras y ya realizamos el producto de cada una de estas proporciones por la probabilidad de haber seleccionado a su respectiva muestra.\ Nos hace falta sumar dichos valores guardados en la variable ***EsperanzaProp*** y corroborar que sea identica a la proporción poblacional. Formalmente: $$E(\hat{\theta})=\sum_{i = 1}^{n}\hat{\theta}_{i}*P(X_{i}) = \sum_{i = 1}^{n}\hat{\theta}_{i}*\frac{1}{20} = \theta$$ ```{r} #| warning: false #| message: false # Suma de resumenes$EsperanzaProp EsperanzaProp <- sum(resumenes$EsperanzaProp, na.rm = T) # Calculo de la porporcion poblacional propPoblacional <- mean(poblacion$jefe_hogar, na.rm = T) # Corroboracion de igualdad EsperanzaProp propPoblacional EsperanzaProp == propPoblacional ```