1. Análisis exploratorio e inferencial de datos de la Encuesta Permanente de Hogares (EPH), 2019-2020

Análisis de los datos de la EPH 2019

El objetivo principal es comparar la situación laboral de hombres y mujeres tomando como variable de interés a A02, la cual indica si una persona ha realizado algún trabajo ya sea como empleado, cuenta propia, empleador (patrón) o como familiar no remunerado en los últimos 7 días. Realizaremos la comparación utilizando contraste de hipótesis para diferencia de proporciones.

Importación de datos y selección de variables a analizar

En primer lugar importamos el conjunto de datos de la Encuesta Permanente de Hogares (EPH) correspondiente al año 2019. Lo hacemos guardando el enlace en un objeto de R para luego leerlo con la función read.csv().

# Enlace EPH 2019
url_eph19 = "https://www.ine.gov.py/datos/encuestas/eph/Poblacion/EPH-2019/data/4edb7reg02_ephc2019.csv"
# Conjunto de datos 2019
datos_eph19 = read.csv(url_eph19,sep = ";",header = T)
dim(datos_eph19)
## [1] 18233   260

Observamos que el conjunto de datos datos_eph19 contiene 18233 filas (que representan a personas en este caso) y 260 columnas (que representan variables).

Ahora visualizamos los nombres de las variables contenidas en el conjunto de datos datos_eph19.

names(datos_eph19)
##   [1] "UPM"      "NVIVI"    "NHOGA"    "DPTOREP"  "AREA"     "L02"     
##   [7] "P02"      "P03"      "P04"      "P04A"     "P04B"     "P05C"    
##  [13] "P05P"     "P05M"     "P06"      "P08D"     "P08M"     "P08A"    
##  [19] "P09"      "P10A"     "P10AB"    "P10Z"     "P11A"     "P11AB"   
##  [25] "P11Z"     "P12"      "A01"      "A01A"     "A02"      "A03"     
##  [31] "A04"      "A04A"     "A05"      "A07"      "A08"      "A10"     
##  [37] "A11A"     "A11M"     "A11S"     "A12"      "A13REC"   "A14REC"  
##  [43] "A15"      "A16"      "A17A"     "A17M"     "A17S"     "A18"     
##  [49] "B01REC"   "B02REC"   "B03LU"    "B03MA"    "B03MI"    "B03JU"   
##  [55] "B03VI"    "B03SA"    "B03DO"    "B04"      "B05"      "B06"     
##  [61] "B07A"     "B07M"     "B07S"     "B08"      "B09A"     "B09M"    
##  [67] "B09S"     "B10"      "B11"      "B12"      "B12A"     "B12B"    
##  [73] "B12C"     "B13"      "B14"      "B15"      "B16G"     "B16U"    
##  [79] "B16D"     "B16T"     "B17"      "B18AG"    "B18AU"    "B18BG"   
##  [85] "B18BU"    "B19"      "B20G"     "B20U"     "B20D"     "B20T"    
##  [91] "B21"      "B22"      "B23"      "B24"      "B25"      "B26"     
##  [97] "B271"     "B272"     "B28"      "B29"      "B30"      "B31"     
## [103] "C01REC"   "C02REC"   "C03"      "C04"      "C05"      "C06"     
## [109] "C07"      "C08"      "C09"      "C101"     "C102"     "C11G"    
## [115] "C11U"     "C11D"     "C11T"     "C12"      "C13AG"    "C13AU"   
## [121] "C13BG"    "C13BU"    "C14"      "C14A"     "C14B"     "C14C"    
## [127] "C15"      "C16REC"   "C17REC"   "C18"      "C18A"     "C18B"    
## [133] "C19"      "D01"      "D02"      "D03"      "D04"      "D05"     
## [139] "E01A"     "E01B"     "E01C"     "E01D"     "E01E"     "E01F"    
## [145] "E01G"     "E01H"     "E01I"     "E01J"     "E01K"     "E01L"    
## [151] "E01M"     "ED01"     "ED02"     "ED03"     "ED0504"   "ED06C"   
## [157] "ED08"     "ED09"     "ED10"     "ED11B1"   "ED11B2"   "ED11B3"  
## [163] "ED11B4"   "ED11B5"   "ED11B6"   "ED11B7"   "ED11B8"   "ED11B9"  
## [169] "ED11C1"   "ED11D1"   "ED11E1"   "ED11F1"   "ED11F1A"  "ED11F1B" 
## [175] "ED11G1"   "ED11G1A"  "ED11G1B"  "ED11H1"   "ED11H1A"  "ED11H1B" 
## [181] "ED12"     "ED13"     "ED14"     "ED14A"    "ED15"     "S01A"    
## [187] "S01B"     "S02"      "S03"      "S04"      "S05"      "S06"     
## [193] "S07"      "S08"      "S09"      "CATE_PEA" "TAMA_PEA" "OCUP_PEA"
## [199] "RAMA_PEA" "HORAB"    "HORABC"   "HORABCO"  "PEAD"     "PEAA"    
## [205] "TIPOHOGA" "FEX"      "NJEF"     "NCON"     "NPAD"     "NMAD"    
## [211] "TIC01"    "TIC02"    "TIC03"    "TIC0401"  "TIC0402"  "TIC0403" 
## [217] "TIC0404"  "TIC0405"  "TIC0406"  "TIC0407"  "TIC0408"  "TIC0409" 
## [223] "TIC0501"  "TIC0502"  "TIC0503"  "TIC0504"  "TIC0505"  "TIC0506" 
## [229] "TIC0507"  "TIC0508"  "TIC0509"  "TIC0510"  "TIC0511"  "TIC0512" 
## [235] "TIC0513"  "TIC06"    "añoest"   "ra06ya09" "e01aimde" "e01bimde"
## [241] "e01cimde" "e01dde"   "e01ede"   "e01fde"   "e01gde"   "e01hde"  
## [247] "e01ide"   "e01jde"   "e01kde"   "e01lde"   "e01mde"   "e01kjde" 
## [253] "e02bde"   "ipcm"     "pobrezai" "pobnopoi" "quintili" "decili"  
## [259] "quintiai" "decilai"

Filtramos el conjunto de datos de tal forma a que solo conservemos las variables P06 (sexo del encuestado), A02 (si la persona trabajó o no durante los últimos 7 días) y P02 (edad del encuestado). La última variable es para chequear que solo tengamos información de las personas con al menos 10 años de edad.

# Seleccionamos a las personas que hayan informado su situación de trabajo
# y seleccionamos las variables que mantendremos para el análisis
datos_eph19_filt <- subset(datos_eph19, A02!=9, select = c(P06, A02, P02))
# Realizamos un breve resumen estadístico
summary(datos_eph19_filt)
##       P06             A02             P02       
##  Min.   :1.000   Min.   :1.000   Min.   : 10.0  
##  1st Qu.:1.000   1st Qu.:1.000   1st Qu.: 21.0  
##  Median :6.000   Median :1.000   Median : 34.0  
##  Mean   :3.528   Mean   :2.991   Mean   : 37.4  
##  3rd Qu.:6.000   3rd Qu.:6.000   3rd Qu.: 52.0  
##  Max.   :6.000   Max.   :6.000   Max.   :106.0

Vemos que las variables categóricas deben ser etiquetadas. Además observamos que la edad más pequeña es 10 años, tal como lo deseamos.

# Etiquetamos la variable P06 y la guardamos en el objeto Sexo
datos_eph19_filt$Sexo <- factor(datos_eph19_filt$P06, labels = c("Hombres","Mujeres"))
# Etiquetamos la variable A02 y la guardamos en el objeto Trabaja
datos_eph19_filt$Trabaja <- factor(datos_eph19_filt$A02, labels = c("Sí","No"))
# Realizamos un breve resumen estadístico
summary(datos_eph19_filt)
##       P06             A02             P02             Sexo      Trabaja  
##  Min.   :1.000   Min.   :1.000   Min.   : 10.0   Hombres:7409   Sí:9020  
##  1st Qu.:1.000   1st Qu.:1.000   1st Qu.: 21.0   Mujeres:7577   No:5966  
##  Median :6.000   Median :1.000   Median : 34.0                           
##  Mean   :3.528   Mean   :2.991   Mean   : 37.4                           
##  3rd Qu.:6.000   3rd Qu.:6.000   3rd Qu.: 52.0                           
##  Max.   :6.000   Max.   :6.000   Max.   :106.0

Análisis descriptivo de los datos

Antes de aplicar la comparación de proporciones por medio de una técnica estadística inferencial describiremos brevemente las variables involucradas en el análisis mediante tablas y gráficos estadísticos.

# Creamos una tabla de frecuencia absolutas entre Sexo y Trabaja
tabla_trabaja_sexo <- xtabs(~Trabaja+Sexo,data = datos_eph19_filt)
# Calculamos la distribución de frecuencia relativa de la situación de trabajo por sexo
tabla_trabaja_sexo_prop <- prop.table(tabla_trabaja_sexo,margin = 2)
tabla_trabaja_sexo_prop
##        Sexo
## Trabaja   Hombres   Mujeres
##      Sí 0.7185855 0.4877920
##      No 0.2814145 0.5122080
# Gráfico de barras de frecuencias relativas (proporciones)
barplot(tabla_trabaja_sexo_prop, beside = T, legend.text = T, 
        args.legend = list(x = "top", title= "Trabaja"), las = 1, ylim = c(0,0.8))

Notamos que la proporción de hombres que trabajaron los últimos 7 días es mayor a la de mujeres (0.719 vs 0.488). Verificaremos mediante un contraste de hipótesis si la evidencia muestral es suficiente para sostener esta afirmación que proviene del análisis descriptivo.

Contraste de hipótesis

Considerando que \(p_{_{Hombres}}\) y \(p_{_{Mujeres}}\) representan la proporción de hombres y de mujeres, respectivamente, que declaran haber trabajado durante los últimos 7 días, planteamos las siguientes hipótesis.

\(H_0:\) La proporción de hombres que trabajaron los últimos 7 días no es mayor que la de mujeres. (\(p_{_{Hombres}}\leq p_{_{Mujeres}}\))

\(H_1:\) La proporción de hombres que trabajaron los últimos 7 días es mayor que la de mujeres. (\(p_{_{Hombres}} > p_{_{Mujeres}}\))

Utilizaremos la distribución muestral de diferencia de proporciones para probar estas hipótesis. Lo haremos siguiendo tres caminos diferentes: (1) Estadístico \(z\), (2) \(p\) valor y (3) Estadístico \(\hat{p}_1-\hat{p}_2\). Para todos los casos tomaremos un nivel de significación del 5% (\(\alpha=0.05\))

Estadístico \(z\)

El siguiente gráfico ayudará a comprender dónde situar las regiones de rechazo y no rechazo, y de esa manera establecer claramente los criterios de decisión.

Los criterios de decisión bajo este enfoque son:

  • Si \(z\le 1.645\) no se rechaza la \(H_0\).

  • Si \(z > 1.645\) se rechaza la \(H_0\).

El estadístico \(z\) de contraste se define como

\[z=\frac{\hat{p}_{_{Hombres}}-\hat{p}_{_{Mujeres}}}{\sqrt{\hat{p}(1-\hat{p})\left(\frac{1}{n_{_{Hombres}}} + \frac{1}{n_{_{Mujeres}}}\right)}}\]

donde \(\hat{p}=\frac{X_{Hombres}+X_{Mujeres}}{n_{_{Hombres}}+n_{_{Mujeres}}}\) es la proporción estimada combinada, siendo \(X\) la cantidad de individuos que declararon haber trabajado durante los últimos 7 días.

De esta manera, calculamos las componentes del estadístico \(z\).

# Extraemos los datos de las tablas que ya generamos arriba
Xhombres <- tabla_trabaja_sexo[1,1]
Xmujeres <- tabla_trabaja_sexo[1,2]
nhombres <- sum(tabla_trabaja_sexo[,1])
nmujeres <- sum(tabla_trabaja_sexo[,2])
pcombinada <- sum(Xhombres,Xmujeres)/sum(nhombres+nmujeres)
# Las proporciones muestrales son
phombres = tabla_trabaja_sexo_prop[1,1]
pmujeres = tabla_trabaja_sexo_prop[1,2]

Ahora calculamos el valor del estadítico \(z\) del siguiente modo:

z <- (phombres-pmujeres)/sqrt(pcombinada*(1-pcombinada)*(1/nhombres+1/nmujeres))
z
## [1] 28.85692

El valor de \(z\) es mayor que 1,645, lo cual implica que rechazamos la hipótesis nula. En términos del problema podemos concluir que, al 5% de significación, la proporción de hombres que trabajaron los últimos 7 días en el año 2019 es mayor a la de mujeres.

Utilizando el p valor

Los criterios de decisión bajo este enfoque son:

  • Si \(p_{valor} > 0.05\) no se rechaza la \(H_0\).

  • Si \(p_{valor} \leq 0.05\) se rechaza la \(H_0\).

En R tenemos la función prop.test() para realizar un contraste de hipótesis de diferencia de proporciones. Aplicamos esta función sobre la tabla de frecuencias absolutas tabla_trabaja_sexo del siguiente modo.

prop.test(t(tabla_trabaja_sexo), alternative = "greater")
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  t(tabla_trabaja_sexo)
## X-squared = 831.76, df = 1, p-value < 2.2e-16
## alternative hypothesis: greater
## 95 percent confidence interval:
##  0.2178905 1.0000000
## sample estimates:
##    prop 1    prop 2 
## 0.7185855 0.4877920

En este caso el p valor resultó ser mucho más pequeño que 0.05, lo cual implica un rechazo de la hipótesis nula, tal como se dio bajo el enfoque del estadístico \(z\). Por tanto, la conclusión es la misma.

Utilizando la estadística diferencia de proporciones

En este caso debemos considerar la siguiente expresión.

\[\hat{p}_1-\hat{p}_2=z_{1-\alpha}\sqrt{\hat{p}(1-\hat{p})\left(\frac{1}{n_{_{Hombres}}} + \frac{1}{n_{_{Mujeres}}}\right)}\]

donde \(\hat{p}=\frac{X_{Hombres}+X_{Mujeres}}{n_{_{Hombres}}+n_{_{Mujeres}}}\) es la proporción estimada combinada, siendo \(X\) la cantidad de individuos que declararon haber trabajado durante los últimos 7 días.

Los criterios de decisión bajo este enfoque son:

  • Si \(\hat{p}_{_{Hombres}}-\hat{p}_{_{Mujeres}} \ge \hat{p}_1-\hat{p}_2\) no se rechaza la \(H_0\).

  • Si \(\hat{p}_{_{Hombres}}-\hat{p}_{_{Mujeres}} > \hat{p}_1-\hat{p}_2\) se rechaza la \(H_0\).

El valor de \(\hat{p}_1-\hat{p}_2\) lo obtenemos con el siguiente código.

pnorm(0.95)*sqrt(pcombinada*(1-pcombinada)*(1/nhombres+1/nmujeres))
## [1] 0.006629774

Mientras que el valor de \(\hat{p}_{_{Hombres}}-\hat{p}_{_{Mujeres}}\) es 0.2307935, pues

phombres-pmujeres
## [1] 0.2307935

Es decir, \(\hat{p}_{_{Hombres}}-\hat{p}_{_{Mujeres}} > \hat{p}_1-\hat{p}_2\) que induce a un rechazo de la hipótesis nula. Nuevamente tenemos que la proporción de hombres que trabajaron los últimos 7 días en el año 2019 es mayor a la de mujeres, asumiendo un 5% de significación. Notemos que los tres métodos arrojan las mismas conclusiones, por lo que en la práctica se utiliza solo uno de ellos o a lo sumo dos para dar información estadística sobre el contraste.

Análisis de los datos de la EPH 2020

Realizamos una réplica del análisis anterior, pero para los datos de la EPH del año 2020.

Importación de datos y selección de variables a analizar

# Enlace EPH 2020
url_eph20 = "https://www.ine.gov.py/datos/encuestas/eph/Poblacion/EPH-2020/data/55f07reg02_ephc2020.csv"
# Conjunto de datos 2020
datos_eph20 = read.csv(url_eph20,sep = ";",header = T)
dim(datos_eph20)
## [1] 17582   264

Observamos que el conjunto de datos datos_eph20 contiene 17582 filas (que representan a personas en este caso) y 264 columnas (que representan variables).

Ahora visualizamos los nombres de las variables contenidas en el conjunto de datos datos_eph20.

names(datos_eph20)
##   [1] "UPM"                       "NVIVI"                    
##   [3] "NHOGA"                     "DPTOREP"                  
##   [5] "AREA"                      "L02"                      
##   [7] "P02"                       "P03"                      
##   [9] "P04"                       "P04A"                     
##  [11] "P04B"                      "P05C"                     
##  [13] "P05P"                      "P05M"                     
##  [15] "P06"                       "P08D"                     
##  [17] "P08M"                      "P08A"                     
##  [19] "P09"                       "P10A"                     
##  [21] "P10AB"                     "P10Z"                     
##  [23] "P11A"                      "P11AB"                    
##  [25] "P11Z"                      "P12"                      
##  [27] "A01"                       "A01A"                     
##  [29] "A02"                       "A03"                      
##  [31] "A04"                       "A04B"                     
##  [33] "A04A"                      "A05"                      
##  [35] "A07"                       "A08"                      
##  [37] "A10"                       "A11A"                     
##  [39] "A11M"                      "A11S"                     
##  [41] "A12"                       "A13REC"                   
##  [43] "A14REC"                    "A15"                      
##  [45] "A16"                       "A17A"                     
##  [47] "A17M"                      "A17S"                     
##  [49] "A18"                       "A18A"                     
##  [51] "B01REC"                    "B02REC"                   
##  [53] "B03LU"                     "B03MA"                    
##  [55] "B03MI"                     "B03JU"                    
##  [57] "B03VI"                     "B03SA"                    
##  [59] "B03DO"                     "B04"                      
##  [61] "B05"                       "B05A"                     
##  [63] "B06"                       "B07A"                     
##  [65] "B07M"                      "B07S"                     
##  [67] "B08"                       "B09A"                     
##  [69] "B09M"                      "B09S"                     
##  [71] "B10"                       "B11"                      
##  [73] "B12"                       "B12A"                     
##  [75] "B12B"                      "B12C"                     
##  [77] "B13"                       "B14"                      
##  [79] "B15"                       "B16G"                     
##  [81] "B16U"                      "B16D"                     
##  [83] "B16T"                      "B17"                      
##  [85] "B18AG"                     "B18AU"                    
##  [87] "B18BG"                     "B18BU"                    
##  [89] "B19"                       "B20G"                     
##  [91] "B20U"                      "B20D"                     
##  [93] "B20T"                      "B21"                      
##  [95] "B22"                       "B23"                      
##  [97] "B24"                       "B25"                      
##  [99] "B26"                       "B271"                     
## [101] "B272"                      "B28"                      
## [103] "B29"                       "B30"                      
## [105] "B31"                       "C01REC"                   
## [107] "C02REC"                    "C03"                      
## [109] "C04"                       "C05"                      
## [111] "C06"                       "C07"                      
## [113] "C08"                       "C09"                      
## [115] "C101"                      "C102"                     
## [117] "C11G"                      "C11U"                     
## [119] "C11D"                      "C11T"                     
## [121] "C12"                       "C13AG"                    
## [123] "C13AU"                     "C13BG"                    
## [125] "C13BU"                     "C14"                      
## [127] "C14A"                      "C14B"                     
## [129] "C14C"                      "C15"                      
## [131] "C16REC"                    "C17REC"                   
## [133] "C18"                       "C18A"                     
## [135] "C18B"                      "C19"                      
## [137] "D01"                       "D02"                      
## [139] "D03"                       "D04"                      
## [141] "D05"                       "E01A"                     
## [143] "E01B"                      "E01C"                     
## [145] "E01D"                      "E01E"                     
## [147] "E01F"                      "E01G"                     
## [149] "E01H"                      "E01I"                     
## [151] "E01J"                      "E01K"                     
## [153] "E01L"                      "E01M"                     
## [155] "E02C1"                     "E02D1"                    
## [157] "E02D2"                     "E02B"                     
## [159] "E02G1"                     "E02G2"                    
## [161] "E02F"                      "ED01"                     
## [163] "ED02"                      "ED03"                     
## [165] "ED0504"                    "ED06C"                    
## [167] "ED08"                      "ED09"                     
## [169] "ED10"                      "ED11F1"                   
## [171] "ED11F1A"                   "ED11GH1"                  
## [173] "ED11GH1A"                  "ED12"                     
## [175] "ED13"                      "ED14"                     
## [177] "ED14A"                     "ED15"                     
## [179] "S01A"                      "S01B"                     
## [181] "S02"                       "S03"                      
## [183] "S03A"                      "S03B"                     
## [185] "S03C"                      "S04"                      
## [187] "S05"                       "S06"                      
## [189] "S07"                       "S08"                      
## [191] "S09"                       "CATE_PEA"                 
## [193] "TAMA_PEA"                  "OCUP_PEA"                 
## [195] "RAMA_PEA"                  "HORAB"                    
## [197] "HORABC"                    "HORABCO"                  
## [199] "PEAD"                      "PEAA"                     
## [201] "informalidad"              "TIPOHOGA"                 
## [203] "FEX"                       "NJEF"                     
## [205] "NCON"                      "NPAD"                     
## [207] "NMAD"                      "TIC01"                    
## [209] "TIC02"                     "TIC03"                    
## [211] "TIC0401"                   "TIC0402"                  
## [213] "TIC0403"                   "TIC0404"                  
## [215] "TIC0405"                   "TIC0406"                  
## [217] "TIC0407"                   "TIC0408"                  
## [219] "TIC0409"                   "TIC0501"                  
## [221] "TIC0502"                   "TIC0503"                  
## [223] "TIC0504"                   "TIC0505"                  
## [225] "TIC0506"                   "TIC0507"                  
## [227] "TIC0508"                   "TIC0509"                  
## [229] "TIC0510"                   "TIC0511"                  
## [231] "TIC0512"                   "TIC0513"                  
## [233] "TIC06"                     "TIC07"                    
## [235] "añoest"                    "ra06ya09"                 
## [237] "e01aimde"                  "e01bimde"                 
## [239] "e01cimde"                  "e01dde"                   
## [241] "e01ede"                    "e01fde"                   
## [243] "e01gde"                    "e01hde"                   
## [245] "e01ide"                    "e01jde"                   
## [247] "e01kde"                    "e01lde"                   
## [249] "e01mde"                    "e01kjde"                  
## [251] "e02bde"                    "ingrevasode"              
## [253] "ingreñangarekode"          "ingrepytyvõde"            
## [255] "ingresect_privadode"       "ingreadicional_tekoporãde"
## [257] "otroingre_subside"         "ipcm"                     
## [259] "pobrezai"                  "pobnopoi"                 
## [261] "quintili"                  "decili"                   
## [263] "quintiai"                  "decilai"

Filtramos el conjunto de datos de tal forma a que solo conservemos las variables P06 (sexo del encuestado), A02 (si la persona trabajó o no durante los últimos 7 días) y P02 (edad del encuestado). La última variable es para chequear que solo tengamos información de las personas con al menos 10 años de edad.

# Seleccionamos a las personas que hayan informado su situación de trabajo
# y seleccionamos las variables que mantendremos para el análisis
datos_eph20_filt <- subset(datos_eph20, A02!=9, select = c(P06, A02, P02))
# Realizamos un breve resumen estadístico
summary(datos_eph20_filt)
##       P06             A02             P02        
##  Min.   :1.000   Min.   :1.000   Min.   : 10.00  
##  1st Qu.:1.000   1st Qu.:1.000   1st Qu.: 20.00  
##  Median :6.000   Median :1.000   Median : 34.00  
##  Mean   :3.525   Mean   :3.098   Mean   : 37.46  
##  3rd Qu.:6.000   3rd Qu.:6.000   3rd Qu.: 52.00  
##  Max.   :6.000   Max.   :6.000   Max.   :101.00

Vemos que las variables categóricas deben ser etiquetadas. Además observamos que la edad más pequeña es 10 años, tal como lo deseamos.

# Etiquetamos la variable P06 y la guardamos en el objeto Sexo
datos_eph20_filt$Sexo <- factor(datos_eph20_filt$P06, labels = c("Hombres","Mujeres"))
# Etiquetamos la variable A02 y la guardamos en el objeto Trabaja
datos_eph20_filt$Trabaja <- factor(datos_eph20_filt$A02, labels = c("Sí","No"))
# Realizamos un breve resumen estadístico
summary(datos_eph20_filt)
##       P06             A02             P02              Sexo      Trabaja  
##  Min.   :1.000   Min.   :1.000   Min.   : 10.00   Hombres:7184   Sí:8425  
##  1st Qu.:1.000   1st Qu.:1.000   1st Qu.: 20.00   Mujeres:7330   No:6089  
##  Median :6.000   Median :1.000   Median : 34.00                           
##  Mean   :3.525   Mean   :3.098   Mean   : 37.46                           
##  3rd Qu.:6.000   3rd Qu.:6.000   3rd Qu.: 52.00                           
##  Max.   :6.000   Max.   :6.000   Max.   :101.00

Análisis descriptivo de los datos

Antes de aplicar la comparación de proporciones por medio de una técnica estadística inferencial describiremos brevemente las variables involucradas en el análisis mediante tablas y gráficos estadísticos.

# Creamos una tabla de frecuencia absolutas entre Sexo y Trabaja
tabla_trabaja_sexo <- xtabs(~Trabaja+Sexo,data = datos_eph20_filt)
# Calculamos la distribución de frecuencia relativa de la situación de trabajo por sexo
tabla_trabaja_sexo_prop <- prop.table(tabla_trabaja_sexo,margin = 2)
tabla_trabaja_sexo_prop
##        Sexo
## Trabaja   Hombres   Mujeres
##      Sí 0.6987751 0.4645293
##      No 0.3012249 0.5354707
# Gráfico de barras de frecuencias relativas (proporciones)
barplot(tabla_trabaja_sexo_prop, beside = T, legend.text = T, 
        args.legend = list(x = "top", title= "Trabaja"), las = 1, ylim = c(0,0.8))

Notamos que la proporción de hombres que trabajaron los últimos 7 días es mayor a la de mujeres (0.699 vs 0.465). Estos valores no son muy diferentes a los dados para el año anterior. Verificaremos mediante un contraste de hipótesis si la evidencia muestral es suficiente para sostener esta afirmación que proviene del análisis descriptivo.

Contraste de hipótesis

Considerando que \(p_{_{Hombres}}\) y \(p_{_{Mujeres}}\) representan la proporción de hombres y de mujeres, respectivamente, que declaran haber trabajado durante los últimos 7 días, planteamos las siguientes hipótesis.

\(H_0:\) La proporción de hombres que trabajaron los últimos 7 días no es mayor que la de mujeres. (\(p_{_{Hombres}}\leq p_{_{Mujeres}}\))

\(H_1:\) La proporción de hombres que trabajaron los últimos 7 días es mayor que la de mujeres. (\(p_{_{Hombres}} > p_{_{Mujeres}}\))

Utilizaremos la distribución muestral de diferencia de proporciones para probar estas hipótesis. Lo haremos siguiendo tres caminos diferentes: (1) Estadístico \(z\), (2) \(p\) valor y (3) Estadístico \(\hat{p}_1-\hat{p}_2\). Para todos los casos tomaremos un nivel de significación del 5% (\(\alpha=0.05\))

Estadístico \(z\)

El siguiente gráfico ayudará a comprender dónde situar las regiones de rechazo y no rechazo, y de esa manera establecer claramente los criterios de decisión.

Los criterios de decisión bajo este enfoque son:

  • Si \(z\le 1.645\) no se rechaza la \(H_0\).

  • Si \(z > 1.645\) se rechaza la \(H_0\).

El estadístico \(z\) de contraste se define como

\[z=\frac{\hat{p}_{_{Hombres}}-\hat{p}_{_{Mujeres}}}{\sqrt{\hat{p}(1-\hat{p})\left(\frac{1}{n_{_{Hombres}}} + \frac{1}{n_{_{Mujeres}}}\right)}}\]

donde \(\hat{p}=\frac{X_{Hombres}+X_{Mujeres}}{n_{_{Hombres}}+n_{_{Mujeres}}}\) es la proporción estimada combinada, siendo \(X\) la cantidad de individuos que declararon haber trabajado durante los últimos 7 días.

De esta manera, calculamos las componentes del estadístico \(z\).

# Extraemos los datos de las tablas que ya generamos arriba
Xhombres <- tabla_trabaja_sexo[1,1]
Xmujeres <- tabla_trabaja_sexo[1,2]
nhombres <- sum(tabla_trabaja_sexo[,1])
nmujeres <- sum(tabla_trabaja_sexo[,2])
pcombinada <- sum(Xhombres,Xmujeres)/sum(nhombres+nmujeres)
# Las proporciones muestrales son
phombres = tabla_trabaja_sexo_prop[1,1]
pmujeres = tabla_trabaja_sexo_prop[1,2]

Ahora calculamos el valor del estadítico \(z\) del siguiente modo:

z <- (phombres-pmujeres)/sqrt(pcombinada*(1-pcombinada)*(1/nhombres+1/nmujeres))
z
## [1] 28.59186

El valor de \(z\) es mayor que 1,645, lo cual implica que rechazamos la hipótesis nula. En términos del problema podemos concluir que, al 5% de significación, la proporción de hombres que trabajaron los últimos 7 días en el año 2020 es mayor a la de mujeres.

Utilizando el p valor

Los criterios de decisión bajo este enfoque son:

  • Si \(p_{valor} > 0.05\) no se rechaza la \(H_0\).

  • Si \(p_{valor} \leq 0.05\) se rechaza la \(H_0\).

En R tenemos la función prop.test() para realizar un contraste de hipótesis de diferencia de proporciones. Aplicamos esta función sobre la tabla de frecuencias absolutas tabla_trabaja_sexo del siguiente modo.

prop.test(t(tabla_trabaja_sexo), alternative = "greater")
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  t(tabla_trabaja_sexo)
## X-squared = 816.53, df = 1, p-value < 2.2e-16
## alternative hypothesis: greater
## 95 percent confidence interval:
##  0.221028 1.000000
## sample estimates:
##    prop 1    prop 2 
## 0.6987751 0.4645293

En este caso el p valor resultó ser mucho más pequeño que 0.05, lo cual implica un rechazo de la hipótesis nula, tal como se dio bajo el enfoque del estadístico \(z\). Por tanto, la conclusión es la misma.

Utilizando la estadística diferencia de proporciones

En este caso debemos considerar la siguiente expresión.

\[\hat{p}_1-\hat{p}_2=z_{1-\alpha}\sqrt{\hat{p}(1-\hat{p})\left(\frac{1}{n_{_{Hombres}}} + \frac{1}{n_{_{Mujeres}}}\right)}\]

donde \(\hat{p}=\frac{X_{Hombres}+X_{Mujeres}}{n_{_{Hombres}}+n_{_{Mujeres}}}\) es la proporción estimada combinada, siendo \(X\) la cantidad de individuos que declararon haber trabajado durante los últimos 7 días.

Los criterios de decisión bajo este enfoque son:

  • Si \(\hat{p}_{_{Hombres}}-\hat{p}_{_{Mujeres}} \ge \hat{p}_1-\hat{p}_2\) no se rechaza la \(H_0\).

  • Si \(\hat{p}_{_{Hombres}}-\hat{p}_{_{Mujeres}} > \hat{p}_1-\hat{p}_2\) se rechaza la \(H_0\).

El valor de \(\hat{p}_1-\hat{p}_2\) lo obtenemos con el siguiente código.

pnorm(0.95)*sqrt(pcombinada*(1-pcombinada)*(1/nhombres+1/nmujeres))
## [1] 0.006791323

Mientras que el valor de \(\hat{p}_{_{Hombres}}-\hat{p}_{_{Mujeres}}\) es 0.2307935, pues

phombres-pmujeres
## [1] 0.2342457

Es decir, \(\hat{p}_{_{Hombres}}-\hat{p}_{_{Mujeres}} > \hat{p}_1-\hat{p}_2\) que induce a un rechazo de la hipótesis nula. Nuevamente tenemos que la proporción de hombres que trabajaron los últimos 7 días en el año 2020 es mayor a la de mujeres, asumiendo un 5% de significación.

En resumen, demostramos que las proporciones de hombres y de mujeres que declararon trabajar durante los últimos 7 días son muy similares comparando los años 2019 y 2020. Pero sin embargo, al realizar las comparaciones respecto al sexo de la persona los resultados sugieren que son muy diferentes, a favor de los hombres. Tanto la estadística descriptiva como la inferencial respaldan esta afirmación.

2. Práctica de Simulación

Presentamos una simulación de la estadística \(F\) definida como

\[F=\frac{S_1^2}{S_2^2}\]

donde asumimos dos poblaciones normales independientes con varianzas desconocidas pero iguales, siendo \(S_1^2\) la varianza de la muestra obtenida de la primera población y \(S_2^2\) la varianza de la muestra obtenida de la segunda población. La intención es demostrar que si se extraen muestras de tamaños \(n_1\) y \(n_2\), la estadística \(F\) tiene aproximadamente distribución F con \(n_1-1\) y \(n_2-1\) grados de libertad (Canavos, 1988).

Para la simulación tomamos dos poblaciones normales con medias diferentes pero varianzas iguales, aunque esta suposición es totalmente arbitraria para facilitar los cálculos. En esta simulación se consideran tamaños muestrales iguales, aunque este escenario es nuevamente arbitrario para simplificar los cálculos en R.

# Establecemos una semilla para generar los números pseudo aleatorios
set.seed(123)
# Población normal de 200000 elementos con media=20 y sd=10
Pob_Norm_1 <- rnorm(200000,20,10)
# Población normal de 200000 elementos con media=50 y sd=10
Pob_Norm_2 <- rnorm(200000,50,10)

# Creamos una función que permita calcular la estadística F con diferentes repeticiones y 
# tamaños muestrales incrementales
simular_valores <- function(k,n){
  x <- matrix(data = NA, nrow = k, ncol = n)
  for(i in 1:n) {
    x[,i] <- sapply(1:k, function(y){
      var(sample(Pob_Norm_1,n,replace = T))/var(sample(Pob_Norm_2,n,replace = T))
    })
    }
  x
}
# Como ejemplo realizamos 200000 réplicas de tamaños muestrales iguales o inferiores a 10.
M <- simular_valores(200000,12)
# Graficamos las distribuciones de F mediante histogramas y curvas de la distribución F superpuestas.
par(mfrow=c(3,4))
for (i in 1:ncol(M)) {
  hist(M[,i],freq = F, xlab = "", main = paste("n1 = n2 =", i))
  curve(df(x,i-1,i-1),add = T)
}

Observamos que para \(n\le12\) se tienen distribuciones muy próximas a la de F con \(n_1-1\) y \(n_2-1\) grados de libertad. Si se incrementaran los tamaños muestrales obtendríamos similares ajustes, aunque esto no representa una condición necesaria.

Referencia

Canavos, G. (1988). Probabilidad y Estadística: Aplicaciones y Métodos. McGraw-Hill Interamericana, México.

R Core Team (2023). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. https://www.R-project.org/.