El objetivo principal es comparar la situación laboral de hombres y
mujeres tomando como variable de interés a A02, la cual
indica si una persona ha realizado algún trabajo ya sea como empleado,
cuenta propia, empleador (patrón) o como familiar no remunerado en los
últimos 7 días. Realizaremos la comparación utilizando contraste de
hipótesis para diferencia de proporciones.
En primer lugar importamos el conjunto de datos de la Encuesta
Permanente de Hogares (EPH) correspondiente al año 2019. Lo hacemos
guardando el enlace en un objeto de R para luego leerlo con
la función read.csv().
# Enlace EPH 2019
url_eph19 = "https://www.ine.gov.py/datos/encuestas/eph/Poblacion/EPH-2019/data/4edb7reg02_ephc2019.csv"
# Conjunto de datos 2019
datos_eph19 = read.csv(url_eph19,sep = ";",header = T)
dim(datos_eph19)
## [1] 18233 260
Observamos que el conjunto de datos datos_eph19 contiene
18233 filas (que representan a personas en este caso) y 260 columnas
(que representan variables).
Ahora visualizamos los nombres de las variables contenidas en el
conjunto de datos datos_eph19.
names(datos_eph19)
## [1] "UPM" "NVIVI" "NHOGA" "DPTOREP" "AREA" "L02"
## [7] "P02" "P03" "P04" "P04A" "P04B" "P05C"
## [13] "P05P" "P05M" "P06" "P08D" "P08M" "P08A"
## [19] "P09" "P10A" "P10AB" "P10Z" "P11A" "P11AB"
## [25] "P11Z" "P12" "A01" "A01A" "A02" "A03"
## [31] "A04" "A04A" "A05" "A07" "A08" "A10"
## [37] "A11A" "A11M" "A11S" "A12" "A13REC" "A14REC"
## [43] "A15" "A16" "A17A" "A17M" "A17S" "A18"
## [49] "B01REC" "B02REC" "B03LU" "B03MA" "B03MI" "B03JU"
## [55] "B03VI" "B03SA" "B03DO" "B04" "B05" "B06"
## [61] "B07A" "B07M" "B07S" "B08" "B09A" "B09M"
## [67] "B09S" "B10" "B11" "B12" "B12A" "B12B"
## [73] "B12C" "B13" "B14" "B15" "B16G" "B16U"
## [79] "B16D" "B16T" "B17" "B18AG" "B18AU" "B18BG"
## [85] "B18BU" "B19" "B20G" "B20U" "B20D" "B20T"
## [91] "B21" "B22" "B23" "B24" "B25" "B26"
## [97] "B271" "B272" "B28" "B29" "B30" "B31"
## [103] "C01REC" "C02REC" "C03" "C04" "C05" "C06"
## [109] "C07" "C08" "C09" "C101" "C102" "C11G"
## [115] "C11U" "C11D" "C11T" "C12" "C13AG" "C13AU"
## [121] "C13BG" "C13BU" "C14" "C14A" "C14B" "C14C"
## [127] "C15" "C16REC" "C17REC" "C18" "C18A" "C18B"
## [133] "C19" "D01" "D02" "D03" "D04" "D05"
## [139] "E01A" "E01B" "E01C" "E01D" "E01E" "E01F"
## [145] "E01G" "E01H" "E01I" "E01J" "E01K" "E01L"
## [151] "E01M" "ED01" "ED02" "ED03" "ED0504" "ED06C"
## [157] "ED08" "ED09" "ED10" "ED11B1" "ED11B2" "ED11B3"
## [163] "ED11B4" "ED11B5" "ED11B6" "ED11B7" "ED11B8" "ED11B9"
## [169] "ED11C1" "ED11D1" "ED11E1" "ED11F1" "ED11F1A" "ED11F1B"
## [175] "ED11G1" "ED11G1A" "ED11G1B" "ED11H1" "ED11H1A" "ED11H1B"
## [181] "ED12" "ED13" "ED14" "ED14A" "ED15" "S01A"
## [187] "S01B" "S02" "S03" "S04" "S05" "S06"
## [193] "S07" "S08" "S09" "CATE_PEA" "TAMA_PEA" "OCUP_PEA"
## [199] "RAMA_PEA" "HORAB" "HORABC" "HORABCO" "PEAD" "PEAA"
## [205] "TIPOHOGA" "FEX" "NJEF" "NCON" "NPAD" "NMAD"
## [211] "TIC01" "TIC02" "TIC03" "TIC0401" "TIC0402" "TIC0403"
## [217] "TIC0404" "TIC0405" "TIC0406" "TIC0407" "TIC0408" "TIC0409"
## [223] "TIC0501" "TIC0502" "TIC0503" "TIC0504" "TIC0505" "TIC0506"
## [229] "TIC0507" "TIC0508" "TIC0509" "TIC0510" "TIC0511" "TIC0512"
## [235] "TIC0513" "TIC06" "añoest" "ra06ya09" "e01aimde" "e01bimde"
## [241] "e01cimde" "e01dde" "e01ede" "e01fde" "e01gde" "e01hde"
## [247] "e01ide" "e01jde" "e01kde" "e01lde" "e01mde" "e01kjde"
## [253] "e02bde" "ipcm" "pobrezai" "pobnopoi" "quintili" "decili"
## [259] "quintiai" "decilai"
Filtramos el conjunto de datos de tal forma a que solo conservemos
las variables P06 (sexo del encuestado), A02
(si la persona trabajó o no durante los últimos 7 días) y
P02 (edad del encuestado). La última variable es para
chequear que solo tengamos información de las personas con al menos 10
años de edad.
# Seleccionamos a las personas que hayan informado su situación de trabajo
# y seleccionamos las variables que mantendremos para el análisis
datos_eph19_filt <- subset(datos_eph19, A02!=9, select = c(P06, A02, P02))
# Realizamos un breve resumen estadístico
summary(datos_eph19_filt)
## P06 A02 P02
## Min. :1.000 Min. :1.000 Min. : 10.0
## 1st Qu.:1.000 1st Qu.:1.000 1st Qu.: 21.0
## Median :6.000 Median :1.000 Median : 34.0
## Mean :3.528 Mean :2.991 Mean : 37.4
## 3rd Qu.:6.000 3rd Qu.:6.000 3rd Qu.: 52.0
## Max. :6.000 Max. :6.000 Max. :106.0
Vemos que las variables categóricas deben ser etiquetadas. Además observamos que la edad más pequeña es 10 años, tal como lo deseamos.
# Etiquetamos la variable P06 y la guardamos en el objeto Sexo
datos_eph19_filt$Sexo <- factor(datos_eph19_filt$P06, labels = c("Hombres","Mujeres"))
# Etiquetamos la variable A02 y la guardamos en el objeto Trabaja
datos_eph19_filt$Trabaja <- factor(datos_eph19_filt$A02, labels = c("Sí","No"))
# Realizamos un breve resumen estadístico
summary(datos_eph19_filt)
## P06 A02 P02 Sexo Trabaja
## Min. :1.000 Min. :1.000 Min. : 10.0 Hombres:7409 Sí:9020
## 1st Qu.:1.000 1st Qu.:1.000 1st Qu.: 21.0 Mujeres:7577 No:5966
## Median :6.000 Median :1.000 Median : 34.0
## Mean :3.528 Mean :2.991 Mean : 37.4
## 3rd Qu.:6.000 3rd Qu.:6.000 3rd Qu.: 52.0
## Max. :6.000 Max. :6.000 Max. :106.0
Antes de aplicar la comparación de proporciones por medio de una técnica estadística inferencial describiremos brevemente las variables involucradas en el análisis mediante tablas y gráficos estadísticos.
# Creamos una tabla de frecuencia absolutas entre Sexo y Trabaja
tabla_trabaja_sexo <- xtabs(~Trabaja+Sexo,data = datos_eph19_filt)
# Calculamos la distribución de frecuencia relativa de la situación de trabajo por sexo
tabla_trabaja_sexo_prop <- prop.table(tabla_trabaja_sexo,margin = 2)
tabla_trabaja_sexo_prop
## Sexo
## Trabaja Hombres Mujeres
## Sí 0.7185855 0.4877920
## No 0.2814145 0.5122080
# Gráfico de barras de frecuencias relativas (proporciones)
barplot(tabla_trabaja_sexo_prop, beside = T, legend.text = T,
args.legend = list(x = "top", title= "Trabaja"), las = 1, ylim = c(0,0.8))
Notamos que la proporción de hombres que trabajaron los últimos 7 días es mayor a la de mujeres (0.719 vs 0.488). Verificaremos mediante un contraste de hipótesis si la evidencia muestral es suficiente para sostener esta afirmación que proviene del análisis descriptivo.
Considerando que \(p_{_{Hombres}}\) y \(p_{_{Mujeres}}\) representan la proporción de hombres y de mujeres, respectivamente, que declaran haber trabajado durante los últimos 7 días, planteamos las siguientes hipótesis.
\(H_0:\) La proporción de hombres que trabajaron los últimos 7 días no es mayor que la de mujeres. (\(p_{_{Hombres}}\leq p_{_{Mujeres}}\))
\(H_1:\) La proporción de hombres que trabajaron los últimos 7 días es mayor que la de mujeres. (\(p_{_{Hombres}} > p_{_{Mujeres}}\))
Utilizaremos la distribución muestral de diferencia de proporciones para probar estas hipótesis. Lo haremos siguiendo tres caminos diferentes: (1) Estadístico \(z\), (2) \(p\) valor y (3) Estadístico \(\hat{p}_1-\hat{p}_2\). Para todos los casos tomaremos un nivel de significación del 5% (\(\alpha=0.05\))
El siguiente gráfico ayudará a comprender dónde situar las regiones de rechazo y no rechazo, y de esa manera establecer claramente los criterios de decisión.
Los criterios de decisión bajo este enfoque son:
Si \(z\le 1.645\) no se rechaza la \(H_0\).
Si \(z > 1.645\) se rechaza la \(H_0\).
El estadístico \(z\) de contraste se define como
\[z=\frac{\hat{p}_{_{Hombres}}-\hat{p}_{_{Mujeres}}}{\sqrt{\hat{p}(1-\hat{p})\left(\frac{1}{n_{_{Hombres}}} + \frac{1}{n_{_{Mujeres}}}\right)}}\]
donde \(\hat{p}=\frac{X_{Hombres}+X_{Mujeres}}{n_{_{Hombres}}+n_{_{Mujeres}}}\) es la proporción estimada combinada, siendo \(X\) la cantidad de individuos que declararon haber trabajado durante los últimos 7 días.
De esta manera, calculamos las componentes del estadístico \(z\).
# Extraemos los datos de las tablas que ya generamos arriba
Xhombres <- tabla_trabaja_sexo[1,1]
Xmujeres <- tabla_trabaja_sexo[1,2]
nhombres <- sum(tabla_trabaja_sexo[,1])
nmujeres <- sum(tabla_trabaja_sexo[,2])
pcombinada <- sum(Xhombres,Xmujeres)/sum(nhombres+nmujeres)
# Las proporciones muestrales son
phombres = tabla_trabaja_sexo_prop[1,1]
pmujeres = tabla_trabaja_sexo_prop[1,2]
Ahora calculamos el valor del estadítico \(z\) del siguiente modo:
z <- (phombres-pmujeres)/sqrt(pcombinada*(1-pcombinada)*(1/nhombres+1/nmujeres))
z
## [1] 28.85692
El valor de \(z\) es mayor que 1,645, lo cual implica que rechazamos la hipótesis nula. En términos del problema podemos concluir que, al 5% de significación, la proporción de hombres que trabajaron los últimos 7 días en el año 2019 es mayor a la de mujeres.
Los criterios de decisión bajo este enfoque son:
Si \(p_{valor} > 0.05\) no se rechaza la \(H_0\).
Si \(p_{valor} \leq 0.05\) se rechaza la \(H_0\).
En R tenemos la función prop.test() para
realizar un contraste de hipótesis de diferencia de proporciones.
Aplicamos esta función sobre la tabla de frecuencias absolutas
tabla_trabaja_sexo del siguiente modo.
prop.test(t(tabla_trabaja_sexo), alternative = "greater")
##
## 2-sample test for equality of proportions with continuity correction
##
## data: t(tabla_trabaja_sexo)
## X-squared = 831.76, df = 1, p-value < 2.2e-16
## alternative hypothesis: greater
## 95 percent confidence interval:
## 0.2178905 1.0000000
## sample estimates:
## prop 1 prop 2
## 0.7185855 0.4877920
En este caso el p valor resultó ser mucho más pequeño que 0.05, lo cual implica un rechazo de la hipótesis nula, tal como se dio bajo el enfoque del estadístico \(z\). Por tanto, la conclusión es la misma.
En este caso debemos considerar la siguiente expresión.
\[\hat{p}_1-\hat{p}_2=z_{1-\alpha}\sqrt{\hat{p}(1-\hat{p})\left(\frac{1}{n_{_{Hombres}}} + \frac{1}{n_{_{Mujeres}}}\right)}\]
donde \(\hat{p}=\frac{X_{Hombres}+X_{Mujeres}}{n_{_{Hombres}}+n_{_{Mujeres}}}\) es la proporción estimada combinada, siendo \(X\) la cantidad de individuos que declararon haber trabajado durante los últimos 7 días.
Los criterios de decisión bajo este enfoque son:
Si \(\hat{p}_{_{Hombres}}-\hat{p}_{_{Mujeres}} \ge \hat{p}_1-\hat{p}_2\) no se rechaza la \(H_0\).
Si \(\hat{p}_{_{Hombres}}-\hat{p}_{_{Mujeres}} > \hat{p}_1-\hat{p}_2\) se rechaza la \(H_0\).
El valor de \(\hat{p}_1-\hat{p}_2\) lo obtenemos con el siguiente código.
pnorm(0.95)*sqrt(pcombinada*(1-pcombinada)*(1/nhombres+1/nmujeres))
## [1] 0.006629774
Mientras que el valor de \(\hat{p}_{_{Hombres}}-\hat{p}_{_{Mujeres}}\) es 0.2307935, pues
phombres-pmujeres
## [1] 0.2307935
Es decir, \(\hat{p}_{_{Hombres}}-\hat{p}_{_{Mujeres}} > \hat{p}_1-\hat{p}_2\) que induce a un rechazo de la hipótesis nula. Nuevamente tenemos que la proporción de hombres que trabajaron los últimos 7 días en el año 2019 es mayor a la de mujeres, asumiendo un 5% de significación. Notemos que los tres métodos arrojan las mismas conclusiones, por lo que en la práctica se utiliza solo uno de ellos o a lo sumo dos para dar información estadística sobre el contraste.
Realizamos una réplica del análisis anterior, pero para los datos de la EPH del año 2020.
# Enlace EPH 2020
url_eph20 = "https://www.ine.gov.py/datos/encuestas/eph/Poblacion/EPH-2020/data/55f07reg02_ephc2020.csv"
# Conjunto de datos 2020
datos_eph20 = read.csv(url_eph20,sep = ";",header = T)
dim(datos_eph20)
## [1] 17582 264
Observamos que el conjunto de datos datos_eph20 contiene
17582 filas (que representan a personas en este caso) y 264 columnas
(que representan variables).
Ahora visualizamos los nombres de las variables contenidas en el
conjunto de datos datos_eph20.
names(datos_eph20)
## [1] "UPM" "NVIVI"
## [3] "NHOGA" "DPTOREP"
## [5] "AREA" "L02"
## [7] "P02" "P03"
## [9] "P04" "P04A"
## [11] "P04B" "P05C"
## [13] "P05P" "P05M"
## [15] "P06" "P08D"
## [17] "P08M" "P08A"
## [19] "P09" "P10A"
## [21] "P10AB" "P10Z"
## [23] "P11A" "P11AB"
## [25] "P11Z" "P12"
## [27] "A01" "A01A"
## [29] "A02" "A03"
## [31] "A04" "A04B"
## [33] "A04A" "A05"
## [35] "A07" "A08"
## [37] "A10" "A11A"
## [39] "A11M" "A11S"
## [41] "A12" "A13REC"
## [43] "A14REC" "A15"
## [45] "A16" "A17A"
## [47] "A17M" "A17S"
## [49] "A18" "A18A"
## [51] "B01REC" "B02REC"
## [53] "B03LU" "B03MA"
## [55] "B03MI" "B03JU"
## [57] "B03VI" "B03SA"
## [59] "B03DO" "B04"
## [61] "B05" "B05A"
## [63] "B06" "B07A"
## [65] "B07M" "B07S"
## [67] "B08" "B09A"
## [69] "B09M" "B09S"
## [71] "B10" "B11"
## [73] "B12" "B12A"
## [75] "B12B" "B12C"
## [77] "B13" "B14"
## [79] "B15" "B16G"
## [81] "B16U" "B16D"
## [83] "B16T" "B17"
## [85] "B18AG" "B18AU"
## [87] "B18BG" "B18BU"
## [89] "B19" "B20G"
## [91] "B20U" "B20D"
## [93] "B20T" "B21"
## [95] "B22" "B23"
## [97] "B24" "B25"
## [99] "B26" "B271"
## [101] "B272" "B28"
## [103] "B29" "B30"
## [105] "B31" "C01REC"
## [107] "C02REC" "C03"
## [109] "C04" "C05"
## [111] "C06" "C07"
## [113] "C08" "C09"
## [115] "C101" "C102"
## [117] "C11G" "C11U"
## [119] "C11D" "C11T"
## [121] "C12" "C13AG"
## [123] "C13AU" "C13BG"
## [125] "C13BU" "C14"
## [127] "C14A" "C14B"
## [129] "C14C" "C15"
## [131] "C16REC" "C17REC"
## [133] "C18" "C18A"
## [135] "C18B" "C19"
## [137] "D01" "D02"
## [139] "D03" "D04"
## [141] "D05" "E01A"
## [143] "E01B" "E01C"
## [145] "E01D" "E01E"
## [147] "E01F" "E01G"
## [149] "E01H" "E01I"
## [151] "E01J" "E01K"
## [153] "E01L" "E01M"
## [155] "E02C1" "E02D1"
## [157] "E02D2" "E02B"
## [159] "E02G1" "E02G2"
## [161] "E02F" "ED01"
## [163] "ED02" "ED03"
## [165] "ED0504" "ED06C"
## [167] "ED08" "ED09"
## [169] "ED10" "ED11F1"
## [171] "ED11F1A" "ED11GH1"
## [173] "ED11GH1A" "ED12"
## [175] "ED13" "ED14"
## [177] "ED14A" "ED15"
## [179] "S01A" "S01B"
## [181] "S02" "S03"
## [183] "S03A" "S03B"
## [185] "S03C" "S04"
## [187] "S05" "S06"
## [189] "S07" "S08"
## [191] "S09" "CATE_PEA"
## [193] "TAMA_PEA" "OCUP_PEA"
## [195] "RAMA_PEA" "HORAB"
## [197] "HORABC" "HORABCO"
## [199] "PEAD" "PEAA"
## [201] "informalidad" "TIPOHOGA"
## [203] "FEX" "NJEF"
## [205] "NCON" "NPAD"
## [207] "NMAD" "TIC01"
## [209] "TIC02" "TIC03"
## [211] "TIC0401" "TIC0402"
## [213] "TIC0403" "TIC0404"
## [215] "TIC0405" "TIC0406"
## [217] "TIC0407" "TIC0408"
## [219] "TIC0409" "TIC0501"
## [221] "TIC0502" "TIC0503"
## [223] "TIC0504" "TIC0505"
## [225] "TIC0506" "TIC0507"
## [227] "TIC0508" "TIC0509"
## [229] "TIC0510" "TIC0511"
## [231] "TIC0512" "TIC0513"
## [233] "TIC06" "TIC07"
## [235] "añoest" "ra06ya09"
## [237] "e01aimde" "e01bimde"
## [239] "e01cimde" "e01dde"
## [241] "e01ede" "e01fde"
## [243] "e01gde" "e01hde"
## [245] "e01ide" "e01jde"
## [247] "e01kde" "e01lde"
## [249] "e01mde" "e01kjde"
## [251] "e02bde" "ingrevasode"
## [253] "ingreñangarekode" "ingrepytyvõde"
## [255] "ingresect_privadode" "ingreadicional_tekoporãde"
## [257] "otroingre_subside" "ipcm"
## [259] "pobrezai" "pobnopoi"
## [261] "quintili" "decili"
## [263] "quintiai" "decilai"
Filtramos el conjunto de datos de tal forma a que solo conservemos
las variables P06 (sexo del encuestado), A02
(si la persona trabajó o no durante los últimos 7 días) y
P02 (edad del encuestado). La última variable es para
chequear que solo tengamos información de las personas con al menos 10
años de edad.
# Seleccionamos a las personas que hayan informado su situación de trabajo
# y seleccionamos las variables que mantendremos para el análisis
datos_eph20_filt <- subset(datos_eph20, A02!=9, select = c(P06, A02, P02))
# Realizamos un breve resumen estadístico
summary(datos_eph20_filt)
## P06 A02 P02
## Min. :1.000 Min. :1.000 Min. : 10.00
## 1st Qu.:1.000 1st Qu.:1.000 1st Qu.: 20.00
## Median :6.000 Median :1.000 Median : 34.00
## Mean :3.525 Mean :3.098 Mean : 37.46
## 3rd Qu.:6.000 3rd Qu.:6.000 3rd Qu.: 52.00
## Max. :6.000 Max. :6.000 Max. :101.00
Vemos que las variables categóricas deben ser etiquetadas. Además observamos que la edad más pequeña es 10 años, tal como lo deseamos.
# Etiquetamos la variable P06 y la guardamos en el objeto Sexo
datos_eph20_filt$Sexo <- factor(datos_eph20_filt$P06, labels = c("Hombres","Mujeres"))
# Etiquetamos la variable A02 y la guardamos en el objeto Trabaja
datos_eph20_filt$Trabaja <- factor(datos_eph20_filt$A02, labels = c("Sí","No"))
# Realizamos un breve resumen estadístico
summary(datos_eph20_filt)
## P06 A02 P02 Sexo Trabaja
## Min. :1.000 Min. :1.000 Min. : 10.00 Hombres:7184 Sí:8425
## 1st Qu.:1.000 1st Qu.:1.000 1st Qu.: 20.00 Mujeres:7330 No:6089
## Median :6.000 Median :1.000 Median : 34.00
## Mean :3.525 Mean :3.098 Mean : 37.46
## 3rd Qu.:6.000 3rd Qu.:6.000 3rd Qu.: 52.00
## Max. :6.000 Max. :6.000 Max. :101.00
Antes de aplicar la comparación de proporciones por medio de una técnica estadística inferencial describiremos brevemente las variables involucradas en el análisis mediante tablas y gráficos estadísticos.
# Creamos una tabla de frecuencia absolutas entre Sexo y Trabaja
tabla_trabaja_sexo <- xtabs(~Trabaja+Sexo,data = datos_eph20_filt)
# Calculamos la distribución de frecuencia relativa de la situación de trabajo por sexo
tabla_trabaja_sexo_prop <- prop.table(tabla_trabaja_sexo,margin = 2)
tabla_trabaja_sexo_prop
## Sexo
## Trabaja Hombres Mujeres
## Sí 0.6987751 0.4645293
## No 0.3012249 0.5354707
# Gráfico de barras de frecuencias relativas (proporciones)
barplot(tabla_trabaja_sexo_prop, beside = T, legend.text = T,
args.legend = list(x = "top", title= "Trabaja"), las = 1, ylim = c(0,0.8))
Notamos que la proporción de hombres que trabajaron los últimos 7 días es mayor a la de mujeres (0.699 vs 0.465). Estos valores no son muy diferentes a los dados para el año anterior. Verificaremos mediante un contraste de hipótesis si la evidencia muestral es suficiente para sostener esta afirmación que proviene del análisis descriptivo.
Considerando que \(p_{_{Hombres}}\) y \(p_{_{Mujeres}}\) representan la proporción de hombres y de mujeres, respectivamente, que declaran haber trabajado durante los últimos 7 días, planteamos las siguientes hipótesis.
\(H_0:\) La proporción de hombres que trabajaron los últimos 7 días no es mayor que la de mujeres. (\(p_{_{Hombres}}\leq p_{_{Mujeres}}\))
\(H_1:\) La proporción de hombres que trabajaron los últimos 7 días es mayor que la de mujeres. (\(p_{_{Hombres}} > p_{_{Mujeres}}\))
Utilizaremos la distribución muestral de diferencia de proporciones para probar estas hipótesis. Lo haremos siguiendo tres caminos diferentes: (1) Estadístico \(z\), (2) \(p\) valor y (3) Estadístico \(\hat{p}_1-\hat{p}_2\). Para todos los casos tomaremos un nivel de significación del 5% (\(\alpha=0.05\))
El siguiente gráfico ayudará a comprender dónde situar las regiones de rechazo y no rechazo, y de esa manera establecer claramente los criterios de decisión.
Los criterios de decisión bajo este enfoque son:
Si \(z\le 1.645\) no se rechaza la \(H_0\).
Si \(z > 1.645\) se rechaza la \(H_0\).
El estadístico \(z\) de contraste se define como
\[z=\frac{\hat{p}_{_{Hombres}}-\hat{p}_{_{Mujeres}}}{\sqrt{\hat{p}(1-\hat{p})\left(\frac{1}{n_{_{Hombres}}} + \frac{1}{n_{_{Mujeres}}}\right)}}\]
donde \(\hat{p}=\frac{X_{Hombres}+X_{Mujeres}}{n_{_{Hombres}}+n_{_{Mujeres}}}\) es la proporción estimada combinada, siendo \(X\) la cantidad de individuos que declararon haber trabajado durante los últimos 7 días.
De esta manera, calculamos las componentes del estadístico \(z\).
# Extraemos los datos de las tablas que ya generamos arriba
Xhombres <- tabla_trabaja_sexo[1,1]
Xmujeres <- tabla_trabaja_sexo[1,2]
nhombres <- sum(tabla_trabaja_sexo[,1])
nmujeres <- sum(tabla_trabaja_sexo[,2])
pcombinada <- sum(Xhombres,Xmujeres)/sum(nhombres+nmujeres)
# Las proporciones muestrales son
phombres = tabla_trabaja_sexo_prop[1,1]
pmujeres = tabla_trabaja_sexo_prop[1,2]
Ahora calculamos el valor del estadítico \(z\) del siguiente modo:
z <- (phombres-pmujeres)/sqrt(pcombinada*(1-pcombinada)*(1/nhombres+1/nmujeres))
z
## [1] 28.59186
El valor de \(z\) es mayor que 1,645, lo cual implica que rechazamos la hipótesis nula. En términos del problema podemos concluir que, al 5% de significación, la proporción de hombres que trabajaron los últimos 7 días en el año 2020 es mayor a la de mujeres.
Los criterios de decisión bajo este enfoque son:
Si \(p_{valor} > 0.05\) no se rechaza la \(H_0\).
Si \(p_{valor} \leq 0.05\) se rechaza la \(H_0\).
En R tenemos la función prop.test() para
realizar un contraste de hipótesis de diferencia de proporciones.
Aplicamos esta función sobre la tabla de frecuencias absolutas
tabla_trabaja_sexo del siguiente modo.
prop.test(t(tabla_trabaja_sexo), alternative = "greater")
##
## 2-sample test for equality of proportions with continuity correction
##
## data: t(tabla_trabaja_sexo)
## X-squared = 816.53, df = 1, p-value < 2.2e-16
## alternative hypothesis: greater
## 95 percent confidence interval:
## 0.221028 1.000000
## sample estimates:
## prop 1 prop 2
## 0.6987751 0.4645293
En este caso el p valor resultó ser mucho más pequeño que 0.05, lo cual implica un rechazo de la hipótesis nula, tal como se dio bajo el enfoque del estadístico \(z\). Por tanto, la conclusión es la misma.
En este caso debemos considerar la siguiente expresión.
\[\hat{p}_1-\hat{p}_2=z_{1-\alpha}\sqrt{\hat{p}(1-\hat{p})\left(\frac{1}{n_{_{Hombres}}} + \frac{1}{n_{_{Mujeres}}}\right)}\]
donde \(\hat{p}=\frac{X_{Hombres}+X_{Mujeres}}{n_{_{Hombres}}+n_{_{Mujeres}}}\) es la proporción estimada combinada, siendo \(X\) la cantidad de individuos que declararon haber trabajado durante los últimos 7 días.
Los criterios de decisión bajo este enfoque son:
Si \(\hat{p}_{_{Hombres}}-\hat{p}_{_{Mujeres}} \ge \hat{p}_1-\hat{p}_2\) no se rechaza la \(H_0\).
Si \(\hat{p}_{_{Hombres}}-\hat{p}_{_{Mujeres}} > \hat{p}_1-\hat{p}_2\) se rechaza la \(H_0\).
El valor de \(\hat{p}_1-\hat{p}_2\) lo obtenemos con el siguiente código.
pnorm(0.95)*sqrt(pcombinada*(1-pcombinada)*(1/nhombres+1/nmujeres))
## [1] 0.006791323
Mientras que el valor de \(\hat{p}_{_{Hombres}}-\hat{p}_{_{Mujeres}}\) es 0.2307935, pues
phombres-pmujeres
## [1] 0.2342457
Es decir, \(\hat{p}_{_{Hombres}}-\hat{p}_{_{Mujeres}} > \hat{p}_1-\hat{p}_2\) que induce a un rechazo de la hipótesis nula. Nuevamente tenemos que la proporción de hombres que trabajaron los últimos 7 días en el año 2020 es mayor a la de mujeres, asumiendo un 5% de significación.
En resumen, demostramos que las proporciones de hombres y de mujeres que declararon trabajar durante los últimos 7 días son muy similares comparando los años 2019 y 2020. Pero sin embargo, al realizar las comparaciones respecto al sexo de la persona los resultados sugieren que son muy diferentes, a favor de los hombres. Tanto la estadística descriptiva como la inferencial respaldan esta afirmación.
Presentamos una simulación de la estadística \(F\) definida como
\[F=\frac{S_1^2}{S_2^2}\]
donde asumimos dos poblaciones normales independientes con varianzas desconocidas pero iguales, siendo \(S_1^2\) la varianza de la muestra obtenida de la primera población y \(S_2^2\) la varianza de la muestra obtenida de la segunda población. La intención es demostrar que si se extraen muestras de tamaños \(n_1\) y \(n_2\), la estadística \(F\) tiene aproximadamente distribución F con \(n_1-1\) y \(n_2-1\) grados de libertad (Canavos, 1988).
Para la simulación tomamos dos poblaciones normales con medias
diferentes pero varianzas iguales, aunque esta suposición es totalmente
arbitraria para facilitar los cálculos. En esta simulación se consideran
tamaños muestrales iguales, aunque este escenario es nuevamente
arbitrario para simplificar los cálculos en R.
# Establecemos una semilla para generar los números pseudo aleatorios
set.seed(123)
# Población normal de 200000 elementos con media=20 y sd=10
Pob_Norm_1 <- rnorm(200000,20,10)
# Población normal de 200000 elementos con media=50 y sd=10
Pob_Norm_2 <- rnorm(200000,50,10)
# Creamos una función que permita calcular la estadística F con diferentes repeticiones y
# tamaños muestrales incrementales
simular_valores <- function(k,n){
x <- matrix(data = NA, nrow = k, ncol = n)
for(i in 1:n) {
x[,i] <- sapply(1:k, function(y){
var(sample(Pob_Norm_1,n,replace = T))/var(sample(Pob_Norm_2,n,replace = T))
})
}
x
}
# Como ejemplo realizamos 200000 réplicas de tamaños muestrales iguales o inferiores a 10.
M <- simular_valores(200000,12)
# Graficamos las distribuciones de F mediante histogramas y curvas de la distribución F superpuestas.
par(mfrow=c(3,4))
for (i in 1:ncol(M)) {
hist(M[,i],freq = F, xlab = "", main = paste("n1 = n2 =", i))
curve(df(x,i-1,i-1),add = T)
}
Observamos que para \(n\le12\) se tienen distribuciones muy próximas a la de F con \(n_1-1\) y \(n_2-1\) grados de libertad. Si se incrementaran los tamaños muestrales obtendríamos similares ajustes, aunque esto no representa una condición necesaria.
Canavos, G. (1988). Probabilidad y Estadística: Aplicaciones y Métodos. McGraw-Hill Interamericana, México.
R Core Team (2023). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. https://www.R-project.org/.