Para realizar la práctica
# Acceder a la Base de Datos de la Encuesta Permanente de Hogares (EPH)2020.
url.eph.2019 = "https://www.ine.gov.py/datos/encuestas/eph/Poblacion/EPH-2019/data/4edb7reg02_ephc2019.csv"
# Guardar los datos de la Encuesta Permanente de Hogares (EPH)2019 en el objeto data.eph.2019
data.eph.2019 = read.csv(url.eph.2019,sep = ";",header = T)
# Visualizar los nombres de las variables en data.eph.2019
names(data.eph.2019)
## [1] "UPM" "NVIVI" "NHOGA" "DPTOREP" "AREA" "L02"
## [7] "P02" "P03" "P04" "P04A" "P04B" "P05C"
## [13] "P05P" "P05M" "P06" "P08D" "P08M" "P08A"
## [19] "P09" "P10A" "P10AB" "P10Z" "P11A" "P11AB"
## [25] "P11Z" "P12" "A01" "A01A" "A02" "A03"
## [31] "A04" "A04A" "A05" "A07" "A08" "A10"
## [37] "A11A" "A11M" "A11S" "A12" "A13REC" "A14REC"
## [43] "A15" "A16" "A17A" "A17M" "A17S" "A18"
## [49] "B01REC" "B02REC" "B03LU" "B03MA" "B03MI" "B03JU"
## [55] "B03VI" "B03SA" "B03DO" "B04" "B05" "B06"
## [61] "B07A" "B07M" "B07S" "B08" "B09A" "B09M"
## [67] "B09S" "B10" "B11" "B12" "B12A" "B12B"
## [73] "B12C" "B13" "B14" "B15" "B16G" "B16U"
## [79] "B16D" "B16T" "B17" "B18AG" "B18AU" "B18BG"
## [85] "B18BU" "B19" "B20G" "B20U" "B20D" "B20T"
## [91] "B21" "B22" "B23" "B24" "B25" "B26"
## [97] "B271" "B272" "B28" "B29" "B30" "B31"
## [103] "C01REC" "C02REC" "C03" "C04" "C05" "C06"
## [109] "C07" "C08" "C09" "C101" "C102" "C11G"
## [115] "C11U" "C11D" "C11T" "C12" "C13AG" "C13AU"
## [121] "C13BG" "C13BU" "C14" "C14A" "C14B" "C14C"
## [127] "C15" "C16REC" "C17REC" "C18" "C18A" "C18B"
## [133] "C19" "D01" "D02" "D03" "D04" "D05"
## [139] "E01A" "E01B" "E01C" "E01D" "E01E" "E01F"
## [145] "E01G" "E01H" "E01I" "E01J" "E01K" "E01L"
## [151] "E01M" "ED01" "ED02" "ED03" "ED0504" "ED06C"
## [157] "ED08" "ED09" "ED10" "ED11B1" "ED11B2" "ED11B3"
## [163] "ED11B4" "ED11B5" "ED11B6" "ED11B7" "ED11B8" "ED11B9"
## [169] "ED11C1" "ED11D1" "ED11E1" "ED11F1" "ED11F1A" "ED11F1B"
## [175] "ED11G1" "ED11G1A" "ED11G1B" "ED11H1" "ED11H1A" "ED11H1B"
## [181] "ED12" "ED13" "ED14" "ED14A" "ED15" "S01A"
## [187] "S01B" "S02" "S03" "S04" "S05" "S06"
## [193] "S07" "S08" "S09" "CATE_PEA" "TAMA_PEA" "OCUP_PEA"
## [199] "RAMA_PEA" "HORAB" "HORABC" "HORABCO" "PEAD" "PEAA"
## [205] "TIPOHOGA" "FEX" "NJEF" "NCON" "NPAD" "NMAD"
## [211] "TIC01" "TIC02" "TIC03" "TIC0401" "TIC0402" "TIC0403"
## [217] "TIC0404" "TIC0405" "TIC0406" "TIC0407" "TIC0408" "TIC0409"
## [223] "TIC0501" "TIC0502" "TIC0503" "TIC0504" "TIC0505" "TIC0506"
## [229] "TIC0507" "TIC0508" "TIC0509" "TIC0510" "TIC0511" "TIC0512"
## [235] "TIC0513" "TIC06" "añoest" "ra06ya09" "e01aimde" "e01bimde"
## [241] "e01cimde" "e01dde" "e01ede" "e01fde" "e01gde" "e01hde"
## [247] "e01ide" "e01jde" "e01kde" "e01lde" "e01mde" "e01kjde"
## [253] "e02bde" "ipcm" "pobrezai" "pobnopoi" "quintili" "decili"
## [259] "quintiai" "decilai"
data.eph.2019.fil <- subset(data.eph.2019, TIC0512!=9 & TIC0512!="NA",select =c(P06,TIC0512,P02))
#Etiquetar la variable Sexo
data.eph.2019.fil$Sexo <- factor(data.eph.2019.fil$P06, labels = c("Hombres","Mujeres"))
#Etiquetar la variable Si en los últimos 3 meses, utilizó Internet para Usar/descargar juegos, videos, músicas, películas, programas informáticos
data.eph.2019.fil$Descjuegos <- factor(data.eph.2019.fil$TIC0512, labels = c("Si","No"))
#Summary
summary(data.eph.2019.fil)
## P06 TIC0512 P02 Sexo Descjuegos
## Min. :1.000 Min. :1.00 Min. :10.00 Hombres:4637 Si:5537
## 1st Qu.:1.000 1st Qu.:1.00 1st Qu.:21.00 Mujeres:4876 No:3976
## Median :6.000 Median :1.00 Median :30.00
## Mean :3.563 Mean :3.09 Mean :32.63
## 3rd Qu.:6.000 3rd Qu.:6.00 3rd Qu.:42.00
## Max. :6.000 Max. :6.00 Max. :88.00
Estadísticas Descriptivas y Gráficas
# Tabla de Frecuencia Absoluta
tabla.sexo.descjuegos<- xtabs(~Sexo+Descjuegos,data = data.eph.2019.fil)
tabla.sexo.descjuegos
## Descjuegos
## Sexo Si No
## Hombres 2889 1748
## Mujeres 2648 2228
# Tabla de Frecuencia Relativa (proporciones)
tabla.sexo.descjuegos_prop <- prop.table(tabla.sexo.descjuegos,margin = 1)
addmargins(tabla.sexo.descjuegos_prop,margin = 2)
## Descjuegos
## Sexo Si No Sum
## Hombres 0.6230321 0.3769679 1.0000000
## Mujeres 0.5430681 0.4569319 1.0000000
# Gráfico de Barras para Frecuencia Absoluta
barplot(t(tabla.sexo.descjuegos), beside = T, legend.text = T)
# Gráfico de Barras para Frecuencia Relativa (proporciones)
barplot(t(prop.table(tabla.sexo.descjuegos,margin = 1)), beside = T, legend.text = T)
Utilizar la Distribución Muestral de Diferencia de Proporciones para contrastar las hipótesis.
\(H_0:\) La proporción de hombres que si en los últimos 3 meses, utilizó internet para Usar/descargar juegos, videos, músicas, películas, programas informáticos no es mayor que la de mujeres.
\(H_1:\) La proporción de hombres que si en los últimos 3 meses, utilizó internet para Usar/descargar juegos, videos, músicas, películas, programas informáticoses es mayor que la de mujeres.
Criterio de decisión
Para un \(\alpha=0,05\), si \(z\le 1,645\) no se rechaza la \(H_0\).
Para un \(\alpha=0,05\), si \(z > 1,645\) se rechaza la \(H_0\).
Calcular el Estadístico de Prueba
x_H <- tabla.sexo.descjuegos[1,1]
x_H
## [1] 2889
x_M <- tabla.sexo.descjuegos[2,1]
x_M
## [1] 2648
n_H <- sum(tabla.sexo.descjuegos[1,])
n_H
## [1] 4637
n_M <- sum(tabla.sexo.descjuegos[2,])
n_M
## [1] 4876
pest_H = tabla.sexo.descjuegos_prop[1,1]
pest_H
## [1] 0.6230321
pest_M = tabla.sexo.descjuegos_prop[2,1]
pest_M
## [1] 0.5430681
pest_gral <- (x_H+x_M)/(n_H+n_M)
pest_gral
## [1] 0.5820456
Calcular el valor de z
z <- (pest_H-pest_M)/sqrt(pest_gral*(1-pest_gral)*(1/n_H+1/n_M))
z
## [1] 7.903937
Conclusión: Como el valor de \(z=7,903937>1,645\). Por tanto, se rechaza la \(H_0\), esto significa que existe evidencia estadística para afirmar con un nivel de significancia del 0,05 que la proporción de hombres que en los últimos 3 meses, utilizó internet para para usar/descargar juegos, videos, músicas, películas, programas informáticoses es mayor que la de mujeres.
Criterio de decisión
Para un \(\alpha=0,05\), si \(p_{valor} > 0,05\) no se rechaza la \(H_0\).
Para un \(\alpha=0,05\), si \(p_{valor} \le 0,05\) se rechaza la \(H_0\).
#Prueba unilateral derecha
prop.test(tabla.sexo.descjuegos, alternative = "greater")
##
## 2-sample test for equality of proportions with continuity correction
##
## data: tabla.sexo.descjuegos
## X-squared = 62.144, df = 1, p-value = 1.596e-15
## alternative hypothesis: greater
## 95 percent confidence interval:
## 0.06317889 1.00000000
## sample estimates:
## prop 1 prop 2
## 0.6230321 0.5430681
Conclusión01: Como la prueba estadística basada en la diferencia entre proporciones arroja un p-valor casi nulo, entonces rechazamos la hipoesis nula. Afirmar que con un nivel de significancia del 0,05,la proporción de hombres que en los últimos 3 meses, utilizó internet para para usar/descargar juegos, videos, músicas, películas, programas informáticoses es mayor que la de mujeres.
# Acceder a la Base de Datos de la Encuesta Permanente de Hogares (EPH)2020.
url.eph.2020 = "https://www.ine.gov.py/datos/encuestas/eph/Poblacion/EPH-2020/data/55f07reg02_ephc2020.csv"
# Guardar los datos de la Encuesta Permanente de Hogares (EPH)2020 en el objeto data.eph.2020
data.eph.2020 = read.csv(url.eph.2020,sep = ";",header = T)
# Visualizamos los nombres de las variables en data.eph.2020
names(data.eph.2020)
## [1] "UPM" "NVIVI"
## [3] "NHOGA" "DPTOREP"
## [5] "AREA" "L02"
## [7] "P02" "P03"
## [9] "P04" "P04A"
## [11] "P04B" "P05C"
## [13] "P05P" "P05M"
## [15] "P06" "P08D"
## [17] "P08M" "P08A"
## [19] "P09" "P10A"
## [21] "P10AB" "P10Z"
## [23] "P11A" "P11AB"
## [25] "P11Z" "P12"
## [27] "A01" "A01A"
## [29] "A02" "A03"
## [31] "A04" "A04B"
## [33] "A04A" "A05"
## [35] "A07" "A08"
## [37] "A10" "A11A"
## [39] "A11M" "A11S"
## [41] "A12" "A13REC"
## [43] "A14REC" "A15"
## [45] "A16" "A17A"
## [47] "A17M" "A17S"
## [49] "A18" "A18A"
## [51] "B01REC" "B02REC"
## [53] "B03LU" "B03MA"
## [55] "B03MI" "B03JU"
## [57] "B03VI" "B03SA"
## [59] "B03DO" "B04"
## [61] "B05" "B05A"
## [63] "B06" "B07A"
## [65] "B07M" "B07S"
## [67] "B08" "B09A"
## [69] "B09M" "B09S"
## [71] "B10" "B11"
## [73] "B12" "B12A"
## [75] "B12B" "B12C"
## [77] "B13" "B14"
## [79] "B15" "B16G"
## [81] "B16U" "B16D"
## [83] "B16T" "B17"
## [85] "B18AG" "B18AU"
## [87] "B18BG" "B18BU"
## [89] "B19" "B20G"
## [91] "B20U" "B20D"
## [93] "B20T" "B21"
## [95] "B22" "B23"
## [97] "B24" "B25"
## [99] "B26" "B271"
## [101] "B272" "B28"
## [103] "B29" "B30"
## [105] "B31" "C01REC"
## [107] "C02REC" "C03"
## [109] "C04" "C05"
## [111] "C06" "C07"
## [113] "C08" "C09"
## [115] "C101" "C102"
## [117] "C11G" "C11U"
## [119] "C11D" "C11T"
## [121] "C12" "C13AG"
## [123] "C13AU" "C13BG"
## [125] "C13BU" "C14"
## [127] "C14A" "C14B"
## [129] "C14C" "C15"
## [131] "C16REC" "C17REC"
## [133] "C18" "C18A"
## [135] "C18B" "C19"
## [137] "D01" "D02"
## [139] "D03" "D04"
## [141] "D05" "E01A"
## [143] "E01B" "E01C"
## [145] "E01D" "E01E"
## [147] "E01F" "E01G"
## [149] "E01H" "E01I"
## [151] "E01J" "E01K"
## [153] "E01L" "E01M"
## [155] "E02C1" "E02D1"
## [157] "E02D2" "E02B"
## [159] "E02G1" "E02G2"
## [161] "E02F" "ED01"
## [163] "ED02" "ED03"
## [165] "ED0504" "ED06C"
## [167] "ED08" "ED09"
## [169] "ED10" "ED11F1"
## [171] "ED11F1A" "ED11GH1"
## [173] "ED11GH1A" "ED12"
## [175] "ED13" "ED14"
## [177] "ED14A" "ED15"
## [179] "S01A" "S01B"
## [181] "S02" "S03"
## [183] "S03A" "S03B"
## [185] "S03C" "S04"
## [187] "S05" "S06"
## [189] "S07" "S08"
## [191] "S09" "CATE_PEA"
## [193] "TAMA_PEA" "OCUP_PEA"
## [195] "RAMA_PEA" "HORAB"
## [197] "HORABC" "HORABCO"
## [199] "PEAD" "PEAA"
## [201] "informalidad" "TIPOHOGA"
## [203] "FEX" "NJEF"
## [205] "NCON" "NPAD"
## [207] "NMAD" "TIC01"
## [209] "TIC02" "TIC03"
## [211] "TIC0401" "TIC0402"
## [213] "TIC0403" "TIC0404"
## [215] "TIC0405" "TIC0406"
## [217] "TIC0407" "TIC0408"
## [219] "TIC0409" "TIC0501"
## [221] "TIC0502" "TIC0503"
## [223] "TIC0504" "TIC0505"
## [225] "TIC0506" "TIC0507"
## [227] "TIC0508" "TIC0509"
## [229] "TIC0510" "TIC0511"
## [231] "TIC0512" "TIC0513"
## [233] "TIC06" "TIC07"
## [235] "añoest" "ra06ya09"
## [237] "e01aimde" "e01bimde"
## [239] "e01cimde" "e01dde"
## [241] "e01ede" "e01fde"
## [243] "e01gde" "e01hde"
## [245] "e01ide" "e01jde"
## [247] "e01kde" "e01lde"
## [249] "e01mde" "e01kjde"
## [251] "e02bde" "ingrevasode"
## [253] "ingreñangarekode" "ingrepytyvõde"
## [255] "ingresect_privadode" "ingreadicional_tekoporãde"
## [257] "otroingre_subside" "ipcm"
## [259] "pobrezai" "pobnopoi"
## [261] "quintili" "decili"
## [263] "quintiai" "decilai"
data.eph.2020.fil <- subset(data.eph.2020, TIC0512!=9 & TIC0512!="NA",select =c(P06,TIC0512,P02))
#Etiquetamos la variable Sexo
data.eph.2020.fil$Sexo <- factor(data.eph.2020.fil$P06, labels = c("Hombres","Mujeres"))
#Etiquetamos la variable Si utilizó internet para Usar/descargar juegos, videos, músicas, películas, programas informáticos
data.eph.2020.fil$Descjuegos <- factor(data.eph.2020.fil$TIC0512, labels = c("Si","No"))
#summary
summary(data.eph.2020.fil)
## P06 TIC0512 P02 Sexo Descjuegos
## Min. :1.000 Min. :1.000 Min. :10.00 Hombres:4905 Si:4814
## 1st Qu.:1.000 1st Qu.:1.000 1st Qu.:20.00 Mujeres:5158 No:5249
## Median :6.000 Median :6.000 Median :30.00
## Mean :3.563 Mean :3.608 Mean :32.67
## 3rd Qu.:6.000 3rd Qu.:6.000 3rd Qu.:43.00
## Max. :6.000 Max. :6.000 Max. :89.00
Estadísticas Descriptivas y Gráficas
# Tabla de Frecuencia Absoluta
tabla.sexo.descjuegos<- xtabs(~Sexo+Descjuegos,data = data.eph.2020.fil)
tabla.sexo.descjuegos
## Descjuegos
## Sexo Si No
## Hombres 2506 2399
## Mujeres 2308 2850
# Tabla de Frecuencia Relativa (proporciones)
tabla.sexo.descjuegos_prop <- prop.table(tabla.sexo.descjuegos,margin = 1)
addmargins(tabla.sexo.descjuegos_prop,margin = 2)
## Descjuegos
## Sexo Si No Sum
## Hombres 0.5109072 0.4890928 1.0000000
## Mujeres 0.4474603 0.5525397 1.0000000
# Gráfico de Barras para Frecuencia Absoluta
barplot(t(tabla.sexo.descjuegos), beside = T, legend.text = T)
# Gráfico de Barras para Frecuencia Relativa (proporciones)
barplot(t(prop.table(tabla.sexo.descjuegos,margin = 1)), beside = T, legend.text = T)
Utilizar la Distribución Muestral de Diferencia de Proporciones para contrastar las hipótesis.
\(H_0:\) La proporción de hombres que si en los últimos 3 meses, utilizó internet para Usar/descargar juegos, videos, músicas, películas, programas informáticos no es mayor que la de mujeres.
\(H_1:\) La proporción de hombres que si en los últimos 3 meses, utilizó internet para Usar/descargar juegos, videos, músicas, películas, programas informáticoses es mayor que la de mujeres.
Criterio de decisión
Para un \(\alpha=0,05\), si \(z\le 1,645\) no se rechaza la \(H_0\).
Para un \(\alpha=0,05\), si \(z > 1,645\) se rechaza la \(H_0\).
Calcular el Estadístico de Prueba
x_H <- tabla.sexo.descjuegos[1,1]
x_H
## [1] 2506
x_M <- tabla.sexo.descjuegos[2,1]
x_M
## [1] 2308
n_H <- sum(tabla.sexo.descjuegos[1,])
n_H
## [1] 4905
n_M <- sum(tabla.sexo.descjuegos[2,])
n_M
## [1] 5158
pest_H = tabla.sexo.descjuegos_prop[1,1]
pest_H
## [1] 0.5109072
pest_M = tabla.sexo.descjuegos_prop[2,1]
pest_M
## [1] 0.4474603
pest_gral <- (x_H+x_M)/(n_H+n_M)
pest_gral
## [1] 0.4783862
Calcular el valor de z
z <- (pest_H-pest_M)/sqrt(pest_gral*(1-pest_gral)*(1/n_H+1/n_M))
z
## [1] 6.368594
Conclusión: Como el valor de \(z=6,368594>1,645\). Por tanto, se rechaza la \(H_0\), esto significa que existe evidencia estadistica para afirmar con un nivel de significancia del 0,05 que la proporción de hombres que si en los últimos 3 meses, utilizó internet para para usar/descargar juegos, videos, músicas, películas, programas informáticoses es mayor que la de mujeres.
Criterios de decisión
Para un \(\alpha=0,05\), si \(p_{valor} > 0,05\) no se rechaza la \(H_0\).
Para un \(\alpha=0,05\), si \(p_{valor} \le 0,05\) se rechaza la \(H_0\).
Para encontrar el
#Prueba unilateral derecha
prop.test(tabla.sexo.descjuegos, alternative = "greater")
##
## 2-sample test for equality of proportions with continuity correction
##
## data: tabla.sexo.descjuegos
## X-squared = 40.305, df = 1, p-value = 1.086e-10
## alternative hypothesis: greater
## 95 percent confidence interval:
## 0.04689216 1.00000000
## sample estimates:
## prop 1 prop 2
## 0.5109072 0.4474603
Conclusión02: Como la prueba estadística basada en la diferencia entre proporciones arroja un p valor casi nulo, entonces rechazamos la hipotesis nula. Afirmar con un nivel de significancia del 0,05 que la proporción de hombres que si en los últimos 3 meses, utilizó internet para para usar/descargar juegos, videos, músicas, películas, programas informáticoses es mayor que la de mujeres.
Conclusión General: Para ambos años (2019 y 2020) se mantiene la diferencia significativa estadísticamente comprobadas mediante las pruebas de hipotesis, con un nivel de significancia del 0,05; la la proporción de hombres que si en los últimos 3 meses, utilizó internet para para usar/descargar juegos, videos, músicas, películas, programas informáticoses es mayor que la de mujeres.
El teorema central del límite (TCL) es una teoría estadística que establece que, dada una muestra aleatoria suficientemente grande de la población, la distribución de las medias muestrales seguirá una distribución normal.
#Entonces se procede a realizar 10000 replicaciones para cada tamaño de muestra y en base a una variable aleatoria con Distribución Poisson.
rpois<-rpois(100000,5) #variable aleatoria con distribución poisson
#(población de 100000 casos)
meanP <- mean(rpois) # media parámetro poblacional
means10<-NULL
for(i in 1:10000){
means10<-c(means10,mean(sample(rpois,size = 10)))
} #calculamos la media para 10000 muestras aleatorias de n=10
means50<-NULL
for(i in 1:10000){
means50<-c(means50,mean(sample(rpois,size = 50)))
} #calculamos la media para 10000 muestras aleatorias de n=50
means100<-NULL
for(i in 1:10000){
means100<-c(means100,mean(sample(rpois,size = 100)))
} #calculamos la media para 10000 muestras aleatorias de n=100
means500<-NULL
for(i in 1:10000){
means500<-c(means500,mean(sample(rpois,size = 500)))
} #calculamos la media para 10000 muestras aleatorias de n=500
means1000<-NULL
for(i in 1:10000){
means1000<-c(means1000,mean(sample(rpois,size = 1000)))
} #calculamos la media para 10000 muestras aleatorias de n=1000
means2000<-NULL
for(i in 1:10000){
means2000<-c(means2000,mean(sample(rpois,size = 2000)))
} #calculamos la media para 10000 muestras aleatorias de n=2000
means3000<-NULL
for(i in 1:10000){
means3000<-c(means3000,mean(sample(rpois,size = 3000)))
} #calculamos la media para 10000 muestras aleatorias de n=3000
n <-c(rep(10,10000),rep(50,10000),rep(100,10000),rep(500,10000),rep(1000,10000),rep(2000,10000),
rep(3000,10000))
diferencias <-c(meanP-means10, meanP-means50, meanP-means100, meanP-means500,meanP-means1000,
meanP-means2000, meanP-means3000)
plot(n,diferencias)
abline(h = 0,col="blue")
par(mfrow=c(1,2))
par(mfrow=c(2,2))
hist(rpois)
hist(means10)
hist(means50)
hist(means100)
hist(means1000)
hist(means2000)
hist(means3000)
Ley de los grandes números: a medida que aumenta el tamaño de la muestra, decrece la diferencia entre el estadístico muestral y el parámetro poblacional.
Con esta simulación se puede ver que al aumentar el n de la muestra, si sacamos una muestra al azar, tendremos mayor seguridad de que el estadístico tienda a converger eventualmente con el parámetro poblacional.