En este documento R Markdown, se presenta la tarea de muestreo, en la que se solicitaba determinar el salario promedio de la base de Datos de la GEIH, encuesta diciembre año 2019, Cabecera, Ocupados; en donde para este muestreo aleatorio se debe cambiar el valor de la desviación deseada a 50000, el cual repercute en el tamaño de la muestra “n”.
Primero se procedió a realizar el Código “pp=S.SI(nrow(trmu),10)” para la selección de 10 valores aleatorios, (la selección de 10 datos se debe a una indicación al azar de parte del docente), colocar la ”semilla” para que estos se mantengan. Las casillas elegidas por R fueron: pp=[4919, 7750, 8523, 11807, 16194, 16248, 16431, 17062, 20626, 21679] y sus valores correspondientes (en pesos$) fueron [1600000, 400000,900000, 850000, 500000, 850000, 1650000, 0, 720000, 300000], con estos valores se forma la prueba piloto.
La varianza y la desviación de la prueba piloto fue de v_=279845555555,556 y s_d=529004,3
Ahora bien, Conociendo que el número total de datos es de N=23139, la varianza deseada V=50000 y la varianza de la población S=2,7984×10^10 , el tamaño de muestra requerido para estimar la media con una precisión específica “n” es igual a 111 datos, los cuales se pueden evidenciar en este informe.
library(readxl)
trmu <- read_excel("C:/Users/Usuario/Downloads/hsranqui_ejercicio de muestreo.xlsx",
sheet = "Cabecera - Ocupados")
## New names:
## • `` -> `...5`
## • `` -> `...6`
View(trmu)
attach(trmu)
names(trmu)
## [1] "INGLABO" "DPTO" "fex_c_2011" "Número aleatorio"
## [5] "...5" "...6"
library(TeachingSampling)
## Warning: package 'TeachingSampling' was built under R version 4.2.2
## Loading required package: dplyr
## Warning: package 'dplyr' was built under R version 4.2.2
##
## Attaching package: 'dplyr'
##
## The following objects are masked from 'package:stats':
##
## filter, lag
##
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
##
## Loading required package: magrittr
set.seed(1)
pp=S.SI(nrow(trmu),10)
table(pp)
## pp
## 0 4919 7750 8523 11807 16194 16248 16431 17062 20626 21679
## 23129 1 1 1 1 1 1 1 1 1 1
piloto=trmu[pp,]
###cálculo de la varianza, con una prueba piloto -S.SI- utilizar semilla (replicabilidad-fijar el número piloto)
v_p=var(piloto$INGLABO)
d_p=sd(piloto$INGLABO)
desv_deseada=50000
var_deseada=desv_deseada^2
N=nrow(trmu)
n=(N*v_p)/((N*var_deseada)+v_p)
###Selección de datos aleatorios###
set.seed(1)
mf=S.SI(nrow(trmu),round(n,0))
### muestra final cálculo del promedio###
table(mf)
## mf
## 0 463 488 721 891 1072 1311 1542 1597 1916 1949 1978 2329
## 23028 1 1 1 1 1 1 1 1 1 1 1 1
## 2834 2883 2895 3058 3065 3197 3272 3811 3880 4036 4163 4263 4407
## 1 1 1 1 1 1 1 1 1 1 1 1 1
## 4733 4872 4898 4919 5451 5713 5971 5985 6035 6191 6285 6726 7113
## 1 1 1 1 1 1 1 1 1 1 1 1 1
## 7359 7387 7448 7451 7501 7750 7757 8114 8229 8523 9133 9542 9706
## 1 1 1 1 1 1 1 1 1 1 1 1 1
## 9826 10348 10362 10392 10608 10866 10871 11016 11281 11621 11807 11966 12539
## 1 1 1 1 1 1 1 1 1 1 1 1 1
## 12768 13063 13232 13853 14053 14650 14774 14969 15745 15953 16194 16248 16431
## 1 1 1 1 1 1 1 1 1 1 1 1 1
## 16645 16835 16921 17019 17062 17193 17292 17421 17518 17906 18078 18411 18514
## 1 1 1 1 1 1 1 1 1 1 1 1 1
## 19099 19227 19553 19846 20156 20425 20445 20626 20755 21029 21036 21058 21156
## 1 1 1 1 1 1 1 1 1 1 1 1 1
## 21254 21428 21664 21679 21984 22272 22682 22850
## 1 1 1 1 1 1 1 1
muestra=trmu[mf,]
muestra$INGLABO
## [1] 800000 1000000 640000 50000 900000 2000000 2000000 828116 200000
## [10] 828116 1400000 450000 828000 200000 828116 500000 400000 828116
## [19] 1200000 828116 500000 800000 828116 300000 950000 1028000 1000000
## [28] 1900000 1600000 400000 828116 600000 250000 50000 600000 1200000
## [37] 950000 0 480000 1600000 600000 250000 400000 400000 400000
## [46] 200000 1200000 900000 40000 2000000 450000 240000 750000 700000
## [55] 450000 200000 1200000 2000000 280000 800000 1200000 850000 828000
## [64] 300000 250000 600000 700000 800000 828116 828116 700000 828116
## [73] 1628000 828116 500000 850000 1650000 30000 1000000 828116 900000
## [82] 0 600000 900000 1300000 828116 1000000 900000 1500000 800000
## [91] 828200 6000000 480000 828116 1900000 1200000 2200000 720000 828116
## [100] 300000 1100000 1800000 100000 450000 600000 1400000 300000 828116
## [109] 1188116 3000000 828118
prom_muestra=mean(muestra$INGLABO)
prom_muestra
## [1] 879876.5
####cálculo de la desviación estándar de la muestra final
des_e=sd(muestra$INGLABO)
####Intervalo con distribución t(n-1, a/2)
alpha=1-0.95
alpha
## [1] 0.05
###cálculo del cuantil q
q=qt(alpha/2, n-1, lower.tail=FALSE)
q
## [1] 1.981686
#### Cálculos de los limites inferior y superior
limite_inf=prom_muestra-q*des_e/(sqrt(n))
limite_inf
## [1] 743476.1
limite_sup=prom_muestra+q*des_e/(sqrt(n))
limite_sup
## [1] 1016277
#### Intervalo de confianza en R
Intervalo =c(limite_inf, limite_sup)
Intervalo
## [1] 743476.1 1016276.8
```