R Markdown

En este documento R Markdown, se presenta la tarea de muestreo, en la que se solicitaba determinar el salario promedio de la base de Datos de la GEIH, encuesta diciembre año 2019, Cabecera, Ocupados; en donde para este muestreo aleatorio se debe cambiar el valor de la desviación deseada a 50000, el cual repercute en el tamaño de la muestra “n”.

Primero se procedió a realizar el Código “pp=S.SI(nrow(trmu),10)” para la selección de 10 valores aleatorios, (la selección de 10 datos se debe a una indicación al azar de parte del docente), colocar la ”semilla” para que estos se mantengan. Las casillas elegidas por R fueron: pp=[4919, 7750, 8523, 11807, 16194, 16248, 16431, 17062, 20626, 21679] y sus valores correspondientes (en pesos$) fueron [1600000, 400000,900000, 850000, 500000, 850000, 1650000, 0, 720000, 300000], con estos valores se forma la prueba piloto.

La varianza y la desviación de la prueba piloto fue de v_=279845555555,556 y s_d=529004,3

Ahora bien, Conociendo que el número total de datos es de N=23139, la varianza deseada V=50000 y la varianza de la población S=2,7984×10^10 , el tamaño de muestra requerido para estimar la media con una precisión específica “n” es igual a 111 datos, los cuales se pueden evidenciar en este informe.

library(readxl)
trmu <- read_excel("C:/Users/Usuario/Downloads/hsranqui_ejercicio de muestreo.xlsx", 
                   sheet = "Cabecera - Ocupados")
## New names:
## • `` -> `...5`
## • `` -> `...6`
View(trmu)
attach(trmu)
names(trmu)
## [1] "INGLABO"          "DPTO"             "fex_c_2011"       "Número aleatorio"
## [5] "...5"             "...6"
library(TeachingSampling)
## Warning: package 'TeachingSampling' was built under R version 4.2.2
## Loading required package: dplyr
## Warning: package 'dplyr' was built under R version 4.2.2
## 
## Attaching package: 'dplyr'
## 
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## 
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
## 
## Loading required package: magrittr
set.seed(1)
pp=S.SI(nrow(trmu),10)
table(pp)
## pp
##     0  4919  7750  8523 11807 16194 16248 16431 17062 20626 21679 
## 23129     1     1     1     1     1     1     1     1     1     1
piloto=trmu[pp,]

###cálculo de la varianza, con una prueba piloto -S.SI- utilizar semilla (replicabilidad-fijar el número piloto)
v_p=var(piloto$INGLABO)
d_p=sd(piloto$INGLABO)
desv_deseada=50000
var_deseada=desv_deseada^2
N=nrow(trmu)
n=(N*v_p)/((N*var_deseada)+v_p)

###Selección de datos aleatorios###
set.seed(1)
mf=S.SI(nrow(trmu),round(n,0))
### muestra final cálculo del promedio###
table(mf)
## mf
##     0   463   488   721   891  1072  1311  1542  1597  1916  1949  1978  2329 
## 23028     1     1     1     1     1     1     1     1     1     1     1     1 
##  2834  2883  2895  3058  3065  3197  3272  3811  3880  4036  4163  4263  4407 
##     1     1     1     1     1     1     1     1     1     1     1     1     1 
##  4733  4872  4898  4919  5451  5713  5971  5985  6035  6191  6285  6726  7113 
##     1     1     1     1     1     1     1     1     1     1     1     1     1 
##  7359  7387  7448  7451  7501  7750  7757  8114  8229  8523  9133  9542  9706 
##     1     1     1     1     1     1     1     1     1     1     1     1     1 
##  9826 10348 10362 10392 10608 10866 10871 11016 11281 11621 11807 11966 12539 
##     1     1     1     1     1     1     1     1     1     1     1     1     1 
## 12768 13063 13232 13853 14053 14650 14774 14969 15745 15953 16194 16248 16431 
##     1     1     1     1     1     1     1     1     1     1     1     1     1 
## 16645 16835 16921 17019 17062 17193 17292 17421 17518 17906 18078 18411 18514 
##     1     1     1     1     1     1     1     1     1     1     1     1     1 
## 19099 19227 19553 19846 20156 20425 20445 20626 20755 21029 21036 21058 21156 
##     1     1     1     1     1     1     1     1     1     1     1     1     1 
## 21254 21428 21664 21679 21984 22272 22682 22850 
##     1     1     1     1     1     1     1     1
muestra=trmu[mf,]
muestra$INGLABO
##   [1]  800000 1000000  640000   50000  900000 2000000 2000000  828116  200000
##  [10]  828116 1400000  450000  828000  200000  828116  500000  400000  828116
##  [19] 1200000  828116  500000  800000  828116  300000  950000 1028000 1000000
##  [28] 1900000 1600000  400000  828116  600000  250000   50000  600000 1200000
##  [37]  950000       0  480000 1600000  600000  250000  400000  400000  400000
##  [46]  200000 1200000  900000   40000 2000000  450000  240000  750000  700000
##  [55]  450000  200000 1200000 2000000  280000  800000 1200000  850000  828000
##  [64]  300000  250000  600000  700000  800000  828116  828116  700000  828116
##  [73] 1628000  828116  500000  850000 1650000   30000 1000000  828116  900000
##  [82]       0  600000  900000 1300000  828116 1000000  900000 1500000  800000
##  [91]  828200 6000000  480000  828116 1900000 1200000 2200000  720000  828116
## [100]  300000 1100000 1800000  100000  450000  600000 1400000  300000  828116
## [109] 1188116 3000000  828118
prom_muestra=mean(muestra$INGLABO)
prom_muestra
## [1] 879876.5
####cálculo de la desviación estándar de la muestra final

des_e=sd(muestra$INGLABO)


####Intervalo con distribución t(n-1, a/2)

alpha=1-0.95
alpha
## [1] 0.05
###cálculo del cuantil q

q=qt(alpha/2, n-1, lower.tail=FALSE)
q
## [1] 1.981686
#### Cálculos de los limites inferior y superior
limite_inf=prom_muestra-q*des_e/(sqrt(n))
limite_inf
## [1] 743476.1
limite_sup=prom_muestra+q*des_e/(sqrt(n))
limite_sup
## [1] 1016277
#### Intervalo de confianza en R
Intervalo =c(limite_inf, limite_sup)
Intervalo
## [1]  743476.1 1016276.8

```