Una Introducción al Survey Package para el Análisis de Encuestas

Un ejemplo con la Gran Encuesta Nacional de Hogares (EIH),DANE

Juan de Jesús Sandoval

1/10/2021

Introducción

Ponderaciones en el muestreo

hay varios tipos de ponderaciones que se pueden asociar con una encuesta. Quizás el más común es el peso de la muestra. Una ponderación muestral es una ponderación de probabilidad a la que se le han realizado uno o más ajustes. Tanto una ponderación de muestreo como una ponderación de probabilidad se utilizan para ponderar la muestra con la población de la que se extrajo la muestra. Por definición, una ponderación de probabilidad es la inversa de la probabilidad de ser incluido en la muestra debido al diseño muestral (excepto para una UPM de certeza).

Estrato

la estratificación es un método para dividir la población en diferentes grupos, a menudo por variables demográficas como el género, la raza o el nivel socioeconómico. Cada elemento de la población debe pertenecer a uno y solo a uno de los estratos. Una vez definidos los estratos, se toman muestras de cada estrato como si fuera independiente de todos los demás estratos.

UPM

esta es la unidad de muestreo principal. Esta es la primera unidad que se muestrea en el diseño. Por ejemplo, se pueden muestrear distritos escolares de California y luego se pueden muestrear las escuelas dentro de los distritos. El distrito escolar sería la UPM. Si se muestrearan los estados de los EE. UU., Y luego los distritos escolares dentro de cada estado, y luego las escuelas dentro de cada distrito, entonces los estados serían la UPM.

FPC

Esta es la corrección de población finita. Se utiliza cuando la fracción de muestreo (el número de elementos o encuestados muestreados en relación con la población) se vuelve grande. El FPC se utiliza en el cálculo del error estándar de la estimación. Si el valor del FPC está cerca de 1, tendrá poco impacto y se puede ignorar con seguridad.

Lectura de la base de datos

## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

Construcción del diseño del Survey

## Loading required package: grid
## Loading required package: Matrix
## Loading required package: survival
## 
## Attaching package: 'survey'
## The following object is masked from 'package:graphics':
## 
##     dotchart
## Registered S3 methods overwritten by 'broom':
##   method            from  
##   tidy.glht         jtools
##   tidy.summary.glht jtools
## Stratified 1 - level Cluster Sampling design (with replacement)
## With (16878) clusters.
## svydesign(id = ~DIRECTORIO, weights = ~fex_c_2011.x, strata = ~AREA.x, 
##     nest = TRUE, survey.lonely.psu = "adjust", data = viviendas_per)

Resumen estadistico Survey

## Stratified 1 - level Cluster Sampling design (with replacement)
## With (16878) clusters.
## svydesign(id = ~DIRECTORIO, weights = ~fex_c_2011.x, strata = ~AREA.x, 
##     nest = TRUE, survey.lonely.psu = "adjust", data = viviendas_per)
## Probabilities:
##      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
## 0.0001001 0.0013970 0.0031981 0.0045944 0.0061009 0.0287690 
## Stratum Sizes: 
##               5    8   11   13   15   17   18   19   20   23   27   41   44
## obs        3211 3596 2499 2390 1754 1892 1689 2007 2307 2166 1580 1760 1997
## design.PSU 1071  790  816  625  588  686  577  596  622  513  520  592  586
## actual.PSU 1071  790  816  625  588  686  577  596  622  513  520  592  586
##              47   50   52   54   63   66   68   70   73   76  999
## obs        2380 1867 1647 2185 1831 1689 2257 2346 1840 2313 6742
## design.PSU  667  616  548  614  654  588  595  641  604  681 2088
## actual.PSU  667  616  548  614  654  588  595  641  604  681 2088
## Data variables:
##   [1] "DIRECTORIO"    "SECUENCIA_P.x" "ORDEN"         "HOGAR.x"      
##   [5] "REGIS.x"       "P6016"         "P6020"         "P6030S1"      
##   [9] "P6030S3"       "P6040"         "P6050"         "P6080"        
##  [13] "P6080S1"       "P6070"         "P6081"         "P6081S1"      
##  [17] "P6083"         "P6083S1"       "P6071"         "P6071S1"      
##  [21] "P3147S1"       "P3147S2"       "P3147S3"       "P3147S4"      
##  [25] "P3147S5"       "P3147S6"       "P3147S7"       "P3147S8"      
##  [29] "P3147S9"       "P3147S10"      "P3147S11"      "P3147S10A1"   
##  [33] "P3246"         "P6090"         "P6140"         "P6150"        
##  [37] "P6100"         "P6110"         "P6120"         "P6125"        
##  [41] "P6160"         "P6170"         "P6175"         "P6210"        
##  [45] "P6210S1"       "P6220"         "P6269"         "AREA.x"       
##  [49] "CLASE.x"       "ESC"           "MES.x"         "DPTO.x"       
##  [53] "fex_c_2011.x"  "SECUENCIA_P.y" "P5000"         "P5010"        
##  [57] "P5020"         "P5030"         "P5040"         "P5050"        
##  [61] "P5070"         "P5080"         "P5090"         "P5090S1"      
##  [65] "P5100"         "P5110"         "P5130"         "P5140"        
##  [69] "P5210S1"       "P5210S2"       "P5210S3"       "P5210S4"      
##  [73] "P5210S5"       "P5210S6"       "P5210S7"       "P5210S8"      
##  [77] "P5210S9"       "P5210S10"      "P5210S11"      "P5210S14"     
##  [81] "P5210S15"      "P5210S16"      "P5210S17"      "P5210S18"     
##  [85] "P5210S19"      "P5210S20"      "P5210S21"      "P5210S22"     
##  [89] "P5210S24"      "P5220"         "P5220S1"       "P6008"        
##  [93] "P6007"         "P6007S1"       "HOGAR.y"       "P4000"        
##  [97] "P4010"         "P4020"         "P4030S1"       "P4030S1A1"    
## [101] "P4030S2"       "P4030S3"       "P4030S4"       "P4030S4A1"    
## [105] "P4030S5"       "P4040"         "REGIS.y"       "AREA.y"       
## [109] "CLASE.y"       "MES.y"         "DPTO.y"        "fex_c_2011.y" 
## [113] "ID"            "REGIS"

Analisis descriptivo poblacional

##         mean     SE
## P6040 32.915 0.2182
##       std. dev.
## P6040    21.343
##        mean     SE
## P6120 85531 2184.2
##       mean     SE
## ESC 8.6054 0.0519
##                mean            SE   DEff
## P6040     42.285222      0.765333 2.2827
## P6120 106604.988336   7073.482924 2.6182
## ESC       13.858662      0.274590 2.8270
## P6008      3.265490      0.087168 3.5791
## P5100 936212.842588  56942.688453 3.4525

Analisis descriptivo poblacional

##         mean     SE
## P6040 32.915 0.2182
##       std. dev.
## P6040    21.343
##       variance     SE
## P6040   455.54 3.9307
##           P6040
## P6040 0.6629326
##           mean       SE   DEff
## P6040 32.91543  0.21821 5.8557
## $P6040
##      quantile ci.2.5 ci.97.5        se
## 0.25       15     15      16 0.2550884
## 0.5        30     30      31 0.2550884
## 0.75       49     49      50 0.2550884
## 
## attr(,"hasci")
## [1] TRUE
## attr(,"class")
## [1] "newsvyquantile"

Analisis Total poblacional

##          total     SE
## REGIS 40025118 498947
##          REGIS
## REGIS 1.246585

Medias y proporciones para variables binarias

##                   mean     SE
## factor(P6020)1 0.48315 0.0031
## factor(P6020)2 0.51685 0.0031
##                    2.5 %    97.5 %
## factor(P6020)1 0.4770821 0.4892161
## factor(P6020)2 0.5107839 0.5229179
##                      2.5% 97.5%
## I(P6020 == 2) 0.517 0.511  0.52
##                      2.5% 97.5%
## I(P6020 == 1) 0.483 0.477  0.49
##                      2.5% 97.5%
## I(P6020 == 1) 0.483 0.477  0.49
##                      2.5% 97.5%
## I(P6020 == 1) 0.483 0.477  0.49

Medias y proporciones para variables binarias

##                      2.5% 97.5%
## I(P6020 == 1) 0.483 0.477  0.49
##                      2.5% 97.5%
## I(P6020 == 1) 0.483 0.477  0.49
##                      2.5% 97.5%
## I(P6020 == 1) 0.483 0.477  0.49

medias y proporciones para variables binarias

##                     mean        SE   DEff
## factor(P6020)1 0.4831491 0.0030955 2.1496
## factor(P6020)2 0.5168509 0.0030955 2.1496
##                      2.5% 97.5%
## I(P6020 == 1) 0.483 0.477  0.49
##                      2.5% 97.5%
## I(P6020 == 2) 0.517 0.511  0.52

Estadística descriptiva para variables categóricas

## factor(P6020)
##        1        2 
## 19338098 20687020
## factor(P6020)
##        1        2 
## 19338098 20687020
##                   P6020   H   M
## P6100                          
## Contributivo mean        NA  NA
##              SE         NaN NaN
## Especial     mean        NA  NA
##              SE         NaN NaN
## Subsidiado   mean        NA  NA
##              SE         NaN NaN
## NS/NR        mean        NA  NA
##              SE         NaN NaN

## Estadística descriptiva tablas cruzadas

##      P3246
## P6020       1       2
##     1 3036101 4171714
##     2 2481208 2935169
## interaction(P6020, P3246)
##     1.1     2.1     1.2     2.2 
## 3036101 2481208 4171714 2935169
## interaction(P6020, P3246, P6090)
##       1.1.1       2.1.1       1.2.1       2.2.1       1.1.2       2.1.2 
## 2566934.600 2222090.914 3885088.687 2785414.709  463585.480  256828.728 
##       1.2.2       2.2.2       1.1.9       2.1.9       1.2.9       2.2.9 
##  274883.092  148437.496    5580.489    2288.540   11741.892    1316.697

Test chi-square

## 
##  Design-based Wald test of association
## 
## data:  svychisq(~P6020 + P3246, PGEIH, statistic = "adjWald")
## F = 7.4748, ndf = 1, ddf = 16854, p-value = 0.006263

Gráficos en Survey

boxplot with just one variable and all outliers

boxplot with two variables