DISEÑO BIETAPICO

Primero se cargan las librerias

library(sampling)  #Para selecciones de muestra
library(TeachingSampling)  #Para selecciones de muestra  y estimación
library(survey)  #Para estimaciónd e muestras complejas
## 
## Attaching package: 'survey'
## 
## The following object is masked from 'package:graphics':
## 
##     dotchart
library(sqldf)  #Realizar consultas en sql
## Loading required package: gsubfn
## Loading required package: proto
## Loading required package: RSQLite
## Loading required package: DBI
## Loading required package: RSQLite.extfuns
library(ggplot2)
library(knitr)
library(stratification)

Se cargan los datos (dependienddo dónde se guarden)

load("C:/Monica Gutierrez/Universidad/Muestreo/parcial 4/saber2013.Rdata")
attach(saber2013)
options(scipen=11111)

Se hace el conteo de colegios y la variable “matematicas”

CONS1 = sqldf("select cod_municipio, municipio, count(*) as 'tx', 
              sum(matematica) as'sumamat' 
              from  saber2013 
              group by cod_municipio")  #Colegios X municipio
## Loading required package: tcltk
set.seed(31052014)
indica_congpipt = S.piPS(45, CONS1$tx)

Gráfica de dispersión

qplot(tx,sumamat,data=CONS1)

plot of chunk unnamed-chunk-4

Creación de estratos por municipio (importante poner semilla) Total de estratos=6 Para obtener una buena estimación y un cve pequeño Coeficiente de variación= 0.01 Variable= tx

set.seed(3062014)
estratificacion=strata.LH(CONS1$tx,CV=0.01,Ls=6)
estratificacion
## Given arguments:
## x = CONS1$tx
## CV = 0.01, Ls = 6, takenone = 0, takeall = 0
## allocation: q1 = 0.5, q2 = 0, q3 = 0.5
## model = none
## algo = Kozak: minsol = 1000, idopti = nh, minNh = 2, maxiter = 10000, 
##               maxstep = 7, maxstill = 70, rep = 5, trymany = TRUE
## 
## Strata information:
##           |      type rh |     bh   E(Y)   Var(Y)   Nh  nh   fh
## stratum 1 | take-some  1 |    3.5   2.04     0.59  470  23 0.05
## stratum 2 | take-some  1 |    5.5   4.37     0.23  221   7 0.03
## stratum 3 | take-some  1 |    9.5   7.12     1.19  193  13 0.07
## stratum 4 | take-some  1 |   15.5  11.89     2.79  105  11 0.10
## stratum 5 | take-some  1 |   25.0  19.11     6.14   54   9 0.17
## stratum 6 |  take-all  1 | 1534.0 106.55 42144.93   62  62 1.00
## Total                                             1105 125 0.11
## 
## Total sample size: 125 
## Anticipated population mean: 11.03 
## Anticipated CV: 0.009823 
## Note: CV=RRMSE (Relative Root Mean Squared Error) because takenone=0.

Se crean los cortes para establecer los estratos

cortes=c(min(CONS1$tx),estratificacion$bh,max(CONS1$tx))
CONS1$estrato=cut(CONS1$tx,cortes,labels=FALSE,include.lowest=TRUE,right=FALSE)
table(CONS1$estrato)
## 
##   1   2   3   4   5   6 
## 470 221 193 105  54  62

Ahora si, se realiza la selección de municipios, con el diseño MAS Importante organizar la base de datos

CONS1=CONS1[order(CONS1$estrato),]
set.seed(3062014)
indica_muemun=strata(CONS1,"estrato",method="srswor",size=estratificacion$nh)
head(indica_muemun)
##    estrato ID_unit    Prob Stratum
## 16       1      16 0.04894       1
## 36       1      36 0.04894       1
## 43       1      43 0.04894       1
## 65       1      65 0.04894       1
## 79       1      79 0.04894       1
## 97       1      97 0.04894       1
muestrampio=CONS1[indica_muemun$ID_unit,]
dim(muestrampio)
## [1] 125   5
muestrampio$municipio=NULL
head(muestrampio)
##     cod_municipio tx sumamat estrato
## 31          05145  2   86.83       1
## 88          05642  2   84.03       1
## 114         05842  2   82.34       1
## 185         13683  2   80.54       1
## 209         15172  2   87.22       1
## 232         15299  3  140.95       1
univcolegios_mpioselec=merge(saber2013,muestrampio,by="cod_municipio")
head(univcolegios_mpioselec)
##   cod_municipio codinst                                       nombre
## 1         05001  000356                 COLEGIO MADRE ANTONIA CERINI
## 2         05001  001057       INSTITUTION EDUCATIVA JAVIERA LONDOÑO
## 3         05001  000232          COLEGIO EUCARISTICO DE LA MILAGROSA
## 4         05001  000364                    COLEGIO MARIA AUXILIADORA
## 5         05001  107771 INSTITUCION EDUCATIVA OCTAVIO CALDERON MEJIA
## 6         05001  000265                            INSTITUTO FERRINI
##   municipio departamento calendario naturaleza              jornada
## 1  MEDELLIN    ANTIOQUIA          A NO OFICIAL COMPLETA U ORDINARIA
## 2  MEDELLIN    ANTIOQUIA          A    OFICIAL                TARDE
## 3  MEDELLIN    ANTIOQUIA          A NO OFICIAL              MAÑANA
## 4  MEDELLIN    ANTIOQUIA          A NO OFICIAL COMPLETA U ORDINARIA
## 5  MEDELLIN    ANTIOQUIA          A    OFICIAL              MAÑANA
## 6  MEDELLIN    ANTIOQUIA          F NO OFICIAL                NOCHE
##   matematica quimica fisica biologia filosofia ingles lenguaje sociales
## 1      47.50   45.40  42.54    45.69     41.67  55.77    49.52    46.33
## 2      44.35   44.40  43.54    45.00     43.24  47.31    50.44    46.05
## 3      46.54   45.94  45.17    47.31     42.20  48.49    52.03    47.09
## 4      56.68   57.83  54.51    54.79     50.89  64.56    59.02    56.33
## 5      46.09   44.94  44.77    45.59     39.67  47.03    48.38    44.46
## 6      42.42   41.07  39.87    43.98     37.96  42.40    45.75    42.54
##   de_matematica de_quimica de_fisica de_biologia de_filosofia de_ingles
## 1         10.60       6.94     10.25        7.33         8.97     14.46
## 2          7.81       6.86      8.86        7.50         8.84      9.04
## 3          8.82       8.45      9.10        6.82         8.64      9.11
## 4          9.38       7.27      8.77        6.76         8.71     13.66
## 5          9.85       7.57     10.20        7.29         8.09     11.14
## 6          8.93       6.99     10.36        7.01         9.15      9.32
##   de_lenguaje de_sociales evaluados periodo
## 1        8.46        8.42        48   20132
## 2        6.86        6.03       239   20132
## 3        6.32        5.15        35   20132
## 4        6.05        7.60        63   20132
## 5        7.57        7.82        87   20132
## 6        7.46        7.15       134   20132
##                                  estrato.x  tx sumamat estrato.y
## 1 NO OFICIAL Jornada: COMPLETA U ORDINARIA 419   18870         6
## 2                   OFICIAL Jornada: TARDE 419   18870         6
## 3              NO OFICIAL Jornada: MAÑANA 419   18870         6
## 4 NO OFICIAL Jornada: COMPLETA U ORDINARIA 419   18870         6
## 5                 OFICIAL Jornada: MAÑANA 419   18870         6
## 6                NO OFICIAL Jornada: NOCHE 419   18870         6

Una vez se tienen los estratos, se realiza la segunda etapa, que es la selección de los colegios. Se hace la extracción de la muestra del 10% de cada municipio SELECCIONADO (etapa 1). Debido a que hay municipios con 1 colegio, entonces en dichos municipios se hará censo. Además, en los municipios donde hay de 2 a 19 colegios, el 20% seria 1 colegio (redondeando). Entonces para garantizar una estimación razonable se le sumará 1. En los municipios de 20 a más colegios, se realizará una extracción de la muestra normal.

CONS2=sqldf("select cod_municipio, 
            count(*) as 'NH'
            from univcolegios_mpioselec  
            group by cod_municipio")

CONS2$nh=ifelse(CONS2$NH==1,1,
         ifelse(CONS2$NH%in%2:19,ceiling(0.1*CONS2$NH)+1,ceiling(0.1*CONS2$NH)))

head(CONS2)
##   cod_municipio  NH nh
## 1         05001 419 42
## 2         05031   8  2
## 3         05045  30  3
## 4         05088  86  9
## 5         05145   2  2
## 6         05154  18  3

Selección de la muestra

set.seed(3062014)
indicamue=strata(univcolegios_mpioselec,"cod_municipio",size=ceiling(CONS2$nh),method="srswor")
muestrafinal=univcolegios_mpioselec[indicamue$ID_unit,]
head(muestrafinal)
##    cod_municipio codinst
## 6          05001  000265
## 14         05001  000984
## 27         05001  000968
## 32         05001  000315
## 38         05001  138719
## 58         05001  046904
##                                                        nombre municipio
## 6                                           INSTITUTO FERRINI  MEDELLIN
## 14             INSTITUCION EDUCATIVA LUCRECIO JARAMILLO VELEZ  MEDELLIN
## 27 INSTITUCION EDUCATIVA JOSE ROBERTO VASQUEZ BARRIO MANRIQUE  MEDELLIN
## 32                                   COLEGIO DE LA INMACULADA  MEDELLIN
## 38                                INSTITUCION EDUCATIVA AURES  MEDELLIN
## 58                                            COLEGIO HISPANO  MEDELLIN
##    departamento calendario naturaleza jornada matematica quimica fisica
## 6     ANTIOQUIA          F NO OFICIAL   NOCHE      42.42   41.07  39.87
## 14    ANTIOQUIA          A    OFICIAL   TARDE      51.12   48.12  45.88
## 27    ANTIOQUIA          A    OFICIAL MAÑANA      45.35   44.13  43.77
## 32    ANTIOQUIA          A NO OFICIAL MAÑANA      53.76   50.15  51.32
## 38    ANTIOQUIA          A    OFICIAL   TARDE      43.40   43.29  41.69
## 58    ANTIOQUIA          A NO OFICIAL MAÑANA      44.67   42.86  42.90
##    biologia filosofia ingles lenguaje sociales de_matematica de_quimica
## 6     43.98     37.96  42.40    45.75    42.54          8.93       6.99
## 14    47.29     44.60  51.93    51.06    48.49         11.59       8.94
## 27    44.17     40.24  44.58    48.26    44.61          9.51       7.08
## 32    50.60     45.78  56.06    55.63    54.08         11.49       7.17
## 38    45.04     38.85  43.44    47.75    43.46         10.08       7.53
## 58    43.33     39.33  47.19    45.43    40.52          7.53       7.12
##    de_fisica de_biologia de_filosofia de_ingles de_lenguaje de_sociales
## 6      10.36        7.01         9.15      9.32        7.46        7.15
## 14     11.48        6.58         8.55     12.24        7.46        9.17
## 27      9.56        6.91         8.10      6.42        6.51        7.36
## 32      9.27        6.39         7.62     13.11        6.25        8.36
## 38     10.30        7.63         7.64      5.21        5.39        7.16
## 58     12.49        8.59         8.57     13.28        6.89        7.88
##    evaluados periodo                   estrato.x  tx sumamat estrato.y
## 6        134   20132   NO OFICIAL Jornada: NOCHE 419   18870         6
## 14        97   20132      OFICIAL Jornada: TARDE 419   18870         6
## 27       145   20132    OFICIAL Jornada: MAÑANA 419   18870         6
## 32       115   20132 NO OFICIAL Jornada: MAÑANA 419   18870         6
## 38        48   20132      OFICIAL Jornada: TARDE 419   18870         6
## 58        21   20132 NO OFICIAL Jornada: MAÑANA 419   18870         6