DISEÑO BIETAPICO
Primero se cargan las librerias
library(sampling) #Para selecciones de muestra
library(TeachingSampling) #Para selecciones de muestra y estimación
library(survey) #Para estimaciónd e muestras complejas
##
## Attaching package: 'survey'
##
## The following object is masked from 'package:graphics':
##
## dotchart
library(sqldf) #Realizar consultas en sql
## Loading required package: gsubfn
## Loading required package: proto
## Loading required package: RSQLite
## Loading required package: DBI
## Loading required package: RSQLite.extfuns
library(ggplot2)
library(knitr)
library(stratification)
Se cargan los datos (dependienddo dónde se guarden)
load("C:/Monica Gutierrez/Universidad/Muestreo/parcial 4/saber2013.Rdata")
attach(saber2013)
options(scipen=11111)
Se hace el conteo de colegios y la variable “matematicas”
CONS1 = sqldf("select cod_municipio, municipio, count(*) as 'tx',
sum(matematica) as'sumamat'
from saber2013
group by cod_municipio") #Colegios X municipio
## Loading required package: tcltk
set.seed(31052014)
indica_congpipt = S.piPS(45, CONS1$tx)
Gráfica de dispersión
qplot(tx,sumamat,data=CONS1)
Creación de estratos por municipio (importante poner semilla) Total de estratos=6 Para obtener una buena estimación y un cve pequeño Coeficiente de variación= 0.01 Variable= tx
set.seed(3062014)
estratificacion=strata.LH(CONS1$tx,CV=0.01,Ls=6)
estratificacion
## Given arguments:
## x = CONS1$tx
## CV = 0.01, Ls = 6, takenone = 0, takeall = 0
## allocation: q1 = 0.5, q2 = 0, q3 = 0.5
## model = none
## algo = Kozak: minsol = 1000, idopti = nh, minNh = 2, maxiter = 10000,
## maxstep = 7, maxstill = 70, rep = 5, trymany = TRUE
##
## Strata information:
## | type rh | bh E(Y) Var(Y) Nh nh fh
## stratum 1 | take-some 1 | 3.5 2.04 0.59 470 23 0.05
## stratum 2 | take-some 1 | 5.5 4.37 0.23 221 7 0.03
## stratum 3 | take-some 1 | 9.5 7.12 1.19 193 13 0.07
## stratum 4 | take-some 1 | 15.5 11.89 2.79 105 11 0.10
## stratum 5 | take-some 1 | 25.0 19.11 6.14 54 9 0.17
## stratum 6 | take-all 1 | 1534.0 106.55 42144.93 62 62 1.00
## Total 1105 125 0.11
##
## Total sample size: 125
## Anticipated population mean: 11.03
## Anticipated CV: 0.009823
## Note: CV=RRMSE (Relative Root Mean Squared Error) because takenone=0.
Se crean los cortes para establecer los estratos
cortes=c(min(CONS1$tx),estratificacion$bh,max(CONS1$tx))
CONS1$estrato=cut(CONS1$tx,cortes,labels=FALSE,include.lowest=TRUE,right=FALSE)
table(CONS1$estrato)
##
## 1 2 3 4 5 6
## 470 221 193 105 54 62
Ahora si, se realiza la selección de municipios, con el diseño MAS Importante organizar la base de datos
CONS1=CONS1[order(CONS1$estrato),]
set.seed(3062014)
indica_muemun=strata(CONS1,"estrato",method="srswor",size=estratificacion$nh)
head(indica_muemun)
## estrato ID_unit Prob Stratum
## 16 1 16 0.04894 1
## 36 1 36 0.04894 1
## 43 1 43 0.04894 1
## 65 1 65 0.04894 1
## 79 1 79 0.04894 1
## 97 1 97 0.04894 1
muestrampio=CONS1[indica_muemun$ID_unit,]
dim(muestrampio)
## [1] 125 5
muestrampio$municipio=NULL
head(muestrampio)
## cod_municipio tx sumamat estrato
## 31 05145 2 86.83 1
## 88 05642 2 84.03 1
## 114 05842 2 82.34 1
## 185 13683 2 80.54 1
## 209 15172 2 87.22 1
## 232 15299 3 140.95 1
univcolegios_mpioselec=merge(saber2013,muestrampio,by="cod_municipio")
head(univcolegios_mpioselec)
## cod_municipio codinst nombre
## 1 05001 000356 COLEGIO MADRE ANTONIA CERINI
## 2 05001 001057 INSTITUTION EDUCATIVA JAVIERA LONDOÃO
## 3 05001 000232 COLEGIO EUCARISTICO DE LA MILAGROSA
## 4 05001 000364 COLEGIO MARIA AUXILIADORA
## 5 05001 107771 INSTITUCION EDUCATIVA OCTAVIO CALDERON MEJIA
## 6 05001 000265 INSTITUTO FERRINI
## municipio departamento calendario naturaleza jornada
## 1 MEDELLIN ANTIOQUIA A NO OFICIAL COMPLETA U ORDINARIA
## 2 MEDELLIN ANTIOQUIA A OFICIAL TARDE
## 3 MEDELLIN ANTIOQUIA A NO OFICIAL MAÃANA
## 4 MEDELLIN ANTIOQUIA A NO OFICIAL COMPLETA U ORDINARIA
## 5 MEDELLIN ANTIOQUIA A OFICIAL MAÃANA
## 6 MEDELLIN ANTIOQUIA F NO OFICIAL NOCHE
## matematica quimica fisica biologia filosofia ingles lenguaje sociales
## 1 47.50 45.40 42.54 45.69 41.67 55.77 49.52 46.33
## 2 44.35 44.40 43.54 45.00 43.24 47.31 50.44 46.05
## 3 46.54 45.94 45.17 47.31 42.20 48.49 52.03 47.09
## 4 56.68 57.83 54.51 54.79 50.89 64.56 59.02 56.33
## 5 46.09 44.94 44.77 45.59 39.67 47.03 48.38 44.46
## 6 42.42 41.07 39.87 43.98 37.96 42.40 45.75 42.54
## de_matematica de_quimica de_fisica de_biologia de_filosofia de_ingles
## 1 10.60 6.94 10.25 7.33 8.97 14.46
## 2 7.81 6.86 8.86 7.50 8.84 9.04
## 3 8.82 8.45 9.10 6.82 8.64 9.11
## 4 9.38 7.27 8.77 6.76 8.71 13.66
## 5 9.85 7.57 10.20 7.29 8.09 11.14
## 6 8.93 6.99 10.36 7.01 9.15 9.32
## de_lenguaje de_sociales evaluados periodo
## 1 8.46 8.42 48 20132
## 2 6.86 6.03 239 20132
## 3 6.32 5.15 35 20132
## 4 6.05 7.60 63 20132
## 5 7.57 7.82 87 20132
## 6 7.46 7.15 134 20132
## estrato.x tx sumamat estrato.y
## 1 NO OFICIAL Jornada: COMPLETA U ORDINARIA 419 18870 6
## 2 OFICIAL Jornada: TARDE 419 18870 6
## 3 NO OFICIAL Jornada: MAÃANA 419 18870 6
## 4 NO OFICIAL Jornada: COMPLETA U ORDINARIA 419 18870 6
## 5 OFICIAL Jornada: MAÃANA 419 18870 6
## 6 NO OFICIAL Jornada: NOCHE 419 18870 6
Una vez se tienen los estratos, se realiza la segunda etapa, que es la selección de los colegios. Se hace la extracción de la muestra del 10% de cada municipio SELECCIONADO (etapa 1). Debido a que hay municipios con 1 colegio, entonces en dichos municipios se hará censo. Además, en los municipios donde hay de 2 a 19 colegios, el 20% seria 1 colegio (redondeando). Entonces para garantizar una estimación razonable se le sumará 1. En los municipios de 20 a más colegios, se realizará una extracción de la muestra normal.
CONS2=sqldf("select cod_municipio,
count(*) as 'NH'
from univcolegios_mpioselec
group by cod_municipio")
CONS2$nh=ifelse(CONS2$NH==1,1,
ifelse(CONS2$NH%in%2:19,ceiling(0.1*CONS2$NH)+1,ceiling(0.1*CONS2$NH)))
head(CONS2)
## cod_municipio NH nh
## 1 05001 419 42
## 2 05031 8 2
## 3 05045 30 3
## 4 05088 86 9
## 5 05145 2 2
## 6 05154 18 3
Selección de la muestra
set.seed(3062014)
indicamue=strata(univcolegios_mpioselec,"cod_municipio",size=ceiling(CONS2$nh),method="srswor")
muestrafinal=univcolegios_mpioselec[indicamue$ID_unit,]
head(muestrafinal)
## cod_municipio codinst
## 6 05001 000265
## 14 05001 000984
## 27 05001 000968
## 32 05001 000315
## 38 05001 138719
## 58 05001 046904
## nombre municipio
## 6 INSTITUTO FERRINI MEDELLIN
## 14 INSTITUCION EDUCATIVA LUCRECIO JARAMILLO VELEZ MEDELLIN
## 27 INSTITUCION EDUCATIVA JOSE ROBERTO VASQUEZ BARRIO MANRIQUE MEDELLIN
## 32 COLEGIO DE LA INMACULADA MEDELLIN
## 38 INSTITUCION EDUCATIVA AURES MEDELLIN
## 58 COLEGIO HISPANO MEDELLIN
## departamento calendario naturaleza jornada matematica quimica fisica
## 6 ANTIOQUIA F NO OFICIAL NOCHE 42.42 41.07 39.87
## 14 ANTIOQUIA A OFICIAL TARDE 51.12 48.12 45.88
## 27 ANTIOQUIA A OFICIAL MAÃANA 45.35 44.13 43.77
## 32 ANTIOQUIA A NO OFICIAL MAÃANA 53.76 50.15 51.32
## 38 ANTIOQUIA A OFICIAL TARDE 43.40 43.29 41.69
## 58 ANTIOQUIA A NO OFICIAL MAÃANA 44.67 42.86 42.90
## biologia filosofia ingles lenguaje sociales de_matematica de_quimica
## 6 43.98 37.96 42.40 45.75 42.54 8.93 6.99
## 14 47.29 44.60 51.93 51.06 48.49 11.59 8.94
## 27 44.17 40.24 44.58 48.26 44.61 9.51 7.08
## 32 50.60 45.78 56.06 55.63 54.08 11.49 7.17
## 38 45.04 38.85 43.44 47.75 43.46 10.08 7.53
## 58 43.33 39.33 47.19 45.43 40.52 7.53 7.12
## de_fisica de_biologia de_filosofia de_ingles de_lenguaje de_sociales
## 6 10.36 7.01 9.15 9.32 7.46 7.15
## 14 11.48 6.58 8.55 12.24 7.46 9.17
## 27 9.56 6.91 8.10 6.42 6.51 7.36
## 32 9.27 6.39 7.62 13.11 6.25 8.36
## 38 10.30 7.63 7.64 5.21 5.39 7.16
## 58 12.49 8.59 8.57 13.28 6.89 7.88
## evaluados periodo estrato.x tx sumamat estrato.y
## 6 134 20132 NO OFICIAL Jornada: NOCHE 419 18870 6
## 14 97 20132 OFICIAL Jornada: TARDE 419 18870 6
## 27 145 20132 OFICIAL Jornada: MAÃANA 419 18870 6
## 32 115 20132 NO OFICIAL Jornada: MAÃANA 419 18870 6
## 38 48 20132 OFICIAL Jornada: TARDE 419 18870 6
## 58 21 20132 NO OFICIAL Jornada: MAÃANA 419 18870 6