1.1
Muestra bi-etápica estratificada y por conglomerado utilizando manzanas (UPM) y viviendas como (USM).
Norte
z = 1.96
p = 0.5
q = 0.5
e = 0.07
n_norte <<- roundUp(z^2 * p * q / e^2)
n_norte
## [1] 196
Centro
z = 1.96
p = 0.5
q = 0.5
e = 0.049
n_centro <<- roundUp(z^2 * p * q / e^2)
n_centro
## [1] 400
Sur
z = 1.96
p = 0.5
q = 0.5
e = 0.04
n_sur <<- roundUp(z^2 * p * q / e^2)
n_sur
## [1] 601
Norte
n_norte <<- n_norte/(1+(n_norte/9436))
n_norte
## [1] 192.0116
Centro
n_centro <<- n_centro/(1+(n_centro/7644))
n_centro
## [1] 380.1094
Sur
n_sur <<- n_sur/(1+(n_sur/7190))
n_sur
## [1] 554.6387
data <- data.frame(Estrato = c("Norte","Centro","Sur") ,"Muestra" = c(n_norte,n_centro,n_sur),"Margen de Error" = c(7.0,4.9,4.0),check.names=F)
data <- rbind(data,data.frame(Estrato = "Total", Muestra = sum(data$Muestra), "Margen de Error" = 1.96*sqrt(0.25/sum(data$Muestra)),check.names=F))
kable(data)
| Estrato | Muestra | Margen de Error |
|---|---|---|
| Norte | 192.0116 | 7.0000000 |
| Centro | 380.1094 | 4.9000000 |
| Sur | 554.6387 | 4.0000000 |
| Total | 1126.7597 | 0.0291951 |
1.2
jefes <- read.spss("/Users/robsalasco/Downloads/jefes_hogar.sav", to.data.frame = TRUE, use.value.labels = FALSE)
numero_de_conglomerados <- nrow(count(jefes$manz))
numero_de_conglomerados
## [1] 398
kable(data.frame(Zona = c("Norte","Centro","Sur"), "Población Estimada"= count(jefes$area)$freq,check.names=F))
| Zona | Población Estimada |
|---|---|
| Norte | 9436 |
| Centro | 7644 |
| Sur | 7190 |
suma_freq_manzanas <- sum(count(jefes$manz)$freq)
suma_freq_manzanas
## [1] 24270
MT <- round(suma_freq_manzanas/numero_de_conglomerados)
MT
## [1] 61
Norte
clusters_norte <<- roundUp((n_norte/8))
clusters_norte
## [1] 25
Centro
clusters_centro <<- roundUp((n_centro/8))
clusters_centro
## [1] 48
Sur
clusters_sur <<- roundUp((n_sur/8))
clusters_sur
## [1] 70
data <- data.frame(Estrato = c("Norte","Centro","Sur") ,"Conglomerados" = c(clusters_norte,clusters_centro,clusters_sur),"Muestra" = c(n_norte,n_centro,n_sur))
data <- rbind(data, data.frame(Estrato = "Total","Conglomerados" = sum(data$Conglomerados), Muestra = sum(data$Muestra)))
kable(data)
| Estrato | Conglomerados | Muestra |
|---|---|---|
| Norte | 25 | 192.0116 |
| Centro | 48 | 380.1094 |
| Sur | 70 | 554.6387 |
| Total | 143 | 1126.7597 |
1.3
En la primera etapa se utilizo un muestreo de Probability Proportional to Size (PPS) y en la segunda un Simple Random Sampling (SRS). Se han seleccionado 8 viviendas en cada conglomerado.
CSPLAN SAMPLE
/PLAN FILE='/Users/robsalasco/Documentos/parte_1_final.csplan'
/PLANVARS SAMPLEWEIGHT=SampleWeight_Final_
/PRINT PLAN MATRIX
/DESIGN STRATA=area CLUSTER=manz
/METHOD TYPE=PPS_WOR ESTIMATION=DEFAULT
/MOS SOURCE=FROMDATA
/SIZE MATRIX=area;1 25;2 50;3 70
/STAGEVARS INCLPROB(InclusionProbability_1_) CUMWEIGHT(SampleWeightCumulative_1_)
POPSIZE(PopulationSize_1_) SAMPSIZE(SampleSize_1_) RATE(SamplingRate_1_) WEIGHT(SampleWeight_1_)
/DESIGN CLUSTER=vivienda
/METHOD TYPE=SIMPLE_WOR
/SIZE VALUE=8
/STAGEVARS INCLPROB(InclusionProbability_2_) CUMWEIGHT(SampleWeightCumulative_2_)
POPSIZE(PopulationSize_2_) SAMPSIZE(SampleSize_2_) RATE(SamplingRate_2_) WEIGHT(SampleWeight_2_).
DATASET DECLARE xxx.
CSSELECT
/PLAN FILE='/Users/robsalasco/Documentos/parte_1_final.csplan'
/CRITERIA STAGES=1 2 SEED=938
/CLASSMISSING EXCLUDE
/SAMPLEFILE OUTFILE='xxx'
/JOINTPROB OUTFILE='/Users/robsalasco/Documentos/parte_1_final.sav'
/PRINT SELECTION.
Fueron seleccionados 25 (norte), 48 (centro) y 70 (sur) casos en cada estrato.
Resumen para la etapa 1
Número de unidades muestreadas Proporción de unidades muestreadas
Solicitado Real Solicitado Real
area = 1 25 25 16,2% 16,2%
2 50 50 39,1% 39,1%
3 70 70 60,3% 60,3%
Archivo de plan: /Users/robsalasco/Documentos/parte_1_final.csplan
Resumen para la etapa 2
Número de unidades muestreadas Proporción de unidades muestreadas
Solicitado Real Solicitado Real
area = 1 manz = 1 8 8 14,5% 14,5%
5 8 8 15,4% 15,4%
8 8 8 12,7% 12,7%
23 8 8 11,8% 11,8%
34 8 8 12,7% 12,7%
37 8 8 12,7% 12,7%
43 8 8 12,7% 12,7%
45 8 8 12,5% 12,5%
49 8 8 12,3% 12,3%
53 8 8 12,5% 12,5%
63 8 8 11,8% 11,8%
67 8 8 12,3% 12,3%
301 8 8 14,5% 14,5%
303 8 8 11,0% 11,0%
307 8 8 10,7% 10,7%
314 8 8 15,7% 15,7%
322 8 8 12,1% 12,1%
324 8 8 13,1% 13,1%
328 8 8 12,1% 12,1%
333 8 8 12,1% 12,1%
352 8 8 9,8% 9,8%
360 8 8 13,1% 13,1%
361 8 8 11,4% 11,4%
364 8 8 12,9% 12,9%
366 8 8 12,9% 12,9%
area = 2 manz = 78 8 8 17,4% 17,4%
80 8 8 15,1% 15,1%
82 8 8 11,0% 11,0%
84 8 8 13,1% 13,1%
87 8 8 12,1% 12,1%
89 8 8 14,5% 14,5%
90 8 8 13,8% 13,8%
91 8 8 12,9% 12,9%
94 8 8 14,8% 14,8%
206 8 8 12,7% 12,7%
209 8 8 15,1% 15,1%
210 8 8 20,5% 20,5%
211 8 8 10,8% 10,8%
212 8 8 15,7% 15,7%
213 8 8 11,8% 11,8%
214 8 8 11,8% 11,8%
215 8 8 12,5% 12,5%
219 8 8 17,0% 17,0%
224 8 8 14,3% 14,3%
225 8 8 12,1% 12,1%
226 8 8 12,1% 12,1%
228 8 8 14,0% 14,0%
232 8 8 12,7% 12,7%
236 8 8 13,1% 13,1%
239 8 8 12,7% 12,7%
378 8 8 17,4% 17,4%
379 8 8 11,8% 11,8%
381 8 8 13,1% 13,1%
384 8 8 13,1% 13,1%
385 8 8 10,8% 10,8%
391 8 8 12,9% 12,9%
392 8 8 15,7% 15,7%
393 8 8 13,3% 13,3%
395 8 8 11,6% 11,6%
397 8 8 12,1% 12,1%
398 8 8 12,7% 12,7%
400 8 8 12,7% 12,7%
507 8 8 11,9% 11,9%
509 8 8 15,1% 15,1%
511 8 8 10,8% 10,8%
512 8 8 15,7% 15,7%
517 8 8 14,0% 14,0%
520 8 8 12,1% 12,1%
521 8 8 11,8% 11,8%
525 8 8 12,1% 12,1%
526 8 8 12,1% 12,1%
536 8 8 13,1% 13,1%
537 8 8 12,5% 12,5%
538 8 8 13,8% 13,8%
539 8 8 12,7% 12,7%
area = 3 manz = 241 8 8 12,7% 12,7%
242 8 8 12,1% 12,1%
243 8 8 12,5% 12,5%
244 8 8 12,1% 12,1%
246 8 8 12,3% 12,3%
247 8 8 12,3% 12,3%
249 8 8 14,3% 14,3%
250 8 8 9,8% 9,8%
251 8 8 12,5% 12,5%
256 8 8 12,7% 12,7%
257 8 8 11,8% 11,8%
259 8 8 11,4% 11,4%
260 8 8 12,5% 12,5%
261 8 8 11,8% 11,8%
265 8 8 12,3% 12,3%
266 8 8 12,5% 12,5%
267 8 8 11,9% 11,9%
269 8 8 11,4% 11,4%
270 8 8 12,7% 12,7%
271 8 8 11,1% 11,1%
275 8 8 11,6% 11,6%
277 8 8 11,8% 11,8%
280 8 8 11,0% 11,0%
283 8 8 10,8% 10,8%
285 8 8 12,1% 12,1%
286 8 8 12,7% 12,7%
287 8 8 14,5% 14,5%
293 8 8 11,6% 11,6%
295 8 8 12,1% 12,1%
296 8 8 12,7% 12,7%
297 8 8 11,6% 11,6%
298 8 8 11,6% 11,6%
541 8 8 12,7% 12,7%
542 8 8 12,1% 12,1%
543 8 8 12,5% 12,5%
544 8 8 12,1% 12,1%
546 8 8 12,3% 12,3%
547 8 8 12,3% 12,3%
550 8 8 9,8% 9,8%
551 8 8 12,5% 12,5%
556 8 8 12,7% 12,7%
557 8 8 11,8% 11,8%
559 8 8 11,4% 11,4%
560 8 8 12,5% 12,5%
561 8 8 11,8% 11,8%
564 8 8 12,9% 12,9%
565 8 8 12,3% 12,3%
566 8 8 12,5% 12,5%
567 8 8 11,9% 11,9%
568 8 8 14,8% 14,8%
569 8 8 11,4% 11,4%
570 8 8 12,7% 12,7%
571 8 8 11,1% 11,1%
575 8 8 11,6% 11,6%
577 8 8 11,8% 11,8%
578 8 8 15,1% 15,1%
579 8 8 13,1% 13,1%
580 8 8 11,0% 11,0%
581 8 8 14,3% 14,3%
583 8 8 10,8% 10,8%
584 8 8 12,9% 12,9%
585 8 8 12,1% 12,1%
586 8 8 12,7% 12,7%
590 8 8 15,7% 15,7%
592 8 8 14,8% 14,8%
593 8 8 11,6% 11,6%
595 8 8 12,1% 12,1%
596 8 8 12,7% 12,7%
597 8 8 11,6% 11,6%
598 8 8 11,6% 11,6%
Archivo de plan: /Users/robsalasco/Documentos/parte_1_final.csplan
1.4
| Estadísticos univariados | ||||||||
|---|---|---|---|---|---|---|---|---|
| Estimación | Error estándar | 95% de intervalo de confianza | Efecto de diseño | Tamaño de la población | Recuento no ponderado | |||
| Inferior | Superior | |||||||
| Media | Edad del Jefe de Hogar | 48,65 | ,609 | 47,45 | 49,86 | 1,868 | 24270,000 | 1160 |
La edad promedio del jefe de hogar se encuentra en los 48,65 años de edad. El efecto de diseño es superior a 1 perdiendo precision al utilizar muestras complejas frente a un SRS. Con un 95% de confianza la edad de los jefes de hogar se encuentra entre los 47,45 y los 49,62 años.
| Sexo del Jefe de Hogar | |||||||
|---|---|---|---|---|---|---|---|
| Estimación | Error estándar | 95% de intervalo de confianza | Efecto de diseño | Recuento no ponderado | |||
| Inferior | Superior | ||||||
| Tamaño de la población | Mujer | 8354,459 | 467,032 | 7431,226 | 9277,693 | 1,997 | 399 |
| Hombre | 15915,541 | 467,032 | 14992,307 | 16838,774 | 1,997 | 761 | |
| Total | 24270,000 | ,000 | 24270,000 | 24270,000 | . | 1160 | |
| % del total | Mujer | 34,4% | 1,9% | 30,7% | 38,3% | 1,997 | 399 |
| Hombre | 65,6% | 1,9% | 61,7% | 69,3% | 1,997 | 761 | |
| Total | 100,0% | 0,0% | 100,0% | 100,0% | . | 1160 |
Respecto a la proporcion de cada sexo de los jefes de hogar se da cuenta de que el 34,4% de las mujeres son jefas de hogar y un 65,6% corresponde a los hombres igualmente se pierde precision al utilizar muestras complejas. El intervalo de confianza de las mujeres se encuentra entre los valores 30,7% y 38,3% con un 95% de confianza.
1.5
Sobre los datos obtenidos en la segunda etapa la edad promedio de los jefes de hogar disminuye levemente (48,28) aumentando la dispersión de los datos.
| Estadísticos descriptivos | |||||
|---|---|---|---|---|---|
| N | Mínimo | Máximo | Media | Desviación estándar | |
| Edad del Jefe de Hogar | 24270 | 15 | 108 | 48,28 | 15,510 |
| N válido (por lista) | 24270 |
No se aprecian grandes cambios en la proporción de mujeres.
| Sexo del Jefe de Hogar | |||||
|---|---|---|---|---|---|
| Frecuencia | Porcentaje | Porcentaje válido | Porcentaje acumulado | ||
| Válido | Mujer | 8601 | 35,4 | 35,4 | 35,4 |
| Hombre | 15669 | 64,6 | 64,6 | 100,0 | |
| Total | 24270 | 100,0 | 100,0 |
2.1
Una vez obtenido el tamaño de la columna 3 fue necesitario realizar el ajustes en las columnas 5 y 7 para sobredimensionar la muestra por medio del efecto de diseño y la tasa de no respuesta manteniendo un margen de error.
bienestar <- read.spss("/Users/robsalasco/Downloads/Bienestar_Subjetivo_2013.sav", to.data.frame = TRUE)
#small.w <- svydesign(data=bienestar, weights=bienestar$ponderador, strata=bienestar$estrato, ids=bienestar$conglom)
#kable(as.data.frame.matrix(prop.table(svytable(~macrozonas+salud_actual, design = small.w),2)*100))
#as.data.frame.matrix(prop.table(svytable(~macrozonas+salud_actual, design = small.w),2)*100)$`Buena o Muy Buena`
kable(as.data.frame.matrix(prop.table(table(bienestar$macrozonas,bienestar$salud_actual),1)*100))
| Mala o Muy mala | Buena o Muy Buena | |
|---|---|---|
| Norte | 32.24144 | 67.75856 |
| Centro | 39.02661 | 60.97339 |
| Sur | 38.91385 | 61.08615 |
as.data.frame.matrix(prop.table(table(bienestar$macrozonas,bienestar$salud_actual),1)*100)$`Buena o Muy Buena`
## [1] 67.75856 60.97339 61.08615
Norte
z = 1.96
p = 0.678
q = 0.322
e = 0.05
n2_norte <<- roundUp(z^2 * p * q / e^2)
n2_norte
## [1] 336
Centro
z = 1.96
p = 0.61
q = 0.39
e = 0.045
n2_centro <<- roundUp(z^2 * p * q / e^2)
n2_centro
## [1] 452
Sur
z = 1.96
p = 0.61
q = 0.39
e = 0.05
n2_sur <<- roundUp(z^2 * p * q / e^2)
n2_sur
## [1] 366
CSPLAN SAMPLE
/PLAN FILE='/Users/robsalasco/Downloads/parte5.csplan'
/PLANVARS SAMPLEWEIGHT=SampleWeight_Final_ PREVIOUSWEIGHT=ponderador
/PRINT PLAN MATRIX
/DESIGN STRATA=macrozonas CLUSTER=conglom
/METHOD TYPE=SIMPLE_WOR ESTIMATION=DEFAULT
/RATE MATRIX=macrozonas;1 0.667000;2 0.61000;3 0.61000
/STAGEVARS INCLPROB(InclusionProbability_1_) CUMWEIGHT(SampleWeightCumulative_1_).
CSSELECT
/PLAN FILE='/Users/robsalasco/Downloads/parte5.csplan'
/CRITERIA STAGES=1 SEED=RANDOM
/CLASSMISSING EXCLUDE
/PRINT SELECTION.
CSTABULATE
/PLAN FILE='/Users/robsalasco/Downloads/parte5.csplan'
/TABLES VARIABLES=salud_actual
/SUBPOP TABLE=macrozonas DISPLAY=LAYERED
/CELLS POPSIZE
/STATISTICS SE CIN(95) COUNT DEFF DEFFSQRT
/MISSING SCOPE=TABLE CLASSMISSING=EXCLUDE.
efecto_diseno <<- c(5.217,4.361,4.640)
n2_norte_mas <<- n2_norte*efecto_diseno[1]
n2_norte_mas
## [1] 1752.912
n2_centro_mas <<- n2_centro*efecto_diseno[2]
n2_centro_mas
## [1] 1971.172
n2_sur_mas <<- n2_sur*efecto_diseno[3]
n2_sur_mas
## [1] 1698.24
CSPLAN ANALYSIS
/PLAN FILE='/Users/robsalasco/Documentos/sssss.csaplan'
/PLANVARS ANALYSISWEIGHT=ponderador
/SRSESTIMATOR TYPE=WR
/PRINT PLAN
/DESIGN STRATA=estrato CLUSTER=conglom
/ESTIMATOR TYPE=WR.
CSTABULATE
/PLAN FILE='/Users/robsalasco/Documentos/sssss.csaplan'
/TABLES VARIABLES=salud_actual
/SUBPOP TABLE=macrozonas DISPLAY=LAYERED
/CELLS POPSIZE TABLEPCT
/STATISTICS SE CIN(95) COUNT DEFF DEFFSQRT
/MISSING SCOPE=TABLE CLASSMISSING=EXCLUDE.
no_respuesta <- c(round_any((n2_norte_mas/(1-0.15)), 5, f = ceiling),round_any((n2_centro_mas/(1-0.22)), 5, f = ceiling),round_any((n2_sur_mas/(1-0.28)), 5, f = ceiling))
no_respuesta
## [1] 2065 2530 2360
kable(data.frame(Macrozonas = c("Norte","Centro","Sur"),"Estimacion % Salud" = roundUp(as.data.frame.matrix(prop.table(table(bienestar$macrozonas,bienestar$salud_actual),1)*100)$`Buena o Muy Buena`),"Error Maximo" = c(5.0,4.5,5.0),"Tamaño Propuesto" = c(n2_norte,n2_centro,n2_sur),"Deff" = efecto_diseno,"Tamaño Ajustado Deff" = c(n2_norte_mas,n2_centro_mas,n2_sur_mas), "Tasa No Respuesta" = c(15,22,28),"Tamaño Ajustado No-Resp" = no_respuesta,check.names=F))
| Macrozonas | Estimacion % Salud | Error Maximo | Tamaño Propuesto | Deff | Tamaño Ajustado Deff | Tasa No Respuesta | Tamaño Ajustado No-Resp |
|---|---|---|---|---|---|---|---|
| Norte | 68 | 5.0 | 336 | 5.217 | 1752.912 | 15 | 2065 |
| Centro | 61 | 4.5 | 452 | 4.361 | 1971.172 | 22 | 2530 |
| Sur | 62 | 5.0 | 366 | 4.640 | 1698.240 | 28 | 2360 |
El procentaje de hombres que se encuentra en situacion de pobreza es 19,8% y el porcentaje de mujeres es un 18,6% donde los intervalos de confianza en los hombres se encuentran entre 19,1% y un 20,4% y en las mujeres un 18% y un 19,2%. El valor del efecto de diseño da cuenta de una perdida de precisión al utilizar muestras complejas.
| Sexo * Situación de pobreza multidimensional (4 Dimensiones) | ||||||
|---|---|---|---|---|---|---|
| Sexo | Situación de pobreza multidimensional (4 Dimensiones) | |||||
| No pobre | Pobre | Total | ||||
| Hombre | Tamaño de la población | Estimación | 6495048,000 | 1599037,000 | 8094085,000 | |
| Error estándar | 71046,265 | 28790,480 | 80135,284 | |||
| 95% de intervalo de confianza | Inferior | 6355715,178 | 1542574,373 | 7936927,192 | ||
| Superior | 6634380,822 | 1655499,627 | 8251242,808 | |||
| Coeficiente de variación | ,011 | ,018 | ,010 | |||
| Efecto de diseño | 19,357 | 8,830 | 23,276 | |||
| Recuento no ponderado | 97444 | 26838 | 124282 | |||
| % dentro de Sexo | Estimación | 80,2% | 19,8% | 100,0% | ||
| Error estándar | 0,3% | 0,3% | 0,0% | |||
| 95% de intervalo de confianza | Inferior | 79,6% | 19,1% | 100,0% | ||
| Superior | 80,9% | 20,4% | 100,0% | |||
| Coeficiente de variación | ,004 | ,016 | ,000 | |||
| Efecto de diseño | 7,753 | 7,753 | . | |||
| Recuento no ponderado | 97444 | 26838 | 124282 | |||
| Mujer | Tamaño de la población | Estimación | 7320856,000 | 1671004,000 | 8991860,000 | |
| Error estándar | 82074,799 | 30540,319 | 90404,720 | |||
| 95% de intervalo de confianza | Inferior | 7159894,500 | 1611109,664 | 8814562,224 | ||
| Superior | 7481817,500 | 1730898,336 | 9169157,776 | |||
| Coeficiente de variación | ,011 | ,018 | ,010 | |||
| Efecto de diseño | 24,858 | 9,552 | 29,624 | |||
| Recuento no ponderado | 108103 | 27407 | 135510 | |||
| % dentro de Sexo | Estimación | 81,4% | 18,6% | 100,0% | ||
| Error estándar | 0,3% | 0,3% | 0,0% | |||
| 95% de intervalo de confianza | Inferior | 80,8% | 18,0% | 100,0% | ||
| Superior | 82,0% | 19,2% | 100,0% | |||
| Coeficiente de variación | ,004 | ,017 | ,000 | |||
| Efecto de diseño | 8,791 | 8,791 | . | |||
| Recuento no ponderado | 108103 | 27407 | 135510 | |||
| Total | Tamaño de la población | Estimación | 13815904,000 | 3270041,000 | 17085945,000 | |
| Error estándar | 148192,715 | 57030,160 | 164876,753 | |||
| 95% de intervalo de confianza | Inferior | 13525274,940 | 3158195,948 | 16762595,930 | ||
| Superior | 14106533,060 | 3381886,052 | 17409294,070 | |||
| Coeficiente de variación | ,011 | ,017 | ,010 | |||
| Efecto de diseño | 128,233 | 18,991 | . | |||
| Recuento no ponderado | 205547 | 54245 | 259792 | |||
| % dentro de Sexo | Estimación | 80,9% | 19,1% | 100,0% | ||
| Error estándar | 0,3% | 0,3% | 0,0% | |||
| 95% de intervalo de confianza | Inferior | 80,3% | 18,6% | 100,0% | ||
| Superior | 81,4% | 19,7% | 100,0% | |||
| Coeficiente de variación | ,004 | ,016 | ,000 | |||
| Efecto de diseño | 15,334 | 15,334 | . | |||
| Recuento no ponderado | 205547 | 54245 | 259792 |
Por medio de las pruebas de independencia se puede establecer si existe o no una diferencia significativa. En este caso sí existe verificandose por su valor 0 menor a 0.05.
| Pruebas de independencia | ||||||
|---|---|---|---|---|---|---|
| Chi-cuadrado | F corregida | gl1 | gl2 | Sig. | ||
| Sexo * Situación de pobreza multidimensional (4 Dimensiones) | Pearson | 57,497 | 47,627 | 1 | 1991 | ,000 |
| Razón de verosimilitud | 57,457 | 47,594 | 1 | 1991 | ,000 | |
| La F ajustada es una variante del estadístico de chi-cuadrado ajustado de Rao-Scott de segundo orden. La significación se basa en la F ajustadas y sus grados de libertad. |