1.1

Muestra bi-etápica estratificada y por conglomerado utilizando manzanas (UPM) y viviendas como (USM).

Norte

z = 1.96
p = 0.5
q = 0.5
e = 0.07

n_norte <<- roundUp(z^2 * p * q / e^2)
n_norte
## [1] 196

Centro

z = 1.96
p = 0.5
q = 0.5
e = 0.049

n_centro <<- roundUp(z^2 * p * q / e^2)
n_centro
## [1] 400

Sur

z = 1.96
p = 0.5
q = 0.5
e = 0.04

n_sur <<- roundUp(z^2 * p * q / e^2)
n_sur
## [1] 601

Ajuste por población finita

Norte

n_norte <<- n_norte/(1+(n_norte/9436))
n_norte
## [1] 192.0116

Centro

n_centro <<- n_centro/(1+(n_centro/7644))
n_centro
## [1] 380.1094

Sur

n_sur <<- n_sur/(1+(n_sur/7190))
n_sur
## [1] 554.6387
data <- data.frame(Estrato = c("Norte","Centro","Sur") ,"Muestra" = c(n_norte,n_centro,n_sur),"Margen de Error" = c(7.0,4.9,4.0),check.names=F)
data <- rbind(data,data.frame(Estrato = "Total", Muestra = sum(data$Muestra), "Margen de Error" = 1.96*sqrt(0.25/sum(data$Muestra)),check.names=F))
kable(data)
Estrato Muestra Margen de Error
Norte 192.0116 7.0000000
Centro 380.1094 4.9000000
Sur 554.6387 4.0000000
Total 1126.7597 0.0291951

1.2

jefes <- read.spss("/Users/robsalasco/Downloads/jefes_hogar.sav", to.data.frame = TRUE, use.value.labels = FALSE)
numero_de_conglomerados <- nrow(count(jefes$manz))
numero_de_conglomerados
## [1] 398
kable(data.frame(Zona = c("Norte","Centro","Sur"), "Población Estimada"= count(jefes$area)$freq,check.names=F))
Zona Población Estimada
Norte 9436
Centro 7644
Sur 7190
suma_freq_manzanas <- sum(count(jefes$manz)$freq)
suma_freq_manzanas
## [1] 24270
MT <- round(suma_freq_manzanas/numero_de_conglomerados)
MT
## [1] 61

Norte

clusters_norte <<- roundUp((n_norte/8))
clusters_norte
## [1] 25

Centro

clusters_centro <<- roundUp((n_centro/8))
clusters_centro
## [1] 48

Sur

clusters_sur <<- roundUp((n_sur/8))
clusters_sur
## [1] 70
data <- data.frame(Estrato = c("Norte","Centro","Sur") ,"Conglomerados" = c(clusters_norte,clusters_centro,clusters_sur),"Muestra" = c(n_norte,n_centro,n_sur))
data <- rbind(data, data.frame(Estrato = "Total","Conglomerados" = sum(data$Conglomerados), Muestra = sum(data$Muestra)))
kable(data)
Estrato Conglomerados Muestra
Norte 25 192.0116
Centro 48 380.1094
Sur 70 554.6387
Total 143 1126.7597

1.3

En la primera etapa se utilizo un muestreo de Probability Proportional to Size (PPS) y en la segunda un Simple Random Sampling (SRS). Se han seleccionado 8 viviendas en cada conglomerado.

CSPLAN SAMPLE
  /PLAN FILE='/Users/robsalasco/Documentos/parte_1_final.csplan'
  /PLANVARS SAMPLEWEIGHT=SampleWeight_Final_
  /PRINT PLAN MATRIX
  /DESIGN STRATA=area CLUSTER=manz
  /METHOD TYPE=PPS_WOR ESTIMATION=DEFAULT
  /MOS SOURCE=FROMDATA
  /SIZE MATRIX=area;1 25;2 50;3 70
  /STAGEVARS INCLPROB(InclusionProbability_1_) CUMWEIGHT(SampleWeightCumulative_1_) 
    POPSIZE(PopulationSize_1_) SAMPSIZE(SampleSize_1_) RATE(SamplingRate_1_) WEIGHT(SampleWeight_1_)
  /DESIGN CLUSTER=vivienda
  /METHOD TYPE=SIMPLE_WOR
  /SIZE VALUE=8
  /STAGEVARS INCLPROB(InclusionProbability_2_) CUMWEIGHT(SampleWeightCumulative_2_) 
    POPSIZE(PopulationSize_2_) SAMPSIZE(SampleSize_2_) RATE(SamplingRate_2_) WEIGHT(SampleWeight_2_).
DATASET DECLARE  xxx.
CSSELECT
  /PLAN FILE='/Users/robsalasco/Documentos/parte_1_final.csplan'
  /CRITERIA STAGES=1 2 SEED=938
  /CLASSMISSING EXCLUDE
  /SAMPLEFILE OUTFILE='xxx'
  /JOINTPROB OUTFILE='/Users/robsalasco/Documentos/parte_1_final.sav'
  /PRINT SELECTION.

Fueron seleccionados 25 (norte), 48 (centro) y 70 (sur) casos en cada estrato.

Resumen para la etapa 1                 
        Número de unidades muestreadas      Proporción de unidades muestreadas  
        Solicitado  Real    Solicitado  Real
area =  1   25  25  16,2%   16,2%
    2   50  50  39,1%   39,1%
    3   70  70  60,3%   60,3%
Archivo de plan: /Users/robsalasco/Documentos/parte_1_final.csplan                  



Resumen para la etapa 2                     
            Número de unidades muestreadas      Proporción de unidades muestreadas  
            Solicitado  Real    Solicitado  Real
area = 1    manz =  1   8   8   14,5%   14,5%
        5   8   8   15,4%   15,4%
        8   8   8   12,7%   12,7%
        23  8   8   11,8%   11,8%
        34  8   8   12,7%   12,7%
        37  8   8   12,7%   12,7%
        43  8   8   12,7%   12,7%
        45  8   8   12,5%   12,5%
        49  8   8   12,3%   12,3%
        53  8   8   12,5%   12,5%
        63  8   8   11,8%   11,8%
        67  8   8   12,3%   12,3%
        301 8   8   14,5%   14,5%
        303 8   8   11,0%   11,0%
        307 8   8   10,7%   10,7%
        314 8   8   15,7%   15,7%
        322 8   8   12,1%   12,1%
        324 8   8   13,1%   13,1%
        328 8   8   12,1%   12,1%
        333 8   8   12,1%   12,1%
        352 8   8   9,8%    9,8%
        360 8   8   13,1%   13,1%
        361 8   8   11,4%   11,4%
        364 8   8   12,9%   12,9%
        366 8   8   12,9%   12,9%
area = 2    manz =  78  8   8   17,4%   17,4%
        80  8   8   15,1%   15,1%
        82  8   8   11,0%   11,0%
        84  8   8   13,1%   13,1%
        87  8   8   12,1%   12,1%
        89  8   8   14,5%   14,5%
        90  8   8   13,8%   13,8%
        91  8   8   12,9%   12,9%
        94  8   8   14,8%   14,8%
        206 8   8   12,7%   12,7%
        209 8   8   15,1%   15,1%
        210 8   8   20,5%   20,5%
        211 8   8   10,8%   10,8%
        212 8   8   15,7%   15,7%
        213 8   8   11,8%   11,8%
        214 8   8   11,8%   11,8%
        215 8   8   12,5%   12,5%
        219 8   8   17,0%   17,0%
        224 8   8   14,3%   14,3%
        225 8   8   12,1%   12,1%
        226 8   8   12,1%   12,1%
        228 8   8   14,0%   14,0%
        232 8   8   12,7%   12,7%
        236 8   8   13,1%   13,1%
        239 8   8   12,7%   12,7%
        378 8   8   17,4%   17,4%
        379 8   8   11,8%   11,8%
        381 8   8   13,1%   13,1%
        384 8   8   13,1%   13,1%
        385 8   8   10,8%   10,8%
        391 8   8   12,9%   12,9%
        392 8   8   15,7%   15,7%
        393 8   8   13,3%   13,3%
        395 8   8   11,6%   11,6%
        397 8   8   12,1%   12,1%
        398 8   8   12,7%   12,7%
        400 8   8   12,7%   12,7%
        507 8   8   11,9%   11,9%
        509 8   8   15,1%   15,1%
        511 8   8   10,8%   10,8%
        512 8   8   15,7%   15,7%
        517 8   8   14,0%   14,0%
        520 8   8   12,1%   12,1%
        521 8   8   11,8%   11,8%
        525 8   8   12,1%   12,1%
        526 8   8   12,1%   12,1%
        536 8   8   13,1%   13,1%
        537 8   8   12,5%   12,5%
        538 8   8   13,8%   13,8%
        539 8   8   12,7%   12,7%
area = 3    manz =  241 8   8   12,7%   12,7%
        242 8   8   12,1%   12,1%
        243 8   8   12,5%   12,5%
        244 8   8   12,1%   12,1%
        246 8   8   12,3%   12,3%
        247 8   8   12,3%   12,3%
        249 8   8   14,3%   14,3%
        250 8   8   9,8%    9,8%
        251 8   8   12,5%   12,5%
        256 8   8   12,7%   12,7%
        257 8   8   11,8%   11,8%
        259 8   8   11,4%   11,4%
        260 8   8   12,5%   12,5%
        261 8   8   11,8%   11,8%
        265 8   8   12,3%   12,3%
        266 8   8   12,5%   12,5%
        267 8   8   11,9%   11,9%
        269 8   8   11,4%   11,4%
        270 8   8   12,7%   12,7%
        271 8   8   11,1%   11,1%
        275 8   8   11,6%   11,6%
        277 8   8   11,8%   11,8%
        280 8   8   11,0%   11,0%
        283 8   8   10,8%   10,8%
        285 8   8   12,1%   12,1%
        286 8   8   12,7%   12,7%
        287 8   8   14,5%   14,5%
        293 8   8   11,6%   11,6%
        295 8   8   12,1%   12,1%
        296 8   8   12,7%   12,7%
        297 8   8   11,6%   11,6%
        298 8   8   11,6%   11,6%
        541 8   8   12,7%   12,7%
        542 8   8   12,1%   12,1%
        543 8   8   12,5%   12,5%
        544 8   8   12,1%   12,1%
        546 8   8   12,3%   12,3%
        547 8   8   12,3%   12,3%
        550 8   8   9,8%    9,8%
        551 8   8   12,5%   12,5%
        556 8   8   12,7%   12,7%
        557 8   8   11,8%   11,8%
        559 8   8   11,4%   11,4%
        560 8   8   12,5%   12,5%
        561 8   8   11,8%   11,8%
        564 8   8   12,9%   12,9%
        565 8   8   12,3%   12,3%
        566 8   8   12,5%   12,5%
        567 8   8   11,9%   11,9%
        568 8   8   14,8%   14,8%
        569 8   8   11,4%   11,4%
        570 8   8   12,7%   12,7%
        571 8   8   11,1%   11,1%
        575 8   8   11,6%   11,6%
        577 8   8   11,8%   11,8%
        578 8   8   15,1%   15,1%
        579 8   8   13,1%   13,1%
        580 8   8   11,0%   11,0%
        581 8   8   14,3%   14,3%
        583 8   8   10,8%   10,8%
        584 8   8   12,9%   12,9%
        585 8   8   12,1%   12,1%
        586 8   8   12,7%   12,7%
        590 8   8   15,7%   15,7%
        592 8   8   14,8%   14,8%
        593 8   8   11,6%   11,6%
        595 8   8   12,1%   12,1%
        596 8   8   12,7%   12,7%
        597 8   8   11,6%   11,6%
        598 8   8   11,6%   11,6%
Archivo de plan: /Users/robsalasco/Documentos/parte_1_final.csplan                      

1.4

Estadísticos univariados
Estimación Error estándar 95% de intervalo de confianza Efecto de diseño Tamaño de la población Recuento no ponderado
Inferior Superior
Media Edad del Jefe de Hogar 48,65 ,609 47,45 49,86 1,868 24270,000 1160

La edad promedio del jefe de hogar se encuentra en los 48,65 años de edad. El efecto de diseño es superior a 1 perdiendo precision al utilizar muestras complejas frente a un SRS. Con un 95% de confianza la edad de los jefes de hogar se encuentra entre los 47,45 y los 49,62 años.

Sexo del Jefe de Hogar
Estimación Error estándar 95% de intervalo de confianza Efecto de diseño Recuento no ponderado
Inferior Superior
Tamaño de la población Mujer 8354,459 467,032 7431,226 9277,693 1,997 399
Hombre 15915,541 467,032 14992,307 16838,774 1,997 761
Total 24270,000 ,000 24270,000 24270,000 . 1160
% del total Mujer 34,4% 1,9% 30,7% 38,3% 1,997 399
Hombre 65,6% 1,9% 61,7% 69,3% 1,997 761
Total 100,0% 0,0% 100,0% 100,0% . 1160

Respecto a la proporcion de cada sexo de los jefes de hogar se da cuenta de que el 34,4% de las mujeres son jefas de hogar y un 65,6% corresponde a los hombres igualmente se pierde precision al utilizar muestras complejas. El intervalo de confianza de las mujeres se encuentra entre los valores 30,7% y 38,3% con un 95% de confianza.

1.5

Sobre los datos obtenidos en la segunda etapa la edad promedio de los jefes de hogar disminuye levemente (48,28) aumentando la dispersión de los datos.

Estadísticos descriptivos
N Mínimo Máximo Media Desviación estándar
Edad del Jefe de Hogar 24270 15 108 48,28 15,510
N válido (por lista) 24270

No se aprecian grandes cambios en la proporción de mujeres.

Sexo del Jefe de Hogar
Frecuencia Porcentaje Porcentaje válido Porcentaje acumulado
Válido Mujer 8601 35,4 35,4 35,4
Hombre 15669 64,6 64,6 100,0
Total 24270 100,0 100,0

2.1

Una vez obtenido el tamaño de la columna 3 fue necesitario realizar el ajustes en las columnas 5 y 7 para sobredimensionar la muestra por medio del efecto de diseño y la tasa de no respuesta manteniendo un margen de error.

bienestar <- read.spss("/Users/robsalasco/Downloads/Bienestar_Subjetivo_2013.sav", to.data.frame = TRUE)
#small.w <- svydesign(data=bienestar, weights=bienestar$ponderador, strata=bienestar$estrato, ids=bienestar$conglom)
#kable(as.data.frame.matrix(prop.table(svytable(~macrozonas+salud_actual, design = small.w),2)*100))
#as.data.frame.matrix(prop.table(svytable(~macrozonas+salud_actual, design = small.w),2)*100)$`Buena o Muy Buena`
kable(as.data.frame.matrix(prop.table(table(bienestar$macrozonas,bienestar$salud_actual),1)*100))
Mala o Muy mala Buena o Muy Buena
Norte 32.24144 67.75856
Centro 39.02661 60.97339
Sur 38.91385 61.08615
as.data.frame.matrix(prop.table(table(bienestar$macrozonas,bienestar$salud_actual),1)*100)$`Buena o Muy Buena`
## [1] 67.75856 60.97339 61.08615

Norte

z = 1.96
p = 0.678
q = 0.322
e = 0.05

n2_norte <<- roundUp(z^2 * p * q / e^2)
n2_norte
## [1] 336

Centro

z = 1.96
p = 0.61
q = 0.39
e = 0.045

n2_centro <<- roundUp(z^2 * p * q / e^2)
n2_centro
## [1] 452

Sur

z = 1.96
p = 0.61
q = 0.39
e = 0.05

n2_sur <<- roundUp(z^2 * p * q / e^2)
n2_sur
## [1] 366
CSPLAN SAMPLE 
  /PLAN FILE='/Users/robsalasco/Downloads/parte5.csplan' 
  /PLANVARS SAMPLEWEIGHT=SampleWeight_Final_ PREVIOUSWEIGHT=ponderador 
  /PRINT PLAN MATRIX 
  /DESIGN STRATA=macrozonas CLUSTER=conglom 
  /METHOD TYPE=SIMPLE_WOR ESTIMATION=DEFAULT 
  /RATE MATRIX=macrozonas;1 0.667000;2 0.61000;3 0.61000 
  /STAGEVARS INCLPROB(InclusionProbability_1_) CUMWEIGHT(SampleWeightCumulative_1_).

CSSELECT 
  /PLAN FILE='/Users/robsalasco/Downloads/parte5.csplan' 
  /CRITERIA STAGES=1 SEED=RANDOM 
  /CLASSMISSING EXCLUDE 
  /PRINT SELECTION.

CSTABULATE
  /PLAN FILE='/Users/robsalasco/Downloads/parte5.csplan'
  /TABLES VARIABLES=salud_actual
  /SUBPOP TABLE=macrozonas DISPLAY=LAYERED
  /CELLS POPSIZE
  /STATISTICS SE CIN(95) COUNT DEFF DEFFSQRT
  /MISSING SCOPE=TABLE CLASSMISSING=EXCLUDE.
efecto_diseno <<- c(5.217,4.361,4.640)
n2_norte_mas <<- n2_norte*efecto_diseno[1]
n2_norte_mas
## [1] 1752.912
n2_centro_mas <<- n2_centro*efecto_diseno[2]
n2_centro_mas
## [1] 1971.172
n2_sur_mas <<- n2_sur*efecto_diseno[3]
n2_sur_mas
## [1] 1698.24
CSPLAN ANALYSIS
  /PLAN FILE='/Users/robsalasco/Documentos/sssss.csaplan'
  /PLANVARS ANALYSISWEIGHT=ponderador
  /SRSESTIMATOR TYPE=WR
  /PRINT PLAN
  /DESIGN STRATA=estrato CLUSTER=conglom
  /ESTIMATOR TYPE=WR.

CSTABULATE
  /PLAN FILE='/Users/robsalasco/Documentos/sssss.csaplan'
  /TABLES VARIABLES=salud_actual
  /SUBPOP TABLE=macrozonas DISPLAY=LAYERED
  /CELLS POPSIZE TABLEPCT
  /STATISTICS SE CIN(95) COUNT DEFF DEFFSQRT
  /MISSING SCOPE=TABLE CLASSMISSING=EXCLUDE.
no_respuesta <- c(round_any((n2_norte_mas/(1-0.15)), 5, f = ceiling),round_any((n2_centro_mas/(1-0.22)), 5, f = ceiling),round_any((n2_sur_mas/(1-0.28)), 5, f = ceiling))
no_respuesta
## [1] 2065 2530 2360
kable(data.frame(Macrozonas = c("Norte","Centro","Sur"),"Estimacion % Salud" = roundUp(as.data.frame.matrix(prop.table(table(bienestar$macrozonas,bienestar$salud_actual),1)*100)$`Buena o Muy Buena`),"Error Maximo" = c(5.0,4.5,5.0),"Tamaño Propuesto" = c(n2_norte,n2_centro,n2_sur),"Deff" = efecto_diseno,"Tamaño Ajustado Deff" = c(n2_norte_mas,n2_centro_mas,n2_sur_mas), "Tasa No Respuesta" = c(15,22,28),"Tamaño Ajustado No-Resp" = no_respuesta,check.names=F))
Macrozonas Estimacion % Salud Error Maximo Tamaño Propuesto Deff Tamaño Ajustado Deff Tasa No Respuesta Tamaño Ajustado No-Resp
Norte 68 5.0 336 5.217 1752.912 15 2065
Centro 61 4.5 452 4.361 1971.172 22 2530
Sur 62 5.0 366 4.640 1698.240 28 2360

El procentaje de hombres que se encuentra en situacion de pobreza es 19,8% y el porcentaje de mujeres es un 18,6% donde los intervalos de confianza en los hombres se encuentran entre 19,1% y un 20,4% y en las mujeres un 18% y un 19,2%. El valor del efecto de diseño da cuenta de una perdida de precisión al utilizar muestras complejas.

Sexo * Situación de pobreza multidimensional (4 Dimensiones)
Sexo Situación de pobreza multidimensional (4 Dimensiones)
No pobre Pobre Total
Hombre Tamaño de la población Estimación 6495048,000 1599037,000 8094085,000
Error estándar 71046,265 28790,480 80135,284
95% de intervalo de confianza Inferior 6355715,178 1542574,373 7936927,192
Superior 6634380,822 1655499,627 8251242,808
Coeficiente de variación ,011 ,018 ,010
Efecto de diseño 19,357 8,830 23,276
Recuento no ponderado 97444 26838 124282
% dentro de Sexo Estimación 80,2% 19,8% 100,0%
Error estándar 0,3% 0,3% 0,0%
95% de intervalo de confianza Inferior 79,6% 19,1% 100,0%
Superior 80,9% 20,4% 100,0%
Coeficiente de variación ,004 ,016 ,000
Efecto de diseño 7,753 7,753 .
Recuento no ponderado 97444 26838 124282
Mujer Tamaño de la población Estimación 7320856,000 1671004,000 8991860,000
Error estándar 82074,799 30540,319 90404,720
95% de intervalo de confianza Inferior 7159894,500 1611109,664 8814562,224
Superior 7481817,500 1730898,336 9169157,776
Coeficiente de variación ,011 ,018 ,010
Efecto de diseño 24,858 9,552 29,624
Recuento no ponderado 108103 27407 135510
% dentro de Sexo Estimación 81,4% 18,6% 100,0%
Error estándar 0,3% 0,3% 0,0%
95% de intervalo de confianza Inferior 80,8% 18,0% 100,0%
Superior 82,0% 19,2% 100,0%
Coeficiente de variación ,004 ,017 ,000
Efecto de diseño 8,791 8,791 .
Recuento no ponderado 108103 27407 135510
Total Tamaño de la población Estimación 13815904,000 3270041,000 17085945,000
Error estándar 148192,715 57030,160 164876,753
95% de intervalo de confianza Inferior 13525274,940 3158195,948 16762595,930
Superior 14106533,060 3381886,052 17409294,070
Coeficiente de variación ,011 ,017 ,010
Efecto de diseño 128,233 18,991 .
Recuento no ponderado 205547 54245 259792
% dentro de Sexo Estimación 80,9% 19,1% 100,0%
Error estándar 0,3% 0,3% 0,0%
95% de intervalo de confianza Inferior 80,3% 18,6% 100,0%
Superior 81,4% 19,7% 100,0%
Coeficiente de variación ,004 ,016 ,000
Efecto de diseño 15,334 15,334 .
Recuento no ponderado 205547 54245 259792

Por medio de las pruebas de independencia se puede establecer si existe o no una diferencia significativa. En este caso sí existe verificandose por su valor 0 menor a 0.05.

Pruebas de independencia
Chi-cuadrado F corregida gl1 gl2 Sig.
Sexo * Situación de pobreza multidimensional (4 Dimensiones) Pearson 57,497 47,627 1 1991 ,000
Razón de verosimilitud 57,457 47,594 1 1991 ,000
La F ajustada es una variante del estadístico de chi-cuadrado ajustado de Rao-Scott de segundo orden. La significación se basa en la F ajustadas y sus grados de libertad.