DEFINICION DE MUESTREO POR CUOTAS

Es un metodo de muestreo no probabilistico que consiste en seleccionar una muestra representativa de una poblacion objetivo, asegurando que la muestra tenga una distribucion similar en terminos de ciertas caracteristica relevantes, como edad, sexo, nivel de eduaccion, ingresos entre otros. los cuales se mide en un rango de tiempo determinado

n=1000
z=1.96
p=0.05
E=0.05
n=(z^2*p*(1-p))/E^2

n=Tamaño de muestra
Z=Nivel de confianza
p=proporcion esperada de la caracteristica de interes en la poblacion
E=Error estandar deseado

Ejemplo Supongamos que queremos realizar un estudio sobre la opinión pública sobre el tema específico favorabilidad del alcalde en la ciudad Neiva para el periodo de marzo a junio del 2024. Queremos asegurarnos de que la muestra sea representativa de la población en términos de edad y sexo. poblacion=100.000 habitantes
caracteristca: edad(18-24,25-34,35-44,45-54,55+)
cuotas establecidas: edad:18-24(20%),25-34(15%),35-44(30%),45-54(20%),54-55(15%)

sexo: Masculino(50%), femenino(50%) tamaño de la muestra total =1000

formula para estimar el tamaño de la muestra

z=1.96
p=0.2
E=0.05
n=(z^2*p*(1-p))/E^2
n
## [1] 245.8624

formula para estimar el tamaño de la muestra

z=1.96
p=0.15
E=0.05
n=(z^2*p*(1-p))/E^2
n
## [1] 195.9216
z=1.96
p=0.3
E=0.05
n=(z^2*p*(1-p))/E^2
n
## [1] 322.6944
n_total=1000
p_i=0.2

n_i=(n_total*p_i)
n_i
## [1] 200
n_total=1000
p_i=0.15

n_i=(n_total*p_i)
n_i
## [1] 150
n_total=1000
p_i=0.3

n_i=(n_total*p_i)
n_i
## [1] 300
n_total=1000
p_i=0.2

n_i=(n_total*p_i)
n_i
## [1] 200
n_total=1000
p_i=0.15

n_i=(n_total*p_i)
n_i
## [1] 150

Configuramos el tamaño de la población

n_poblacion <- 10000  # Tamaño de la población

Generamos datos para la población

Creamos una población simulada con valores de edad.

M=1 y F=2

poblacion_edad <- rnorm(n_poblacion, mean = 25, sd = 5)       # Edad en años
poblacion_sexo <- rnorm(n_poblacion, mean = 1, sd = 5)

Tomamos una muestra de 1000 individuos para cada variable

tamaño_muestra <- 1000


muestra_edad <- sample(poblacion_edad, tamaño_muestra)

muestra_sexo <- sample(poblacion_sexo, tamaño_muestra)

Estimación Puntual

La estimación puntual es un único valor que se calcula a partir de los datos muestrales.

Usamos la media muestral como una estimación puntual de la media poblacional.

media_muestral_edad <- mean(muestra_edad)  
media_muestral_edad  
## [1] 25.25275
media_muestral_sexo <- mean(muestra_sexo)  
media_muestral_sexo   
## [1] 1.0169

Sesgo de la estimación de la media

El sesgo mide la diferencia entre el valor esperado del estimador y el valor verdadero del parámetro.

Un sesgo cercano a cero indica que el estimador es insesgado.

sesgo_edad <- media_muestral_edad - mean(poblacion_edad)
sesgo_sexo <- media_muestral_sexo - mean(poblacion_sexo)
cat("Estimación de la media:\n")
## Estimación de la media:
cat("Edad:", media_muestral_edad, " (Sesgo:", sesgo_edad, ")\n")
## Edad: 25.25275  (Sesgo: 0.1892832 )
cat("Estimación de la media:\n")
## Estimación de la media:
cat("sexo:", media_muestral_sexo, " (Sesgo:", sesgo_sexo, ")\n")
## sexo: 1.0169  (Sesgo: 0.01296256 )

Eficiencia del Estimador

La eficiencia de un estimador se mide mediante su varianza; un estimador es más eficiente si tiene menor varianza.

Calculamos la varianza del estimador dividiendo la varianza muestral entre el tamaño de la muestra.

var_edad <- var(muestra_edad) / tamaño_muestra
var_edad
## [1] 0.02353762
var_sexo <- var(muestra_sexo) / tamaño_muestra
cat("\nVarianza del estimador (Eficiencia):\n")
## 
## Varianza del estimador (Eficiencia):
cat("Edad:", var_edad, "\n")
## Edad: 0.02353762

Desviacion estandar

desviacion_edad <- sqrt(var_edad)
desviacion_edad
## [1] 0.1534197
desviacion_sexo <- sqrt(var_sexo)
desviacion_sexo
## [1] 0.1573603

analisis

las estimaciones de la media muestral son cercanas a los valores esperados (media de 25 para edad y media cercana a 1 para el sexo), lo cual indica que la media muestral es un buen estimador de la media poblacional. para los valores del sesgo obtenidos podemos decir que las estimaciones de la media son insesgadas para ambas variables ya que se acercan al valor cero, lo que es importante enla inferencia. En la varianza de la edad podemos observar un valor muy bajo, lo cual es positivo para la inferencia, ya que implica que si se tomaran diferentes muestras del mismo tamaño, la variación en las medias muestrales entre muestras sería pequeña, proporcionando estimaciones consistentes.

estimadores de intervalos

nivel_confianza <-0.95
valor_critico <-qnorm((1 + nivel_confianza) / 2)
valor_critico
## [1] 1.959964
nivel_confianza <- 0.95
muestra_media <- 24.9
desviacion_estandar <- 0.15
tamano_muestra <- 1000
error_estandar <- 0.15 / sqrt(1000)
valor_critico <- qt((1 + 0.95) / 2, df = 1000 - 1)
margen_error <- valor_critico * error_estandar
intervalo_confianza <- c(muestra_media - margen_error, muestra_media + margen_error)

cat("Intervalo de confianza del", nivel_confianza * 100, "% para la media:", intervalo_confianza)
## Intervalo de confianza del 95 % para la media: 24.89069 24.90931