MUESTREO ESTRATIFICADO

Es un procedimiento de muestreo en el que el objetivo de la población se separa en segmentos exclusivos, homogéneos (estratos), y luego de una muestra aleatoria simple se selecciona de cada segmento (estratos).

# Definimos parámetros

N <- 10000  # Población total
n <- 370    # Tamaño de la muestra total

# Proporciones de los estratos

N_hombres <- 5000  # Número de hombres
N_mujeres <- 5000  # Número de mujeres

# Tamaño de la muestra en cada estrato (proporcional)

n_hombres <- (N_hombres / N) * n
n_mujeres <- (N_mujeres / N) * n

# Resultados

cat("Tamaño de muestra para hombres:", round(n_hombres), "\n")
## Tamaño de muestra para hombres: 185
cat("Tamaño de muestra para mujeres:", round(n_mujeres), "\n")
## Tamaño de muestra para mujeres: 185

INTERPRETACIÓN

  1. 185 Personas fueron seleccionados en el estrato genero hombre, que son el 50% de la población

  2. 185 Personas fueron seleccionados en el estrato genero mujeres, que son el 50% de la población

library(readxl)
Base_Datos3 <- read_excel("Base_Datos3.xlsx")
View(Base_Datos3)

Edad_3 <- Base_Datos3$Edad
Edad_6 <- mean(Edad_3)
Edad_6
## [1] 39.12
N_Hijos <- Base_Datos3$`Número de hijos`
N_Hijos2 <- mean(N_Hijos)
N_Hijos2
## [1] 1.43
Estrato_ID <- Base_Datos3$Estrato
Estrato_10 <- mean(Estrato_ID)
Estrato_10
## [1] 2.99
#Desviación Standar

desviacion_Edad <- sd(Edad_3)
desviacion_Edad
## [1] 11.10763
desviacion_Hijos <- sd(N_Hijos)
desviacion_Hijos
## [1] 1.112418
desviacion_Estrato <- sd(Estrato_ID)
desviacion_Estrato
## [1] 1.259269
#Sesgo y la consistencia  por muestreo aleatorio simple.

# Parámetros
N <- 100      # Tamaño de la población
Z <- 1.96     # Valor Z para un nivel de confianza del 95%
p <- 0.5      # Proporción de éxito esperada
q <- 1 - p    # Proporción de fracaso
E <- 0.05     # Margen de error

# Cálculo del tamaño de muestra
n <- (Z^2 * p * q * N) / ((E^2 * (N - 1)) + (Z^2 * p * q))
n
## [1] 79.50989
library(readxl)
Base_Datos4 <- read_excel("Base_Datos4.xlsx")
View(Base_Datos4)

Edad_4 <- Base_Datos4$Edad
Edad_8 <- mean(Edad_4)
Edad_8
## [1] 38.75
N_Hijos_3 <- Base_Datos4$`Número de hijos`
N_Hijos6 <- mean(N_Hijos_3)
N_Hijos6
## [1] 1.45
Estrato_ID1 <- Base_Datos4$Estrato
Estrato_12 <- mean(Estrato_ID1)
Estrato_12
## [1] 2.9875
#Desviación Standar

desviacion_Edad_4 <- sd(Edad_4)
desviacion_Edad_4
## [1] 11.25594
desviacion_Hijos_3 <- sd(N_Hijos_3)
desviacion_Hijos_3
## [1] 1.135169
desviacion_Estrato1 <- sd(Estrato_ID1)
desviacion_Estrato1
## [1] 1.257824
# Check the value of x using an if statement

if (Edad_6 != Edad_8) {
  print("Si hay sesgo en el estimador de Media de Edad")
} else {
  print("El estimador de media de Edad es insesgado")
}
## [1] "Si hay sesgo en el estimador de Media de Edad"
if (N_Hijos2 != N_Hijos6) {
  print("Si hay sesgo en el estimador de Media de Número de Hijos")
} else {
  print("El estimador de media de Número de Hijos es insesgado")
}
## [1] "Si hay sesgo en el estimador de Media de Número de Hijos"
if (Estrato_10 != Estrato_12) {
  print("Si hay sesgo en el estimador de Media de Estrato")
} else {
  print("El estimador de media de Estrato es insesgado")
}
## [1] "Si hay sesgo en el estimador de Media de Estrato"
library(readxl)
Base_Datos5 <- read_excel("Base_Datos5.xlsx")
View(Base_Datos5)


Edad_5 <- Base_Datos5$Edad
Edad_10 <- mean(Edad_5)
Edad_10
## [1] 39.25
N_Hijos_4 <- Base_Datos5$`Número de hijos`
N_Hijos8 <- mean(N_Hijos_4)
N_Hijos8
## [1] 1.4125
Estrato_ID2 <- Base_Datos5$Estrato
Estrato_15 <- mean(Estrato_ID2)
Estrato_15
## [1] 2.9875
#Desviación Standar

desviacion_Edad_5 <- sd(Edad_5)
desviacion_Edad_5
## [1] 10.79791
desviacion_Hijos_4 <- sd(N_Hijos_4)
desviacion_Hijos_4
## [1] 1.110294
desviacion_Estrato2 <- sd(Estrato_ID2)
desviacion_Estrato2
## [1] 1.257824
#Varianza

varianza_1 <- var(Edad_3)
varianza_1
## [1] 123.3794
varianza_2 <- var(Edad_4)
varianza_2
## [1] 126.6962
varianza_3 <- var(Edad_5)
varianza_3
## [1] 116.5949
if (varianza_2 < varianza_3) {
  print("Es eficiente")
} else {
  print("No es eficiente")
}
## [1] "No es eficiente"

INTERPRETACIÓN

  1. Se presenta un sesgo medio eficiente lo que sugiere, que el valor esperado no presenta similitud con el valor real del parámetro, presentando varianza baja.

  2. Para este caso arroja ineficiencia en las varianzas, lo que nos sugiera que las estimaciones pueden fluctuar.

ESTIMACIÓN CONSISTENTE DE LA PROPORCIÓN

muestras4 <- Base_Datos4$Estrato
estimador_cons <- sum(muestras4) / length(muestras4)
print(estimador_cons)
## [1] 2.9875
Poblacion4 <- Base_Datos3$Estrato
estimador_cons <- sum(Poblacion4) / length(Poblacion4)
print(estimador_cons)
## [1] 2.99

INTERPRETACIÓN

La variable estrato presenta consistencia porque nos permite inferiir que a medida que aumenta la muetra, esta se aproxima al valor real del parametro.

ESTIMACIÓN PUNTUAL

# Alturas de una muestra

Edad_E_puntual <- Base_Datos4$Edad

# Estimador puntual de la media

Edad_M_puntual <- mean(Edad_E_puntual)

# Imprimir el resultado

cat("Estimador Puntual de la Media:", Edad_M_puntual, "\n")
## Estimador Puntual de la Media: 38.75
## INTERVALO DE CONFIANZA

# Intervalo de confianza del 95% para la media

Intervalo_C <- t.test(Edad_E_puntual)$conf.int

# Imprimir el resultado

cat("Intervalo de Confianza del 95% para la Media:", Intervalo_C, "\n")
## Intervalo de Confianza del 95% para la Media: 36.24511 41.25489
# Generar una muestra de datos


datos <- rnorm(80, mean = 1.45, sd = 1.13)


# Función de verosimilitud para una distribución normal

log_likelihood <- function(par, data) {
  mu <- par[1]
  sigma <- par[2]
  -sum(dnorm(data, mean = mu, sd = sigma, log = TRUE))
}

# Encontrar estimadores de máxima verosimilitud

inicializacion <- c(mean(datos), sd(datos))
estimadores_mle <- optim(par = inicializacion, fn = log_likelihood, data = datos)

# Resultados

cat("Estimador MLE para la media:", estimadores_mle$par[1], "\n")
## Estimador MLE para la media: 1.397058
cat("Estimador MLE para la desviación estándar:", estimadores_mle$par[2], "\n")
## Estimador MLE para la desviación estándar: 1.080443

INTERPRETACIÓN

Como los resultados son iguales a la media y desviación estandar población, podemos concluir que se pueden inferir resultados de la muestra sobre la población.

Intervalo de Confianza para la Media

# Calcular el error estándar de la media

tamano_muestra <- length(Base_Datos4$Edad)
tamano_muestra
## [1] 80
error_estandar <- desviacion_Edad_4 / sqrt(tamano_muestra)
error_estandar
## [1] 1.258452
# Calcular el valor crítico de la distribución t

nivel_confianza <- 0.95
nivel_confianza
## [1] 0.95
valor_critico <- qt((1 + nivel_confianza) / 2, df = tamano_muestra - 1)
valor_critico
## [1] 1.99045
# Calcular el margen de error

margen_error <- valor_critico * error_estandar
margen_error
## [1] 2.504887
# Calcular el intervalo de confianza

intervalo_confianza <- c(Edad_8 - margen_error, Edad_8 + margen_error)
intervalo_confianza
## [1] 36.24511 41.25489
# Mostrar resultados

cat("Intervalo de confianza del", nivel_confianza * 100, "% para la media:", intervalo_confianza)
## Intervalo de confianza del 95 % para la media: 36.24511 41.25489

INTERPRETACIÓN

EL Intervalo de confianza del 95 % para la media de nuestra muestra de la variable edad es 36.34704 41.15296

##EJEMPLO

# De "100" personas encuestadas seleccionamos 80 al azar, y se registraron que 11 tienen 3 hijo

# Personas encuestadas

Hogar_1 <- 27
tamano_muestra <- 80
proporcion_Hogar_1 <- Hogar_1 / tamano_muestra
proporcion_Hogar_1
## [1] 0.3375

calcular un intervalo de confianza del 95% para la proporción de clientes satisfechos

Intervalo de Confianza para la Proporción

# Calcular el intervalo de confianza para la proporción

nivel_confianza <- 0.95

# Calcular el error estándar de la proporción

error_estandar_proporcion <- sqrt((proporcion_Hogar_1 * (1 - 
                    proporcion_Hogar_1)) / tamano_muestra)
error_estandar_proporcion
## [1] 0.05286702
# Calcular el valor crítico de la distribución normal estándar

valor_critico <- qnorm((1 + nivel_confianza) / 2)
valor_critico
## [1] 1.959964
# Calcular el margen de error

margen_error_proporcion <- valor_critico * error_estandar_proporcion
margen_error_proporcion
## [1] 0.1036175
# Calcular el intervalo de confianza

intervalo_confianza_proporcion <- c(proporcion_Hogar_1 - margen_error_proporcion, proporcion_Hogar_1 + margen_error_proporcion)
intervalo_confianza_proporcion
## [1] 0.2338825 0.4411175
# Mostrar resultados

cat("Intervalo de confianza del", nivel_confianza * 100, "% para la proporción de Hogar con 1 hijo:", intervalo_confianza_proporcion)
## Intervalo de confianza del 95 % para la proporción de Hogar con 1 hijo: 0.2338825 0.4411175

##INTERPRETACIÓN

El Intervalo de confianza del 95 % para la proporción proporción de Hogar con 1 hijo: 0.2338825 0.441117

##EJEMPLO

# De "100" personas encuestadas seleccionamos 80 al azar, y se registraron que 11 tienen 3 hijo

# Personas encuestadas

Hogar_3 <- 11
tamano_muestra <- 80
proporcion_Hogar_3 <- Hogar_3 / tamano_muestra
proporcion_Hogar_3
## [1] 0.1375
# Calcular el intervalo de confianza para la proporción

nivel_confianza <- 0.95

# Calcular el error estándar de la proporción

error_estandar_proporcion3 <- sqrt((proporcion_Hogar_3 * (1 - 
                    proporcion_Hogar_3)) / tamano_muestra)
error_estandar_proporcion3
## [1] 0.03850223
# Calcular el valor crítico de la distribución normal estándar

valor_critico3 <- qnorm((1 + nivel_confianza) / 2)
valor_critico3
## [1] 1.959964
# Calcular el margen de error

margen_error_proporcion3 <- valor_critico3 * error_estandar_proporcion3
margen_error_proporcion3
## [1] 0.07546299
# Calcular el intervalo de confianza

intervalo_confianza_proporcion3<- c(proporcion_Hogar_3 - margen_error_proporcion3, proporcion_Hogar_3 + margen_error_proporcion3)
intervalo_confianza_proporcion3
## [1] 0.06203701 0.21296299
# Mostrar resultados

cat("Intervalo de confianza del", nivel_confianza * 100, "% para la proporción de Hogar con 3 hijo:", intervalo_confianza_proporcion3)
## Intervalo de confianza del 95 % para la proporción de Hogar con 3 hijo: 0.06203701 0.212963

##INTERPRETACIÓN

El Intervalo de confianza del 95 % para la proporción proporción de Hogar con 3 hijo: 0.06203701 0.212963

Estrato_ID1 <- Base_Datos4$Estrato
Estrato_12 <- mean(Estrato_ID1)
Estrato_12
## [1] 2.9875
desviacion_Estrato1 <- sd(Estrato_ID1)
desviacion_Estrato1
## [1] 1.257824
Estrato_ID2 <- Base_Datos5$Estrato
Estrato_15 <- mean(Estrato_ID2)
Estrato_15
## [1] 2.9875
desviacion_Estrato2 <- sd(Estrato_ID2)
desviacion_Estrato2
## [1] 1.257824
tamaño_muestra_1 <- length(Base_Datos4$Estrato)
tamaño_muestra_1
## [1] 80
tamaño_muestra_2 <- length(Base_Datos5$Estrato)
tamaño_muestra_2
## [1] 80
# Error estándar de la diferencia de medias

error_estandar_diferencia <- sqrt((desviacion_Estrato1^2 / tamaño_muestra_1) + (desviacion_Estrato2^2 / tamaño_muestra_2))
error_estandar_diferencia
## [1] 0.1988794
# Valor crítico de la distribución t

nivel_confianza_2<-0.95
valor_critico_2 <- qt((1 + nivel_confianza_2) / 2, df = tamaño_muestra_1 + tamaño_muestra_2 - 2)
valor_critico_2
## [1] 1.975092
# Margen de error

margen_error_diferencia <- valor_critico_2 * error_estandar_diferencia
margen_error_diferencia
## [1] 0.3928051
# Intervalo de confianza para la diferencia de medias

intervalo_confianza_diferencia <- c((Estrato_12 - Estrato_15) - margen_error_diferencia, (Estrato_12 - Estrato_15) + margen_error_diferencia)
intervalo_confianza_diferencia
## [1] -0.3928051  0.3928051
# Mostrar resultado

cat("Intervalo de confianza del", nivel_confianza_2 * 100, "% para la diferencia de medias:", intervalo_confianza_diferencia)
## Intervalo de confianza del 95 % para la diferencia de medias: -0.3928051 0.3928051
diferencia_media<-Estrato_12 - Estrato_15
diferencia_media
## [1] 0

##INTERPRETACIÓN

Bajo este nivel No se puede inferir un 95% de confianza entre las medias de las variables