informe inferencia
Presenta
Laura María Ardila Muñoz
Carolina Bata santa
Facultad De Ciencias Exactas
Especialización En Estadística
2024
Queremos realizar un estudio sobre la opinión pública de la favorabilidad del alcalde en la ciudad Neiva para el periodo de enero a junio del 2024. Queremos asegurarnos de que la muestra sea representativa de la población en términos de edad y estrato social.
El objetivo de este análisis es determinar el nivel de favorabilidad hacia el alcalde, identificando cómo varían las opiniones según los grupos de edad y estratos sociales. Esto permitirá obtener información valiosa para la toma de decisiones políticas y administrativas, así como para el diseño de estrategias de comunicación dirigidas a distintos sectores de la población.
Nos proponemos dar respuesta a las siguientes pregunta que son claves en nuestra investigacion¿Cómo se distribuyen las opiniones de favorabilidad del alcalde según la edad y el estrato social?,¿Qué tan representativa es la muestra seleccionada en relación con la población total? y ¿Existen diferencias significativas en la percepción según las variables analizadas?
poblacion: La población total consta de 1000 habitantes de Neiva, clasificandose en los siguientes grupos:
Edad:
18-24; años
25-34; años
35-44; años
45-54; años
55+ años
Estrato social
estrato 1
estrato 2
estrato 3
muestra:
El metodo que utilizaremos para nuestro tema es el muestreo por cuotas ya que es no probabilístico que garantiza que la muestra incluya una representación proporcional de la población en función de características específicas, como edad y estrato social. En nuestro caso, la población se divide en subgrupos definidos por estas dos variables, y se asignan cuotas para cada combinación.
edad:
18-24(20%)
25-34(20%)
35-44(20%)
45-54(20%)
54-55(20%)
55+ (20%)
Estrato
estrato 1 (37.5%)
estrato 2 (25%)
estrato 3 (37.5%)
pedemos concluir de este del metodo utilizado es eficiente para nuestro tema ya que la población está bien definida y categorizada en términos de edad y estrato social.Tambien garantiza que cada grupo esté representado de manera proporcional, lo que es significativo para analizar diferencias en las percepciones entre los subgrupos. Especialmente para una población pequeña como la de 1000 habitantes.
#Generamos datos para la población
# estrato 1, 2 y 3
n_poblacion <- 1000 # tamaño de la poblacion
set.seed(123)
poblacion_edad <- rnorm(n_poblacion, mean = 28, sd = 5) # Edad en años
poblacion_estrato <- rnorm(n_poblacion, mean =1 , sd = 3) # estrato
media <- mean(poblacion_edad)
media
## [1] 28.08064
tamaño_muestra <- 200
muestra_edad <- sample(poblacion_edad, tamaño_muestra)
muestra_estrato <- sample(poblacion_estrato, tamaño_muestra)
media_muestral_edad <- mean(muestra_edad)
media_muestral_edad
## [1] 27.52534
sesgo_edad <- media_muestral_edad - mean(poblacion_edad)
cat("Estimación de la media:\n")
## Estimación de la media:
## Estimación de la media:
cat("Edad:", media_muestral_edad, " (Sesgo:", sesgo_edad, ")\n")
## Edad: 27.52534 (Sesgo: -0.5552959 )
media_muestral_estrato <- mean(muestra_estrato)
media_muestral_estrato
## [1] 1.020842
sesgo_estrato <- media_muestral_estrato - mean(poblacion_estrato)
cat("Estimación de la media:\n")
## Estimación de la media:
## Estimación de la media:
cat("Estrato:", media_muestral_estrato, " (Sesgo:", sesgo_estrato, ")\n")
## Estrato: 1.020842 (Sesgo: -0.1065536 )
var_edad <- var(muestra_edad) / tamaño_muestra
var_edad
## [1] 0.1155744
cat("\nVarianza del estimador (Eficiencia):\n")
##
## Varianza del estimador (Eficiencia):
## Varianza del estimador (Eficiencia):
cat("Edad:", var_edad, "\n")
## Edad: 0.1155744
var_estrato <- var(muestra_estrato) / tamaño_muestra
var_estrato
## [1] 0.04428191
cat("\nVarianza del estimador (Eficiencia):\n")
##
## Varianza del estimador (Eficiencia):
## Varianza del estimador (Eficiencia):
cat("Estrato:", var_estrato, "\n")
## Estrato: 0.04428191
desviacion_edad <- sqrt(var_edad)
desviacion_edad
## [1] 0.3399623
desviacion_estrato <- sqrt(var_estrato)
desviacion_estrato
## [1] 0.2104327
tamaños_muestra <- seq(20, 80, by = 10)
medias_muestrales_edad <- sapply(tamaños_muestra, function(n) {
mean(sample(poblacion_edad, n))
})
tamaños_muestra <- seq(20, 80, by = 10)
medias_muestrales_estrato <- sapply(tamaños_muestra, function(n) {
mean(sample(poblacion_estrato, n))
})
nivel_confianza <-0.95
valor_critico <-qnorm((1 + nivel_confianza) / 2)
valor_critico
## [1] 1.959964
nivel_confianza <- 0.95
muestra_media <- 27.9
desviacion_estandar <- 0.15
tamano_muestra <- 200
error_estandar <- 0.15 / sqrt(200)
valor_critico <- qt((1 + 0.95) / 2, df = 200 - 1)
margen_error <- valor_critico * error_estandar
intervalo_confianza <- c(muestra_media - margen_error, muestra_media + margen_error)
cat("Intervalo de confianza del", nivel_confianza * 100, "% para la media:", intervalo_confianza)
## Intervalo de confianza del 95 % para la media: 27.87908 27.92092
#estimador de maxima verosimilitud para la variable edad
set.seed(123)
datos <- rnorm(200, mean = 3, sd = 2)
# Función de verosimilitud para una distribución normal
log_likelihood <- function(par, data) {
mu <- par[1]
sigma <- par[2]
-sum(dnorm(poblacion_edad, mean = mu, sd = sigma, log = TRUE))
}
# Encontrar estimadores de máxima verosimilitud
inicializacion <- c(mean(poblacion_edad), sd(poblacion_edad))
estimadores_mle <- optim(par = inicializacion, fn = log_likelihood, data = poblacion_edad)
# Resultados
cat("Estimador MLE para la media:", estimadores_mle$par[1], "\n")
## Estimador MLE para la media: 28.08152
#estimador de maxima verosimilitud para la variable estrato
# Generar una muestra de datos
set.seed(123)
datos <- rnorm(200, mean = 3, sd = 2)
# Función de verosimilitud para una distribución normal
log_likelihood <- function(par, data) {
mu <- par[1]
sigma <- par[2]
-sum(dnorm(poblacion_estrato, mean = mu, sd = sigma, log = TRUE))
}
# Encontrar estimadores de máxima verosimilitud
inicializacion <- c(mean(poblacion_estrato), sd(poblacion_estrato))
estimadores_mle <- optim(par = inicializacion, fn = log_likelihood, data = poblacion_estrato)
# Resultados
cat("Estimador MLE para la media:", estimadores_mle$par[1], "\n")
## Estimador MLE para la media: 1.127435
La cantidad de personas que tienen una opinión favorable sobre el alcalde no varía significativamente según el estrato social ni el grupo de edad.
La cantidad de personas que tienen una opinión favorable sobre el alcalde varía significativamente según el estrato social o el grupo de edad.
Usaremos la prueba de Shapiro-Wilk:
set.seed(123)
datos <- rpois(200, lambda = 5)
# Histograma
hist(datos, main = "Histograma de Datos", col = "lightblue", border = "black")
shapiro.test(datos)
##
## Shapiro-Wilk normality test
##
## data: datos
## W = 0.96123, p-value = 2.692e-05
# Simular datos
set.seed(123)
n <- 200
datos <- data.frame(
favorabilidad = sample(c("Muy favorable", "Favorable", "Neutra", "Desfavorable", "Muy desfavorable"), n, replace = TRUE),
edad = sample(c("18-24", "25-34", "35-44", "45-54", "55+"), n, replace = TRUE),
estrato_social = sample(c("1", "2", "3"), n, replace = TRUE)
)
tabla <- table(datos$favorabilidad, datos$estrato_social)
# Prueba de Chi-cuadrado
resultado_chi <- chisq.test(tabla)
print(resultado_chi)
##
## Pearson's Chi-squared test
##
## data: tabla
## X-squared = 4.8203, df = 8, p-value = 0.7766
La media muestral para la variable edad nos da un valor de 27.53 años, con un sesgo de -0.555, lo que indica que la muestra esta ligeramente por debajo la media poblacional.Y la varianza muestral (eficiencia) con una desviación estándar de 0.34 baja en la estimación, lo que mejora la confianza en la representatividad de la muestra.
La media muestral para la variable estrato social nos da un valor de 1.02, con un sesgo de −0.107, lo cual es muy bajo y aceptable para nuestro tema. Y varianza muestral (eficiencia) 0.044, con una desviación estándar de 0.21 lo cual muestra mayor estabilidad en la estimación del estrato social respecto a la edad.
3.Respecto a la inferencia estadistica Para la edad, con un nivel de confianza del 95 %, el intervalo estimado es [27.88,27.92] indica que la media poblacional probablemente se encuentra en este rango, mostrando la precisión del estimador.
4.Estimadores de máxima verosimilitud tanto para la edad y el estrato social coinciden con el valor poblacional simulado, lo que valida el método.
-Manual de inferencia estadística. Universidad Pontificia Bolivariana. Medellín, Colombia, 2018.
-Unidad didáctica sobre inferencia estadística. Universidad Nacional de Colombia, Bogotá, 2019.
-Investigación educativa en estadística. Portal SciELO Colombia, 2020.