informe inferencia 













                       Presenta
                       Laura María Ardila Muñoz
                       Carolina Bata santa 















                   Facultad De Ciencias Exactas

                  Especialización En Estadística

                              2024

TEMA

Queremos realizar un estudio sobre la opinión pública de la favorabilidad del alcalde en la ciudad Neiva para el periodo de enero a junio del 2024. Queremos asegurarnos de que la muestra sea representativa de la población en términos de edad y estrato social.

introducion

El objetivo de este análisis es determinar el nivel de favorabilidad hacia el alcalde, identificando cómo varían las opiniones según los grupos de edad y estratos sociales. Esto permitirá obtener información valiosa para la toma de decisiones políticas y administrativas, así como para el diseño de estrategias de comunicación dirigidas a distintos sectores de la población.

Descripción de datos: Problema

Nos proponemos dar respuesta a las siguientes pregunta que son claves en nuestra investigacion¿Cómo se distribuyen las opiniones de favorabilidad del alcalde según la edad y el estrato social?,¿Qué tan representativa es la muestra seleccionada en relación con la población total? y ¿Existen diferencias significativas en la percepción según las variables analizadas?

Metodología:

poblacion: La población total consta de 1000 habitantes de Neiva, clasificandose en los siguientes grupos:

Edad:

18-24; años
25-34; años
35-44; años
45-54; años
55+ años

Estrato social

estrato 1

estrato 2

estrato 3

muestra:

El metodo que utilizaremos para nuestro tema es el muestreo por cuotas ya que es no probabilístico que garantiza que la muestra incluya una representación proporcional de la población en función de características específicas, como edad y estrato social. En nuestro caso, la población se divide en subgrupos definidos por estas dos variables, y se asignan cuotas para cada combinación.

Definimos las cuotas

edad:

18-24(20%)

25-34(20%)

35-44(20%)

45-54(20%)

54-55(20%)

55+ (20%)

Estrato

estrato 1 (37.5%)

estrato 2 (25%)

estrato 3 (37.5%)

pedemos concluir de este del metodo utilizado es eficiente para nuestro tema ya que la población está bien definida y categorizada en términos de edad y estrato social.Tambien garantiza que cada grupo esté representado de manera proporcional, lo que es significativo para analizar diferencias en las percepciones entre los subgrupos. Especialmente para una población pequeña como la de 1000 habitantes.

Resultados

media muestral

#Generamos datos para la población
# estrato 1, 2 y 3
n_poblacion <- 1000 # tamaño de la poblacion
set.seed(123)
poblacion_edad <- rnorm(n_poblacion, mean = 28, sd = 5)       # Edad en años
poblacion_estrato <- rnorm(n_poblacion, mean =1 , sd = 3)     # estrato
media <- mean(poblacion_edad)
media

## [1] 28.08064

tamaño_muestra <- 200


muestra_edad <- sample(poblacion_edad, tamaño_muestra)

muestra_estrato <- sample(poblacion_estrato, tamaño_muestra)

media_muestral_edad <- mean(muestra_edad)  
media_muestral_edad

## [1] 27.52534

sesgo_edad <- media_muestral_edad - mean(poblacion_edad)
cat("Estimación de la media:\n")

## Estimación de la media:

## Estimación de la media:
cat("Edad:", media_muestral_edad, " (Sesgo:", sesgo_edad, ")\n")

## Edad: 27.52534  (Sesgo: -0.5552959 )

media_muestral_estrato <- mean(muestra_estrato)  
media_muestral_estrato

## [1] 1.020842

sesgo_estrato <- media_muestral_estrato - mean(poblacion_estrato)
cat("Estimación de la media:\n")

## Estimación de la media:

## Estimación de la media:
cat("Estrato:", media_muestral_estrato, " (Sesgo:", sesgo_estrato, ")\n")

## Estrato: 1.020842  (Sesgo: -0.1065536 )

varianza

var_edad <- var(muestra_edad) / tamaño_muestra
var_edad

## [1] 0.1155744

cat("\nVarianza del estimador (Eficiencia):\n")

## 
## Varianza del estimador (Eficiencia):

## Varianza del estimador (Eficiencia):
cat("Edad:", var_edad, "\n")

## Edad: 0.1155744

var_estrato <- var(muestra_estrato) / tamaño_muestra
var_estrato

## [1] 0.04428191

cat("\nVarianza del estimador (Eficiencia):\n")

## 
## Varianza del estimador (Eficiencia):

## Varianza del estimador (Eficiencia):
cat("Estrato:", var_estrato, "\n")

## Estrato: 0.04428191

Desviacion estandar

desviacion_edad <- sqrt(var_edad)
desviacion_edad

## [1] 0.3399623

desviacion_estrato <- sqrt(var_estrato)
desviacion_estrato

## [1] 0.2104327

consistencia

tamaños_muestra <- seq(20, 80, by = 10)
medias_muestrales_edad <- sapply(tamaños_muestra, function(n) {
  mean(sample(poblacion_edad, n))
})
tamaños_muestra <- seq(20, 80, by = 10)
medias_muestrales_estrato <- sapply(tamaños_muestra, function(n) {
  mean(sample(poblacion_estrato, n))
})

nivel de confianza

nivel_confianza <-0.95
valor_critico <-qnorm((1 + nivel_confianza) / 2)
valor_critico

## [1] 1.959964

intervalo de confianza

nivel_confianza <- 0.95
muestra_media <- 27.9
desviacion_estandar <- 0.15
tamano_muestra <- 200
error_estandar <- 0.15 / sqrt(200)
valor_critico <- qt((1 + 0.95) / 2, df = 200 - 1)
margen_error <- valor_critico * error_estandar
intervalo_confianza <- c(muestra_media - margen_error, muestra_media + margen_error)

cat("Intervalo de confianza del", nivel_confianza * 100, "% para la media:", intervalo_confianza)

## Intervalo de confianza del 95 % para la media: 27.87908 27.92092

#estimador de maxima verosimilitud para la variable edad

set.seed(123)
datos <- rnorm(200, mean = 3, sd = 2)
# Función de verosimilitud para una distribución normal
log_likelihood <- function(par, data) {
  mu <- par[1]
  sigma <- par[2]
  -sum(dnorm(poblacion_edad, mean = mu, sd = sigma, log = TRUE))
}


# Encontrar estimadores de máxima verosimilitud
inicializacion <- c(mean(poblacion_edad), sd(poblacion_edad))
estimadores_mle <- optim(par = inicializacion, fn = log_likelihood, data  = poblacion_edad)

# Resultados
cat("Estimador MLE para la media:", estimadores_mle$par[1], "\n")

## Estimador MLE para la media: 28.08152

#estimador de maxima verosimilitud para la variable estrato

# Generar una muestra de datos
set.seed(123)
datos <- rnorm(200, mean = 3, sd = 2)
# Función de verosimilitud para una distribución normal
log_likelihood <- function(par, data) {
  mu <- par[1]
  sigma <- par[2]
  -sum(dnorm(poblacion_estrato, mean = mu, sd = sigma, log = TRUE))
}


# Encontrar estimadores de máxima verosimilitud
inicializacion <- c(mean(poblacion_estrato), sd(poblacion_estrato))
estimadores_mle <- optim(par = inicializacion, fn = log_likelihood, data  = poblacion_estrato)

# Resultados
cat("Estimador MLE para la media:", estimadores_mle$par[1], "\n")

## Estimador MLE para la media: 1.127435

Hipotesis nula

La cantidad de personas que tienen una opinión favorable sobre el alcalde no varía significativamente según el estrato social ni el grupo de edad.

hipotesis alternativa

La cantidad de personas que tienen una opinión favorable sobre el alcalde varía significativamente según el estrato social o el grupo de edad.

prueba de normalidad

Usaremos la prueba de Shapiro-Wilk:

set.seed(123)
datos <- rpois(200, lambda = 5)


# Histograma
hist(datos, main = "Histograma de Datos", col = "lightblue", border = "black")

shapiro.test(datos)

## 
##  Shapiro-Wilk normality test
## 
## data:  datos
## W = 0.96123, p-value = 2.692e-05

# Simular datos
set.seed(123)
n <- 200
datos <- data.frame(
  favorabilidad = sample(c("Muy favorable", "Favorable", "Neutra", "Desfavorable", "Muy desfavorable"), n, replace = TRUE),
  edad = sample(c("18-24", "25-34", "35-44", "45-54", "55+"), n, replace = TRUE),
  estrato_social = sample(c("1", "2", "3"), n, replace = TRUE)
)

tabla de frecuencias

tabla <- table(datos$favorabilidad, datos$estrato_social)

# Prueba de Chi-cuadrado
resultado_chi <- chisq.test(tabla)
print(resultado_chi)

## 
##  Pearson's Chi-squared test
## 
## data:  tabla
## X-squared = 4.8203, df = 8, p-value = 0.7766

conclusiones

La media muestral para la variable edad nos da un valor de 27.53 años, con un sesgo de -0.555, lo que indica que la muestra esta ligeramente por debajo la media poblacional.Y la varianza muestral (eficiencia) con una desviación estándar de 0.34 baja en la estimación, lo que mejora la confianza en la representatividad de la muestra.
La media muestral para la variable estrato social nos da un valor de 1.02, con un sesgo de −0.107, lo cual es muy bajo y aceptable para nuestro tema. Y varianza muestral (eficiencia) 0.044, con una desviación estándar de 0.21 lo cual muestra mayor estabilidad en la estimación del estrato social respecto a la edad.

3.Respecto a la inferencia estadistica Para la edad, con un nivel de confianza del 95 %, el intervalo estimado es [27.88,27.92] indica que la media poblacional probablemente se encuentra en este rango, mostrando la precisión del estimador.

4.Estimadores de máxima verosimilitud tanto para la edad y el estrato social coinciden con el valor poblacional simulado, lo que valida el método.

analizando el valor de p concluimos que la favorabilidad varía significativamente según el estrato social.

referencias

-Manual de inferencia estadística. Universidad Pontificia Bolivariana. Medellín, Colombia, 2018.

-Unidad didáctica sobre inferencia estadística. Universidad Nacional de Colombia, Bogotá, 2019.

-Investigación educativa en estadística. Portal SciELO Colombia, 2020.

Trabajo final inferencia

laura maria ardila muñoz;carolina Bata Santa