“Inferir” significa extraer una conclusión a partir de hechos particulares a hechos generales.
En la estadística inferencial se estudian técnicas y procedimientos con el objetivo de extender o generalizar la información de una muestra aleatoria a la población.
Cuando deseamos generaliza la información de una muestra aleatoria a la población.
Los razonamientos de la inferencia estadística al igual que la probabilidad tratan sobre las regularidades que aparecen después de muchas repeticiones. La inferencia es más fiable cuando los datos se han obtenido a partir de un diseño aleatorio.
Estimación puntual
Estimación por intervalos
Estimar un parámetro poblacional mediante un estadístico que predice el valor de dicho parámetro.
Para variables categóricas, se puede estimar proporciones o porcentajes poblacionales para las categorías.
Para variables numéricas, se puede estimar una media poblacional.
Las propiedades deseables son: Insesgadez (igual al parámetro), eficiencia (varianza reducida),suficiencia (utiliza toda la información de la muestra) y consistencia (el parámetro más preciso aún la muestra sea más grande).
La estimación por intervalos asigna un intervalo de confianza en que los valores de los parámetros puede tener a partir los estadísticos de la muestra.
¿Qué entendemos por confianza?
Significa que la probabilidad de que en un muestreo repetido, el intervalo contenga el verdadero valor del parámetro.
Nivel de confianza: Grado de confianza calculado que un procedimiento estadístico realizado con muestrales producirá un resultado correcto para la población muestrada.
Intervalo de confianza: Rango o intervalo de calores dentreo del cual se cree que estaría el parámetro poblaciona
Margen de error: Mide qué tan preciso es la estimación del parámetro.
Rango o intervalo de calores dentro del cual se cree que estaría el parámetro poblacional de la media \(\bar{x}\). Donde desviación típica conocida \(σ\) y \(n\) el número de la muestra. Asimismo, \(z\) es el valor crítico que captura la probalidad central de confianza.
El intervalo de confianza para una media sigue la siguiente fórmula \[\bar{x} ± z∗ \frac{σ} { \sqrt[]n} \]
El valor crítico z∗ es el valor que captura la probabilidad central C por debajo de la curva normal estandarizada entre −z∗ y z∗.
Para cada valor de C puedes hallar los valores de z∗ en la tabla A. He aquí los resultados para los niveles de confianza más frecuentes:
Fíjate en que para una confianza del 95% utilizamos z=1.96
Si el promedio de nota del curso de lenguaje es de 16 de una muestra de 100 estudiantes. Y la desviación estándar es 3.5, El intervalo de confianza al 95% del nivel de confianza será:
Limite inferior : \[16 - 1.96∗ \frac{3.5} { \sqrt[]100} \]
Limite superior: \[16 + 1.96∗ \frac{3.5} { \sqrt[]100} \]
A un nivel de confianza del 95% el intervalo de confianza de la nota del curso de lenguaje oscila entre 15.3 y 16.6.
De la manera similar a lo anterior, estimamos el intervalo de confianza de una proporción. Sin embargo, dado que no se tiene la desviación estándar, se reemplaza por la proporción multiplicada por 1 menos la proporción. p*(1-p).
El intervalo de confianza para una proporción sigue la siguiente fórmula \[\bar{p} ± z∗ \sqrt[]\frac{\bar{p}(1-\bar{p})} { n} \]
Si el 30% aprueba el actual gobierno, de una muestra de 100 encuestados, entonces, a un nivel de confianza al 90%, ¿Cuál es el intervalo de confianza?
Limite inferior: \[\bar{0.3} - 1.645∗ \sqrt[]\frac{0.3(1-0.3)} {100} \]
Limite superior: \[\bar{0.3} + 1.645∗ \sqrt[]\frac{0.3(1-0.3)} {100} \]
La aprobación al actual gobierno de los peruanos y las peruanas a un 90% de nivel de confianza oscila entre 22.5% y 37.5% .
Usamos la Encuesta Nacional de Percepción de Desigualdades ENADES.
setwd("/Volumes/Macintosh HD - Datos/12 PUCP-Docencia/2024/SOC294")
library(rio)
data=import("OXFAM_IEP_ENADES_2022_final.sav")
Revisa el cuestionario.
Damos formato a la variable de interés con as.factor.
Calculamos la media y la desviación
[1] 2333.942
[1] 1731.041
Ahora coloca los datos en una tabla. Gráfica un boxplot y un histograma
Calculamos el intervalo de confianza de la media
2.5% 97.5%
[1,] 2243.285 2424.599
Coloca los resultados en una tabla
library(dplyr)
ic_grupo = data %>%
summarise(Media = mean(p08, na.rm=T),
LimiteInferior = ciMean(p08, na.rm=T)[1],
LimiteSuperior = ciMean(p08, na.rm=T)[2])
ic_grupo
Media LimiteInferior LimiteSuperior
1 2333.942 2243.285 2424.599
¿Cuál es el intervalo de confianza del promedio del monto minimos que un hogar requiere para vivir p08 según el área de residencia?
Muchos investigadores afirman que existe una brecha entre el monto mínimo que un hogar requiere para vivir p08 según al ámbito de residencia (rural o urbano) area2. ¿Es cierto?
Primero se da formato a la variables area2.
data$area2=as.factor(data$area2)
data$area2=factor(data$area2, levels = levels(data$area2), labels = c("Urbana","Rural"))
library(dplyr)
ic_grupo = data %>%
group_by(area2)%>%summarise(Media = mean(p08, na.rm=T),
LimiteInferior = ciMean(p08, na.rm=T)[1],
LimiteSuperior = ciMean(p08, na.rm=T)[2])
ic_grupo
# A tibble: 2 × 4
area2 Media LimiteInferior LimiteSuperior
<fct> <dbl> <dbl> <dbl>
1 Urbana 2490. 2388. 2591.
2 Rural 1497. 1351. 1643.
library(ggplot2)
ggplot(ic_grupo, aes(x= area2, y =Media)) +
geom_errorbar(aes(ymin=LimiteInferior, ymax=LimiteSuperior), width = 0.2)+
geom_text(aes(label=paste(round(Media, 2))), size=4)+
xlab("Estrato") + ylab("Promedio del nivel de discriminación")+
ylim(1000, 3000) #indicamos los límites del eje y
Calcula el IC de la proproción de quienes considera que ha aumentado ante la siguiente pregunta: En los últimos dos años, ¿cree que la diferencia entre ricos y pobres en el Perú…?
1 2 3 99
917 367 224 22
data$diferencia=as.factor(data$p05)
data$diferencia=factor(data$diferencia, levels=levels(data$diferencia), labels=c("Ha aumentado","Se mantiene igual","Ha disminuido","NS"))
Ha aumentado Se mantiene igual Ha disminuido NS
917 367 224 22
[1] 1530
Reemplazo los valores
# Extraer los resultados
proporcion <- test_result$estimate
lower_ci <- test_result$conf.int[1]
upper_ci <- test_result$conf.int[2]
Creo una pequeña base de datos
# Crear un data frame para ggplot
datita <- data.frame(
Categoria = "Proporción",
Proporción = proporcion,
Lower_CI = lower_ci,
Upper_CI = upper_ci
)
# Graficar
ggplot(datita, aes(x = Categoria, y = Proporción)) +
geom_bar(stat = "identity", fill = "lightblue") +
geom_errorbar(aes(ymin = Lower_CI, ymax = Upper_CI), width = 0.2, color = "darkblue") +
labs(title = "Intervalo de Confianza para Proporción",
y = "Proporción",
x = "") +
theme_minimal()
Calcula y gráfica los intervalos de confianza para cada categoría de respuesta de la pregunta anterior.
Calcula y gráfica el intervalo de confianza :
P10 ¿Qué tan grave es la desigualdas entre personas blancas y no blancas?
P12.4 En una escala del 1 al 10 , que tan de acuerdo con que el país está gobernado solo por Lima, la capital, y no se toma en cuenta a las otras regiones.