Estadística para el Análisis Político | Lección 5

Marylia Cruz

Repaso de las sesiones anteriores

  • ¿Qué son las medidas de centralidad?

  • ¿Qué son las medidas de dispersión?

  • ¿Por qué es importante medir la dispersión o variación?

  • ¿Cuá es la diferencia entre la varianza y desviación estándar?

  • ¿Cuándo se dice que la mediana es robusta?

Repaso de las sesiones anteriores

  • ¿Qué es una muestra ?

  • ¿Cuándo una muestra es confiable?

  • ¿Qué tipo de muestreos existen?

Motivación: Intervalo de confianza

Motivación: Intervalo de confianza

Notaciones

Ahora veremos inferencia estadística, pero antes revisaremos el lenguaje de notaciones

¿Cuáles son los supuestos para realizar inferencia estadística?

La inferencia estadística utiliza el lenguaje de la probabilidad para indicar la fiabilidad de sus conclusiones. La probabilidad describe lo que ocurre después de muchísimos ensayos. Tenemos que revisar los siguientes conceptos:

  • Ley de los grandes Números

  • Teorema del Límite Central

¿Qué es la Ley de los grandes Números?

La ley de los grandes números es un teorema fundamental de la teoría de la probabilidad que indica que si repetimos muchas veces (tendiendo al infinito) un mismo experimento, la frecuencia de que suceda un cierto evento tiende a ser una constante.

¿Qué es el Teorema del Límite Central?

  • Sin importar la forma de una puntuación bruta de una variable intervalo/razón, su distribución muestral será normal cuando el tamaño de la muestra sea mayor que 121 casos y se centrará en la media de la población verdadera.

  • Para un muestreo aleatorio con un N grande, la distribución de muestreo de la media muestral es aproximadamente una distribución normal.

¿Qué es una distribución normal?

  • La curva normal de define por dos propiedades: La media y la desviación estándar. Si tenemos una muestra de datos cuya distribución presumimos normal ya sabemos que el 68% de las observaciones va estar dentro de ± una desviación estándar de la media y más del 95% se encontrará dentro de dos desviaciones. Por último el 99% de las observaciones de encuentran dentro de tres desviaciones estándares de la media.

  • De la misma manera, es poco probable (5% probable) que una sola muestra no esté a +/- 2 desviaciones estándar del parámetro.

¿Qué es una distribución normal?

¿Cómo puede ser la estimación?

Los razonamientos de la inferencia estadística al igual que la probabilidad tratan sobre las regularidades que aparecen después de muchas repeticiones. La inferencia es más fiable cuando los datos se han obtenido a partir de un diseño aleatorio.

  • Estimación puntual

  • Estimación por intervalos

¿Qué es la estimación puntual?

Estimar un parámetro poblacional mediante un estadístico que predice el valor de dicho parámetro.

  • Para variables categóricas, se puede estimar proporciones o porcentajes poblacionales para las categorías.

  • Para variables numéricas, se puede estimar una media poblacional.

  • Las propiedades deseables son: Insesgadez (igual al parámetro), eficiencia (varianza reducida),suficiencia (utiliza toda la información de la muestra) y consistencia (el parámetro más preciso aún la muestra sea más grande).

¿Qué es la estimación por intervalos?

La estimación por intervalos asigna un intervalo de confianza en que los valores de los parámetros puede tener a partir los estadísticos de la muestra.

¿Qué entendemos por confianza?

Significa que la probabilidad de que en un muestreo repetido, el intervalo contenga el verdadero valor del parámetro.

Nivel de confianza: Grado de confianza calculado que un procedimiento estadístico realizado con muestrales producirá un resultado correcto para la población muestrada.

¿Qué es la estimación por intervalos?

Intervalo de confianza: Rango o intervalo de calores dentreo del cual se cree que estaría el parámetro poblaciona

Margen de error: Mide qué tan preciso es la estimación del parámetro.

Intervalo de confianza de una media

Rango o intervalo de calores dentro del cual se cree que estaría el parámetro poblacional de la media \(\bar{x}\). Donde desviación típica conocida \(σ\) y \(n\) el número de la muestra. Asimismo, \(z\) es el valor crítico que captura la probalidad central de confianza.

El intervalo de confianza para una media sigue la siguiente fórmula \[\bar{x} ± z∗ \frac{σ} { \sqrt[]n} \]

Valor crítico

El valor crítico z∗ es el valor que captura la probabilidad central C por debajo de la curva normal estandarizada entre −z∗ y z∗.

Valor crítico

Para cada valor de C puedes hallar los valores de z∗ en la tabla A. He aquí los resultados para los niveles de confianza más frecuentes:

Fíjate en que para una confianza del 95% utilizamos z=1.96

¿Cómo se calcula el intervalo de confianza de una media?

Si el promedio de nota del curso de lenguaje es de 16 de una muestra de 100 estudiantes. Y la desviación estándar es 3.5, El intervalo de confianza al 95% del nivel de confianza será:

¿Cómo se calcula el intervalo de confianza de una media?

Limite inferior : \[16 - 1.96∗ \frac{3.5} { \sqrt[]100} \]

Limite superior: \[16 + 1.96∗ \frac{3.5} { \sqrt[]100} \]

A un nivel de confianza del 95% el intervalo de confianza de la nota del curso de lenguaje oscila entre 15.3 y 16.6.

¿Qué es el intervalo de confianza de una proporción?

De la manera similar a lo anterior, estimamos el intervalo de confianza de una proporción. Sin embargo, dado que no se tiene la desviación estándar, se reemplaza por la proporción multiplicada por 1 menos la proporción. p*(1-p).

El intervalo de confianza para una proporción sigue la siguiente fórmula \[\bar{p} ± z∗ \sqrt[]\frac{\bar{p}(1-\bar{p})} { n} \]

¿Cómo se calcula el intervalo de confianza de una proporción?

Si el 30% aprueba el actual gobierno, de una muestra de 100 encuestados, entonces, a un nivel de confianza al 90%, ¿Cuál es el intervalo de confianza?

Limite inferior: \[\bar{0.3} - 1.645∗ \sqrt[]\frac{0.3(1-0.3)} {100} \]

Limite superior: \[\bar{0.3} + 1.645∗ \sqrt[]\frac{0.3(1-0.3)} {100} \]

¿Cómo se calcula el intervalo de confianza de una proporción?

La aprobación al actual gobierno de los peruanos y las peruanas a un 90% de nivel de confianza oscila entre 22.5% y 37.5% .

Ahora veamos lo aprendido en R

Indico el directorio de trabajo

Descargamos la base del Latinobarometro. La base de datos está en formato Rdata por tanto no es necesario importar. Hago doble click en la base de datos.

Invalid date string (length=9): 09 034 23

Llamo al objeto data.

Selecciono los datos de Perú. Para ello, utilizo la función filter.

library(dplyr)
dataperu=data%>%filter(IDENPA=="604")

¿Cuál es el intervalo de confianza para quienes consideran muy injusta la distribución de ingresos en el Perú?

Damos formato a la variable de interés con as.factor.

dataperu$ingresos=as.factor(dataperu$P17ST)

Etiqueto los nombres de las categorías de respuesta

dataperu$ingresos=factor(dataperu$ingresos, levels=levels(dataperu$ingresos), labels=c("Muy justo","justo","Injusto","Muy injusto"))
prop.table(table(dataperu$ingresos))

  Muy justo       justo     Injusto Muy injusto 
  0.0229202   0.1146010   0.6256367   0.2368421 

La propoción de quienes consideran muy injusta la distribución de ingresos en el Perú es de 0.2368421

¿Cuál es el intervalo de confianza para quienes consideran muy injusta la distribución de ingresos en el Perú a un 95% de nivel de confianza?

\[\bar{p} ± z∗ \sqrt[]\frac{\bar{p}(1-\bar{p})} { n} \]

Defino los elementos que requiero según la fórmula

p=0.2368421
z=1.96
n=1200

Resolución

Calculo los elementos de la fórmula

p_1=1-p
a=sqrt((p*p_1)/n)
a*z
[1] 0.02405482
Limiteinferior=p-(a*z)
Limitesuperior=p+(a*z)
Limiteinferior
Limitesuperior
[1] 0.2127873
[1] 0.2608969

A un 95% de nivel de confianza, el porcentaje de peruanos o peruanas quienes consideran muy injusta la distribución de ingresos oscila 21.27% y 26.508%.

Otra forma de calcular el intervalo de confianza de una proporción

table(dataperu$ingresos
sum(table(dataperu$ingresos))
x = 279 #almacenamos en "x" la frecuencia de nuestro caso de éxito
n = 1178 #almacenamos en "n" el total de casos
ic_prop = prop.test(x,n,conf.level = 0.95)
ic_prop #llamamos a ic_prop para visualizar los resultados

¿Cuál es el intervalo de confianza de media de la justificación de evadir impuestos un 95% de nivel de confianza?

P22ST. En una escala de 1 a 10, donde 1 es “para nada justificable” y 10 es “totalmente justificable”, ¿cuán justificable cree Ud. que es evadir impuestos?

Calculo el promedio.

mean(dataperu$P22ST,na.rm = T)
[1] 3.598446

Calculo la desviación típica.

sd(dataperu$P22ST,na.rm = T)
[1] 2.969199

¿Cuál es el intervalo de confianza de media de la justificación de evadir impuestos un 95% de nivel de confianza?

Intervalo de confianza para una media

Crear una tabla para el intervalo de confianza

     Media      min      max
1 3.598446 3.427252 3.769639
library(lsr)
tabla=dataperu%>%summarise(Media = mean(P22ST, na.rm=T),
            min = ciMean(P22ST,conf = 0.95, na.rm=T)[1],
            max = ciMean(P22ST,conf = 0.95, na.rm=T)[2]
            )
tabla

Respondamos las siguientes preguntas

  • ¿Cuándo usamos el intervalo de confianza?

  • ¿De qué depende el calculo del intervalo de confianza ?

  • ¿Qué elementos necesitamos para calcula el intervalo de confianza para una media?

  • ¿Qué elementos necesitamos para calcula el intervalo de confianza para una proporción?

  • ¿Qué grafico usamos para mostrar el intervalo de confianza?