Estadística para el Análisis Político | Lección 4

Marylia Cruz

Repaso de la sesión anterior

  • ¿Qué son las medidas de centralidad?

  • ¿Qué son las medidas de dispersión?

  • ¿Por qué es importante medir la dispersión o variación?

  • ¿Cuá es la diferencia entre la varianza y desviación estándar?

  • ¿Cuándo se dice que la mediana es robusta?

¿Qué estudiamos hasta ahora?

Estadística Descriptiva - Códigos para una variable numérica según una variable categórica

library(dplyr)
tabla=data %>% 
  group_by(Continente) %>%
  summarize(Promedio=mean(Political_culture), Mediana=median(Political_culture), Máximo=max(Political_culture), Mínimo=min(Political_culture), Cuartil1=quantile(Political_culture,probs = c(0.25)), Cuartil2=quantile(Political_culture, probs = c(0.50)), Cuartil3=quantile(Political_culture,probs = c(0.75)), Desviación=sd(Political_culture))
library(knitr)
library(kableExtra)
kable(tabla, digits = 2)
library(ggplot2)
ggplot(data, aes(x=Continente, y = Political_culture, fill = Continente)) +
  geom_boxplot(outlier.colour="red")+labs(title="Cultura Política según continente",x="Continente", y = "Índice de Cultura Política")+ theme_classic()+scale_fill_brewer(palette="Dark2")
library(ggplot2)
p=data %>%
  ggplot(aes(x = Political_culture, group = Continente)) +
  geom_histogram(color="black", fill="#56B4E9") +
  facet_wrap(~ Continente) +
  labs(x = "Indice de la Cultura Política", y = "Número de países")+theme_classic()

p+geom_vline(data=tabla, aes(xintercept=Promedio, color="red"),
             linetype="dashed")

Estadística Descriptiva

Describir los datos

Continente Promedio Mediana Máximo Mínimo Cuartil1 Cuartil2 Cuartil3 Desviación
Asia y Australasia 5.25 5.63 8.75 1.25 3.75 5.63 6.41 2.02
Europa 8.10 8.13 10.00 5.63 6.88 8.13 9.38 1.29
Europa del Este 4.85 4.38 7.50 3.13 3.75 4.38 6.25 1.31
LatinoAmerica 4.21 3.75 8.13 1.25 2.82 3.75 5.31 1.91
Sub-Saharan Africa 5.06 5.00 8.75 1.88 4.38 5.00 5.63 1.38

Estadística Descriptiva - Boxplot

Estadística Descriptiva - Histograma

Estadística Descriptiva - Códigos para una variable categórica según una variable categórica

Estadística Descriptiva - Códigos para una variable categórica según una variable categórica

# A tibble: 18 × 4
# Groups:   Categorías [4]
   Categorías       Continente         Total Porcentaje
   <chr>            <chr>              <int>      <dbl>
 1 Authoritarian    Asia y Australasia     7       11.9
 2 Authoritarian    Europa del Este        8       13.6
 3 Authoritarian    LatinoAmerica          4        6.8
 4 Authoritarian    Sub-Saharan Africa    40       67.8
 5 Flawed democracy Asia y Australasia     9       18.8
 6 Flawed democracy Europa                 6       12.5
 7 Flawed democracy Europa del Este       16       33.3
 8 Flawed democracy LatinoAmerica          9       18.8
 9 Flawed democracy Sub-Saharan Africa     8       16.7
10 Full democracy   Asia y Australasia     5       20.8
11 Full democracy   Europa                14       58.3
12 Full democracy   LatinoAmerica          3       12.5
13 Full democracy   Sub-Saharan Africa     2        8.3
14 Hybrid regime    Asia y Australasia     7       19.4
15 Hybrid regime    Europa                 1        2.8
16 Hybrid regime    Europa del Este        4       11.1
17 Hybrid regime    LatinoAmerica          7       19.4
18 Hybrid regime    Sub-Saharan Africa    17       47.2

Estadística Inferencial

“Inferir” significa extraer una conclusión a partir de hechos particulares a hechos generales.

En la estadística inferencial se estudian técnicas y procedimientos con el objetivo de extender o generalizar la información de una muestra aleatoria a la población.

¿Cuándo utilizamos Estadística Inferencial?

Cuando deseamos generaliza la información de una muestra aleatoria a la población.

Ejemplo:

¿Cuándo utilizamos Estadística Inferencial?

¿Cuándo una muestra es aleatoria?

  • Es el procedimiento de selección de la muestra en el que todos y cada uno de los elementos de la población tiene una cierta probabilidad de resultar elegidos .

  • Cuando se elige al azar los elementos que componen la muestra en la que todos los segmentos de la población están incluidos en sus proporciones correctas respecto a la población.

  • Una muestra no aleatoria es aquella en que la subjetividad del investigador decide la selección de la muestra.

¿Qué tipos de muestreo existen?

Existen dos tipos de muestreo.

  • El muestreo muestreo probabilístico es un método de muestreo (muestreo se refiere al estudio o el análisis de grupos pequeños de una población) que utiliza formas de métodos de selección aleatoria. El requisito más importante del muestreo probabilístico es que todos en una población tengan la misma oportunidad de ser seleccionados.

  • El muestreo muestreo no probabilístico es una técnica de muestreo en la cual el investigador selecciona muestras basadas en un juicio subjetivo en lugar de hacer la selección al azar.

¿Cuáles son los tipos de muestreo probabilistico?

  • Muestreo aleatorio simple: Este método de muestreo es tan fácil como asignar números a los individuos (muestra) y luego elegir aleatoriamente números entre los números a través de un proceso automatizado. Los números que se eligen son los miembros que se incluyen la muestra.

  • Muestreo aleatorio sistemático: Es una técnica de muestreo en la que se selecciona un elemento de la población a intervalos regulares. Se elige un elemento inicial al azar y luego se selecciona un elemento adicional cada cierto número de elementos en la lista de la población.

¿Cuáles son los tipos de muestreo probabilistico?

  • Muestreo aleatorio estratificado: Se divide al marco muestral en estratos. Los estratos son homogéneos por dentro, pero diferentes entre ellos. Se divide a una población grande en grupos por sexo, edad, etnia, etc. y luego utiliza un muestreo aleatorio simple para elegir miembros de los grupos.

  • Muestreo aleatorio por conglomerado: Se seleccionan aleatoriamente varios grupos conformados por elementos heterogéneos de la población, pero que tienen algo común.

¿Cuáles son los tipos de muestreo No probabilistico?

  • Muestreo por conveniencia: La muestra se selecciona solo porque están convenientemente disponibles para el investigador. Estas muestras se seleccionan solo porque son fáciles de reclutar y porque el investigador no consideró seleccionar una muestra que represente a toda la población.

  • Muestreo por cuotas: El investigador está interesado en estratos particulares dentro de la población. Es aquí donde el muestreo por cuotas ayuda a dividir la población en estratos o grupos.

¿Cuáles son los tipos de muestreo No probabilistico?

  • Muestreo intencional o por juicio: Los investigadores eligen solo a aquellos que estos creen que son los adecuados (con respecto a los atributos y la representación de una población) para participar en un estudio de investigación.

  • Muestreo de bola de nieve: Una vez que los investigadores encuentran sujetos adecuados, se les pide a estos ayuda para buscar a sujetos similares y así poder formar una muestra de buen tamaño.

Notaciones

Ahora veremos inferencia estadística, pero antes revisaremos el lenguaje de notaciones

¿Cuáles son los supuestos para realizar inferencia estadística?

La inferencia estadística utiliza el lenguaje de la probabilidad para indicar la fiabilidad de sus conclusiones. La probabilidad describe lo que ocurre después de muchísimos ensayos. Tenemos que revisar los siguientes conceptos:

  • Ley de los grandes Números

  • Teorema del Límite Central

¿Qué es la Ley de los grandes Números?

La ley de los grandes números es un teorema fundamental de la teoría de la probabilidad que indica que si repetimos muchas veces (tendiendo al infinito) un mismo experimento, la frecuencia de que suceda un cierto evento tiende a ser una constante.

¿Qué es el Teorema del Límite Central?

  • Sin importar la forma de una puntuación bruta de una variable intervalo/razón, su distribución muestral será normal cuando el tamaño de la muestra sea mayor que 121 casos y se centrará en la media de la población verdadera.

  • Para un muestreo aleatorio con un N grande, la distribución de muestreo de la media muestral es aproximadamente una distribución normal.

¿Qué es una distribución normal?

  • La curva normal de define por dos propiedades: La media y la desviación estándar. Si tenemos una muestra de datos cuya distribución presumimos normal ya sabemos que el 68% de las observaciones va estar dentro de ± una desviación estándar de la media y más del 95% se encontrará dentro de dos desviaciones. Por último el 99% de las observaciones de encuentran dentro de tres desviaciones estándares de la media.

  • De la misma manera, es poco probable (5% probable) que una sola muestra no esté a +/- 2 desviaciones estándar del parámetro.

¿Qué es una distribución normal?

¿Cómo puede ser la estimación?

Los razonamientos de la inferencia estadística al igual que la probabilidad tratan sobre las regularidades que aparecen después de muchas repeticiones. La inferencia es más fiable cuando los datos se han obtenido a partir de un diseño aleatorio.

  • Estimación puntual

  • Estimación por intervalos

¿Qué es la estimación puntual?

Estimar un parámetro poblacional mediante un estadístico que predice el valor de dicho parámetro.

  • Para variables categóricas, se puede estimar proporciones o porcentajes poblacionales para las categorías.

  • Para variables numéricas, se puede estimar una media poblacional.

  • Las propiedades deseables son: Insesgadez (igual al parámetro), eficiencia (varianza reducida),suficiencia (utiliza toda la información de la muestra) y consistencia (el parámetro más preciso aún la muestra sea más grande).

¿Qué es la estimación por intervalos?

La estimación por intervalos asigna un intervalo de confianza en que los valores de los parámetros puede tener a partir los estadísticos de la muestra.

¿Qué entendemos por confianza?

Significa que la probabilidad de que en un muestreo repetido, el intervalo contenga el verdadero valor del parámetro.

Nivel de confianza: Grado de confianza calculado que un procedimiento estadístico realizado con muestrales producirá un resultado correcto para la población muestrada.

¿Qué es la estimación por intervalos?

Intervalo de confianza: Rango o intervalo de calores dentreo del cual se cree que estaría el parámetro poblaciona

Margen de error: Mide qué tan preciso es la estimación del parámetro.

Intervalo de confianza de una media

Rango o intervalo de calores dentro del cual se cree que estaría el parámetro poblacional de la media \(\bar{x}\). Donde desviación típica conocida \(σ\) y \(n\) el número de la muestra. Asimismo, \(z\) es el valor crítico que captura la probalidad central de confianza.

El intervalo de confianza para una media sigue la siguiente fórmula \[\bar{x} ± z∗ \frac{σ} { \sqrt[]n} \]

Valor crítico

El valor crítico z∗ es el valor que captura la probabilidad central C por debajo de la curva normal estandarizada entre −z∗ y z∗.

Valor crítico

Para cada valor de C puedes hallar los valores de z∗ en la tabla A. He aquí los resultados para los niveles de confianza más frecuentes:

Fíjate en que para una confianza del 95% utilizamos z=1.96

¿Cómo se calcula el intervalo de confianza de una media?

Si el promedio de nota del curso de lenguaje es de 16 de una muestra de 100 estudiantes. Y la desviación estándar es 3.5, El intervalo de confianza al 95% del nivel de confianza será:

¿Cómo se calcula el intervalo de confianza de una media?

Limite inferior : \[16 - 1.96∗ \frac{3.5} { \sqrt[]100} \]

Limite superior: \[16 + 1.96∗ \frac{3.5} { \sqrt[]100} \]

A un nivel de confianza del 95% el intervalo de confianza de la nota del curso de lenguaje oscila entre 15.3 y 16.6.

¿Qué es el intervalo de confianza de una proporción?

De la manera similar a lo anterior, estimamos el intervalo de confianza de una proporción. Sin embargo, dado que no se tiene la desviación estándar, se reemplaza por la proporción multiplicada por 1 menos la proporción. p*(1-p).

El intervalo de confianza para una proporción sigue la siguiente fórmula \[\bar{p} ± z∗ \sqrt[]\frac{\bar{p}(1-\bar{p})} { n} \]

¿Cómo se calcula el intervalo de confianza de una proporción?

Si el 30% aprueba el actual gobierno, de una muestra de 100 encuestados, entonces, a un nivel de confianza al 90%, ¿Cuál es el intervalo de confianza?

Limite inferior: \[\bar{0.3} - 1.645∗ \sqrt[]\frac{0.3(1-0.3)} {100} \]

Limite superior: \[\bar{0.3} + 1.645∗ \sqrt[]\frac{0.3(1-0.3)} {100} \]

¿Cómo se calcula el intervalo de confianza de una proporción?

La aprobación al actual gobierno de los peruanos y las peruanas a un 90% de nivel de confianza oscila entre 22.5% y 37.5% .

Ahora veamos lo aprendido en R

Indico el directorio de trabajo

Descargamos la base del Latinobarometro. La base de datos está en formato Rdata por tanto no es necesario importar. Hago doble click en la base de datos.

load("/Volumes/Macintosh HD - Datos/12 PUCP-Docencia/2023/POL278/Lecture4_files/Latinobarometro_2020_Esp.rdata")

Llamo al objeto data.

data=Latinobarometro_2020_Esp

Selecciono los datos de Perú. Para ello, utilizo la función filter.

library(dplyr)
dataperu=data%>%filter(idenpa=="604")

¿Cuál es el intervalo de confianza para quienes consideran muy injusta la distribución de ingresos en el Perú?

Damos formato a la variable de interés con as.factor.

dataperu$ingresos=as.factor(dataperu$p19st.a)

Etiqueto los nombres de las categorías de respuesta

dataperu$ingresos=factor(dataperu$ingresos, levels=levels(dataperu$ingresos), labels=c("No responde","No sabe","Muy justo","justo","Injusto","Muy injusto"))
prop.table(table(dataperu$ingresos))

No responde     No sabe   Muy justo       justo     Injusto Muy injusto 
0.001666667 0.029166667 0.028333333 0.124166667 0.579166667 0.237500000 

La propoción de quienes consideran muy injusta la distribución de ingresos en el Perú es de 0.2375.

¿Cuál es el intervalo de confianza para quienes consideran muy injusta la distribución de ingresos en el Perú a un 95% de nivel de confianza?

\[\bar{p} ± z∗ \sqrt[]\frac{\bar{p}(1-\bar{p})} { n} \]

Defino los elementos que requiero según la fórmula

p=0.2375
z=1.96
n=1200

Resolución

Calculo los elementos de la fórmula

p_1=1-p
a=sqrt((p*p_1)/n)
a*z
[1] 0.02407782
Limiteinferior=p-(a*z)
Limitesuperior=p+(a*z)
Limiteinferior
Limitesuperior
[1] 0.2134222
[1] 0.2615778

A un 95% de nivel de confianza, el porcentaje de peruanos o peruanas quienes consideran muy injusta la distribución de ingresos oscila 21.34% y 26.15%.

¿Cuál es el intervalo de confianza de media del temor de contagiarse de Covid-19 a un 95% de nivel de confianza?

Calculo el promedio.

mean(dataperu$p77n)
[1] 6.001667

Calculo la desviación típica.

sd(dataperu$p77n)
[1] 3.10398

¿Cuál es el intervalo de confianza de media del temor de contagiarse de Covid-19 a un 95% de nivel de confianza?

library(Rmisc)
intervalomedia=CI(dataperu$p77n,ci=0.95)
intervalomedia
   upper     mean    lower 
6.177465 6.001667 5.825868