Estadística para el Análisis Político | Semana 2

Marylia Cruz

Motivación

https://www.youtube.com/watch?v=qUVZ4HpXiJg

Motivación

https://www.rsf-es.org/clasificacion-2022-tabla-de-paises/

Una variable con diferentes escalas de medición

La variable educación puede ser medida usando diferentes escalas de medición

Nominal: Se clasifica a las personas según (a) tengan educación formal o (b) no tengan educación formal

Ordinal: Se clasifica a las personas según se trata de personas (1) sin educación formal, (2) primaria incompleta, (3) primaria completa, (4) secundaria incompleta, (5) secundaria completa, (6) superior incompleta, o (7) superior completa

Intervalar o numérica: Se le pregunta a la persona cuántos años de educación formal ha completado

Revisión de la tarea

Revisión del cuestionario del Latinobarometro.

https://www.latinobarometro.org/lat.jsp

Pirámide de transformación de variables

Escala de medición (1)

  • La escala de medición de una variable dice mucho sobre el tipo o la naturaleza de información que registra o contiene una variable

  • Para describir de manera adecuada ese tipo o naturaleza de información se requiere seleccionar el o los métodos estadísticos de análisis apropiados para esa información.

Escala de medición (2)

  • El nivel de medición de una variable determina cuál es la técnica más apropiada para describir y analizar una variable

  • Cuanto más preciso sea el nivel de medición, mucha más información estará contenida en su descripción y análisis, y por lo tanto muchas más opciones se tendrá al momento de seleccionar las herramientas de análisis estadístico

Tabla de frecuencias

Es una tabla que muestra la distribución de los datos mediante sus frecuencias (conteo). Se utiliza para variables cualitativas y cuantitativas.

Distribución de una variable

La distribución de una variable nos dice qué categorías o valores contiene esa variable y cómo se distribuyen los sujetos o individuos de una población o muestra a lo largo de esas categorías o valores (cuál es la frecuencia de esa distribución)

Entonces, todas las variables (independientemente de su escala de medición) poseen una distribución

Distribución de una variable categórica nominal Distribución de una variable categórica ordinal Distribución de una variable intervalar

Abrimos la base de datos en R Studio

  1. Indicar el directorio de trabajo. En el directorio de trabajo debe estar la base de datos en excel.
setwd("/Volumes/Macintosh HD - Datos/12 PUCP-Docencia/2023/POL278")
  1. Instalar el paquete rio
install.packages("rio")
library(rio)
  1. Importamos la base de datos de excel. Usamos el comando import
data=import("ReporterosSinFronteras.xlsx")

Comandos básicos en R Studio

  1. Usamos el comando names para solicitar el nombre de las variables
names(data)
 [1] "Pais"        "Puntuación"  "Situación"   "Puesto_2021" "Evol"       
 [6] "Rg_Pol"      "Rg_Leg"      "Rg_Eco"      "Rg_Soc"      "Rg_Seg"     
[11] "Continente" 
  1. Usamos el comando str para solicitar la estrura de las variables
str(data)
'data.frame':   180 obs. of  11 variables:
 $ Pais       : chr  "Noruega" "Dinamarca" "Suecia" "Estonia" ...
 $ Puntuación : num  92.6 90.3 88.8 88.8 88.4 ...
 $ Situación  : chr  "Buena" "Buena" "Buena" "Buena" ...
 $ Puesto_2021: num  1 4 3 15 2 12 9 5 28 23 ...
 $ Evol       : num  0 2 0 11 -3 6 2 -3 19 13 ...
 $ Rg_Pol     : num  1 2 3 5 6 9 4 17 11 20 ...
 $ Rg_Leg     : num  1 4 3 5 9 14 18 6 16 15 ...
 $ Rg_Eco     : num  1 3 2 6 5 8 9 11 13 19 ...
 $ Rg_Soc     : num  2 9 12 13 10 4 3 4 16 14 ...
 $ Rg_Seg     : num  11 7 32 6 10 2 18 3 23 1 ...
 $ Continente : chr  "Europe - Asie centrale" "Europe - Asie centrale" "Europe - Asie centrale" "Europe - Asie centrale" ...

Damos formato a las variables en R Studio

  1. Usamos el comando as.numeric para solicitar dar el formato de variable numérica.
data$Puntuación=as.numeric(data$Puntuación)
  1. Usamos el comando as.factor para solicitar dar el formato de variable factor o categorica.
data$Situación=as.factor(data$Situación)
  1. Usamos el comando class para verificar el formato de variable. Similar a str.
class(data$Situación)
[1] "factor"

Tabla de frencuencia en R Studio

  1. Usamos el comando table para solicitar una tabla de frencuencias. En R es util para las variables categóricas, mas no para las numéricas.
table(data$Situación)

         Buena        Difícil Más bien buena      Muy grave   Problemática 
             8             42             40             28             62 

Estadística Descriptiva

La estadística descriptiva es un conjunto de técnicas numéricas y gráficas para describir y analizar un grupo de datos.

Utilizamos las medidas de tendencia central y de dispersión para informar sobre cómo se comportan los datos.

Se pueden describir bases de datos extraídas a partir de una encuesta o en un registro.

Preguntas claves para describir (1)

Si los individuos son los objetos descritos por un conjunto de datos. Los individuos pueden ser personas, pero también pueden ser animales o cosas.(Filas) Y una variable es cualquier característica de un individuo. Una variable puede tomar distintos valores para distintos individuos.(Columnas)

  1. ¿Quién? ¿Qué individuos describen los datos? ¿Cuántos individuos aparecen en los datos?

Preguntas claves para describir (2)

  1. ¿Qué? ¿Cuántas variables contienen los datos? ¿Cuáles son las definiciones exactas de dichas variables? ¿En qué unidades se ha registrado cada variable? El peso, por ejemplo, se puede expresar en kilogramos, en quintales o en toneladas.

  2. ¿Por qué? ¿Qué propósito se persigue con estos datos? ¿Queremos responder alguna pregunta concreta? ¿Queremos obtener conclusiones so- bre unos individuos de los que no tenemos realmente datos?

Medidas de tendencia central (1)

  • A las medidas de centralidad también se les conoce también como medidas de tendencia central
  1. Las medidas de tendencia central (moda, mediana y media) muestran la medición más típica o representativa de una determinada distribución (Agresti y Finlay 1997)

Un estadístico de tendencia central proporciona una estimación de la puntuación típica, común o normal encontrada en una distribución de puntuaciones en bruto (Ritchey 2008)

Medidas de tendencia central (2)

Por lo general, la descripción de la distribución de una variables incluye una medida de su centro o tendencia central (Nota: Aunque pueda sonar extraño, esto también aplica para las variables categóricas nominales y ordinales)

Las medidas más comunes de esta tendencia central son:

  • Moda

  • Mediana

  • Media o Promedio

Moda

  • La Moda es el valor que ocurre con mayor frecuencia
  • Es particularmente útil con variables categóricas nominales y categóricas ordinales
  • A esta mayor frecuencia de un determinado valor corresponde el significado de centralidad en variables categóricas

Moda en R Studio

Usamos el comando table para solicitar una tabla de frencuencias e identificar el valor más alto.

table(data$Situación)

         Buena        Difícil Más bien buena      Muy grave   Problemática 
             8             42             40             28             62 
table(data$Puntuación) #No tiene sentido generar una tabla de variables numéricas.

 1.3923  2.5026  2.5172  3.6628  3.7778  4.0963  4.4009  4.5183  4.6421  4.6582 
      1       1       1       1       1       1       1       1       1       1 
 4.6786  4.8279  5.0152  5.5758  5.6411  5.8358  5.9124  6.8787  6.8965  6.9248 
      1       1       1       1       1       1       1       1       1       1 
 7.2738  7.6461  7.8528  7.8675  7.8714  8.1837  8.8298 19.6241 23.2227 25.0062 
      1       1       1       1       1       1       1       1       1       1 
26.1104 27.3192 28.5948 28.9354 28.9827 29.1445 30.2275 30.9684 33.7124 34.6064 
      1       1       1       1       1       1       1       1       1       1 
35.7459 35.9886 36.6388 37.0939 37.8739 37.9865 38.2726 38.8209 39.4002 39.6203 
      1       1       1       1       1       1       1       1       1       1 
40.2556 40.9993 41.2462 41.6418 41.8411 42.1277 42.4323 42.5277 43.1621 43.4776 
      1       1       1       1       1       1       1       1       1       1 
43.9616 44.2297 44.4588 44.9416 45.4245 45.5336 45.7411 46.3476 47.0598 47.5723 
      1       1       1       1       1       1       1       1       1       1 
47.5771 47.6555 47.9422 48.2754 48.3946 48.6553 49.0336 49.0957 49.2718 49.8896 
      1       1       1       1       1       1       1       1       1       1 
50.5316 51.5451 54.0909 54.4819 55.3586 55.3978 55.5239 55.7381 56.0003 56.1806 
      1       1       1       1       1       1       1       1       1       1 
56.9058 56.9577 57.1657 57.1685 58.0191 58.1042 58.4866 58.4931 58.6399 58.7939 
      1       1       1       1       1       1       1       1       1       1 
59.1692 59.2972 59.3852 59.5536 59.6242 59.8005 59.8186 60.1556 60.6144 61.0842 
      1       1       1       1       1       1       1       1       1       1 
61.4014 61.5147 61.5496 61.7541 62.6672 62.7713 62.7752 63.0749 64.2456 64.3671 
      1       1       1       1       1       1       1       1       1       1 
64.5463 64.5913 64.6111 65.6354 65.6357 65.9741 66.0688 66.5394 66.6618 67.0049 
      1       1       1       1       1       1       1       1       1       1 
67.4269 67.7968 68.1647 68.4352 68.4592 68.4903 68.5366 68.9543 69.7442 70.4181 
      1       1       1       1       1       1       1       1       1       1 
70.6703 71.0272 71.3937 72.0325 72.1123 73.1226 73.4694 73.7674 74.0784 74.4632 
      1       1       1       1       1       1       1       1       1       1 
75.3693 75.5586 76.4081 76.7116 76.7368 76.9028 77.2769 77.9268 78.3651 78.8601 
      1       1       1       1       1       1       1       1       1       1 
79.1695 79.8121 80.5392 81.7405 81.8889 82.0439 82.6891 82.7221 83.3282 83.3521 
      1       1       1       1       1       1       1       1       1       1 
83.5385 84.0277 84.1424 85.9158 87.0694 88.4171 88.8293 88.8421 90.2671 92.6493 
      1       1       1       1       1       1       1       1       1       1 

Moda en R Studio (2)

  • Otra forma con el paquete dplyr
install.packages("dplyr")
library(dplyr)
  • Usamos el pipe %>% para ordenar los comandos.
data %>%                      ## Paso 1: DATA    count(Situación=Situación, name = "Frecuencia") ## Paso 2: Pido una tabla de frecuencia de la variable continent
       Situación Frecuencia
1          Buena          8
2        Difícil         42
3 Más bien buena         40
4      Muy grave         28
5   Problemática         62

Moda en R Studio (3)

  • Otra forma con el paquete mutate para crear una nueva variable.
data %>%                     
count(Situación=Situación, name = "Frecuencia") %>%  mutate(Porcentaje=Frecuencia/sum(Frecuencia)*100)  
       Situación Frecuencia Porcentaje
1          Buena          8   4.444444
2        Difícil         42  23.333333
3 Más bien buena         40  22.222222
4      Muy grave         28  15.555556
5   Problemática         62  34.444444

Mediana

  • La Mediana es el punto medio de una distribución, es decir el valor que divide a la distribución en dos partes iguales.

  • Por lo tanto, debajo de ese valor se ubica el 50% de los casos y por encima de ese valor se ubica el otro 50% de los casos El cálculo de la Mediana es posible o tiene sentido cuando la variable que se está analizando es por lo menos ordinal.

Cálculo de la Mediana

Para hallar la Mediana de una distribución se necesita:

  1. Ordenar todas las observaciones de la mínima a la máxima (lista ordenada)

  2. Si el número de observaciones es impar, entonces la mediana es la observación central de la lista ordenada.

  3. Para hallar la observación central (por lo tanto, el valor de la mediana), se usa la siguiente fórmula: (n + 1) / 2

  4. Si el número de observaciones es par, la mediana es el promedio (o la media) de las dos observaciones centrales de la lista ordenada.

Cálculo de la Mediana cuando el número es impar

Tengo 11 números.

Cálculo de la Mediana cuando el número es par

Tengo 20 números.

Mediana en R Studio

Usamos el comando median para solicitar la mediana.

median(data$Puntuación,na.rm=T)
[1] 56.5432

Otra forma con el paquete dplyr

install.packages("dplyr")
library(dplyr)
  • Usamos el comando summarize para resumir la información.
data %>%                      ## Paso 1: DATA 
  summarize(Mediana=median(Puntuación))  ## Paso 2: Resumir 
  Mediana
1 56.5432

Media

La media o el promedio es la suma de todas las mediciones (valores) divididas por el número total de mediciones u observaciones

  • Fórmula para el cálculo de la Media (Promedio):

Media en R Studio

Usamos el comando media para solicitar la media

mean(data$Puntuación,na.rm=T)
[1] 50.74272

Otra forma con el paquete dplyr

install.packages("dplyr")
library(dplyr)
  • Usamos el comando summarize para resumir la información.
data %>%                      ## Paso 1: DATA 
  summarize(Promedio=mean(Puntuación))  ## Paso 2: Resumir 
  Promedio
1 50.74272

Media vs. mediana

  • La media es un estadístico sensible a los valores extremos.Basta que algún dato dentro de la muestra sea muy alto o muy bajo, el promedio se verá alterado.

  • La mediana, en cambio, es un estadístico robusto. Aunque los extremos de los datos se vean alterados, la mediana permanece invariable.

Media vs. mediana en R studio

  • Usamos los paquetes dplyr y tidyverse

  • Usamos el pipe %>% para ordenar los comandos.

install.packages("dplyr")
library(dplyr)
  • Usamos el comando summarize para resumir la información.
data %>%                      ## Paso 1: DATA 
  summarize(Promedio=mean(Puntuación),Mediana=median(Puntuación))  ## Paso 2: Resumir 
  Promedio Mediana
1 50.74272 56.5432

Media vs. mediana en R studio en una tabla

  • Usamos el paquete kableExtra

  • Usamos los comandos kable y kable_styling para elaborar una tabla.

data %>%                      ## Paso 1: DATA 
  summarize(Promedio=mean(Puntuación),Mediana=median(Puntuación)) %>%  ## Paso 2: Resumir  
  kable() %>%  # Paso 3: Convierte la tabla en código HTML
  kable_styling()# Paso 4: Se visualiza mejor la tabla.Esto te servirá cuando utilices Rmd dado que este crear un archivo HTML.
Promedio Mediana
50.74272 56.5432

Media vs. mediana en R studio por grupos

  • Usamos el comando group_by para referir los grupos en los que deseamos resumir la información.
data %>%                      ## Paso 1: DATA 
  group_by(Continente) %>%    ## Paso 2: group_by
  summarize(Promedio=mean(Puntuación),Mediana=median(Puntuación)) ## Paso 2:summarize
# A tibble: 5 × 3
  Continente             Promedio Mediana
  <fct>                     <dbl>   <dbl>
1 Afrique                    49.9    56.6
2 Amériques                  53.4    61.2
3 Asie-Pacifique             45.5    43.9
4 Europe - Asie centrale     58.1    66.5
5 Maghreb - Moyen-Orient     37.2    36.0

Gráfico : Histograma

Para variables numéricas

  1. Instalar el paquete ggplot2
install.packages("ggplot2")
library(ggplot2)
  1. El comando aes denomina a las coordenadas ‘x’ y ‘y’.
ggplot(data, aes(x=Puntuación))
  1. El comando geom_histogram genera el histograma.
ggplot(data, aes(x=Puntuación)) + geom_histogram()

Gráfico : Gráfico de Barras

Para variables categóricas

  1. Instalar el paquete ggplot2
install.packages("ggplot2")
library(ggplot2)
  1. El comando aes denomina a las coordenadas ‘x’ y ‘y’.
ggplot(data, aes(x=Puntuación))
  1. El comando geom_bar genera el gráfico de barras.
ggplot(data = data, aes(x = Situación)) +
  geom_bar(fill = 'red')

Más información en: https://www.sharpsightlabs.com/blog/barplot-r-geom_bar/

Resumen de estadísticos de tendencia central

Resumen de estadísticos de tendencia central

Medidas de dispersión

  • La media y la mediana proporcionan dos medidas distintas del centro de una distribución.

  • Sin embargo, caracterizar una distribución solo con una medida de su centro puede ser engañoso.

  • Dos provincias con la misma mediana de ingresos por hogar son muy distintas si una de ellas tiene extremos de pobreza y de riqueza, mientras que la otra tiene poca variación entre familias.

  • Un lote de medicinas con una concentración promedio adecuada en su componente activo puede ser muy peligroso si hay comprimidos con contenidos del componente activo muy elevados y otros con contenidos muy bajos (Moore 2005: 38)

Medidas de dispersión

  • Las medidas de variación describen la “extensión” de una data (Agresti y Finlay 2009).

  • Las medidas de variabilidad o de dispersión muestran el grado en que un conjunto de observaciones son homogéneas o heterogéneas entre si (Toma y Rubio 2012).

  • Los estadísticos de dispersión describen cómo se dispersan las puntuaciones de una variable de intervalo / razón (cuantitativa) a lo largo de una distribución (Ritchey 2008)

  • Pregunta: ¿Existen medidas de dispersión para variables que no sean de intervalo o razón?

Medidas de dispersión

Dos perspectivas:

  1. La dispersión o variación es un atributo de variables intervalara.

  2. Con algunas particularidades, es posible analizar la variación o dispersión de variables nominales, ordinales e intervalares (diferentes medidas de dispersión) (Moore 2005) Una manera de “resolver” estas diferencias es considerar que existen (a) medidas de dispersión o variación (para variables intervalares) y (b) medidas de posición (que pueden ser usadas en variables ordinales para dar cuenta de su dispersión)

Desviación Típica o Estándar y Varianza

  • La Desviación Típica o Estándar mide la dispersión (la distancia) de todas las observaciones respecto a la media o promedio Sin embargo, para calcular la desviación típica o estándar (s) necesitamos calcular primero la Varianza.

  • La Varianza (s2) de un conjunto de observaciones es la suma de los cuadrados de las desviaciones de las observaciones respecto a su media dividido por n – 1

Desviación Típica o Estándar y Varianza

Desviación Típica o Estándar y Varianza

Ejemplo:

Propiedades de la Desviación Típica o Estándar (1)

  • La Desviación Típica o Estándar (s) mide la dispersión con relación a la media y tiene sentido usarla cuando se elige la Media como medida de tendencia central

  • La Desviación Típica o Estándar es igual a cero (s = 0) solo en los casos en los que no hay dispersión Esto ocurre únicamente cuando todas las observaciones toman el mismo valor. En caso contrario, la Desviación Típica o Estándar es mayor a cero (s > 0).

  • A medida que las observaciones se separan más de la media, la Desviación Típica o Estándar (s) se hace más grande

Propiedades de la Desviación Típica o Estándar (2)

  • La Desviación Típica o Estándar (s) tiene las mismas unidades de medida que las observaciones originales

  • Por ejemplo, si el ingreso familiar en Nuevos Soles, la Desviación Típica o Estándar (s) también se expresa en Nuevos Soles. Este es un motivo para preferir la Desviación Típica o Estándar a la Varianza, que se expresaría en Nuevos Soles al cuadrado

Propiedades de la Desviación Típica o Estándar (3)

  • Igual que ocurre con la Media, la Desviación Típica o Estándar (s) no es robusta frente a valores atípicos o extremos.

  • Algunas pocas observaciones atípicas pueden hacer que sea particularmente grande

  • La Desviación Típica o Estándar es particularmente útil para las distribuciones normales (o que se aproximan a una distribución normal)

Desviación Típica y Varianza en R.

Desviación Típica

  • Usamos el comando sd para solicitar la Desviación Típica.
sd(data$Puntuación)
[1] 24.57483
sqrt(var(data$Puntuación))
  • Usamos el comando sqrt para solicitar la raiz cuadrada.
[1] 24.57483

Varianza

  • Usamos el comando var para solicitar la varianza
var(data$Puntuación)
[1] 603.9223

Medidas de Posición

  • Las Medidas de Posición son otra forma de describir la distribución de una variable

  • Las Medidas de Posición describen tanto la tendencia central como la variación de un conjunto de datos

  • La Mediana es un caso especial dentro de un conjunto de Medidas de Posición llamadas Percentiles

Medidas de Posición: Rango

  • Indica cómo las puntuaciones de una variable ordinal o numérica se distribuyen de menor a mayor. Diferencia entre la puntuación máxima y mínima.

Medidas de Posición: Rango en R Studio

  • Usamos el comando max para solicitar el valor máximo.
max(data$Puntuación)
[1] 92.6493
  • Usamos el comando min para solicitar el valor mínimo.
min(data$Puntuación)
[1] 1.3923
  • Usamos el comando range para solicitar el rango
range(data$Puntuación)
[1]  1.3923 92.6493

Medidas de Posición: Percentiles

  • El Percentil “x” es el punto (valor) que indica el “x” porcentaje de observaciones que están por debajo de él .

  • El Percentil 50 es el punto o valor a partir del cual un 50% de las observaciones se encuentran por debajo de él y un 50% de las observaciones se ubican por encima de él

  • Pregunta: ¿Qué nombre tiene el percentil 50?

Medidas de Posición: Deciles, Cuartiles y Quintiles

Dependiendo del porcentaje de casos que se quiere identificar al interior de una distribución se pueden usar:

  • Deciles (10%)

  • Cuartiles (25%)

  • Quintiles (20%)

Medidas de Posición: Cuartiles

El primer cuartil (C1 o Q1) separa el primer 25% de las observaciones

El segundo cuartil (C2 o Q2) es igual a la Mediana; es decir, divide las observaciones en dos mitades

El tercer cuartil (C3 o Q3) separa el primer 75% de las observaciones

Por lo tanto, la distancia entre el C1 o Q1 y el C3 o Q3 contiene el 50% de los datos centrales

Rango entre cuartiles

Medidas de Posición: Cuartiles en R Studio

  • Usamos el comando quantile para solicitar el cuartiles
quantile(data$Puntuación)
      0%      25%      50%      75%     100% 
 1.39230 37.95835 56.54320 68.46697 92.64930 

Medidas de Posición: Rango Intercuartil

Es la diferencia entre el tercer cuartil y el primer cuartil.


Medidas de Posición: Rango Intercuartil en R Studio

IQR(data$Puntuación)
[1] 30.50862

Valores Extremos

  • Son observaciones que se alejan del conjunto der datos. Una regla para determinar si un dato es outliers es:

  • Si un dato es < Q1 – 1.5(Q3-Q1)

  • Si un dato es > Q3 + 1.5(Q3-Q1)

Los valores extremos por lo general son atribuibles a una de las siguientes causas: La observación se registra incorrectamente.

La observación proviene de una población distinta. La observación es correcta pero representa un suceso poco común (fortuito).

Gráfico: Boxplot

ggplot(data, aes(y = Puntuación )) + 
  stat_boxplot(geom = "errorbar", # Error bars
               width = 0.25) +    # Bars width
  geom_boxplot()

Practica lo aprendido