Estadística para el Análisis Político | Lección 3

Marylia Cruz

Repaso de la sesión anterior : Medidas de tendencia central

Motivación

Motivación

# Medidas de dispersión

Medidas de dispersión

Medidas de dispersión

  • Las medidas de variación describen la “extensión” de una data (Agresti y Finlay 2009).

  • Las medidas de variabilidad o de dispersión muestran el grado en que un conjunto de observaciones son homogéneas o heterogéneas entre si (Toma y Rubio 2012).

  • Los estadísticos de dispersión describen cómo se dispersan las puntuaciones de una variable de intervalo / razón (cuantitativa) a lo largo de una distribución (Ritchey 2008)

  • Pregunta: ¿Existen medidas de dispersión para variables que no sean de intervalo o razón?

Medidas de dispersión

Dos perspectivas:

  1. La dispersión o variación es un atributo de variables intervalara.

  2. Con algunas particularidades, es posible analizar la variación o dispersión de variables nominales, ordinales e intervalares (diferentes medidas de dispersión) (Moore 2005) Una manera de “resolver” estas diferencias es considerar que existen (a) medidas de dispersión o variación (para variables intervalares) y (b) medidas de posición (que pueden ser usadas en variables ordinales para dar cuenta de su dispersión)

Desviación Típica o Estándar y Varianza

  • La Desviación Típica o Estándar mide la dispersión (la distancia) de todas las observaciones respecto a la media o promedio Sin embargo, para calcular la desviación típica o estándar (s) necesitamos calcular primero la Varianza.

  • La Varianza (s2) de un conjunto de observaciones es la suma de los cuadrados de las desviaciones de las observaciones respecto a su media dividido por n – 1

Desviación Típica o Estándar y Varianza

Desviación Típica o Estándar y Varianza

Ejemplo:

Propiedades de la Desviación Típica o Estándar (1)

  • La Desviación Típica o Estándar (s) mide la dispersión con relación a la media y tiene sentido usarla cuando se elige la Media como medida de tendencia central

  • La Desviación Típica o Estándar es igual a cero (s = 0) solo en los casos en los que no hay dispersión Esto ocurre únicamente cuando todas las observaciones toman el mismo valor. En caso contrario, la Desviación Típica o Estándar es mayor a cero (s > 0).

  • A medida que las observaciones se separan más de la media, la Desviación Típica o Estándar (s) se hace más grande

Propiedades de la Desviación Típica o Estándar (2)

  • La Desviación Típica o Estándar (s) tiene las mismas unidades de medida que las observaciones originales

  • Por ejemplo, si el ingreso familiar en Nuevos Soles, la Desviación Típica o Estándar (s) también se expresa en Nuevos Soles. Este es un motivo para preferir la Desviación Típica o Estándar a la Varianza, que se expresaría en Nuevos Soles al cuadrado

Propiedades de la Desviación Típica o Estándar (3)

  • Igual que ocurre con la Media, la Desviación Típica o Estándar (s) no es robusta frente a valores atípicos o extremos.

  • Algunas pocas observaciones atípicas pueden hacer que sea particularmente grande

  • La Desviación Típica o Estándar es particularmente útil para las distribuciones normales (o que se aproximan a una distribución normal)

Abrimos la base de datos en R Studio

La base de datos que emplearemos es la de Estados Fallidos (https://fragilestatesindex.org/excel/). El objetivo es describir el índicador de estados fallidos de una muestra de 162 países.

  1. Indicar el directorio de trabajo. En el directorio de trabajo debe estar la base de datos en excel.
setwd("/Volumes/Macintosh HD - Datos/12 PUCP-Docencia/2023/POL278")
  1. Instalar el paquete rio
install.packages("rio")
library(rio)

Abrimos la base de datos en R Studio

  1. Importamos la base de datos de excel. Usamos el comando import
data=import("FailedStateIndex2023.xlsx")
  1. Revisar las variables
str(data)

Limpiar la base de datos en R Studio

  1. Averiguar si hay datos perdidos
if (sum(!complete.cases(data)) > 0) {
  print("Hay datos perdidos en el conjunto de datos.")
} else {
  print("No hay datos perdidos en el conjunto de datos.")
}
sum(is.na(data))
sum(is.na(data$Type))
sum(is.na(data$Total))
  1. Eliminar datos perdidos según una variable
data <- data[!is.na(data$Type),]

Desviación Típica y Varianza en R.

Desviación Típica

  • Usamos el comando sd para solicitar la Desviación Típica.
sd(data$Total)
[1] 23.96625
sqrt(var(data$Total))
  • Usamos el comando sqrt para solicitar la raiz cuadrada.
[1] 23.96625

Varianza

  • Usamos el comando var para solicitar la varianza
var(data$Total)
[1] 574.3812

Medidas de Posición

  • Las Medidas de Posición son otra forma de describir la distribución de una variable

  • Las Medidas de Posición describen tanto la tendencia central como la variación de un conjunto de datos

  • La Mediana es un caso especial dentro de un conjunto de Medidas de Posición llamadas Percentiles

Medidas de Posición: Rango

  • Indica cómo las puntuaciones de una variable ordinal o numérica se distribuyen de menor a mayor. Diferencia entre la puntuación máxima y mínima.

Medidas de Posición: Rango en R Studio

  • Usamos el comando max para solicitar el valor máximo.
max(data$Total)
[1] 111.9
  • Usamos el comando min para solicitar el valor mínimo.
min(data$Total)
[1] 14.5
  • Usamos el comando range para solicitar el rango
range(data$Total)
[1]  14.5 111.9

Medidas de Posición: Percentiles

  • El Percentil “x” es el punto (valor) que indica el “x” porcentaje de observaciones que están por debajo de él .

  • El Percentil 50 es el punto o valor a partir del cual un 50% de las observaciones se encuentran por debajo de él y un 50% de las observaciones se ubican por encima de él

  • Pregunta: ¿Qué nombre tiene el percentil 50?

Medidas de Posición: Deciles, Cuartiles y Quintiles

Dependiendo del porcentaje de casos que se quiere identificar al interior de una distribución se pueden usar:

  • Deciles (10%)

  • Cuartiles (25%)

  • Quintiles (20%)

Medidas de Posición: Cuartiles

El primer cuartil (C1 o Q1) separa el primer 25% de las observaciones

El segundo cuartil (C2 o Q2) es igual a la Mediana; es decir, divide las observaciones en dos mitades

El tercer cuartil (C3 o Q3) separa el primer 75% de las observaciones

Por lo tanto, la distancia entre el C1 o Q1 y el C3 o Q3 contiene el 50% de los datos centrales

Rango entre cuartiles

Medidas de Posición: Cuartiles en R Studio

  • Usamos el comando quantile para solicitar el cuartiles
quantile(data$Total)
   0%   25%   50%   75%  100% 
 14.5  49.0  68.2  82.2 111.9 

Medidas de Posición: Rango Intercuartil

Es la diferencia entre el tercer cuartil y el primer cuartil.


Medidas de Posición: Rango Intercuartil en R Studio

IQR(data$Total)
[1] 33.2

Valores Extremos

  • Son observaciones que se alejan del conjunto der datos. Una regla para determinar si un dato es outliers es:

  • Si un dato es < Q1 – 1.5(Q3-Q1)

  • Si un dato es > Q3 + 1.5(Q3-Q1)

Los valores extremos por lo general son atribuibles a una de las siguientes causas: La observación se registra incorrectamente.

La observación proviene de una población distinta. La observación es correcta pero representa un suceso poco común (fortuito).

Diagrama de cajas / Boxplot

  • Los diagramas de caja muestran la distribución de datos para una variable numérica y ordinal.

  • Los diagramas de caja ayudan a ver el centro y la extensión de los datos. También se pueden utilizar como herramienta visual para comprobar normalidad o identificar puntos que podrían ser valores atípicos.

  • Al utilizar un diagrama de caja, busque los valores extremos de sus datos. Tenga cuidado si el conjunto de datos es reducido. Si tiene variables nominales, utilice mejor un diagrama de barras.

Diagrama de cajas / Boxplot

Diagrama de cajas / Boxplot

Tanto los diagramas de caja como los histogramas muestran la forma de los datos. Ambos pueden usarse para identificar valores atípicos o inusuales. En este ejemplo el histograma es vertical en lugar de horizontal.

Diagrama de cajas / Boxplot

Si los datos tienen grupos, quizá los comprenda mejor creando diagramas de caja paralelos, lo que le aporta una manera sencilla y potente de compararlos.

Cálculo del Diagrama de cajas / Boxplot

  1. Calcular la mediana, el percentil 25 y el percentil 75.

  2. Calcular el rango intercuartílico (IQR) como la diferencia entre el percentil 75 y el 25.

  3. Calcular la longitud máxima de las patillas multiplicando el IQR por 1,5. Identificar los valores atípicos.

  4. Usar las estadísticas calculadas para representar los resultados y trazar un diagrama de caja.

Cálculo del Diagrama de cajas en R

library(ggplot2)
ggplot(data, aes(y = Total )) + 
  geom_boxplot()

Cálculo del Diagrama de cajas por grupos en R

library(ggplot2)
ggplot(data, aes(x=Continente,y = Total)) + 
  geom_boxplot()
# A tibble: 6 × 4
  Continente         Promedio Mediana Cuartiles
  <chr>                 <dbl>   <dbl>     <dbl>
1 Asia y Australasia     66.5    72.2      55.8
2 Europa                 31.0    24.6      19.5
3 Europa del Este        59.2    60.4      47.8
4 LatinoAmerica          65.3    69.3      56.2
5 Sub-Saharan Africa     79.4    82.2      67.7
6 <NA>                   68.6    62.9      53.8

Cálculo del Diagrama de cajas por grupos en R

library(ggplot2)
ggplot(data, aes(x=Continente,y = Overallscore,fill=Continente)) + 
  geom_boxplot()

Valores Extremos o Outliers

Son observaciones que se alejan del conjunto der datos. Una regla para determinar si un dato es outliers es:

Si un dato es < Q1 – 1.5(Q3-Q1)

Si un dato es > Q3 + 1.5(Q3-Q1)

Los valores extremos por lo general son atribuibles a una de las siguientes causas: La observación se registra incorrectamente.

La observación proviene de una población distinta. La observación es correcta pero representa un suceso poco común (fortuito).

Valores Extremos o Outliers

Los outliers en R también pueden aparecer debido a un error experimental, de medición o de codificación.

Existen dos tipos de outliers:

  • Los valores extremos.

  • Los errores

Valores Extremos o Outliers

boxplot(data$Evol)
outliers <- boxplot(data$outliers)$out
outliers
numeric(0)

Distribución simétrica

Distribución asimétrica

Distribución asimétrica

Curtosis

Mide la cantidad de datos que se agrupa en torno a la moda.


Histograma

Histograma en R

El comando geom_histogram genera el histograma.

ggplot(data, aes(x=Total)) + geom_histogram()

Histograma con la curva de densidad en R

ggplot(data.frame(data), aes(x = Total)) +
       geom_histogram(aes(y = ..density..),
                      color = "gray", fill = "white") +
       geom_density(fill = "black", alpha = 0.2)

Histograma por grupos en R

ggplot(data, aes(x = Total, fill = Continente , colour = Continente)) + 
  geom_histogram(alpha = 0.5, position = "identity") + 
  theme(legend.position = "left") # Izquierda

Histograma por grupos en R

library(dplyr)
data %>%
  ggplot(aes(x = Total, group = Continente)) +
  geom_histogram() +
  facet_wrap(~ Continente) +
  labs(x = "Indice de Estados Fallidos", y = "Número de observaciones")

Repaso : Medidas de dispersión

Repaso de la sesión anterior : Gráficos

Ejercicio

  • Realiza histogramas y boxplot de las demás variables de la base de datos.

  • Describe las variables

  • Publica tu reporte html.

Gracias por tu atención