Estadística para el Análisis Político | Lección 3

Marylia Cruz

Repaso de la sesión anterior : Medidas de tendencia central

Repaso de la sesión anterior : Medidas de dispersión

Repaso de la sesión anterior : Gráficos

Abrimos la base de datos en R Studio

  1. Indicar el directorio de trabajo. En el directorio de trabajo debe estar la base de datos en excel.
setwd("/Volumes/Macintosh HD - Datos/12 PUCP-Docencia/2023/POL278")
  1. Instalar el paquete rio
install.packages("rio")
library(rio)
  1. Importamos la base de datos de excel. Usamos el comando import
data=import("ReporterosSinFronteras.xlsx")

Diagrama de cajas / Boxplot

  • Los diagramas de caja muestran la distribución de datos para una variable numérica y ordinal. 

  • Los diagramas de caja ayudan a ver el centro y la extensión de los datos. También se pueden utilizar como herramienta visual para comprobar normalidad o identificar puntos que podrían ser valores atípicos. 

  • Al utilizar un diagrama de caja, busque los valores extremos de sus datos. Tenga cuidado si el conjunto de datos es reducido. Si tiene variables nominales, utilice mejor un diagrama de barras.

Diagrama de cajas / Boxplot

Diagrama de cajas / Boxplot

Tanto los diagramas de caja como los histogramas muestran la forma de los datos. Ambos pueden usarse para identificar valores atípicos o inusuales. En este ejemplo el histograma es vertical en lugar de horizontal.

Diagrama de cajas / Boxplot

Si los datos tienen grupos, quizá los comprenda mejor creando diagramas de caja paralelos, lo que le aporta una manera sencilla y potente de compararlos.

Cálculo del Diagrama de cajas / Boxplot

  1. Calcular la mediana, el percentil 25 y el percentil 75.

  2. Calcular el rango intercuartílico (IQR) como la diferencia entre el percentil 75 y el 25.

  3. Calcular la longitud máxima de las patillas multiplicando el IQR por 1,5. Identificar los valores atípicos.

  4. Usar las estadísticas calculadas para representar los resultados y trazar un diagrama de caja.

Cálculo del Diagrama de cajas en R

library(ggplot2)
ggplot(data, aes(y = Puntuación )) + 
  geom_boxplot()

Cálculo del Diagrama de cajas por grupos en R

library(ggplot2)
ggplot(data, aes(x=Continente,y = Puntuación)) + 
  geom_boxplot()

Cálculo del Diagrama de cajas por grupos en R

library(ggplot2)
ggplot(data, aes(x=Continente,y = Puntuación,fill=Continente)) + 
  geom_boxplot()

Valores Extremos o Outliers

Son observaciones que se alejan del conjunto der datos. Una regla para determinar si un dato es outliers es:

Si un dato es < Q1 – 1.5(Q3-Q1)

Si un dato es > Q3 + 1.5(Q3-Q1)

Los valores extremos por lo general son atribuibles a una de las siguientes causas: La observación se registra incorrectamente.

La observación proviene de una población distinta. La observación es correcta pero representa un suceso poco común (fortuito).

Valores Extremos o Outliers

Los outliers en R también pueden aparecer debido a un error experimental, de medición o de codificación.

Existen dos tipos de outliers:

  • Los valores extremos.

  • Los errores

Valores Extremos o Outliers

boxplot(data$Evol)
outliers <- boxplot(data$Evol)$out
outliers
[1]  54  49 -57 -47 -68 -53

Crear una base de datos con Outliers

  • Usamos el comando filter para filtrar los datos según el criterio.
library(dplyr)
data_outliers=data %>%                      ## Paso 1: DATA
  filter(Evol==54|Evol==49|Evol==-57|Evol==-47|Evol==-68|Evol==-53)
  • Usamos el comando head para extraer las 6 primeras filas.
head(data_outliers)
            Pais Puntuación      Situación Puesto_2021 Evol Rg_Pol Rg_Leg
1 Timor Oriental    81.8889 Más bien buena          71   54     14     11
2       Moldavia    73.4694 Más bien buena          89   49     45     21
3       Botsuana    58.4866   Problemática          38  -57     86    122
4           Fiyi    56.9058   Problemática          55  -47    128    115
5      Hong Kong    41.6418        Difícil          80  -68    147    151
6         Kuwait    37.8739      Muy grave         105  -53    170    159
  Rg_Eco Rg_Soc Rg_Seg             Continente
1     20     65      5         Asie-Pacifique
2     63     28     44 Europe - Asie centrale
3    116     85     75                Afrique
4    104    107     54         Asie-Pacifique
5    122    125    151         Asie-Pacifique
6    175    176     70 Maghreb - Moyen-Orient

Distribución simétrica

Distribución asimétrica

Distribución asimétrica

Curtosis

Mide la cantidad de datos que se agrupa en torno a la moda.


Histograma

Histograma en R

El comando geom_histogram genera el histograma.

ggplot(data, aes(x=Puntuación)) + geom_histogram()

Histograma con la curva de densidad en R

ggplot(data.frame(data), aes(x = Puntuación)) +
       geom_histogram(aes(y = ..density..),
                      color = "gray", fill = "white") +
       geom_density(fill = "black", alpha = 0.2)

Histograma por grupos en R

ggplot(data, aes(x = Puntuación, fill = Continente , colour = Continente)) + 
  geom_histogram(alpha = 0.5, position = "identity") + 
  theme(legend.position = "left") # Izquierda

Histograma por grupos en R

data %>%
  ggplot(aes(x = Puntuación, group = Continente)) +
  geom_histogram() +
  facet_wrap(~ Continente) +
  labs(x = "Indice de Libertad de Expresión", y = "Número de observaciones")

Ejercicio

  • Realiza histogramas y boxplot de las demás variables de la base de datos.

  • Describe las variables

  • Publica tu reporte html.

Gracias por tu atención