Los diagramas de caja muestran la distribución de datos para una variable numérica y ordinal.
Los diagramas de caja ayudan a ver el centro y la extensión de los datos. También se pueden utilizar como herramienta visual para comprobar normalidad o identificar puntos que podrían ser valores atípicos.
Al utilizar un diagrama de caja, busque los valores extremos de sus datos. Tenga cuidado si el conjunto de datos es reducido. Si tiene variables nominales, utilice mejor un diagrama de barras.
Tanto los diagramas de caja como los histogramas muestran la forma de los datos. Ambos pueden usarse para identificar valores atípicos o inusuales. En este ejemplo el histograma es vertical en lugar de horizontal.
Si los datos tienen grupos, quizá los comprenda mejor creando diagramas de caja paralelos, lo que le aporta una manera sencilla y potente de compararlos.
Calcular la mediana, el percentil 25 y el percentil 75.
Calcular el rango intercuartílico (IQR) como la diferencia entre el percentil 75 y el 25.
Calcular la longitud máxima de las patillas multiplicando el IQR por 1,5. Identificar los valores atípicos.
Usar las estadísticas calculadas para representar los resultados y trazar un diagrama de caja.
Son observaciones que se alejan del conjunto der datos. Una regla para determinar si un dato es outliers es:
Si un dato es < Q1 – 1.5(Q3-Q1)
Si un dato es > Q3 + 1.5(Q3-Q1)
Los valores extremos por lo general son atribuibles a una de las siguientes causas: La observación se registra incorrectamente.
La observación proviene de una población distinta. La observación es correcta pero representa un suceso poco común (fortuito).
Los outliers en R también pueden aparecer debido a un error experimental, de medición o de codificación.
Existen dos tipos de outliers:
Los valores extremos.
Los errores
[1] 54 49 -57 -47 -68 -53
library(dplyr)
data_outliers=data %>% ## Paso 1: DATA
filter(Evol==54|Evol==49|Evol==-57|Evol==-47|Evol==-68|Evol==-53)
Pais Puntuación Situación Puesto_2021 Evol Rg_Pol Rg_Leg
1 Timor Oriental 81.8889 Más bien buena 71 54 14 11
2 Moldavia 73.4694 Más bien buena 89 49 45 21
3 Botsuana 58.4866 Problemática 38 -57 86 122
4 Fiyi 56.9058 Problemática 55 -47 128 115
5 Hong Kong 41.6418 Difícil 80 -68 147 151
6 Kuwait 37.8739 Muy grave 105 -53 170 159
Rg_Eco Rg_Soc Rg_Seg Continente
1 20 65 5 Asie-Pacifique
2 63 28 44 Europe - Asie centrale
3 116 85 75 Afrique
4 104 107 54 Asie-Pacifique
5 122 125 151 Asie-Pacifique
6 175 176 70 Maghreb - Moyen-Orient
Mide la cantidad de datos que se agrupa en torno a la moda.
El comando geom_histogram genera el histograma.
ggplot(data.frame(data), aes(x = Puntuación)) +
geom_histogram(aes(y = ..density..),
color = "gray", fill = "white") +
geom_density(fill = "black", alpha = 0.2)
ggplot(data, aes(x = Puntuación, fill = Continente , colour = Continente)) +
geom_histogram(alpha = 0.5, position = "identity") +
theme(legend.position = "left") # Izquierda
data %>%
ggplot(aes(x = Puntuación, group = Continente)) +
geom_histogram() +
facet_wrap(~ Continente) +
labs(x = "Indice de Libertad de Expresión", y = "Número de observaciones")
Realiza histogramas y boxplot de las demás variables de la base de datos.
Describe las variables
Publica tu reporte html.
Gracias por tu atención