# Medidas de dispersión
Las medidas de variación describen la “extensión” de una data (Agresti y Finlay 2009).
Las medidas de variabilidad o de dispersión muestran el grado en que un conjunto de observaciones son homogéneas o heterogéneas entre si (Toma y Rubio 2012).
Los estadísticos de dispersión describen cómo se dispersan las puntuaciones de una variable de intervalo / razón (cuantitativa) a lo largo de una distribución (Ritchey 2008)
Pregunta: ¿Existen medidas de dispersión para variables que no sean de intervalo o razón?
Dos perspectivas:
La dispersión o variación es un atributo de variables intervalara.
Con algunas particularidades, es posible analizar la variación o dispersión de variables nominales, ordinales e intervalares (diferentes medidas de dispersión) (Moore 2005) Una manera de “resolver” estas diferencias es considerar que existen (a) medidas de dispersión o variación (para variables intervalares) y (b) medidas de posición (que pueden ser usadas en variables ordinales para dar cuenta de su dispersión)
La Desviación Típica o Estándar mide la dispersión (la distancia) de todas las observaciones respecto a la media o promedio Sin embargo, para calcular la desviación típica o estándar (s) necesitamos calcular primero la Varianza.
La Varianza (s2) de un conjunto de observaciones es la suma de los cuadrados de las desviaciones de las observaciones respecto a su media dividido por n – 1
Ejemplo:
La Desviación Típica o Estándar (s) mide la dispersión con relación a la media y tiene sentido usarla cuando se elige la Media como medida de tendencia central
La Desviación Típica o Estándar es igual a cero (s = 0) solo en los casos en los que no hay dispersión Esto ocurre únicamente cuando todas las observaciones toman el mismo valor. En caso contrario, la Desviación Típica o Estándar es mayor a cero (s > 0).
A medida que las observaciones se separan más de la media, la Desviación Típica o Estándar (s) se hace más grande
La Desviación Típica o Estándar (s) tiene las mismas unidades de medida que las observaciones originales
Por ejemplo, si el ingreso familiar en Nuevos Soles, la Desviación Típica o Estándar (s) también se expresa en Nuevos Soles. Este es un motivo para preferir la Desviación Típica o Estándar a la Varianza, que se expresaría en Nuevos Soles al cuadrado
Igual que ocurre con la Media, la Desviación Típica o Estándar (s) no es robusta frente a valores atípicos o extremos.
Algunas pocas observaciones atípicas pueden hacer que sea particularmente grande
La Desviación Típica o Estándar es particularmente útil para las distribuciones normales (o que se aproximan a una distribución normal)
La base de datos que emplearemos es la de Estados Fallidos (https://fragilestatesindex.org/excel/). El objetivo es describir el índicador de estados fallidos de una muestra de 162 países.
if (sum(!complete.cases(data)) > 0) {
print("Hay datos perdidos en el conjunto de datos.")
} else {
print("No hay datos perdidos en el conjunto de datos.")
}
Desviación Típica
[1] 23.96625
[1] 23.96625
Varianza
[1] 574.3812
Las Medidas de Posición son otra forma de describir la distribución de una variable
Las Medidas de Posición describen tanto la tendencia central como la variación de un conjunto de datos
La Mediana es un caso especial dentro de un conjunto de Medidas de Posición llamadas Percentiles
[1] 111.9
[1] 14.5
[1] 14.5 111.9
El Percentil “x” es el punto (valor) que indica el “x” porcentaje de observaciones que están por debajo de él .
El Percentil 50 es el punto o valor a partir del cual un 50% de las observaciones se encuentran por debajo de él y un 50% de las observaciones se ubican por encima de él
Pregunta: ¿Qué nombre tiene el percentil 50?
Dependiendo del porcentaje de casos que se quiere identificar al interior de una distribución se pueden usar:
Deciles (10%)
Cuartiles (25%)
Quintiles (20%)
El primer cuartil (C1 o Q1) separa el primer 25% de las observaciones
El segundo cuartil (C2 o Q2) es igual a la Mediana; es decir, divide las observaciones en dos mitades
El tercer cuartil (C3 o Q3) separa el primer 75% de las observaciones
Por lo tanto, la distancia entre el C1 o Q1 y el C3 o Q3 contiene el 50% de los datos centrales
Rango entre cuartiles
0% 25% 50% 75% 100%
14.5 49.0 68.2 82.2 111.9
Es la diferencia entre el tercer cuartil y el primer cuartil.
[1] 33.2
Son observaciones que se alejan del conjunto der datos. Una regla para determinar si un dato es outliers es:
Si un dato es < Q1 – 1.5(Q3-Q1)
Si un dato es > Q3 + 1.5(Q3-Q1)
Los valores extremos por lo general son atribuibles a una de las siguientes causas: La observación se registra incorrectamente.
La observación proviene de una población distinta. La observación es correcta pero representa un suceso poco común (fortuito).
Los diagramas de caja muestran la distribución de datos para una variable numérica y ordinal.
Los diagramas de caja ayudan a ver el centro y la extensión de los datos. También se pueden utilizar como herramienta visual para comprobar normalidad o identificar puntos que podrían ser valores atípicos.
Al utilizar un diagrama de caja, busque los valores extremos de sus datos. Tenga cuidado si el conjunto de datos es reducido. Si tiene variables nominales, utilice mejor un diagrama de barras.
Tanto los diagramas de caja como los histogramas muestran la forma de los datos. Ambos pueden usarse para identificar valores atípicos o inusuales. En este ejemplo el histograma es vertical en lugar de horizontal.
Si los datos tienen grupos, quizá los comprenda mejor creando diagramas de caja paralelos, lo que le aporta una manera sencilla y potente de compararlos.
Calcular la mediana, el percentil 25 y el percentil 75.
Calcular el rango intercuartílico (IQR) como la diferencia entre el percentil 75 y el 25.
Calcular la longitud máxima de las patillas multiplicando el IQR por 1,5. Identificar los valores atípicos.
Usar las estadísticas calculadas para representar los resultados y trazar un diagrama de caja.
# A tibble: 6 × 4
Continente Promedio Mediana Cuartiles
<chr> <dbl> <dbl> <dbl>
1 Asia y Australasia 66.5 72.2 55.8
2 Europa 31.0 24.6 19.5
3 Europa del Este 59.2 60.4 47.8
4 LatinoAmerica 65.3 69.3 56.2
5 Sub-Saharan Africa 79.4 82.2 67.7
6 <NA> 68.6 62.9 53.8
Son observaciones que se alejan del conjunto der datos. Una regla para determinar si un dato es outliers es:
Si un dato es < Q1 – 1.5(Q3-Q1)
Si un dato es > Q3 + 1.5(Q3-Q1)
Los valores extremos por lo general son atribuibles a una de las siguientes causas: La observación se registra incorrectamente.
La observación proviene de una población distinta. La observación es correcta pero representa un suceso poco común (fortuito).
Los outliers en R también pueden aparecer debido a un error experimental, de medición o de codificación.
Existen dos tipos de outliers:
Los valores extremos.
Los errores
numeric(0)
Mide la cantidad de datos que se agrupa en torno a la moda.
El comando geom_histogram genera el histograma.
ggplot(data.frame(data), aes(x = Total)) +
geom_histogram(aes(y = ..density..),
color = "gray", fill = "white") +
geom_density(fill = "black", alpha = 0.2)
ggplot(data, aes(x = Total, fill = Continente , colour = Continente)) +
geom_histogram(alpha = 0.5, position = "identity") +
theme(legend.position = "left") # Izquierda
library(dplyr)
data %>%
ggplot(aes(x = Total, group = Continente)) +
geom_histogram() +
facet_wrap(~ Continente) +
labs(x = "Indice de Estados Fallidos", y = "Número de observaciones")
Realiza histogramas y boxplot de las demás variables de la base de datos.
Describe las variables
Publica tu reporte html.
Gracias por tu atención