Las medidas de variabilidad son aquellas que miden la dispersión de los datos, es decir, indican qué tan “parecidos” o que tan “diferentes” son entre si los valores observados. Estas medidas son indispensables, dado que una medida de tendencia central por si sola podría ser engañosa cuando los datos son muy variables.
Las medidas de variabilidad más utilizadas son:
El rango o recorrido del conjunto de datos \(x_1,x_2,\ldots,x_n\), denotado con \(R\), se calcula como la diferencia entre el valor máximo y el valor mínimo del conjunto de datos. Es decir: \[ R = x_{\max} - x_{\min} \] donde \(x_{\min}\) y \(x_{\max}\) son respectivamente el valor mínimo y máximo de las \(n\) observaciones.
Los datos que se presentan a continuación corresponden a los tiempos (en minutos) de ejecución de una tarea determinada de una muestra de empleados de dos empresas.
Empresa 1: 34.5, 30.7, 32.9, 36.0, 34.1, 34.0, 32.3
Empresa 2: 34.0, 27.5, 31.6, 39.7, 35.3, 34.7, 31.7
Calcular e interpretar el rango en cada caso.
El rango de la empresa 1 es \[ R = x_{\max} - x_{\min} = 36.0 - 30.7 = 5.3, \] mientras que el rango de la empresa 2 es \[ R = x_{\max} - x_{\min} = 39.7 - 27.5 = 12.2. \] Se observa que el recorrido de los tiempos de la segunda empresa es mayor que el recorrido de los tiempos de la primera en 6.9 minutos.
# datos empresa 1
x_1 <- c(34.5, 30.7, 32.9, 36.0, 34.1, 34.0, 32.3)
# datos empresa 2
x_2 <- c(34.0, 27.5, 31.6, 39.7, 35.3, 34.7, 31.7)
# rango
max(x_1) - min(x_1)
## [1] 5.3
max(x_2) - min(x_2)
## [1] 12.2
# otra manera
diff(range(x_1))
## [1] 5.3
diff(range(x_2))
## [1] 12.2
El rango intercuartílico del conjunto de datos \(x_1,x_2,\ldots,x_n\), denotado con \(RI\), se calcula como la diferencia entre el tercer y primer cuartil del conjunto de datos. Es decir: \[ RI = Q_3 - Q_1 \] donde \(Q_1\) y \(Q_3\) son respectivamente el primer y tercer cuartil de las \(n\) observaciones.
El rango intercuartílico de la empresa 1 es \[ RI = Q_3 - Q_1 = 34.30 - 32.60 = 1.70, \] mientras que el rango intercuartílico de la empresa 2 es \[ RI = Q_3 - Q_1 = 35.00 - 31.65 = 3.35. \] Se observa que el recorrido del 50% de los tiempos “intermedios” de la segunda empresa es mayor que el mismo recorrido de los tiempos de la primera en 1.65 minutos. Aunque todavía hay una diferencia clara, no es tan notoria como sí lo es con el rango, lo que sugiere que hay tiempos considerablemente superiores en la primera empresa en comparación con la segunda.
# datos empresa 1
x_1 <- c(34.5, 30.7, 32.9, 36.0, 34.1, 34.0, 32.3)
# datos empresa 2
x_2 <- c(34.0, 27.5, 31.6, 39.7, 35.3, 34.7, 31.7)
# rango intercuartilico
diff(quantile(x = x_1, probs = c(0.25, 0.75)))
## 75%
## 1.7
diff(quantile(x = x_2, probs = c(0.25, 0.75)))
## 75%
## 3.35
Una forma de medir la variabilidad de un conjunto de datos se hace a partir de las desviación de las observaciones respecto al promedio, las cuales están dadas por: \[ d_i = x_i - \bar{x} \] para \(i = 1,\ldots,n\), donde \(\bar{x}\) es el promedio observado del conjunto de datos.
Dado que el resultado de dicha sumatoria siempre es igual a cero, una alternativa para definir una medida de variabilidad respecto al promedio, consiste en elevar al cuadrado cada uno de los sumandos, \((x_i-\bar{x})^2\). Esto da lugar al concepto de varianza.
La varianza muestral, cuasi-varianza o varianza corregida del conjunto de datos \(x_1,x_2,\ldots,x_n\), denotada con \(s^2\), se calcula como: \[ V(x)=s^2 = \frac{1}{n-1}\sum_{i=1}^{n} (x_i - \bar{x})^2 \] donde \(\bar{x}\) es el promedio observado del conjunto de datos.
Se tienen los siguientes conjuntos de datos:
Conjunto de datos I: 50, 50, 50, 50 , 50
Conjunto de datos II: 45, 50, 55, 47 , 53
Conjunto de datos III: 3, 97, 10, 105, 35
A continuación se presenta el valor del promedio y de la varianza para los tres conjuntos de datos, junto con un diagrama de caja para cada uno.
Conjunto | \(\bar{x}\) | \(s^2\) |
---|---|---|
I | 50 | 0.0 |
II | 50 | 17.0 |
III | 50 | 2317.0 |
¿Para cuál de los tres conjuntos la media resulta ser una buena representación de los datos? ¿Para cuál la peor? ¿Por qué?
# datos
x_1 <- rep(50, 5)
x_2 <- c(45, 50, 55, 47, 53)
x_3 <- c(3, 97, 10, 105, 35)
# promedio
mean(x_1)
## [1] 50
mean(x_2)
## [1] 50
mean(x_3)
## [1] 50
# varianza
var(x_1)
## [1] 0
var(x_2)
## [1] 17
var(x_3)
## [1] 2317
En algunas ocasiones, los datos disponibles están disponibles en una tabla de frecuencias:
\(y_j\) | \(n_j\) | \(h_j\) |
---|---|---|
\(y_1\) | \(n_1\) | \(h_1\) |
\(y_2\) | \(n_2\) | \(h_2\) |
\(\vdots\) | \(\vdots\) | \(\vdots\) |
\(y_m\) | \(n_m\) | \(h_m\) |
Total | \(n\) | \(1\) |
donde las \(y_j, j=1,...,m\) son los valores que toma la variable de estudio (categorías), mientras que los \(n_j\) y \(h_j\) son las frecuencias absolutas y relativas de la \(j\)-ésima categoría, respectivamente. Así, se tiene que: \[ M(y)=\bar{y}=\frac{1}{n}\sum_{j=1}^{m}n_j y_j = \sum_{j=1}^m h_jy_j \] y \[ V(y)=s^2=\frac{1}{n-1}\sum_{j=1}^{m} n_j (y_j-\bar{y})^2 \] con \(n=\displaystyle\sum_{j=1}^{m}n_j\).
Debido a que la varianza se encuentra en unidades al cuadrado, buscando una medida más fácil de comprender, se hace necesaria la definición de la desviación estándar.
La desviación estándar o desviación típica del conjunto de datos \(x_1,x_2,\ldots,x_n\), denotada con \(s\), se calcula como: \[ s = \sqrt{s^2} = \sqrt{\frac{1}{n-1}\sum_{i=1}^{n} (x_i - \bar{x})^2}\,. \]
Se denomina estandarización o tipificación al proceso de restar de una variable la media y luego dividir por la desviación estándar. De este modo, si \(x_1,x_2,\ldots, x_n\) es un conjunto de \(n\) realizaciones de una variable \(X\), entonces cuando se realiza este proceso se obtiene una nueva variable, denotada con \(Z\), cuyas observaciones está dadas por \[ z_i= \frac{x_i - \bar{x}}{s} \] para \(i = 1,\ldots,n\).La variable \(Z\) se denomina variable estandarizada o variable tipificada.
Teniendo en cuenta los datos del Ejemplo 1, estandarizar las observaciones de cada empresa. Comentar los resultados obtenidos.
En este caso se tiene que \[ \bar{x}_1=33.500, \,\, s_{1} = 1.708, \,\, \bar{x}_2=33.500 \,\,\, \text{y} \,\, s_{2}= 3.791 \] donde \(\bar{x}_i\) y \(s_{i}\) son respectivamente la media muestral y la desviación estándar muestral de los tiempos (en minutos) de ejecución en cada empresa, con \(i=1,2\).
Los tiempos estandarizados en cada caso son:
Empresa 1: \(0.585\), \(-1.639\), \(-0.351\), \(1.463\), \(0.351\), \(0.292\), \(-0.702\)
Empresa 2: \(0.131\), \(-1.582\), \(-0.501\), \(1.635\), \(0.474\), \(0.316\), \(-0.474\)
Por ejemplo, se observa que el individuo 1 de la primera empresa es definitivamente más lento en su contexto que el individuo 1 de la segunda compañía a pesar de que tienen tiempos muy próximos.
# datos empresa 1
x_1 <- c(34.5, 30.7, 32.9, 36.0, 34.1, 34.0, 32.3)
# datos empresa 2
x_2 <- c(34.0, 27.5, 31.6, 39.7, 35.3, 34.7, 31.7)
# promedio y desviacion estandar empresa 1
m_1 <- mean(x_1)
print(m_1)
## [1] 33.5
s_1 <- sd(x_1)
print(s_1)
## [1] 1.707825
# promedio y desviacion estandar empresa 2
m_2 <- mean(x_2)
print(m_2)
## [1] 33.5
s_2 <- sd(x_2)
print(s_2)
## [1] 3.790778
# datos estandarizados empresa 1
(x_1 - m_1)/s_1
## [1] 0.5855400 -1.6395121 -0.3513240 1.4638501 0.3513240 0.2927700 -0.7026481
# datos estandarizados empresa 2
(x_2 - m_2)/s_2
## [1] 0.1318990 -1.5827884 -0.5012163 1.6355480 0.4748365 0.3165577 -0.4748365
# promedio y varianza datos estandarizados empresa 1
mean((x_1 - m_1)/s_1)
## [1] -3.01354e-16
var((x_1 - m_1)/s_1)
## [1] 1
# promedio y varianza datos estandarizados empresa 2
mean((x_2 - m_2)/s_2)
## [1] 1.030883e-16
var((x_2 - m_2)/s_2)
## [1] 1
Para comparar la dispersión de dos o más conjuntos de datos no es adecuado comparar directamente las varianzas o las desviaciones estándar porque:
Es necesario eliminar tal influencia generada por las unidades de medida. El coeficiente de variación, es una medida que no depende de las unidades de medición.
El coeficiente de variación de Pearson del conjunto de datos \(x_1,x_2,\ldots,x_n\), denotado con \(CV(x)\), se calcula como:
\[ CV(x)= \left| \frac{s}{\bar{x}} \right| \] donde \(|a|\) es el valor absoluto de \(a\).
Un inversionista potencial piensa adquirir acciones en una de dos compañías –A o B– listadas en la bolsa de valores. Si ninguna de las compañías ofrece dividendos a sus clientes y ambas tienen igual clasificación en términos de crecimiento potencial –como lo aseguran varios servicios de inversión– el posible inversionista quizás considere la volatilidad (variabilidad) de ambas acciones para tomar una decisión en cuanto a la inversión. En los últimos meses, el precio promedio de las acciones en la compañía A fue de USD 50 con una desviación estándar de USD 10. Además, durante el mismo periodo, el precio promedio de las acciones en la compañía B fue de USD 12 con una desviación estándar de USD 4. ¿Cómo puede determinar el inversionista cuáles acciones son más variables?
Calcular e interpretar los cuartiles del peso del conjunto de datos asociados con la muestra de materiales.