Las variables cuantitativas pueden ser descritas en términos de medidas de tendencia central, variabilidad, localización, y forma.
Las medidas de variabilidad son aquellas que miden la dispersión de los datos, es decir, indican qué tan “parecidos” o que tan “diferentes” son entre si los valores observados.
Las medidas de variabilidad son indispensables, dado que una medida de tendencia central por si sola podría ser engañosa cuando los datos son muy variables.
Las medidas de variabilidad más utilizadas son:
El rango o recorrido del conjunto de datos x1,x2,…,xn, denotado con R, se calcula como la diferencia entre el valor máximo y el valor mínimo del conjunto de datos. Es decir: R=xmax donde x_{\min} y x_{\max} son respectivamente el valor mínimo y máximo de las n observaciones.
El rango es una medida de dispersión asociada con la amplitud del conjunto de datos.
Los datos que se presentan a continuación corresponden a los tiempos (en minutos) de ejecución de una tarea determinada de una muestra de empleados de dos empresas.
Empresa 1: 34.5, 30.7, 32.9, 36.0, 34.1, 34.0, 32.3
Empresa 2: 34.0, 27.5, 31.6, 39.7, 35.3, 34.7, 31.7
Calcular e interpretar el rango en cada caso.
El rango de la empresa 1 es R = x_{\max} - x_{\min} = 36.0 - 30.7 = 5.3, mientras que el rango de la empresa 2 es R = x_{\max} - x_{\min} = 39.7 - 27.5 = 12.2. Se observa que el recorrido de los tiempos de la segunda empresa es mayor que el recorrido de los tiempos de la primera en 6.9 minutos.
# datos empresa 1
x_1 <- c(34.5, 30.7, 32.9, 36.0, 34.1, 34.0, 32.3)
# datos empresa 2
x_2 <- c(34.0, 27.5, 31.6, 39.7, 35.3, 34.7, 31.7)
# rango
max(x_1) - min(x_1)
## [1] 5.3
max(x_2) - min(x_2)
## [1] 12.2
# otra manera
diff(range(x_1))
## [1] 5.3
diff(range(x_2))
## [1] 12.2
El rango intercuartílico del conjunto de datos x_1,x_2,\ldots,x_n, denotado con RI, se calcula como la diferencia entre el tercer y primer cuartil del conjunto de datos. Es decir: RI = Q_3 - Q_1 donde Q_1 y Q_3 son respectivamente el primer y tercer cuartil de las n observaciones.
En el rango intercuartílico se concentran el 50% central de las observaciones.
El rango intercuartílico de la empresa 1 es RI = Q_3 - Q_1 = 34.30 - 32.60 = 1.70, mientras que el rango intercuartílico de la empresa 2 es RI = Q_3 - Q_1 = 35.00 - 31.65 = 3.35. Se observa que el recorrido del 50% de los tiempos “intermedios” de la segunda empresa es mayor que el mismo recorrido de los tiempos de la primera en 1.65 minutos. Aunque todavía hay una diferencia clara, no es tan notoria como sí lo es con el rango, lo que sugiere que hay tiempos considerablemente superiores en la primera empresa en comparación con la segunda.
# datos empresa 1
x_1 <- c(34.5, 30.7, 32.9, 36.0, 34.1, 34.0, 32.3)
# datos empresa 2
x_2 <- c(34.0, 27.5, 31.6, 39.7, 35.3, 34.7, 31.7)
# rango intercuartilico
diff(quantile(x = x_1, probs = c(0.25, 0.75)))
## 75%
## 1.7
diff(quantile(x = x_2, probs = c(0.25, 0.75)))
## 75%
## 3.35
Considere un conjunto de datos en el que x_1 = k, \ldots, x_n = k, con k constante, y en consecuencia la distancia entre cada dato y la media es cero, es decir, x_i-\bar{x}=0, para todo i=1,\ldots,n. Esto indica que una forma de medir la variabilidad (para datos medidos como mínimo en una escala de intervalo) de un conjunto de datos se hace a partir de la desviación de la i-ésima observación respecto al promedio, la cuál está dada por: d_i = x_i - \bar{x} donde \bar{x} es el promedio observado del conjunto de datos.
Ejercicio: ¿Por qué \displaystyle\sum_{i=1}^{n}(x_i-\bar{x})=0?
Dado que el resultado de dicha sumatoria siempre es igual a cero, una alternativa para definir una medida de variabilidad respecto al promedio, consiste en elevar al cuadrado cada uno de los sumandos, (x_i-\bar{x})^2. Esto da lugar al concepto de varianza.
El varianza del conjunto de datos x_1,x_2,\ldots,x_n, denotada con s^2, se calcula como:
V(x)=s^2=\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2
donde \bar{x} es el promedio observado del conjunto de datos. Se prefiere utilizar la anterior definición de la varianza cuando el conjunto de datos está conformado por todas las observaciones de la población.
De otra parte, cuando se disponga de los datos de una muestra, por razones técnicas que se estudiarán más adelante, es preferible utilizar la varianza muestral, cuasi-varianza o varianza corregida, la cual se calcula como: V(x)=s^2 = \frac{1}{n-1}\sum_{i=1}^{n} (x_i - \bar{x})^2\,.
Se tienen los siguientes conjuntos de datos:
Conjunto de datos I: 50, 50, 50, 50 , 50
Conjunto de datos II: 45, 50, 55, 47 , 53
Conjunto de datos III: 3, 97, 10, 105, 35
A continuación se presenta el valor del promedio y de la varianza para los tres conjuntos de datos, junto con un diagrama de caja para cada uno.
Conjunto | \bar{x} | s^2 |
---|---|---|
I | 50 | 0.0 |
II | 50 | 17.0 |
III | 50 | 2,317.0 |
¿Para cuál de los tres conjuntos la media resulta ser una buena representación de los datos? ¿Para cuál la peor? ¿Por qué?
# datos
x_1 <- rep(50, 5)
x_2 <- c(45, 50, 55, 47, 53)
x_3 <- c(3, 97, 10, 105, 35)
# promedio
mean(x_1)
## [1] 50
mean(x_2)
## [1] 50
mean(x_3)
## [1] 50
# varianza
var(x_1)
## [1] 0
var(x_2)
## [1] 17
var(x_3)
## [1] 2317
Verifique las propiedades 2 y 4 y con base en éstas demuestre que V(k_1\,x + k_2)=k_1^2\,V(x).
En una compañía de reparación de maquinaria especializada se midió durante un mes el número de días que tarda una unidad que ingresa por motivo de una falla específica. Se observó que en total ingresaron 65 unidades, con un promedio de 5 días y una varianza de 40 días^2. Se estima que el costo de la reparación es de 500 USD básicos, más US 150 USD por día. Calcular la media y la varianza de los costos de reparación de éstas 65 unidades.
En algunas ocasiones, los datos disponibles están disponibles en una tabla de frecuencias de la siguiente forma:
y_j | n_j | h_j |
---|---|---|
y_1 | n_1 | h_1 |
y_2 | n_2 | h_2 |
\vdots | \vdots | \vdots |
y_m | n_m | h_m |
Total | n | 1 |
y_j, j=1,...,m son los valores que toma la variable de estudio (categorías), y n_j y h_j son respectivamente las frecuencias absolutas y relativas de la i-ésima categoría.
Así, se tiene que: M(y)=\bar{y}=\frac{1}{n}\sum_{j=1}^{m}n_j y_j = \sum_{j=1}^m h_jy_j y V(y)=s^2=\frac{1}{n}\sum_{j=1}^{m} n_j (y_j-\bar{y})^2 = \sum_{j=1}^m h_j (y_j-\bar{y})^2 con n=\displaystyle\sum_{j=1}^{m}n_j.
Observe que esta definición corresponde a la definición de la varianza sin corregir dado que en la expresión el denominar es n en lugar de n-1.
La descomposición de la varianza se calcula cuando se tienen grupos (que conforman una partición) dentro de la población o la muestra y se busca determinar si la variabilidad de la variable estudiada se debe más a las diferencias entre los grupos (intervarianza) o dentro de los grupos (intravarianza).
Nota: Dado un conjunto \Omega, se dice que la colección de subconjuntos A_1,A_2,\ldots,A_m conforman una partición de \Omega si:
Ahora, suponga que A_1,A_2,\ldots,A_m conforman una partición de la muestra, y que \bar{x}_1,\bar{x}_2,\ldots,\bar{x}_m y s^2_{1},s^2_{2},\ldots,s^2_{m} son los promedios y las varianzas muestrales de la variable para cada A_1,A_2,\ldots,A_m, respectivamente. Así, se tiene que:
V(x) = \frac{1}{n-1}\sum_{j=1}^{m}(n_j-1)\,s^2_j + \frac{1}{n-1}\sum_{j=1}^{m}n_j(\bar{x}_j-\bar{x})^2 =s^2_w +s^2_b donde \bar{x}=\displaystyle\frac1n\sum_{j=1}^{m} n_j\,\bar{x}_j = \frac1n\sum_{j=1}^m\sum_{i=1}^{n_j} x_{i,j} es la media de la muestra, x_{i,j} es la observación i del grupo j, s^2_w=\displaystyle\frac{1}{n-1}\sum_{j=1}^{m}(n_j-1)\,s^2_j es la intravarianza y S^2_b=\displaystyle\frac{1}{n-1}\sum_{j=1}^{m}n_j(\bar{x}_j-\bar{x})^2 la intervarianza.
¿Cómo se puede calcular el porcentaje de varianza debido a las diferencias entre los grupos? ¿Cómo se interpreta dicho porcentaje?
Debido a que la varianza se encuentra en unidades al cuadrado, buscando una medida más fácil de comprender, se hace necesaria la definición de la desviación estándar.
La desviación estándar o desviación típica del conjunto de datos x_1,x_2,\ldots,x_n, denotada con s, se calcula como: s = \sqrt{s^2} = \sqrt{\frac{1}{n-1}\sum_{i=1}^{n} (x_i - \bar{x})^2}\,.
Se denomina estandarización o tipificación al proceso de restar de una variable la media y luego dividir por la desviación estándar. De este modo, si x_1,x_2,\ldots, x_n es un conjunto de n realizaciones de una variable X, entonces cuando se realiza este proceso se obtiene una nueva variable, denotada con Z, cuyas observaciones está dadas por z_i= \frac{x_i - \bar{x}}{s} para i = 1,2,\ldots,n. La variable Z se denomina variable estandarizada o variable tipificada.
Teniendo en cuenta los datos del Ejemplo 1, estandarizar las observaciones de cada empresa. Comentar los resultados obtenidos.
En este caso se tiene que \bar{x}_1=33.500, \,\, s_{1} = 1.708, \,\, \bar{x}_2=33.500 \,\,\, \text{y} \,\, s_{2}= 3.791 donde \bar{x}_i y s_{i} son respectivamente la media muestral y la desviación estándar muestral de los tiempos (en minutos) de ejecución en cada empresa, con i=1,2.
Los tiempos estandarizados en cada caso son:
Empresa 1: 0.585, -1.639, -0.351, 1.463, 0.351, 0.292, -0.702
Empresa 2: 0.131, -1.582, -0.501, 1.635, 0.474, 0.316, -0.474
Por ejemplo, se observa que el individuo 1 de la primera empresa es definitivamente más lento en su contexto que el individuo 1 de la segunda compañía a pesar de que tienen tiempos muy próximos.
# datos empresa 1
x_1 <- c(34.5, 30.7, 32.9, 36.0, 34.1, 34.0, 32.3)
# datos empresa 2
x_2 <- c(34.0, 27.5, 31.6, 39.7, 35.3, 34.7, 31.7)
# promedio y desviacion estandar empresa 1
m_1 <- mean(x_1)
s_1 <- sd(x_1)
print(m_1)
## [1] 33.5
print(s_1)
## [1] 1.707825
# promedio y desviacion estandar empresa 2
m_2 <- mean(x_2)
s_2 <- sd(x_2)
print(m_2)
## [1] 33.5
print(s_2)
## [1] 3.790778
# datos estandarizados empresa 1
(x_1 - m_1)/s_1
## [1] 0.5855400 -1.6395121 -0.3513240 1.4638501 0.3513240 0.2927700 -0.7026481
# datos estandarizados empresa 2
(x_2 - m_2)/s_2
## [1] 0.1318990 -1.5827884 -0.5012163 1.6355480 0.4748365 0.3165577 -0.4748365
# promedio y varianza datos estandarizados empresa 1
mean((x_1 - m_1)/s_1)
## [1] -3.01354e-16
var((x_1 - m_1)/s_1)
## [1] 1
# promedio y varianza datos estandarizados empresa 2
mean((x_2 - m_2)/s_2)
## [1] 1.030883e-16
var((x_2 - m_2)/s_2)
## [1] 1
Para comparar la dispersión de dos o más conjuntos de datos no es adecuado comparar directamente las varianzas o las desviaciones estándar, pues:
Es necesario, por lo tanto, eliminar tal influencia generada por las unidades de medida. El coeficiente de variación, es una medida que no depende de las unidades de medición.
El coeficiente de variación de Pearson del conjunto de datos x_1,x_2,\ldots,x_n, denotado con CV(x), se calcula como:
CV(x)= \left| \frac{s}{\bar{x}} \right| donde |a| es el valor absoluto de a.
Un inversionista potencial piensa adquirir acciones en una de dos compañías –A o B– listadas en la bolsa de valores. Si ninguna de las compañías ofrece dividendos a sus clientes y ambas tienen igual clasificación en términos de crecimiento potencial –como lo aseguran varios servicios de inversión– el posible inversionista quizás considere la volatilidad (variabilidad) de ambas acciones para tomar una decisión en cuanto a la inversión. En los últimos meses, el precio promedio de las acciones en la compañía A fue de USD 50 con una desviación estándar de USD 10. Además, durante el mismo periodo, el precio promedio de las acciones en la compañía B fue de USD 12 con una desviación estándar de USD 4. ¿Cómo puede determinar el inversionista cuáles acciones son más variables?
Calcular el coeficiente de variación de los datos del Ejemplo 1. Comentar los resultados obtenidos.
La siguiente base de datos contiene la información de un grupo de 31 materiales, en relación con dos variables: peso y temperatura.
# No olviden direccionar a la carpeta en donde se encuentra grabado el archivo
setwd("C:/Users/Juan Camilo/Dropbox/UN/probabilidad_y_estadistica_2021_2/")
# Se deben cargar las librerias necesarias
# El paquete plyr proporciona un conjunto de funciones que son más amigables
# de usar para para resolver el problema split-apply-combine
library(plyr)
# los datos estan en archivo .csv, separado por ";", para leerlos
datos <- read.table("temperatura_peso.csv", header = T, sep = ";")
# nombres de las variables
names(datos)
## [1] "temperatura" "peso"
# tamaño de la muestra
n <- dim(datos)[1]
# varianza del peso
vt <- var(datos$peso)
vt
## [1] 69.36504
# desviacion estandar
sdt <- sqrt(var(datos$peso))
sdt
## [1] 8.328568
# coeficiente de variación
cvt <- sqrt(var(datos$peso))/mean(datos$peso)*100
cvt
## [1] 10.75424
# Rango intercuartílico
ri <- quantile(x = datos$peso, probs = 0.75) - quantile(x = datos$peso, probs = 0.25)
names(ri) <- "RIC"
ri
## RIC
## 9.125
# para ilustrar la forma de calcular la variabilidad intra e inter
# construir una particion de los individuos con base en la temperatura
# grupo 1 : < 45,
# grupo 2 : [45-50)
# grupo 3 : >= 50
datos$grupo <- character(dim(datos)[1])
datos$grupo[datos$temperatura < 45] <- "grupo_1"
datos$grupo[(datos$temperatura >= 45) & (datos$temperatura < 50)]<-"grupo_2"
datos$grupo[datos$temperatura >= 50] <- "grupo_3"
# frecuencias absolutas de cada categoría
nj <- as.matrix(x = table(datos$grupo), nc = 1)
nj
## [,1]
## grupo_1 10
## grupo_2 9
## grupo_3 12
# promedios en cada categoría
ybarj <- ddply(.data = datos, .variables = .(grupo), .fun = summarize, ybar = mean(peso))
ybarj
## grupo ybar
## 1 grupo_1 80.10400
## 2 grupo_2 77.18778
## 3 grupo_3 75.42083
# varianza de cada categoría
s2j <- ddply(.data = datos, .variables = .(grupo), .fun = summarize, s2 = var(peso))
s2j
## grupo s2
## 1 grupo_1 49.04854
## 2 grupo_2 90.62949
## 3 grupo_3 72.18301
# intravarianza
s2w <- 1/(n-1)*sum((nj-1)*s2j$s2)
s2w
## [1] 65.34953
# media total
mt <- mean(datos$peso)
# intervarianza
s2b <- 1/(n-1)*sum(nj*(ybarj$ybar - mt)^2)
s2b
## [1] 4.015509
# varianza total
var(datos$peso)
## [1] 69.36504
s2w + s2b
## [1] 69.36504
# proporción de variabilidad debida a las diferencias entre los grupos
s2b/(s2w+s2b)*100
## [1] 5.788953