Processing math: 1%

1 Introducción

2 Rango

El rango o recorrido del conjunto de datos x1,x2,,xn, denotado con R, se calcula como la diferencia entre el valor máximo y el valor mínimo del conjunto de datos. Es decir: R=xmax donde x_{\min} y x_{\max} son respectivamente el valor mínimo y máximo de las n observaciones.

El rango es una medida de dispersión asociada con la amplitud del conjunto de datos.

2.1 Características

  • Está dado en las mismas unidades de la variable de estudio.
  • Es sensible a valores extremos.
  • No da razón de la dispersión de los datos respecto a un valor particular o a una medida de tendencia central.

2.2 Ejemplo 1

Los datos que se presentan a continuación corresponden a los tiempos (en minutos) de ejecución de una tarea determinada de una muestra de empleados de dos empresas.

Empresa 1: 34.5, 30.7, 32.9, 36.0, 34.1, 34.0, 32.3

Empresa 2: 34.0, 27.5, 31.6, 39.7, 35.3, 34.7, 31.7

Calcular e interpretar el rango en cada caso.

El rango de la empresa 1 es R = x_{\max} - x_{\min} = 36.0 - 30.7 = 5.3, mientras que el rango de la empresa 2 es R = x_{\max} - x_{\min} = 39.7 - 27.5 = 12.2. Se observa que el recorrido de los tiempos de la segunda empresa es mayor que el recorrido de los tiempos de la primera en 6.9 minutos.

# datos empresa 1
x_1 <- c(34.5, 30.7, 32.9, 36.0, 34.1, 34.0, 32.3)
# datos empresa 2
x_2 <- c(34.0, 27.5, 31.6, 39.7, 35.3, 34.7, 31.7)
# rango
max(x_1) - min(x_1)
## [1] 5.3
max(x_2) - min(x_2)
## [1] 12.2
# otra manera
diff(range(x_1))
## [1] 5.3
diff(range(x_2))
## [1] 12.2

3 Rango intercuartílico

El rango intercuartílico del conjunto de datos x_1,x_2,\ldots,x_n, denotado con RI, se calcula como la diferencia entre el tercer y primer cuartil del conjunto de datos. Es decir: RI = Q_3 - Q_1 donde Q_1 y Q_3 son respectivamente el primer y tercer cuartil de las n observaciones.

En el rango intercuartílico se concentran el 50% central de las observaciones.

3.1 Características

  • Está dado en las mismas unidades de la variable de estudio.
  • Es una medida robusta (poco influenciable) a valores extremos.
  • No da razón de la dispersión de los datos respecto a un valor particular o a una medida de tendencia central.

3.2 Ejemplo 2

El rango intercuartílico de la empresa 1 es RI = Q_3 - Q_1 = 34.30 - 32.60 = 1.70, mientras que el rango intercuartílico de la empresa 2 es RI = Q_3 - Q_1 = 35.00 - 31.65 = 3.35. Se observa que el recorrido del 50% de los tiempos “intermedios” de la segunda empresa es mayor que el mismo recorrido de los tiempos de la primera en 1.65 minutos. Aunque todavía hay una diferencia clara, no es tan notoria como sí lo es con el rango, lo que sugiere que hay tiempos considerablemente superiores en la primera empresa en comparación con la segunda.

# datos empresa 1
x_1 <- c(34.5, 30.7, 32.9, 36.0, 34.1, 34.0, 32.3)
# datos empresa 2
x_2 <- c(34.0, 27.5, 31.6, 39.7, 35.3, 34.7, 31.7)
# rango intercuartilico
diff(quantile(x = x_1, probs = c(0.25, 0.75)))
## 75% 
## 1.7
diff(quantile(x = x_2, probs = c(0.25, 0.75)))
##  75% 
## 3.35

4 Desviación de un dato respecto al promedio

Considere un conjunto de datos en el que x_1 = k, \ldots, x_n = k, con k constante, y en consecuencia la distancia entre cada dato y la media es cero, es decir, x_i-\bar{x}=0, para todo i=1,\ldots,n. Esto indica que una forma de medir la variabilidad (para datos medidos como mínimo en una escala de intervalo) de un conjunto de datos se hace a partir de la desviación de la i-ésima observación respecto al promedio, la cuál está dada por: d_i = x_i - \bar{x} donde \bar{x} es el promedio observado del conjunto de datos.

4.1 Características

  • Una desviación positiva(negativa) indica que el dato es mayor(menor) que el promedio.
  • Una desviación igual a 0 quiere decir que el dato es exactamente igual al promedio.
  • La suma de todas las desviaciones del conjunto de datos es cero, es decir, \displaystyle\sum_{i=1}^{n} d_i = \sum_{i=1}^{n} (x_i - \bar{x}) = 0.

Ejercicio: ¿Por qué \displaystyle\sum_{i=1}^{n}(x_i-\bar{x})=0?

Dado que el resultado de dicha sumatoria siempre es igual a cero, una alternativa para definir una medida de variabilidad respecto al promedio, consiste en elevar al cuadrado cada uno de los sumandos, (x_i-\bar{x})^2. Esto da lugar al concepto de varianza.

5 La varianza

El varianza del conjunto de datos x_1,x_2,\ldots,x_n, denotada con s^2, se calcula como: V(x)=s^2=\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2
donde \bar{x} es el promedio observado del conjunto de datos. Se prefiere utilizar la anterior definición de la varianza cuando el conjunto de datos está conformado por todas las observaciones de la población.

De otra parte, cuando se disponga de los datos de una muestra, por razones técnicas que se estudiarán más adelante, es preferible utilizar la varianza muestral, cuasi-varianza o varianza corregida, la cual se calcula como: V(x)=s^2 = \frac{1}{n-1}\sum_{i=1}^{n} (x_i - \bar{x})^2\,.

5.1 Características

  • Está dada en las unidades de la variable de estudio al cuadrado.
  • La relación entre la varianza y la dispersión de un conjunto de datos es directa.
  • Es sensible a datos atípicos.

5.2 Propiedades

  • V(x)\geq 0.
  • Si k es una constante, entonces V(k)=0.
  • Si k es una constante, entonces V(k\,x)=k^2\,V(x).
  • Una forma alternativa para calcular la varianza muestral es: s^2 = \frac{1}{n-1}\left(\sum_{i=1}^n x_i^2 - n\,\bar{x}^2\right).
  • Si X y Y son dos variables conmensurables, entonces V(x+y) no es necesariamente igual a V(x) + V(y).

5.3 Ejemplo 3

Se tienen los siguientes conjuntos de datos:

Conjunto de datos I: 50, 50, 50, 50 , 50

Conjunto de datos II: 45, 50, 55, 47 , 53

Conjunto de datos III: 3, 97, 10, 105, 35

A continuación se presenta el valor del promedio y de la varianza para los tres conjuntos de datos, junto con un diagrama de caja para cada uno.

Conjunto \bar{x} s^2
I 50 0.0
II 50 17.0
III 50 2,317.0

¿Para cuál de los tres conjuntos la media resulta ser una buena representación de los datos? ¿Para cuál la peor? ¿Por qué?

# datos
x_1 <- rep(50, 5)
x_2 <- c(45, 50, 55, 47, 53)
x_3 <- c(3, 97, 10, 105, 35)
# promedio
mean(x_1)
## [1] 50
mean(x_2)
## [1] 50
mean(x_3)
## [1] 50
# varianza
var(x_1)
## [1] 0
var(x_2)
## [1] 17
var(x_3)
## [1] 2317

5.4 Ejercicios

  1. Verifique las propiedades 2 y 4 y con base en éstas demuestre que V(k_1\,x + k_2)=k_1^2\,V(x).

  2. En una compañía de reparación de maquinaria especializada se midió durante un mes el número de días que tarda una unidad que ingresa por motivo de una falla específica. Se observó que en total ingresaron 65 unidades, con un promedio de 5 días y una varianza de 40 días^2. Se estima que el costo de la reparación es de 500 USD básicos, más US 150 USD por día. Calcular la media y la varianza de los costos de reparación de éstas 65 unidades.

5.5 Datos agrupados

En algunas ocasiones, los datos disponibles están disponibles en una tabla de frecuencias de la siguiente forma:

y_j n_j h_j
y_1 n_1 h_1
y_2 n_2 h_2
\vdots \vdots \vdots
y_m n_m h_m
Total n 1

y_j, j=1,...,m son los valores que toma la variable de estudio (categorías), y n_j y h_j son respectivamente las frecuencias absolutas y relativas de la i-ésima categoría.

Así, se tiene que: M(y)=\bar{y}=\frac{1}{n}\sum_{j=1}^{m}n_j y_j = \sum_{j=1}^m h_jy_j y V(y)=s^2=\frac{1}{n}\sum_{j=1}^{m} n_j (y_j-\bar{y})^2 = \sum_{j=1}^m h_j (y_j-\bar{y})^2 con n=\displaystyle\sum_{j=1}^{m}n_j.

Observe que esta definición corresponde a la definición de la varianza sin corregir dado que en la expresión el denominar es n en lugar de n-1.

5.6 Descomposición de la varianza

La descomposición de la varianza se calcula cuando se tienen grupos (que conforman una partición) dentro de la población o la muestra y se busca determinar si la variabilidad de la variable estudiada se debe más a las diferencias entre los grupos (intervarianza) o dentro de los grupos (intravarianza).

Nota: Dado un conjunto \Omega, se dice que la colección de subconjuntos A_1,A_2,\ldots,A_m conforman una partición de \Omega si:

  1. \displaystyle\bigcup_{j=1}^{m}A_j=\Omega.
  2. A_i\cap A_j=\phi, para todo i\neq j.

Ahora, suponga que A_1,A_2,\ldots,A_m conforman una partición de la muestra, y que \bar{x}_1,\bar{x}_2,\ldots,\bar{x}_m y s^2_{1},s^2_{2},\ldots,s^2_{m} son los promedios y las varianzas muestrales de la variable para cada A_1,A_2,\ldots,A_m, respectivamente. Así, se tiene que:

V(x) = \frac{1}{n-1}\sum_{j=1}^{m}(n_j-1)\,s^2_j + \frac{1}{n-1}\sum_{j=1}^{m}n_j(\bar{x}_j-\bar{x})^2 =s^2_w +s^2_b donde \bar{x}=\displaystyle\frac1n\sum_{j=1}^{m} n_j\,\bar{x}_j = \frac1n\sum_{j=1}^m\sum_{i=1}^{n_j} x_{i,j} es la media de la muestra, x_{i,j} es la observación i del grupo j, s^2_w=\displaystyle\frac{1}{n-1}\sum_{j=1}^{m}(n_j-1)\,s^2_j es la intravarianza y S^2_b=\displaystyle\frac{1}{n-1}\sum_{j=1}^{m}n_j(\bar{x}_j-\bar{x})^2 la intervarianza.

5.7 Ejercicio

¿Cómo se puede calcular el porcentaje de varianza debido a las diferencias entre los grupos? ¿Cómo se interpreta dicho porcentaje?

6 La desviación estándar

Debido a que la varianza se encuentra en unidades al cuadrado, buscando una medida más fácil de comprender, se hace necesaria la definición de la desviación estándar.

La desviación estándar o desviación típica del conjunto de datos x_1,x_2,\ldots,x_n, denotada con s, se calcula como: s = \sqrt{s^2} = \sqrt{\frac{1}{n-1}\sum_{i=1}^{n} (x_i - \bar{x})^2}\,.

6.1 Estandarización

Se denomina estandarización o tipificación al proceso de restar de una variable la media y luego dividir por la desviación estándar. De este modo, si x_1,x_2,\ldots, x_n es un conjunto de n realizaciones de una variable X, entonces cuando se realiza este proceso se obtiene una nueva variable, denotada con Z, cuyas observaciones está dadas por z_i= \frac{x_i - \bar{x}}{s} para i = 1,2,\ldots,n. La variable Z se denomina variable estandarizada o variable tipificada.

  • La estandarización se utiliza cuando se quieren comparar individuos bajo escenarios diferentes. Por ejemplo, si se quiere comparar el nivel académico de dos estudiantes de diferentes universidades para otorgar una beca de estudios.
  • Una variable estandarizada es una variable adimensional (no tiene unidades de medición).
  • La estandarización permite hacer comparaciones entre magnitudes que en principio no son comparables.
  • Si z_1,z_2,\ldots, z_n son los valores de una variable estandarizada, entonces M(z) = 0 y V(z) = 1.

6.1.1 Ejemplo 4

Teniendo en cuenta los datos del Ejemplo 1, estandarizar las observaciones de cada empresa. Comentar los resultados obtenidos.

En este caso se tiene que \bar{x}_1=33.500, \,\, s_{1} = 1.708, \,\, \bar{x}_2=33.500 \,\,\, \text{y} \,\, s_{2}= 3.791 donde \bar{x}_i y s_{i} son respectivamente la media muestral y la desviación estándar muestral de los tiempos (en minutos) de ejecución en cada empresa, con i=1,2.

Los tiempos estandarizados en cada caso son:

Empresa 1: 0.585, -1.639, -0.351, 1.463, 0.351, 0.292, -0.702

Empresa 2: 0.131, -1.582, -0.501, 1.635, 0.474, 0.316, -0.474

Por ejemplo, se observa que el individuo 1 de la primera empresa es definitivamente más lento en su contexto que el individuo 1 de la segunda compañía a pesar de que tienen tiempos muy próximos.

# datos empresa 1
x_1 <- c(34.5, 30.7, 32.9, 36.0, 34.1, 34.0, 32.3)
# datos empresa 2
x_2 <- c(34.0, 27.5, 31.6, 39.7, 35.3, 34.7, 31.7)
# promedio y desviacion estandar empresa 1
m_1 <- mean(x_1)
s_1 <- sd(x_1)
print(m_1)
## [1] 33.5
print(s_1)
## [1] 1.707825
# promedio y desviacion estandar empresa 2
m_2 <- mean(x_2)
s_2 <- sd(x_2)
print(m_2)
## [1] 33.5
print(s_2)
## [1] 3.790778
# datos estandarizados empresa 1
(x_1 - m_1)/s_1
## [1]  0.5855400 -1.6395121 -0.3513240  1.4638501  0.3513240  0.2927700 -0.7026481
# datos estandarizados empresa 2
(x_2 - m_2)/s_2
## [1]  0.1318990 -1.5827884 -0.5012163  1.6355480  0.4748365  0.3165577 -0.4748365
# promedio y varianza datos estandarizados empresa 1
mean((x_1 - m_1)/s_1)
## [1] -3.01354e-16
var((x_1 - m_1)/s_1)
## [1] 1
# promedio y varianza datos estandarizados empresa 2
mean((x_2 - m_2)/s_2)
## [1] 1.030883e-16
var((x_2 - m_2)/s_2)
## [1] 1

7 Coeficiente de variación de Pearson

Para comparar la dispersión de dos o más conjuntos de datos no es adecuado comparar directamente las varianzas o las desviaciones estándar, pues:

Es necesario, por lo tanto, eliminar tal influencia generada por las unidades de medida. El coeficiente de variación, es una medida que no depende de las unidades de medición.

El coeficiente de variación de Pearson del conjunto de datos x_1,x_2,\ldots,x_n, denotado con CV(x), se calcula como:

CV(x)= \left| \frac{s}{\bar{x}} \right| donde |a| es el valor absoluto de a.

  1. Está entre 0% y 5%, entonces la dispersión del conjunto de datos es mínima.
  2. Está entre 5% y 15%, entonces la dispersión del conjunto de datos es moderada.
  3. Es superior a 15%, entonces la dispersión del conjunto de datos es alta.

7.1 Características

  • Es una medida adimensional.
  • La relación entre el coeficiente de variación y la dispersión de un conjunto de datos es directa.
  • Es sensible a valores atípicos.
  • Es un valor no negativo.
  • Si el promedio es igual a 0, entonces el coeficiente de variación no está definido.

7.1.1 Ejemplo 5

Un inversionista potencial piensa adquirir acciones en una de dos compañías –A o B– listadas en la bolsa de valores. Si ninguna de las compañías ofrece dividendos a sus clientes y ambas tienen igual clasificación en términos de crecimiento potencial –como lo aseguran varios servicios de inversión– el posible inversionista quizás considere la volatilidad (variabilidad) de ambas acciones para tomar una decisión en cuanto a la inversión. En los últimos meses, el precio promedio de las acciones en la compañía A fue de USD 50 con una desviación estándar de USD 10. Además, durante el mismo periodo, el precio promedio de las acciones en la compañía B fue de USD 12 con una desviación estándar de USD 4. ¿Cómo puede determinar el inversionista cuáles acciones son más variables?

  • En términos de la desviación estándar, el precio de las acciones de la compañía A parece más volátil que el de las acciones de la compañía B.
  • Como los precios promedio por acción de las dos compañías son tan diferentes, será conveniente que el inversionista potencial considere la variabilidad del precio con respecto al promedio. Si X denota el “precio (en dólares) de las acciones” en el periodo de tiempo examinado, para la compañía A: CV_{\text{A}} = \left|\frac{10}{50}\right|100\% = 20.0\%\,. Mientras que para la compañía B: CV_{\text{B}} = \left|\frac{4}{12}\right|100\% = 33.3\%\,.
  • Entonces, en relación con la media, el precio de las acciones de la compañía B es mucho más variable que el de las acciones de la compañía A.

7.2 Ejercicio

Calcular el coeficiente de variación de los datos del Ejemplo 1. Comentar los resultados obtenidos.

8 Práctica en R

La siguiente base de datos contiene la información de un grupo de 31 materiales, en relación con dos variables: peso y temperatura.

# No olviden direccionar a la carpeta en donde se encuentra grabado el archivo
setwd("C:/Users/Juan Camilo/Dropbox/UN/probabilidad_y_estadistica_2021_2/")

# Se deben cargar las librerias necesarias
# El paquete plyr proporciona un conjunto de funciones que son más amigables 
# de usar para para resolver el problema split-apply-combine
library(plyr)

# los datos estan en archivo .csv, separado por ";", para leerlos
datos <- read.table("temperatura_peso.csv", header = T, sep = ";")

# nombres de las variables
names(datos)
## [1] "temperatura" "peso"
# tamaño de la muestra
n <- dim(datos)[1]

# varianza del peso 
vt <- var(datos$peso)
vt
## [1] 69.36504
# desviacion estandar
sdt <- sqrt(var(datos$peso))
sdt
## [1] 8.328568
# coeficiente de variación
cvt <- sqrt(var(datos$peso))/mean(datos$peso)*100
cvt
## [1] 10.75424
# Rango intercuartílico
ri <- quantile(x = datos$peso, probs = 0.75) - quantile(x = datos$peso, probs = 0.25)
names(ri) <- "RIC"
ri
##   RIC 
## 9.125
# para ilustrar la forma de calcular la variabilidad intra e inter
# construir una particion de los individuos con base en la temperatura
# grupo 1 : < 45, 
# grupo 2 : [45-50)
# grupo 3 : >= 50
datos$grupo <- character(dim(datos)[1])
datos$grupo[datos$temperatura < 45] <- "grupo_1"
datos$grupo[(datos$temperatura >= 45) & (datos$temperatura < 50)]<-"grupo_2"
datos$grupo[datos$temperatura >= 50] <- "grupo_3"

# frecuencias absolutas de cada categoría
nj <- as.matrix(x = table(datos$grupo), nc = 1)
nj
##         [,1]
## grupo_1   10
## grupo_2    9
## grupo_3   12
# promedios en cada categoría
ybarj <- ddply(.data = datos, .variables = .(grupo), .fun = summarize, ybar = mean(peso))
ybarj
##     grupo     ybar
## 1 grupo_1 80.10400
## 2 grupo_2 77.18778
## 3 grupo_3 75.42083
# varianza de cada categoría
s2j <- ddply(.data = datos, .variables = .(grupo), .fun = summarize, s2 = var(peso))
s2j
##     grupo       s2
## 1 grupo_1 49.04854
## 2 grupo_2 90.62949
## 3 grupo_3 72.18301
# intravarianza
s2w <- 1/(n-1)*sum((nj-1)*s2j$s2)
s2w
## [1] 65.34953
# media total
mt <- mean(datos$peso)

# intervarianza
s2b <- 1/(n-1)*sum(nj*(ybarj$ybar - mt)^2)
s2b
## [1] 4.015509
# varianza total
var(datos$peso)
## [1] 69.36504
s2w + s2b
## [1] 69.36504
# proporción de variabilidad debida a las diferencias entre los grupos
s2b/(s2w+s2b)*100
## [1] 5.788953