1 Introducción

  • Tal como lo hemos dicho, las variables cuantitativas pueden ser descritas en términos de medidas de tendencia central, variabilidad, localización y forma.

  • Las medidas de variabilidad son aquellas que miden la dispersión de los datos, es decir, nos dicen qué tan parecidos o que tan diferentes son entre si los valores observados.

  • Las medidas de variabilidad se hacen necesarias, pues una medida de tendencia central sola podría engañarnos fácilmente en el caso en el que los datos sean muy variables.

  • Las medidas de variabilidad más utilizadas son:

    • Rango.
    • Rango intercuartílico.
    • Varianza.
    • Desviación estándar (desviación típica).
    • Coeficiente de variación.

2 Objetivos

  • Apropiarse del concepto de variabilidad.
  • Distinguir las diferentes medidas de variabilidad, reconociendo cual es más apropiada según sea el caso.

  • Analizar y aplicar las diferentes propiedades de la varianza.

3 Competencias

En este módulo el estudiante distinguirá a qué tipos de variables es posible calcular medidas de variabilidad, cuáles son las existentes, cómo interpretarlas y cuáles son sus propiedades.

4 Rango

El rango del conjunto de datos \(x_1,x_2,\ldots,x_n\), denotado con \(R\), se calcula como la diferencia entre el valor máximo y el valor mínimo del conjunto de datos. Es decir: \[ R = x_{\max} - x_{\min} \] donde \(x_{\min}\) y \(x_{\max}\) son respectivamente el valor mínimo y máximo de las \(n\) observaciones.

El rango es una medida de dispersión asociada con la amplitud del conjunto de datos.

4.1 Características

  • Está dado en las mismas unidades de la variable de estudio.
  • Es sensible a valores extremos.
  • No da razón de la dispersión de los datos respecto a un valor particular o a una medida de tendencia central.

4.2 Ejemplo 1

Considere los datos que se presentan a continuación asociados con los salarios anuales (en millones de pesos) de una muestra de enfermeros recién egresados, que trabajan en dos hospitales.

  • Hospital 1: 34.5, 30.7, 32.9, 36.0, 34.1, 34.0, 32.3

  • Hospital 2: 34.0, 27.5, 31.6, 39.7, 35.3, 34.7, 31.7

Calcular e interpretar el rango para cada Hospital.

El rango del Hospital 1 es \[ R = x_{\max} - x_{\min} = 36.0 - 30.7 = 5.3, \] mientras que el rango del Hospital 2 es \[ R = x_{\max} - x_{\min} = 39.7 - 27.5 = 12.2. \] Se observa que el recorrido de los salarios del segundo Hospital es mayor en comparación con el primero.

# datos hospital 1
x_1 <- c(34.5, 30.7, 32.9, 36.0, 34.1, 34.0, 32.3)
# datos hospital 2
x_2 <- c(34.0, 27.5, 31.6, 39.7, 35.3, 34.7, 31.7)
# rango
max(x_1) - min(x_1)
## [1] 5.3
max(x_2) - min(x_2)
## [1] 12.2
# otra manera
diff(range(x_1))
## [1] 5.3
diff(range(x_2))
## [1] 12.2

5 Rango intercuartílico

El rango intercuartílico del conjunto de datos \(x_1,x_2,\ldots,x_n\), denotado con \(RI\), se calcula como la diferencia entre el tercer y primer cuartil del conjunto de datos. Es decir: \[ RI = Q_3 - Q_1=P_{75}-P_{25} \] donde \(Q_1\) y \(Q_3\) son respectivamente el primer y tercer cuartil de las \(n\) observaciones. En el rango intercuartílico se concentran el 50% central de las observaciones.

5.1 Características

  • Está dado en las mismas unidades de la variable de estudio.
  • Es una medida robusta (poco influenciable) frente a valores extremos.
  • No da razón de la dispersión de los datos respecto a un valor particular o a una medida de tendencia central.

5.2 Ejemplo 2

Teniendo en cuenta los datos del Ejemplo 1, calcular e interpretar el rango intercuartílico para cada hospital.

El rango intercuartílico del hospital 1 es: \[ RI = q_3 - q_1 = 34.30 - 32.60 = 1.70, \] mientras que el rango intercuartílico del hospital 2 es: \[ RI = q_3 - q_1 = 35.00 - 31.65 = 3.35. \]

Se observa que el recorrido del 50% de los salarios intermedios de la segunda empresa es mayor que el mismo recorrido de los salarios de la primera en 1.65 millones de pesos.

# datos hospital 1
x_1 <- c(34.5, 30.7, 32.9, 36.0, 34.1, 34.0, 32.3)
# datos hospital 2
x_2 <- c(34.0, 27.5, 31.6, 39.7, 35.3, 34.7, 31.7)
# rango intercuartilico
diff(quantile(x = x_1, probs = c(0.25, 0.75)))
## 75% 
## 1.7
diff(quantile(x = x_2, probs = c(0.25, 0.75)))
##  75% 
## 3.35

6 Desviación de un dato respecto al promedio

Pensemos en principio un conjunto de datos, en los cuales para todos los \(n\) individuos se tiene la misma medición, \(x_i=k\),con \(i=1,2,...,n\). En este caso, \(M(x)=\bar{x}=k\) y por lo tanto la distancia entre cada dato y la media es cero, \(x_i-\bar{x}=0\). Esto nos indica que una forma de medir la variabilidad (para datos medidos como mínimo en escala de intervalo) de un conjunto de datos es a partir de la desviación de la \(i\)-ésima observación respecto al promedio, la cual está dada por: \[ d_i = x_i - \bar{x} \] donde \(\bar{x}\) es el promedio observado del conjunto de datos.

6.1 Características

  • Una desviación positiva (negativa) indica que el dato es mayor (menor) que el promedio.
  • Una desviación igual a 0 quiere decir que el dato es exactamente igual al promedio.
  • La suma de todas las desviaciones del conjunto de datos es cero, es decir, \(\sum_{i=1}^{n} d_i = \sum_{i=1}^{n} (x_i - \bar{x}) = 0\).

Dado que el resultado de dicha suma es siempre cero, se decidió elevar al cuadrado cada uno de los sumandos, \((x_i-\bar{x})^2\), llegando así a lo que llamamos varianza.

Ejercicio: Analice por qué \(\sum_{i=1}^{n}(x_i-\bar{x})=0\)

7 La varianza

La varianza es una medida de las diferencias entre cada punto y la media, de tal forma que si pensamos en los datos como una nube de puntos, la varianza nos daría un indicio del tamaño de esa nube de puntos. Si la varianza es un valor “pequeño”, entonces los datos están poco dispersos (homogéneos) respecto al promedio; en tanto que, si la varianza es un valor “grande”, sucede lo contrario. Cuanto más pequeño es el valor de la varianza, la media es una cantidad más “representativa” del conjunto de datos.

Se define como:

\[s^2=\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2\]
La anterior se prefiere utilizar cuando contamos con los datos de toda la población de estudio, en caso de que contemos con los datos de una muestra, por propiedades que veremos más adelante, es preferible utilizar varianza muestral, cuasi-varianza o varianza corregida:

\[ V(X)=s^2_n = \frac{1}{n-1}\sum_{i=1}^{n} (x_i - \bar{x})^2 \] donde \(\bar{x}\) es el promedio observado del conjunto de datos.

7.1 Características

  • Está dada en las unidades de la variable de estudio al cuadrado.
  • La relación entre la varianza y la dispersión de un conjunto de datos es directa.
  • Es sensible a datos atípicos.

7.2 Propiedades

  • \(V(x)\geq 0\).
  • Si \(k\) es una constante, \(V(k)=0\).
  • Si \(k\) es una constante, \(V(k+x)=V(x)\).
  • Si \(k\) es una constante, \(V(k\,x)=k^2\,V(x)\).
  • Una forma alternativa para calcular la varianza muestral es: \[ s_n^2 = \frac{1}{n-1}\left(\sum_{i=1}^n x_i^2 - n\,\bar{x}^2\right). \]
  • Si \(X\) y \(Y\) son dos variables conmensurables, entonces \(V(x+y)\) no es necesariamente igual a \(V(x) + V(y)\).

7.3 Ejemplo 3

Se tienen los siguientes conjuntos de datos:

  • Conjunto de datos I: 50, 50, 50, 50 , 50

  • Conjunto de datos II: 45, 50, 55, 47 , 53

  • Conjunto de datos III: 3, 97, 10, 105, 35

A continuación, se presenta el valor del promedio y de la varianza para los tres conjuntos de datos, junto con un diagrama de caja para cada uno.

Conjunto \(\bar{x}\) \(s_n^2\)
I 50 0.0
II 50 17.0
III 50 2,317.0

¿Para cuál de los tres conjuntos la media resulta ser una buena representación de los datos?, ¿para cuál la peor?, ¿por qué?

# datos
x_1 <- rep(50, 5)
x_2 <- c(45, 50, 55, 47, 53)
x_3 <- c(3, 97, 10, 105, 35)
# promedio
mean(x_1)
## [1] 50
mean(x_2)
## [1] 50
mean(x_3)
## [1] 50
# varianza
var(x_1)
## [1] 0
var(x_2)
## [1] 17
var(x_3)
## [1] 2317
boxplot(x_1, x_2, x_3, names = c("I","II","III") )

7.4 Ejercicios

  1. Verifique las propiedades 3 y 4, con base en éstas resuelva: \(V(k_1+k_2x)\), donde \(k_1\) y \(k_2\) son constantes.

  2. En el hospital universitario se midió el número de días de hospitalización para los pacientes que ingresan por enfermedad respiratoria aguda durante un mes, en total ingresaron 65 pacientes, con un promedio de 5 días y una varianza de 40 días\(^2\). Se estima que el costo de la hospitalización es de \(500.000\) pesos básicos más \(150.000\) por día, calcule la media y la varianza de los costos de hospitalización de éstos 65 pacientes.

7.5 Datos agrupados

En algunas ocasiones, no disponemos de la totalidad de los datos, por ejemplo, si en el ejercicio anterior, no conocemos los días de hospitalización de cada paciente, sino las frecuencias para cada uno de los días, en esos casos, también es posible calcular las diferentes medidas descriptivas. En este caso, los datos disponibles serían de la forma:

\(y_j\) \(n_j\) \(h_j\)
\(y_1\) \(n_1\) \(h_1\)
\(y_2\) \(n_2\) \(h_2\)
\(\vdots\) \(\vdots\) \(\vdots\)
\(y_m\) \(n_m\) \(h_m\)
——– ——– ——
Total \(n\) \(1\)

donde \(y\) es la variable a analizar, \(y_j, j=1,...,m\) los valores que toma la variable (categorías), \(n_j\) la frecuencia absoluta de la \(i\)-ésima categoría y \(h_j\) la frecuencia relativa. Así:

\[\bar{y}=M(y)=\frac{1}{n}\sum_{j=1}^{m}y_in_i\] \[V(y)=\frac{1}{n}\sum_{j=1}^{m}(y_j-\bar{y})^2n_j\]

con \(n=\sum_{j=1}^{m}n_j\).

Ejercicio: Reescriba la media y la varianza en términos de la frecuencia relativa.

8 La desviación estándar

Debido a que la varianza se encuentra en unidades al cuadrado, buscando una medida más fácil de comprender, se define la desviación estándar. La desviación estándar o desviación típica del conjunto de datos \(x_1,x_2,\ldots,x_n\), denotada con \(s\), se calcula como: \[ s_n = \sqrt{s_n^2} = \sqrt{\frac{1}{n-1}\sum_{i=1}^{n} (x_i - \bar{x})^2}\ \]

8.1 Estandarización

Se denomina estandarización o tipificación al proceso de restar de una variable la media y luego dividir por la desviación estándar. De este modo, si \(x_1,x_2,\ldots, x_n\) es un conjunto de \(n\) realizaciones de una variable \(X\), entonces cuando se realiza este proceso se obtiene una nueva variable, denotada con \(Z\), cuyas observaciones está dadas por \[ z_i= \frac{x_i - \bar{x}}{s_n} \] para \(i = 1,2,\ldots,n\). La variable \(Z\) se denomina variable estandarizada o variable tipificada.

  • La estandarización se utiliza cuando se quieren comparar individuos bajo escenarios diferentes. Por ejemplo, si se quiere comparar el nivel académico de dos estudiantes de diferentes universidades para otorgar una beca de estudios.

  • Una variable estandarizada es una variable adimensional (no tiene unidades de medición)

  • La estandarización permite hacer comparaciones entre magnitudes que en principio no son comparables.

  • Si \(z_1,z_2,\ldots, z_n\) son los valores de una variable estandarizada, entonces \(M(z) = 0\) y \(V(z) = 1\).

8.1.1 Ejemplo 5

Teniendo en cuenta los datos del Ejemplo 1, estandarizar las observaciones de cada hospital. Comentar los resultados obtenidos.

En este caso se tiene que \[ \bar{x}_1=33.500, \,\, s_{1}= 1.708, \,\, \bar{x}_2=33.500 \,\,\, \text{y} \,\, s_{2}= 3.791 \] donde \(\bar{x}_i\) y \(S_{x_i}\) son respectivamente la media muestral y la desviación estándar muestral de los salarios anuales de los enfermeros del \(i\)-ésimo hospital para \(i=1,2\).

Los salarios estandarizados de cada hospital son:

  • Hospital 1: \(\ 0.585,\ -1.639,\ -0.351,\ 1.463,\ 0.351,\ 0.292,\ -0.702\)

  • Hospital 2: \(\ 0.131,\ -1.582,\ -0.501,\ 1.635,\ 0.474,\ 0.316,\ -0.474\)

Por ejemplo, se observa que el individuo 1 de la primera empresa es definitivamente mejor pago en su contexto que el individuo 1 de la segunda compañía a pesar de que tienen salarios muy próximos.

# datos empresa 1
x_1 <- c(34.5, 30.7, 32.9, 36.0, 34.1, 34.0, 32.3)
# datos empresa 2
x_2 <- c(34.0, 27.5, 31.6, 39.7, 35.3, 34.7, 31.7)
# promedio y desviacion estandar empresa 1
m_1 <- mean(x_1)
s_1 <- sd(x_1)
print(m_1)
## [1] 33.5
print(s_1)
## [1] 1.707825
# promedio y desviacion estandar empresa 2
m_2 <- mean(x_2)
s_2 <- sd(x_2)
print(m_2)
## [1] 33.5
print(s_2)
## [1] 3.790778
# datos estandarizados empresa 1
(x_1 - m_1)/s_1
## [1]  0.5855400 -1.6395121 -0.3513240  1.4638501  0.3513240  0.2927700 -0.7026481
# datos estandarizados empresa 2
(x_2 - m_2)/s_2
## [1]  0.1318990 -1.5827884 -0.5012163  1.6355480  0.4748365  0.3165577 -0.4748365
# promedio y varianza datos estandarizados empresa 1
mean((x_1 - m_1)/s_1)
## [1] -3.01354e-16
var((x_1 - m_1)/s_1)
## [1] 1
# promedio y varianza datos estandarizados empresa 2
mean((x_2 - m_2)/s_2)
## [1] 1.030883e-16
var((x_2 - m_2)/s_2)
## [1] 1

9 Coeficiente de variación de Pearson

Para comparar la dispersión de dos o más conjuntos de datos no es adecuado confrontar simplemente las varianzas o las desviaciones estándar, puesto que:

  • Dichas medidas están influenciadas por la escala de medida de los datos

  • Por sí solas no ofrecen una medida que hable de la magnitud de la variabilidad de los mismos.

Es necesario, por lo tanto, eliminar tal influencia generada por las unidades de medida. El coeficiente de variación es aquella medida que no depende de dichas unidades.

El coeficiente de variación de Pearson del conjunto de datos \(x_1,x_2,\ldots,x_n\), denotada con \(CV(x)\), se calcula como:

\[ CV(x)= \left| \frac{s}{\bar{x}} \right| \] donde \(|a|\) es el valor absoluto de \(a\).

  • Compara la magnitud de la dispersión de la variable con la media del conjunto de datos, de tal forma que la apreciación correspondiente es relativa al valor del promedio.

  • Las unidades del numerador y del denominador se cancelan y en consecuencia el coeficiente de variación es una medida adimensional

  • A pesar de no ser una proporción, se acostumbra a expresar el coeficiente en porcentaje y dependiendo del valor que tome se dice que si el coeficiente de correlación:

    • Está entre 0% y 5%, entonces la dispersión del conjunto de datos es mínima.
    • Está entre 5% y 15%, entonces la dispersión del conjunto de datos es moderada.
    • Es superior a 15%, entonces la dispersión del conjunto de datos es alta.

9.1 Características

  • Es una medida adimensional.
  • La relación entre el coeficiente de variación y la dispersión de un conjunto de datos es directa.
  • Es sensible a valores atípicos.
  • Es un valor no negativo.
  • Si el promedio es igual a 0, entonces el coeficiente de variación no está definido.

9.1.1 Ejemplo 6

Un veterinario debe elegir entre dos tratamientos –A o B–, igualmente de efectivos, para tratar una enfermedad específica en bovinos. Sin embargo, mientras que los animales se encuentren bajo tratamiento deben tener cuidados especiales hasta su recuperación, y que éstos deben programarse con anticipación. Teniendo en cuenta lo anterior, el veterinario a cargo debe tomar la decisión sobre el tratamiento a aplicar con base en la variabilidad de los tiempos de recuperación. En los últimos meses, el tiempo promedio de recuperación para los animales tratados con A fue de 50 horas con una desviación estándar de 10 horas. Por otro lado, el tiempo promedio de recuperación con el tratamiento B fue de 12 horas con una desviación estándar de 4 horas. ¿Cómo puede determinar el inversionista cuáles tiempos son más variables?

  • En términos de la desviación estándar, el tiempo de recuperación con el tratamiento A parece más heterogéneo que el del tratamiento B.

  • Como los tiempos promedio de recuperación de los dos tratamientos son tan diferentes, será conveniente que el inversionista potencial considere la variabilidad del tiempo con respecto al promedio. Si \(X\) denota el “tiempo de recuperación (en horas)” en el periodo de tiempo examinado, para el tratamiento A: \[CV_\text{A} = |(10/50)100\%| = 20.0\%\] Mientras que para la compañía B: \[CV_{\text{B}} = |(4/12)100\%| = 33.3\%\]

  • Entonces, en relación con la media, el tiempo de recuperación del tratamiento B es mucho más variable que el del tratamiento A.

Ejercicio: Calcular el coeficiente de variación de los datos del Ejemplo 1. Comentar los resultados obtenidos.

10 Práctica en R

#La siguiente base de datos contiene la información de un grupo de 31 pacientes que pertenecen a un programa de pacientes de enfermedades crónicas. Durante una prueba de esfuerzo, se midieron sus pulsaciones (antes, durante y después), edad, tiempo de la prueba, peso y oxigenación.

# No olviden direccionar a la carpeta en donde se encuentra grabado el archivo, en mi caso:
#setwd("G:\\Mi unidad\\UN 2024\\UN 2024-I\\Bioestadistica")

#Se deben cargar las librerías necesarias
library(plyr)

# Los datos vienen un archivo tipo csv, separado por ";", para leerlos:
c_aerobica<-read.table("capacidad_aerobica.csv",h=T, sep=";")
names(c_aerobica)
## [1] "edad"           "peso"           "Oxig"           "Tiempo"        
## [5] "Pulso_reposo"   "Pulso_corriend" "Pulso_maximo"
#Histograma del peso

hist(c_aerobica$peso, main="Histograma del peso", xlab="Peso (Kg)", ylab="Frecuencia")

#Promedio del peso
m<-mean(c_aerobica$peso)
m
## [1] 77.44452
#Varianza del peso 
vt<-var(c_aerobica$peso)
vt
## [1] 69.36504
#Desviación estándar
sdt<-sqrt(var(c_aerobica$peso))
sdt
## [1] 8.328568
#Coeficiente de variación
cvt<-sqrt(var(c_aerobica$peso))/mean(c_aerobica$peso)*100
cvt
## [1] 10.75424
#mediana
me<-median(c_aerobica$peso)
me
## [1] 77.45
#Rango intercuartílico
ri<-quantile(c_aerobica$peso,0.75)-quantile(c_aerobica$peso,0.25)
names(ri)<-"RIC"
ri
##   RIC 
## 9.125

11 Bibliografía

  1. Barón F.J. Bioestadística. Universidad de Málaga. http://www.bioestadistica.uma.es/baron/bioestadistica.pdf

  2. Soto O, Franco D. Fundamentos conceptuales de estadística. Universidad Nacional de Colombia. Notas de clase.