1 Introducción

  • Tal como lo hemos dicho, las variables cuantitativas pueden ser descritas en términos de medidas de tendencia central, variabilidad, localización y forma. -Las medidas de variabilidad son aquellas que miden la dispersión de los datos, es decir, nos dicen qué tan parecidos o que tan diferentes son entre si los valores observados.
  • Las medidas de variabilidad se hacen necesarias, pues una medida de tendencia central sola, podría engañarnos fácilmente en el caso en el que los datos sean muy variables.

En esta unidad analizaremos diversas medidas de variabilidad,concentrados en una de las más utilizadas, la varianza, la cual mide la distancia entre cada dato y el promedio, también veremos comocalcular, en el caso en que exista una partición, como calcular el porcentaje de variabilidad debido a la diferencia entre los grupos (intravarianza) o dentro de los grupos (intervarianza).

2 Objetivos

  • Apropiarse del concepto de variabilidad

  • Distinguir las diferentes medidas de variabilidad, sabiendo cual es más apropiada según sea el caso

  • Analizar y aplicar las diferentes propiedades de la varianza

3 Competencias

En este módulo el estudiante distinguirá a qué tipos de variables es posible calcular medidas de variabilidad, cuáles son las existentes, cómo interpretarlas y cuáles son sus propiedades.

4 Conceptos preliminares

Tal como se ha dicho en la introducción y como su nombre lo indica, las medidas de variabilidad miden que tan diferentes son los datos entre si. Pensemos en principio en un conjunto de datos en los cuales para todos los \(n\) individuos se tiene la misma medición, \(x_i=k\), \(i=1,2,...,n\), en este caso, \(M(X)=\bar{x}=k\) y por lo tanto la distancia entre cada dato y la media es cero, \(x_i-\bar{x}=0\). Esto nos indica que una forma de medir la variabilidad de un conjunto de datos es tomando la distancia de cada dato con la media y finalmente haciendo su suma:

\[\sum_{i=1}^{n}(x_i-\bar{x})\]

Sin embargo, el resultado de dicha suma es siempre cero, por lo que se decidió elevar al cuadrado cada uno de los sumandos, \((x_i-\bar{x})^2\), llegando así a lo que llamamos varianza.

Ejercicio: Analice por qué \(\sum_{i=1}^{n}(x_i-\bar{x})=0\)

#La varianza muestral

La varianza muestral es una medida de la diferencias entre cada punto y la media, de tal forma que si pensamos en los datos como una nube de puntos, la varianza nos daría un indicio del tamaño de esa nube de puntos. Se define como:

\[V(x)=S^2=\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2\]

4.1 Ejemplo:

Supongamos que tenemos los siguientes conjuntos de datos (Soto, 2009)

Conjunto \(\bar{x}\) \(S^2\)
I 50 50 50 50 50 50 0
II 45 50 55 47 53 50 13.6
III 3 97 10 105 35 50 1853

¿Para cuál de los tres conjuntos la media resulta ser una buena representación de los datos?, ¿para cuál la peor?, ¿por qué?

4.2 Propiedades

  1. \(V(x)\geq 0\)
  2. \(V(k)=0\)
  3. \(V(x+k)=V(x)\) con \(k\) constante \[\begin{align*} V(x+k)=&\sum_{i=1}^{n}(x_i+k-M(x+k))^2\\ =&\sum_{i=1}^{n}(x_i+k-(\bar{x}+k))^2\\ =&\sum_{i=1}^{n}(x_i-\bar{x})^2\\ =& V(x) \end{align*}\]
  4. \(V(kx)=k^2V(x)\)

4.2.1 Ejercicios

  1. Verifique las propiedades 2 y 4 y con base en éstas resuelva: \(V(k_1+k_2x)\).

  2. En el hospital universitario se midió el número de días de hospitalización para los pacientes que ingresan por enfermedad respiratoria aguda durante un mes, en total ingresaron 65 pacientes, con un promedio de 5 días y una varianza de 40 días\(^2\). Se estima que el costo de la hospitalización es de \(500.000\) pesos básicos más \(150.000\) por día, calcule la media y la varianza de los costos de hospitalización de éstos 65 pacientes.

4.3 Datos agrupados

En algunas ocasiones, no disponemos de la totalidad de los datos, por ejemplo, si en el ejercicio anterior, no conocemos los días de hospitalización de cada paciente, sino las frecuencias para cada uno de los días, en esos casos, también es posible calcular las diferentes medidas descriptivas. En este caso, los datos disponibles sería de la forma:

\(y_j\) \(n_j\) \(h_j\)
\(y_1\) \(n_1\) \(h_1\)
\(y_2\) \(n_2\) \(h_2\)
\(\vdots\) \(\vdots\) \(\vdots\)
\(y_m\) \(n_m\) \(h_m\)
——– ——– ——
Total \(n\) \(1\)

donde \(y\) es la variable a analizar, \(y_j, j=1,...,m\) los valores que toma la variable (categorías), \(n_j\) la frecuencia absoluta de la \(i\)-ésima categoría y \(h_j\) la frecuencia relativa. Así:

\[\bar{y}=M(y)=\frac{1}{n}\sum_{j=1}^{m}y_in_i\] \[V(y)=\frac{1}{n}\sum_{j=1}^{m}(y_j-\bar{y})^2n_j\]

con \(n=\sum_{j=1}^{m}n_j\).

Ejercicio:Reescriba la media y la varianza en términos de la frecuencia relativa.

4.4 Descomposición de la varianza

La descomposición de la varianza se calcula cuando se tienen grupos dentro de la población o la muestra estudiada (que conforman una partición) y se busca determinar si la variabilidad de la variable estudiada se debe más a las diferencias entre los grupos (intervarianza) o dentro de los grupos (intravarianza).

Nota: Dado \(\Omega\) un conjunto, \(A_1,A_2,...,A_l\) subconjuntos de \(\Omega\), la colección de conjuntos \(A_1,A_2,...,A_l\) conforman una partición de \(\Omega\) si satisfacen:

  1. \(\bigcup_{j=1}^{l}A_i=\Omega\)
  2. \(A_i\cap A_j=\phi\) para todo \(i\neq j\)

Ahora supongamos que \(A_1,A_2,...,A_l\) conforman una partición de la población o de la muestra que estamos estudiando, \(\bar{x}_1,\bar{x}_2,...,\bar{x}_l\) son los promedios de la variable de interés, \(S^2_1,S^2_2,...,S^2_l\) son las varianzas muestrales de la variable para \(A_1,A_2,...,A_l\) respectivamente, así:

\[\begin{align*} V(x)=& \frac{1}{n}\sum_{j=1}^{m}S^2_jn_j+\frac{1}{n}\sum_{j=1}^{m}(\bar{x}_j-\bar{x}_T)^2n_j\\ &=M(V)+V(M)\\ &=S^2_w+S^2_b\\ \end{align*}\] Con \(\bar{x}_T=\sum_{j=1}^{m}\bar{x}_jn_j\) la media total, \(S^2_w=\frac{1}{n}\sum_{j=1}^{m}S^2_jn_j\) la intra varianza y \(S^2_b=\frac{1}{n}\sum_{j=1}^{m}(\bar{x}_j-\bar{x}_T)^2n_j\) la inter varianza.

Ejercicios:¿Cómo se podría calcular el porcentaje de varianza debido a las diferencias entre los grupos?, ¿cómo se interpretaría dicho porcentaje?.

5 Otras medidas de variabilidad

5.1 Desviación estándar

Debido a que la varianza se encuentra en unidades al cuadrado, buscando una medida más fácil de comprender, se define la desviación estándar:

\[S=\sqrt{V(x)}\]

6 Coeficiente de variación

Tanto la varianza, como la desviación estándar dependen de las unidades de la variable a analizar, el coeficiente de variación por el contrario no tiene unidades, se define como:

\[CV(x)=\frac{S}{\bar{x}}*100\]

Generalmente se interpreta como un porcentaje, a pesar de no serlo, pues puede tomar valores superiores a 100.

#Rango intercuartílico

Es la diferencia entre el tercer cuartil (\(P_{75}\)) y el primer cuartil (\(P_{25}\)).

\[RIC=P_{75}-P_{25}\]

Mide la variabilidad de la parte central de los datos. En términos gráficos, mide el ancho de la caja en el boxplot.

#Práctica en R

## [1] "edad"           "peso"           "Oxig"           "Tiempo"        
## [5] "Pulso_reposo"   "Pulso_corriend" "Pulso_maximo"
## [1] 69.36504
## [1] 8.328568
## [1] 10.75424
##   RIC 
## 9.125
##              [,1]
## [45-50) años    9
## <45 años       10
## >50 años       12
##         g_edad     ybar
## 1 [45-50) años 77.18778
## 2     <45 años 80.10400
## 3     >50 años 75.42083
## [1] 63.24148
## [1] 3.885977
## [1] 67.12746
## [1] 67.12746
## [1] 5.788953

7 Bibliografía

  1. Barón F.J. Bioestadística. Universidad de Málaga. http://www.bioestadistica.uma.es/baron/bioestadistica.pdf

  2. Soto O, Franco D. Fundamentos conceptuales de estadística. Universidad Nacional de Colombia. Notas de clase.