En esta unidad analizaremos diversas medidas de variabilidad,concentrados en una de las más utilizadas, la varianza, la cual mide la distancia entre cada dato y el promedio, también veremos comocalcular, en el caso en que exista una partición, como calcular el porcentaje de variabilidad debido a la diferencia entre los grupos (intravarianza) o dentro de los grupos (intervarianza).
Apropiarse del concepto de variabilidad
Distinguir las diferentes medidas de variabilidad, sabiendo cual es más apropiada según sea el caso
Analizar y aplicar las diferentes propiedades de la varianza
En este módulo el estudiante distinguirá a qué tipos de variables es posible calcular medidas de variabilidad, cuáles son las existentes, cómo interpretarlas y cuáles son sus propiedades.
Tal como se ha dicho en la introducción y como su nombre lo indica, las medidas de variabilidad miden que tan diferentes son los datos entre si. Pensemos en principio en un conjunto de datos en los cuales para todos los \(n\) individuos se tiene la misma medición, \(x_i=k\), \(i=1,2,...,n\), en este caso, \(M(X)=\bar{x}=k\) y por lo tanto la distancia entre cada dato y la media es cero, \(x_i-\bar{x}=0\). Esto nos indica que una forma de medir la variabilidad de un conjunto de datos es tomando la distancia de cada dato con la media y finalmente haciendo su suma:
\[\sum_{i=1}^{n}(x_i-\bar{x})\]
Sin embargo, el resultado de dicha suma es siempre cero, por lo que se decidió elevar al cuadrado cada uno de los sumandos, \((x_i-\bar{x})^2\), llegando así a lo que llamamos varianza.
Ejercicio: Analice por qué \(\sum_{i=1}^{n}(x_i-\bar{x})=0\)
#La varianza muestral
La varianza muestral es una medida de la diferencias entre cada punto y la media, de tal forma que si pensamos en los datos como una nube de puntos, la varianza nos daría un indicio del tamaño de esa nube de puntos. Se define como:
\[V(x)=S^2=\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2\]
Supongamos que tenemos los siguientes conjuntos de datos (Soto, 2009)
Conjunto | \(\bar{x}\) | \(S^2\) | |||||
---|---|---|---|---|---|---|---|
I | 50 | 50 | 50 | 50 | 50 | 50 | 0 |
II | 45 | 50 | 55 | 47 | 53 | 50 | 13.6 |
III | 3 | 97 | 10 | 105 | 35 | 50 | 1853 |
¿Para cuál de los tres conjuntos la media resulta ser una buena representación de los datos?, ¿para cuál la peor?, ¿por qué?
Verifique las propiedades 2 y 4 y con base en éstas resuelva: \(V(k_1+k_2x)\).
En el hospital universitario se midió el número de días de hospitalización para los pacientes que ingresan por enfermedad respiratoria aguda durante un mes, en total ingresaron 65 pacientes, con un promedio de 5 días y una varianza de 40 días\(^2\). Se estima que el costo de la hospitalización es de \(500.000\) pesos básicos más \(150.000\) por día, calcule la media y la varianza de los costos de hospitalización de éstos 65 pacientes.
En algunas ocasiones, no disponemos de la totalidad de los datos, por ejemplo, si en el ejercicio anterior, no conocemos los días de hospitalización de cada paciente, sino las frecuencias para cada uno de los días, en esos casos, también es posible calcular las diferentes medidas descriptivas. En este caso, los datos disponibles sería de la forma:
\(y_j\) | \(n_j\) | \(h_j\) |
---|---|---|
\(y_1\) | \(n_1\) | \(h_1\) |
\(y_2\) | \(n_2\) | \(h_2\) |
\(\vdots\) | \(\vdots\) | \(\vdots\) |
\(y_m\) | \(n_m\) | \(h_m\) |
——– | ——– | —— |
Total | \(n\) | \(1\) |
donde \(y\) es la variable a analizar, \(y_j, j=1,...,m\) los valores que toma la variable (categorías), \(n_j\) la frecuencia absoluta de la \(i\)-ésima categoría y \(h_j\) la frecuencia relativa. Así:
\[\bar{y}=M(y)=\frac{1}{n}\sum_{j=1}^{m}y_in_i\] \[V(y)=\frac{1}{n}\sum_{j=1}^{m}(y_j-\bar{y})^2n_j\]
con \(n=\sum_{j=1}^{m}n_j\).
Ejercicio:Reescriba la media y la varianza en términos de la frecuencia relativa.
La descomposición de la varianza se calcula cuando se tienen grupos dentro de la población o la muestra estudiada (que conforman una partición) y se busca determinar si la variabilidad de la variable estudiada se debe más a las diferencias entre los grupos (intervarianza) o dentro de los grupos (intravarianza).
Nota: Dado \(\Omega\) un conjunto, \(A_1,A_2,...,A_l\) subconjuntos de \(\Omega\), la colección de conjuntos \(A_1,A_2,...,A_l\) conforman una partición de \(\Omega\) si satisfacen:
Ahora supongamos que \(A_1,A_2,...,A_l\) conforman una partición de la población o de la muestra que estamos estudiando, \(\bar{x}_1,\bar{x}_2,...,\bar{x}_l\) son los promedios de la variable de interés, \(S^2_1,S^2_2,...,S^2_l\) son las varianzas muestrales de la variable para \(A_1,A_2,...,A_l\) respectivamente, así:
\[\begin{align*} V(x)=& \frac{1}{n}\sum_{j=1}^{m}S^2_jn_j+\frac{1}{n}\sum_{j=1}^{m}(\bar{x}_j-\bar{x}_T)^2n_j\\ &=M(V)+V(M)\\ &=S^2_w+S^2_b\\ \end{align*}\] Con \(\bar{x}_T=\sum_{j=1}^{m}\bar{x}_jn_j\) la media total, \(S^2_w=\frac{1}{n}\sum_{j=1}^{m}S^2_jn_j\) la intra varianza y \(S^2_b=\frac{1}{n}\sum_{j=1}^{m}(\bar{x}_j-\bar{x}_T)^2n_j\) la inter varianza.
Ejercicios:¿Cómo se podría calcular el porcentaje de varianza debido a las diferencias entre los grupos?, ¿cómo se interpretaría dicho porcentaje?.
Debido a que la varianza se encuentra en unidades al cuadrado, buscando una medida más fácil de comprender, se define la desviación estándar:
\[S=\sqrt{V(x)}\]
Tanto la varianza, como la desviación estándar dependen de las unidades de la variable a analizar, el coeficiente de variación por el contrario no tiene unidades, se define como:
\[CV(x)=\frac{S}{\bar{x}}*100\]
Generalmente se interpreta como un porcentaje, a pesar de no serlo, pues puede tomar valores superiores a 100.
#Rango intercuartílico
Es la diferencia entre el tercer cuartil (\(P_{75}\)) y el primer cuartil (\(P_{25}\)).
\[RIC=P_{75}-P_{25}\]
Mide la variabilidad de la parte central de los datos. En términos gráficos, mide el ancho de la caja en el boxplot.
#Práctica en R
#La siguiente base de datos contiene la información de un grupo de 31 pacientes que pertenecen a un programa de pacientes de enfermedades crónicas. Durante una prueba de esfuerzo, se midieron sus pulsaciones (antes, durante y después), edad, tiempo de la prueba, peso y oxigenación.
# No olviden direccionar a la carpeta en donde se encuentra grabado el archivo, en mi caso:
#setwd("C:\\Users\\lange\\Google Drive\\Sabana 2019\\II-2019\\Electiva")
#Se deben cargar las librerías necesarias
library(plyr)
# Los datos vienen un archivo tipo csv, separado por ";", para leerlos:
c_aerobica<-read.table("capacidad_aerobica.csv",h=T, sep=";")
names(c_aerobica)
## [1] "edad" "peso" "Oxig" "Tiempo"
## [5] "Pulso_reposo" "Pulso_corriend" "Pulso_maximo"
## [1] 69.36504
## [1] 8.328568
## [1] 10.75424
#Rango intercuartílico
ri<-quantile(c_aerobica$peso,0.75)-quantile(c_aerobica$peso,0.25)
names(ri)<-"RIC"
ri
## RIC
## 9.125
#Para ilustrar la forma de calcular la variabilidad intra e inter, vamos a construir una partición de los pacientes con base en su edad: <45, [45-50),>50
c_aerobica$g_edad<-character(dim(c_aerobica)[1])
c_aerobica$g_edad[c_aerobica$edad<45]<-"<45 años"
c_aerobica$g_edad[c_aerobica$edad>=45 & c_aerobica$edad<50]<-"[45-50) años"
c_aerobica$g_edad[c_aerobica$edad>=50]<-">50 años"
#Frecuencias absolutas de cada categoría
nj<-as.matrix(table(c_aerobica$g_edad),nc=1)
nj
## [,1]
## [45-50) años 9
## <45 años 10
## >50 años 12
## g_edad ybar
## 1 [45-50) años 77.18778
## 2 <45 años 80.10400
## 3 >50 años 75.42083
#varianza de cada categoría
n<-dim(c_aerobica)[1]
s2j<-ddply(c_aerobica,.(g_edad), summarize,s2=var(peso))
#intravarianza
s2w<-1/n*sum((nj-1)*s2j$s2)
s2w
## [1] 63.24148
## [1] 3.885977
## [1] 67.12746
## [1] 67.12746
## [1] 5.788953
Barón F.J. Bioestadística. Universidad de Málaga. http://www.bioestadistica.uma.es/baron/bioestadistica.pdf
Soto O, Franco D. Fundamentos conceptuales de estadística. Universidad Nacional de Colombia. Notas de clase.