Tal como lo hemos dicho, las variables cuantitativas pueden ser descritas en términos de medidas de tendencia central, variabilidad, localización y forma. En particular, las medidas de variabilidad son aquellas que miden la dispersión de los datos, es decir, nos dicen qué tan parecidos o que tan diferentes son entre si los valores observados. Las medidas de variabilidad se hacen necesarias, pues una medida de tendencia central sola, podría engañarnos fácilmente en el caso en el que los datos sean muy variables. En esta unidad analizaremos diversas medidas de variabilidad, concentrados en una de las más utilizadas, la varianza, la cual mide la distancia entre cada dato y el promedio, también veremos como calcular, en el caso en que exista una partición, como calcular el porcentaje de variabilidad debido a la diferencia entre los grupos (intravarianza) o dentro de los grupos (intervarianza).
- Apropiarse del concepto de variabilidad
- Distinguir las diferentes medidas de variabilidad, sabiendo cual es más apropiada según sea el caso
- Analizar y aplicar las diferentes propiedades de la varianza
En este módulo el estudiante distinguirá a qué tipos de variables es posible calcular medidas de variabilidad, cuáles son las existentes, cómo interpretarlas y cuáles son sus propiedades.
Tal como se ha dicho en la introducción y como su nombre lo indica, la las medidas de variabilidad miden que tan diferentes son los datos entre si. Pensemos en principio en un conjunto de datos en los cuales para todos los \(n\) individuos se tiene la misma medición, \(x_i=k\), \(i=1,2,...,n\), en este caso, \(M(X)=\bar{x}=k\) y por lo tanto la distancia entre cada dato y la media es cero, \(x_i-\bar{x}=0\). Esto nos indica que una forma de medir la variabilidad de un conjunto de datos es tomando la distancia de cada dato con la media y finalmente haciendo su suma:
\[\sum_{i=1}^{n}(x_i-\bar{x})\]
Sin embargo, el resultado de dicha suma es siempre cero, por lo que se decidió elevar al cuadrado cada uno de los sumandos, \((x_i-\bar{x})^2\), llegando así a lo que llamamos varianza. > Ejercicio: Analice por qué
\(\sum_{i=1}^{n}(x_i-\bar{x})=0\)
La varianza muestral es una medida de la diferencias entre cada punto y la media, de tal forma que si pensamos en los datos como una nube de puntos, la varianza nos daría un indicio del tamaño de esa nube de puntos. Se define como:
\[V(x)=S^2=\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2\]
Ejemplo: Supongamos que tenemos los siguientes conjuntos de datos (Soto, 2009)
Conjunto | \(\bar{x}\) | \(S^2\) | |||||
---|---|---|---|---|---|---|---|
I | 50 | 50 | 50 | 50 | 50 | 50 | 0 |
II | 45 | 50 | 55 | 47 | 53 | 50 | 13.6 |
II | 3 | 97 | 10 | 105 | 35 | 50 | 1853.6 |
¿Para cuál de los tres conjuntos la media resulta ser una buena representación de los datos?, ¿para cuál la peor?, ¿por qué?
\(V(x+k)=V(x)\) con \(k\) constante.
\[V(x+k)=\sum_{i=1}^{n}(x_i+k-M(x+k))^2\\ =\sum_{i=1}^{n}(x_i+k-(\bar{x}+k))^2\\ =\sum_{i=1}^{n}(x_i-\bar{x})^2\\ = V(x)\]
\(V(kx)=k^2V(x)\)
La descomposición de la varianza se calcula cuando se tienen grupos dentro de la población o la muestra estudiada (que conforman una partición) y se busca determinar si la variabilidad de la variable estudiada se debe más a las diferencias entre los grupos (intervarianza) o dentro de los grupos (intravarianza).
Sea \(\Omega\) un conjunto, \(A_1,A_2,...,A_l\) subconjuntos de \(\Omega\), la colección de conjuntos \(A_1,A_2,...,A_l\) conforman una partición de \(\Omega\) si satisfacen:
library(klaR)
## Loading required package: MASS
Iris <- data.frame(rbind(iris3[,,1], iris3[,,2], iris3[,,3]),
Sp = rep(c("s","c","v"), rep(50,3)))
set.seed(1) ## remove this line if you want it to be pseudo random
train <- sample(1:150, 75)
partimat(Sp ~ ., data=Iris, method="qda", subset=train)
https://stackoverflow.com/questions/39842129/how-to-plot-massqda-scores
Ahora supongamos que \(A_1,A_2,...,A_l\) conforman una partición de la población o de la muestra que estamos estudiando, \(\bar{x}_1,\bar{x}_2,...,\bar{x}_l\) son los promedios de la variable de interés, \(S^2_1,S^2_2,...,S^2_l\) son las varianzas muestrales de la variable para \(A_1,A_2,...,A_l\) respectivamente, así:
\[\displaystyle V(x)=\frac{1}{n}\sum_{j=1}^{m}S^2_jn_j+\frac{1}{n}\sum_{j=1}^{m}(\bar{x}_j-\bar{x}_T)^2n_j =M(V)+V(M) =S^2_w+S^2_b=Intravarianza + intervarianza\]
Con \(\bar{x}_T=\sum_{j=1}^{m}\bar{x}_jn_j\) la media total, \(S^2_w=\frac{1}{n}\sum_{j=1}^{m}S^2_jn_j\) la intra varianza y \(S^2_b=\frac{1}{n}\sum_{j=1}^{m}(\bar{x}_j-\bar{x}_T)^2n_j\) la inter varianza.
Suponga que tenemos dos grupos de datos:
A <- c(7,9,11)
B <- c(11,14,17)
Y queremos calcular la varianza total usando las fórmulas de Intervarianza e Intravarianza.
El procedimiento:
#media de A
X_A=sum(A)/3
X_A=mean(A)
((7-X_A)^2+(9-X_A)^2+(11-X_A)^2)/3
## [1] 2.666667
sum((A-X_A)^2)/3
## [1] 2.666667
(var(A)*(length(A)-1))/length(A)
## [1] 2.666667
pop.var <- function(x) var(x) * (length(x)-1) / length(x)
pop.var(A)
## [1] 2.666667
\[\displaystyle intraVarianza= M(V)=\frac{2.7*3+6*3}{3+3}=4.35\]
(2.7*3+6*3)/(3+3)
## [1] 4.35
(3*9+3*14)/(3+3)
## [1] 11.5
\[\displaystyle \frac{(\bar{X}_A- \bar{X}_{global})^2*(n_A)+(\bar{X}_B-\bar{X}_{global})^2*(n_B)}{n_A+n_B} \]
\[\displaystyle \frac{(9-11.5)^2*(3)+(14-11.5)^2*(3)}{3+3}=6.25 \]
((9-11.5)^2*(3)+(14-11.5)^2*(3))/(3+3)
## [1] 6.25
Compruebe usted mismo (Calculando la varianza total para todos los datos) que la Varianza Total = 4,35 + 6,25 = 10,6
mean(c(A,B))
## [1] 11.5
pop.var(c(A,B))
## [1] 10.58333
round(pop.var(c(A,B)),1)
## [1] 10.6
¿Cómo se podría calcular el porcentaje de varianza debido a las diferencias entre los grupos?, ¿cómo se interpretaría dicho porcentaje?.
Comente el comportamiento entre la intra e inter varianza a medida que se aglomeran observaciones en el siguiente gráfico.
*https://www.displayr.com/what-is-hierarchical-clustering/
Debido a que la varianza se encuentra en unidades al cuadrado, buscando una medida más fácil de comprender, se define la desviación estándar:
\[S=\sqrt{V(x)}\]
Tanto la varianza, como la desviación estándar dependen de las unidades de la variable a analizar, el coeficiente de variación por el contrario no tiene unidades, se define como:
\[CV(x)=\frac{S}{\bar{x}}*100\]
Generalmente se interpreta como un porcentaje, a pesar de no serlo, pues puede tomar valores superiores a 100.