“Un valor alrededor del cual se agrupan los datos”
Las tres principales: medidas Media, Mediana, Moda
Una cosa es al rededor de qué valor se dispersan los datos.
Otra es, qué tanto se dispersan, es decir, qué tanto se parecen entre sí.
¿Cómo podemos medir la dispersión?
Si tenemos un set de datos de peso (lbs), por ejemplo: c(13,7,5,12,9,15,6,11,9,7,12)
y <- c(13,7,5,12,9,15,6,11,9,7,12)
Calculamos el promedio mean(y)
mean(y)
## [1] 9.636364
Y lo visualizamos
y <- c(13,7,5,12,9,15,6,11,9,7,12)
plot(y, pch=20)
abline(h=mean(y), col=2)
Si queremos tener una medida de qué tan alejados están los valores, entre sí, podríamos compararlos, visualmente, con un punto de referencia en común. Usemos el promedio como punto de referencia
plot(y, pch=20)
abline(h=mean(y), col=2)
segments(c(1:11),mean(y),c(1:11), y)
Esto, numéricamente, lo podemos calcular restándole el valor promedio mean(y) a cada uno de los valores y. Estas son las diferencias.
y-mean(y)
## [1] 3.3636364 -2.6363636 -4.6363636 2.3636364 -0.6363636 5.3636364
## [7] -3.6363636 1.3636364 -0.6363636 -2.6363636 2.3636364
Si necesitamos un valor que represente a todas las diferencias, podría ser la sumatoria de esas diferencias?
La suma no nos sirve, ya que la suma nos da siempre, cero (0). Ver estos ejemplos con distintos n
y1 <- c(13,7,5,12,9,15,6,11,9,7,12)
y2 <- c(13,7,5)
y3 <- c(13,7,5,12,9,15)
dif.1 <- y1-mean(y1); dif.1
## [1] 3.3636364 -2.6363636 -4.6363636 2.3636364 -0.6363636 5.3636364
## [7] -3.6363636 1.3636364 -0.6363636 -2.6363636 2.3636364
dif.2 <- y2-mean(y2); dif.2
## [1] 4.666667 -1.333333 -3.333333
dif.3 <- y3-mean(y3); dif.3
## [1] 2.833333 -3.166667 -5.166667 1.833333 -1.166667 4.833333
La suma siempre nos da 0
sum(dif.1) ; sum( dif.2) ; sum(dif.3)
## [1] 0
## [1] 0
## [1] 0
Eliminando las diferencias negativas
dif <- y-mean(y)
dif^2
## [1] 11.3140496 6.9504132 21.4958678 5.5867769 0.4049587 28.7685950
## [7] 13.2231405 1.8595041 0.4049587 6.9504132 5.5867769
sum(dif^2)
## [1] 102.5455
Este valor es la Sumatoria de Cuadrados.
Necesitamos un valor que sea estándar. Que no dependa del n.
Básicamente queremos un valor que nos diga: “El promedio de las distancias de cada valor de y al promedio de y=9.64” (valga la redundancia)
n = length(y)
sum(dif^2)/n ## Cuadrados Medios
## [1] 9.322314
Pero esto aún son lbs^2. Y necesitamos un valor que sea en lbs. Entonces, sacamos raiz cuadrada sqrt().
sqrt( sum(dif^2)/n )
## [1] 3.053246
Esto, corregido para los grados de libertad n-1, es la Desviación Estándar
gl= n-1 ; gl ## grados de libertad
## [1] 10
sqrt( sum(dif^2)/( gl) ) ## Std.Dev
## [1] 3.202272
Una Std.Dev arriba y una abajo del promedio lo veríamos así:
mean(y) + stdev
9.64 + 3.2= 12.84
mean(y) - stdev
9.64 - 3.2= 6.43
Aquí vemos graficadas dos líneas, una desviación estándar hacia arriba del promedio y una hacia abajo (en azul).