Clase Agosto 8

Variables Cuantitativas (Discretas o continutas)

Tendencia central

“Un valor alrededor del cual se agrupan los datos”

Las tres principales: medidas Media, Mediana, Moda

Medidas de dispersión

Una cosa es al rededor de qué valor se dispersan los datos.

Otra es, qué tanto se dispersan, es decir, qué tanto se parecen entre sí.

¿Cómo podemos medir la dispersión?

Si tenemos un set de datos de peso (lbs), por ejemplo: c(13,7,5,12,9,15,6,11,9,7,12)

y <- c(13,7,5,12,9,15,6,11,9,7,12)

Calculamos el promedio mean(y)

mean(y)
## [1] 9.636364

Y lo visualizamos

y <- c(13,7,5,12,9,15,6,11,9,7,12)
plot(y, pch=20)
abline(h=mean(y), col=2)

¿Cómo medimos dispersión (similitud)?

Si queremos tener una medida de qué tan alejados están los valores, entre sí, podríamos compararlos, visualmente, con un punto de referencia en común. Usemos el promedio como punto de referencia

plot(y, pch=20)
abline(h=mean(y), col=2)
segments(c(1:11),mean(y),c(1:11), y)

Esto, numéricamente, lo podemos calcular restándole el valor promedio mean(y) a cada uno de los valores y. Estas son las diferencias.

y-mean(y)
##  [1]  3.3636364 -2.6363636 -4.6363636  2.3636364 -0.6363636  5.3636364
##  [7] -3.6363636  1.3636364 -0.6363636 -2.6363636  2.3636364

Si necesitamos un valor que represente a todas las diferencias, podría ser la sumatoria de esas diferencias?

La suma no nos sirve, ya que la suma nos da siempre, cero (0). Ver estos ejemplos con distintos n

y1 <- c(13,7,5,12,9,15,6,11,9,7,12)
y2 <- c(13,7,5)
y3 <- c(13,7,5,12,9,15)
dif.1 <- y1-mean(y1); dif.1
##  [1]  3.3636364 -2.6363636 -4.6363636  2.3636364 -0.6363636  5.3636364
##  [7] -3.6363636  1.3636364 -0.6363636 -2.6363636  2.3636364
dif.2 <- y2-mean(y2); dif.2
## [1]  4.666667 -1.333333 -3.333333
dif.3 <- y3-mean(y3); dif.3
## [1]  2.833333 -3.166667 -5.166667  1.833333 -1.166667  4.833333

La suma siempre nos da 0

sum(dif.1) ; sum( dif.2) ; sum(dif.3)
## [1] 0
## [1] 0
## [1] 0

Eliminando las diferencias negativas

dif <- y-mean(y)
dif^2
##  [1] 11.3140496  6.9504132 21.4958678  5.5867769  0.4049587 28.7685950
##  [7] 13.2231405  1.8595041  0.4049587  6.9504132  5.5867769
sum(dif^2)
## [1] 102.5455

Este valor es la Sumatoria de Cuadrados.

Necesitamos un valor que sea estándar. Que no dependa del n.

Básicamente queremos un valor que nos diga: “El promedio de las distancias de cada valor de y al promedio de y=9.64” (valga la redundancia)

n = length(y)
sum(dif^2)/n    ## Cuadrados Medios
## [1] 9.322314

Pero esto aún son lbs^2. Y necesitamos un valor que sea en lbs. Entonces, sacamos raiz cuadrada sqrt().

sqrt( sum(dif^2)/n )
## [1] 3.053246

Esto, corregido para los grados de libertad n-1, es la Desviación Estándar

gl= n-1 ; gl              ## grados de libertad
## [1] 10
sqrt( sum(dif^2)/( gl) )  ## Std.Dev
## [1] 3.202272

Una Std.Dev arriba y una abajo del promedio lo veríamos así:

mean(y) + stdev

9.64 + 3.2= 12.84

mean(y) - stdev

9.64 - 3.2= 6.43

Aquí vemos graficadas dos líneas, una desviación estándar hacia arriba del promedio y una hacia abajo (en azul).