library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
Al aplicar una medida de “dispersion” es posible evaluar la confiabilidad del promedio que se esta utilizando.
Es decir una dispersion pequeña nos indica que los datos se encuentran acumulados cercanamente alrededor de la media aritmetica. Si esto es asi, la media es un valor muy representativo de todos los datos, se lo consideraria un promedio confiable.
Por otro lado, una dispersion grande nos indica que la media no es confiable, ni representativa del conjunto de datos.
Una medida de dispersion tambien nos permite saber cuan dispersas estan dos o mas distribuciones. Y asi evaluar la confiabilidad de dos o mas promedios.
Supongamos que hay dos plantas de produccion, una en Atlanta y otra en Florida, ambas tienen la misma media aritmetica de 50, correspondiente a la produccion diaria de cada planta. Es decir FLorida tiene una media diaria de 50 y Atlanta de igualmanera 50.
Al utilizar la medida de dispersion nos podra ayudar si ese promedio de 50 es confiable o no. Para esto tenemos los registros de las dos plantas.
#Planta ATLANTA
atlanta <- c(48,49,49,50,50,50,51,51,52)
#mean:
mean(atlanta)
## [1] 50
#rango
range(atlanta)
## [1] 48 52
hist(atlanta, col = "lightyellow")
#Planta FLORIDA
florida <- c(40,47,47,50,50,50,53,53,60)
#mean:
mean(florida)
## [1] 50
#rango
range(florida)
## [1] 40 60
hist(florida, col="lightyellow")
Podemos concluir que apesar de tener una media igual de 50. La planta de la Florida es mas erradica ya que su produccion va entre el rango de 40 a 60
MEDIDAS DE DISPERSION: AMPLITUD TOTAL
La medida de dispersion mas simple es la amplitud total. Es simplemente la diferencia entre el valor maximo y el valor minimo de un conjunto de datos: Amplitud total = valor maximo - valor minimo.
En R para obtener esta medida de amplitud utilizamos la funcion diff()
Asi tendremos la amplitud total de Florida (20) y Atlanta (4)
diff(range(florida))
## [1] 20
diff(range(atlanta))
## [1] 4
MEDIDAS DE DISPERSION: DESVIACION MEDIA
La amplitud total tiene una limitante ya que no considera todos los datos, sino que solo el valor maximo y el valor minimo.
La desviacion media si considera todos los valores. Conocida por los estadisticos como desviacion promedio.
La desviacion media mide el promedio de variacion de cada observacion en valores absolutos con respecto a la media.
Como ejemplo consideremos que tenemos muestras de cajas de flores que seran embarcadas a Europa y los pesos estan en kilogramos.
cajas <- c(103, 97, 101, 106, 103)
mean(cajas) # calculo de la media
## [1] 102
mean(abs(cajas-mean(cajas))) #calculo de la desviacion media
## [1] 2.4
La desviacion media de las seis muestras es de 2.4 kg. Esto significa que los pesos de las cajas se desvian con respecto a la media de 102 kg en 2.4 kg.
Ejercicio
Diez expertos en chocolate calificaron una muestra de chocolate ecuatoriano en una escala de 1 a 50. Encuentre la amplitud de las calificaciones, la media aritmetica, la desviacion media.
chocolate <- c(34, 35, 41, 28, 26, 29, 32, 36, 38, 40)
mean(chocolate) #media
## [1] 33.9
diff(range(chocolate)) #amplitud total
## [1] 15
mean(abs(chocolate - mean(chocolate))) #desviacion media
## [1] 4.12
La calificacion promedio de los expertos fue de 33.9. Tambien observamos que la amplitud de las calificaciones es de 15 y las calficaciones difieren de la media en 4.12.
VARIANZA
La varianza es la media aritmetica de las desviaciones cuadraticas con respecto a la media.
Observe que las desviaciones con respecto a la media se elevan al cuadrado, aca los signos (+ o -) no se ignoran como en la desviacion media. Al elevar al cuadrado se elimina la posibilidad de que haya numeros negativos.
La varianza sirve para poder comparar la dispersion en dos o mas conjuntos de observaciones. Nos da una idea del nivel de dispersion de los datos y el nivel de acercamiento con respecto a la media.
Mientras menor la varianza, los datos se acumulan mas a la media. Asi confirmamos que la media obtenida de los datos es representativa.
hospital <- c(2,10,6,8,9)
var (hospital)
## [1] 10
DESVIACION ESTANDAR
Ahora recordemos que la varianza es un dato elevado al cuadrado, y este valor es dificil de interpretar para un conjunto de observaciones.
Para obtener la varianza en R se utiliza la funcion sd()
Con la formula de la desviacion estandar, estamos sacando la raiz cuadrada de la varianza.
sd (hospital)
## [1] 3.162278
Ejercicio
Cimersa una empresa que alimenta tilapias pequeñas en estanques y las comercializa hasta cuando llegan a un peso determinado. Se procedio a seleccionar una muestra de 10 truchas en un estanque y se les alimento con una mezcla innovadora llamada “crecerapido”. Al final se obtuvieron los pesos de las truchas en gramos. Calcule la amplitud total, media aritmetica, varianza muestral y desviacion estandar.
tilapias <- c(124, 125, 125, 123, 120, 124, 127, 125, 126, 121)
diff(range(tilapias)) #amplitud total
## [1] 7
mean(tilapias) #media
## [1] 124
var(tilapias) #varianza
## [1] 4.666667
sd (tilapias) #desviacion estandar
## [1] 2.160247