Después de realizar esta práctica serás capaz de:
1. Construir un histograma para una serie de datos utilizando R.
2. Distinguir cuándo un histograma representa una distribución aproximadamente simétrica.
3. Calcular la media, varianza y desviación estándar de una serie de datos utilizando R.
4. Usar el histograma, la media y la desviación estándar para describir una distribución de datos aproximadamente simétrica.
La función que nos permite construir un histograma en R es hist(x), donde x es el vector de valores que representa la serie de datos de interés. Esta función acepta algunos parámetros adicionales como main que permite colocar un título al gráfico, probability que permite graficar las frecuencias absolutas (fijado en FALSE) o las relativas (fijado en TRUE)
Primero generamos el vector con los datos que deseamos resumir. Copie y corra el siguiente código en http://rextester.com/l/r_online_compiler
datos <- c(13.43192, 15.70237, 16.21328, 13.70939, 16.24971, 14.85403, 15.25083, 15.09674, 14.77171, 14.24427, 14.84917, 16.62297, 15.39125, 14.50780, 17.04326, 17.57075, 14.53659, 14.46871, 15.33844, 16.06970, 15.18452, 14.69032, 15.04522, 15.80923, 14.56770, 15.22618, 14.58241, 15.81865, 14.79836, 15.68198, 15.49503, 14.32843, 13.40263, 16.04944, 15.38443, 15.37323, 14.49660, 15.73797, 16.80614, 13.25979, 15.09866, 13.92671, 15.29073, 13.80232, 14.77485, 15.04174, 15.08604, 15.84914, 14.59388, 14.87318, 15.27202, 15.26929, 14.78816, 17.08455, 17.06260, 15.16081, 14.49952, 14.50680, 14.88773, 13.99562, 14.77910, 13.64677, 15.28773, 16.39505, 15.73546, 15.96841, 15.42387, 14.25541, 16.62539, 13.07687, 14.74234, 14.60458, 15.00528, 14.44984, 15.10041, 14.13289, 14.09975, 15.97607, 14.71363, 15.04309, 14.35815, 16.13528, 15.11805, 14.99419, 14.61781, 15.70542, 13.46605, 14.61345, 13.42104, 16.03396, 15.73712, 14.29195, 14.17056, 14.34444, 15.00851, 15.14376, 14.30311, 15.40848, 12.72321, 15.76197)
Luego utilizamos la funcion hist( ) para generar el histograma de los datos. Ejecute el siguiente código. Esto debería generar el histograma para la serie de datos.
hist(datos,probability = TRUE,main = "Histograma para la serie de datos",col = "blue",ylab="Frecuencia Relativa")
¿Qué información nos proporciona el histograma?
Un análisis visual del histograma nos revela que la distribución de los datos es aproximadamente simétrica. No es necesario mencionar que el histograma es unimodal, ya que esta situación será lo más común, y sólo se mencionará esta característica cuando existan dos modas o más.
¿Qué valor es representativo de esta distribución?
Como la distribución de datos es aproximadamente simétrica usaremos la media y desviación estándar para medir en centro y la variabilidad de la serie de datos.En R podemos usar las funciones mean() y sd() para calcular la media y desviación estándar de la serie de datos. La varianza se calcula con la función var() Ejecute el siguente código
mean(datos)
sd(datos)
Finalmente, un análisis más completo,teniendo en cuentas los dos valores anteriores es:
La distribución de los datos es aproximadamente simétrica con una media de 15.03 y una desviación estándar de 0.92
set.seed(1:6)
datos1 <- rexp(100,0.01) # esto genera 100 datos que tienes cierta distribución
datos2 <- rbeta(100,20,3) # esto genera 100 datos con cierta distribución
datos3 <- rnorm(100,10,0.01) #esto genera 100 datos con cierta distribución
datos1
datos2
datos3
Un primer paso para comprender la importancia de un gráfico es caer en la cuenta que los datos en bruto, como los anteriores, proporcionan escasa o nula información. El histograma revela la forma de la distribución de datos, el primer paso para decidier cómo medir el centro ya la variabilidad de los datos.