Objetivos de la práctica:

Después de realizar esta práctica serás capaz de:
1. Construir un histograma para una serie de datos sesgada utilizando R.
2. Distinguir cuándo un histograma representa una distribución sesgada.
3. Calcular la mediana y el IQR de una serie de datos utilizando R.
4. Usar el histograma, la mediana y el IQR para describir una distribución de datos sesgada.

Caso de una distribución sesgada

En el caso de una distribución sesgada la media y desviación estándar no resultan ser buenas medidas del centro y de la variabilidad. Como se explica en las lecturas, en este caso reportaremos la mediana y el IQR como medidas de tendencia central y variabilidad.
Primero generamos el vector con los datos que deseamos resumir. Copie y corra el siguiente código en http://rextester.com/l/r_online_compiler

set.seed(1:5)
datos1 <- rexp(100,0.01)
hist(datos1,main = "Distribución de datos sesgada",probability = TRUE, ylab="Frecuencia Relativa",col="LightSalmon")

El examen visual muestra que la distribución es sesgada. En este caso usaremos la función summary( ) que nos proporcinará el valor de la mediana y de los cuartiles. Ejecute el siguiente código:

summary(datos1)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   3.727  35.110  80.880 103.100 126.300 483.300

Los resultados que esta función devuelve son:

  • el valor mínimo (Min)
  • cuartil 1 (1st. Qu.)
  • mediana (Median)
  • media (Mean)
  • cuartil 3 (3rd. Qu.)
  • el valor máximo (Max.)

Recuerde que el IQR se calcula como \(Q=IQR=Q_{3}-Q_{1}=126.3 - 35.11 = 91.19\) por lo que un resumen de la distribución de datos sería el siguiente:
La distribución de los datos presenta un sesgo pronunciado a la derecha. Un valor representativo de la serie de datos es 80.88. El 50% central de los datos se dispersa en un intervalo de 91.19 puntos porcentuales.
_________________
Nota: R también dispone de la función fivenum() que devuelve Min, Q1, Q2, Q3 y Max en ese orden.

fivenum(datos1)
## [1]   3.726853  35.037942  80.876958 127.268350 483.281274

Como puede ver existen leves diferencias en los valores calculados pero que resultan insignificantes, de manera que podemos usar cualquiera de las dos funciones.

Ejercicio

Describa las siguientes series de datos:

4.22, 5.53, 5.11, 4.75, 6.30, 5.20, 5.89, 5.70, 4.31, 4.45, 5.04, 3.99, 5.51, 3.86, 6.45, 4.55, 6.49, 4.63, 4.13, 5.02, 5.02, 3.50, 5.94, 4.00, 5.30, 5.44, 5.12, 4.89, 5.18, 4.05, 4.29, 4.01, 6.41, 6.33, 5.23
0.22, 0.73, 0.51, 0.04, 0.36, 0.11, 0.31, 0.37, 0.52, 0.11, 0.62, 0.21, 0.15, 0.39, 0.19, 1.53, 0.08, 0.17, 0.20, 0.14, 0.30, 0.13, 0.22, 0.35, 0.51, 0.36, 0.44, 0.81, 0.19, 0.02, 0.03, 0.92, 0.20, 0.16, 1.15, 0.24, 0.29