OBJETIVO

Determinar medidas de dispersión de datos como edades, sueldos y calificaciones.

DESCRIPCION

MARCO TEORICO

¿Para que sirven las medidas de dispersión?

El reporte de una medida de centralización como la media, mediana y moda sólo da información parcial sobre un conjunto o distribución de datos. Diferentes muestras o poblaciones pueden tener medidas idénticas de centro y aun así diferir una de otra en otras importantes maneras.

La imagen siguiente muestra tres conjuntos de datos y los tres tienen media y mediana igual, sin embargo la dispersión es diferentes, es decir cual conjunto de datos se aleja mas de la media.

La primera tiene la cantidad más grande de variabilidad, la tercera tiene la cantidad más pequeña y la segunda es intermedia respecto a las otras dos en este aspecto.

DESARROLLO

LIBRERIAS

library(fdth)
## 
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
## 
##     sd, var
library(ggplot2)

DATOS

datos <- c(27, 30, 22, 23, 20, 21, 25, 
           20, 18, 27, 19, 26, 30, 24)

datos
##  [1] 27 30 22 23 20 21 25 20 18 27 19 26 30 24

VARIANZA A DETALLE

tabla.varianza <- data.frame(xi = datos, 
    media = mean(datos),
    xi.menos.media = datos - mean(datos),
    xi.menos.media.cuad = (datos - mean(datos))^2)

tabla.varianza
##    xi    media xi.menos.media xi.menos.media.cuad
## 1  27 23.71429      3.2857143         10.79591837
## 2  30 23.71429      6.2857143         39.51020408
## 3  22 23.71429     -1.7142857          2.93877551
## 4  23 23.71429     -0.7142857          0.51020408
## 5  20 23.71429     -3.7142857         13.79591837
## 6  21 23.71429     -2.7142857          7.36734694
## 7  25 23.71429      1.2857143          1.65306122
## 8  20 23.71429     -3.7142857         13.79591837
## 9  18 23.71429     -5.7142857         32.65306122
## 10 27 23.71429      3.2857143         10.79591837
## 11 19 23.71429     -4.7142857         22.22448980
## 12 26 23.71429      2.2857143          5.22448980
## 13 30 23.71429      6.2857143         39.51020408
## 14 24 23.71429      0.2857143          0.08163265

tabla.varianza

VARIANZA

varianza <- var(datos)

varianza
## [1] 15.45055

DESVIASION ESTANDAR

desv.std <- sqrt(varianza)

desv.std
## [1] 3.930719

COEFICIENTE DE VARIACION

coeficiente <- desv.std/median(datos)*100

coeficiente
## [1] 16.72646

HISTOGRAMA DE LOS DATOS

hist(datos, breaks = "Sturges" ) 

INTERPRETACION

¿Qué representan las tablas de frecuencias para los datos?

Las medidas de dispersión (también llamadas variabilidad, dispersión o propagación) es el grado en que una distribución se estira o se comprime. Ejemplos comunes de medidas de dispersión estadística son la varianza, la desviación estándar.

Las tablas de frecuencia representan las clases y la frecuencias de casos de cada una de las clases, permiten observar los valores relativos y porcentuales de las frecuencias.

La desviación estándar es la medida de dispersión más común, que indica qué tan dispersos están los datos con respecto a la media. Mientras mayor sea la desviación estándar, mayor será la dispersión de los datos.

La varianza es una medida de dispersión que representa la variabilidad de una serie de datos respecto a su media. Formalmente se calcula como la suma de los residuos al cuadrado divididos entre el total de observaciones.