Determinar medidas de dispersión de datos como edades, sueldos y calificaciones.
Simular muestra de varios conjuntos de datos
Se identifica media de los datos
Se muestran tablas de frecuencias
Se calculan medidas de dispersión, varianza y desviación estándar.
Se visualiza la dispersión de los datos en relación a la media.
Se calcula el coeficiente de variación y se compara con similares conjuntos de datos.
¿Para que sirven las medidas de dispersión?
El reporte de una medida de centralización como la media, mediana y moda sólo da información parcial sobre un conjunto o distribución de datos. Diferentes muestras o poblaciones pueden tener medidas idénticas de centro y aun así diferir una de otra en otras importantes maneras. [@devore2016a].
La imagen siguiente muestra tres conjuntos de datos y los tres tienen media y mediana igual, sin embargo la dispersión es diferentes, es decir cual conjunto de datos se aleja mas de la media.
La primera tiene la cantidad más grande de variabilidad, la tercera tiene la cantidad más pequeña y la segunda es intermedia respecto a las otras dos en este aspecto. [@devore2016].
{width = 400}
La varianza es una medida de variabilidad que utiliza todos los datos. La varianza está basada en la diferencia entre el valor de cada observación (\(x_i\)) y la media \(\bar{x}\) [@anderson2008].
Se identifican las fórmulas para varianza poblacional y muestral, dependiendo de los datos a analizar, si es todas las observaciones de la población y solo una muestra de la misma.
Para efectos de este ejercicio se utiliza mas específicamente la varianza y desviación muestral.
\[ \sigma^2 = \frac{\sum_{i=1}^N(x_i- \mu)^2}{N} \]
siendo \(\mu\) la media poblacional y \(N\) el total de los datos de la población.
\[ S^2 = \frac{\sum_{i=1}^n(x_i- \bar{x})^2}{n-1} \] siendo \(\bar{x}\) la media muestral y \(n\) el total de los datos de la muestra.
Las unidades al cuadrado de la varianza dificultan la comprensión e interpretación intuitiva de los valores numéricos de la varianza.
La desviación estándar se define como la raíz cuadrada positiva de la varianza.
Continuando con la notación adoptada para la varianza muestral y para la varianza poblacional, se emplea \(\varsigma\) para denotar la desviación estándar muestral y \(\sigma\) para denotar la desviación estándar poblacional.
¿Qué se gana con convertir la varianza en la correspondiente desviación estándar?.
Como la desviación estándar es la raíz cuadrada de la varianza, las unidades de la varianza, son al cuadrado, posiblemente dificulta su interpretación, por tanto, la desviación estándar de se interpreta de mejor manera la variabilidad de los datos porque el valor resultante se mide en las mismas unidades que los datos originales. [@anderson2008].
Una interpretación preliminar de la desviación estándar muestral es que es el tamaño de una desviación típica o representativa de la media muestral dentro de la muestra dada.[@devore2016]
\[ \sigma = \sqrt{\sigma^2} \]
\[ S = \sqrt{S^2} \]
En algunas ocasiones se requiere un estadístico descriptivo que indique cuán grande es la desviación estándar en relación con la media. Existe el coeficiente de variación y resuelve ese propósito.
La fórmula del coeficiente de variación indica el grado de dispersión de un conjunto de datos con respecto a la media.
\[ CV = \left(\frac{\sigma}{\bar{x}} \times 100 \right) \text{%} \]
Aqui cargaremos o inicializaremos las librerías que necesitaremos para realizar este caso; utilizaremos la librería fdth para generar tablas de frecuencias, y la librería ggplot2 para elaborar graficos con los diferentes datos que manejaremos.
library(fdth)
##
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
##
## sd, var
library(ggplot2)
Establecemos una semilla (a través de la función set.seed()) la cual nos permite generar un conjunto de datos con los mismos números o elementos, cada vez que se deba obtener una muestra con números aleatorios.
set.seed(20020202)#Para que sea más eficaz, hay que ejecutar este código al momento de generar la muestra para que funcione correctamente.
Ahora generamos los datos que necesitaremos; en este caso crearemos un conjunto de datos con 300 datos diferentes. Utilizaremos dos formas para crear estos datos; la primera sera a través de la función sample()(y llamaremos ese conjunto como Edades_1), y el segundo conjunto lo crearemos con la función de distribución normal rnorm()(y llamaremos al conjunto como Edades_2).
N <- 300 #N contendrá la cantidad de elementos que deseamos
Edades_1 <- sample(x=18:60,size=N,replace=TRUE)
Esto es simplemente para visualizar los elementos dentro de nuestro conjunto Edades_1
Edades_1
## [1] 50 60 46 22 51 25 45 59 23 50 50 33 50 18 46 48 37 48 19 55 50 21 35 57 47
## [26] 60 56 42 40 33 19 51 47 24 19 44 58 36 53 42 23 31 22 23 35 45 40 33 33 27
## [51] 54 20 60 26 45 28 41 32 20 53 53 35 23 31 37 22 56 27 50 25 27 32 33 37 48
## [76] 23 18 37 31 54 55 27 46 42 58 56 58 32 18 22 20 59 41 26 35 20 19 50 33 22
## [101] 23 29 26 23 45 40 45 21 28 55 31 48 49 41 39 44 48 35 34 39 35 37 46 54 25
## [126] 23 34 49 60 40 21 47 59 59 35 27 36 49 39 47 41 35 32 25 49 21 31 20 47 50
## [151] 52 18 45 60 34 59 21 18 57 46 57 18 36 20 29 39 29 44 58 27 51 52 42 29 21
## [176] 21 45 49 48 40 51 48 50 39 24 58 33 28 32 31 51 22 55 32 36 38 47 58 23 33
## [201] 22 54 41 50 57 26 49 25 44 29 25 35 33 27 31 26 28 18 20 43 36 55 56 31 44
## [226] 21 56 21 23 39 48 33 45 60 29 58 58 30 19 35 52 33 30 20 47 46 44 53 33 43
## [251] 24 48 57 38 53 46 55 50 44 57 54 23 37 39 47 19 25 53 18 22 19 28 41 29 22
## [276] 18 37 42 43 48 48 21 24 30 30 24 41 46 40 36 25 45 31 36 50 36 28 20 32 22
Se muestran las tablas de frecuencias del conjunto de datos Edades_1.
En las tablas de frecuencias se determina matemáticamente el número de clases; la opción matemáticamente más consistente es la conocida como regla de Sturges.
La solución de esta ecuación proporciona una regla práctica para obtener el número de clases.
\[ k=1+3.322*log10(N) \]
Siendo k el número de clases
log es la función logarítmica de base 10, log10()
y N el total de la muestra
El rango de clase de acuerdo a Sturges está dada por \[ h=\frac{max(datos) - min(datos)}{k} \] Siendo h el rango de cada clase y max(datos) - min(datos) el rango del total de los datos, es decir la diferencia entre límite superior menos límite inferior.
Existen otras formas de determinar el número de clases a utilizar, algunas más complejas, otras más simples.
Independientemente de la forma de cálculo seleccionada ya se Sturges, Scott o Freedman-Diaconis (FD), lo realmente importante es que la información mostrada en la tabla de frecuencia sea fácil de revisar, que no contenga un número excesivo de clases y que la información que en ella se refleja permita comprender cómo se presentan los datos en la población o de una muestra.
El número de clase de acuerdo par \(N=300\) de acuerdo a Sturges es:
k <- round(1+3.322*log10(N))
k
## [1] 9
La amplitud h1 y h2 para cada conjunto de datos es igual a:
h <- diff(range(Edades_1))/k
h
## [1] 4.666667
Y ahora generamos la tabla de frecuencias respecto al conjunto de datos Edades_1:
TablaF.Edades_1 <- fdt(x=Edades_1, breaks="Sturges")
TablaF.Edades_1
## Class limits f rf rf(%) cf cf(%)
## [17.82,22.1) 45 0.15 15.00 45 15.00
## [22.1,26.38) 29 0.10 9.67 74 24.67
## [26.38,30.65) 24 0.08 8.00 98 32.67
## [30.65,34.93) 31 0.10 10.33 129 43.00
## [34.93,39.21) 34 0.11 11.33 163 54.33
## [39.21,43.49) 21 0.07 7.00 184 61.33
## [43.49,47.77) 32 0.11 10.67 216 72.00
## [47.77,52.04) 37 0.12 12.33 253 84.33
## [52.04,56.32) 22 0.07 7.33 275 91.67
## [56.32,60.6) 25 0.08 8.33 300 100.00
Class limits significa el rango de cada clase
f significa la frecuencia, la suma de f debe ser el total de elementos.
rf significa frecuencia relativa la suma de todas las rf debe ser el 1
rf% significa el valor relativo pero en porcentaje, la suma de rf% debe ser el 100%
cf significa frecuencia acumulada
cf% significa frecuencia porcentual acumulada
A través de la función hist() creamos un histograma que nos mostrará la frecuencia que existe dentro del conjunto de datos Edades_1
hist(Edades_1, breaks = "Sturges")
Para visualizar la dispersión que existen entre los datos del conjunto, crearemos una estructura de datos o un data frame, para asi generar una gráfica que nos represente la dispersión:
Datos.Edades_1 <- data.frame(x=1:length(Edades_1), Edad = Edades_1)#Aqui creamos nuestra tabla estructurada
ggplot(Datos.Edades_1, aes(x=x,y=Edad))+
geom_point() +
geom_hline(yintercept = mean(Edades_1),col='red')+
ggtitle(label="Dispersión de Edades_1",subtitle = paste("Media = ",mean(Edades_1)))
Ahora generaremos la estructura de datos Edades_2 utilizando la función rnorm():
Edades_2 <- round(rnorm(n=N,mean=30,sd=5))
Edades_2
## [1] 29 35 25 33 29 28 31 40 23 36 29 41 26 38 28 32 22 27 28 22 33 34 32 30 21
## [26] 37 30 39 31 33 32 27 28 34 36 32 31 31 32 25 36 26 32 26 17 27 38 35 34 29
## [51] 32 36 26 32 26 28 29 31 31 27 32 25 35 31 35 27 31 28 30 24 37 24 37 26 36
## [76] 23 29 24 36 33 26 27 37 37 37 30 33 20 21 29 29 27 31 31 17 38 30 33 20 29
## [101] 33 40 25 33 18 17 33 25 22 35 29 36 40 30 29 36 30 32 29 32 27 36 34 28 39
## [126] 28 31 43 37 22 26 25 35 25 38 30 37 33 34 27 27 39 35 26 28 26 32 25 36 30
## [151] 45 28 33 28 38 35 21 29 36 37 29 24 34 34 29 25 32 35 30 26 41 29 31 27 24
## [176] 38 37 30 30 37 29 29 24 40 23 27 36 31 24 28 27 26 32 37 33 28 21 19 23 41
## [201] 41 26 27 33 34 32 29 29 29 27 33 22 22 33 22 31 24 25 23 30 34 35 29 27 29
## [226] 32 25 26 30 29 19 35 24 27 33 24 35 34 31 32 29 28 31 30 34 32 27 28 30 30
## [251] 37 28 30 25 33 30 35 31 16 30 30 32 37 25 31 26 27 39 22 37 36 31 24 26 31
## [276] 25 30 31 35 31 28 36 24 32 23 25 29 36 28 22 34 32 34 36 30 26 22 35 32 39
Y ordenamos esos datos (del menor al mayor):
sort(Edades_2)
## [1] 16 17 17 17 18 19 19 20 20 21 21 21 21 22 22 22 22 22 22 22 22 22 22 23 23
## [26] 23 23 23 23 24 24 24 24 24 24 24 24 24 24 24 24 25 25 25 25 25 25 25 25 25
## [51] 25 25 25 25 25 25 26 26 26 26 26 26 26 26 26 26 26 26 26 26 26 26 26 27 27
## [76] 27 27 27 27 27 27 27 27 27 27 27 27 27 27 27 27 27 28 28 28 28 28 28 28 28
## [101] 28 28 28 28 28 28 28 28 28 28 29 29 29 29 29 29 29 29 29 29 29 29 29 29 29
## [126] 29 29 29 29 29 29 29 29 29 29 29 30 30 30 30 30 30 30 30 30 30 30 30 30 30
## [151] 30 30 30 30 30 30 30 30 30 31 31 31 31 31 31 31 31 31 31 31 31 31 31 31 31
## [176] 31 31 31 31 31 31 32 32 32 32 32 32 32 32 32 32 32 32 32 32 32 32 32 32 32
## [201] 32 32 32 33 33 33 33 33 33 33 33 33 33 33 33 33 33 33 33 33 34 34 34 34 34
## [226] 34 34 34 34 34 34 34 34 35 35 35 35 35 35 35 35 35 35 35 35 35 35 35 36 36
## [251] 36 36 36 36 36 36 36 36 36 36 36 36 36 36 37 37 37 37 37 37 37 37 37 37 37
## [276] 37 37 37 37 38 38 38 38 38 38 39 39 39 39 39 40 40 40 40 41 41 41 41 43 45
Generamos una tabla de frecuencias para los datos del conjunto Edades_2, y la mostramos:
TablaF.Edades_2 <- fdt(x=Edades_2,breaks="Sturges")
TablaF.Edades_2
## Class limits f rf rf(%) cf cf(%)
## [15.84,18.801) 5 0.02 1.67 5 1.67
## [18.801,21.762) 8 0.03 2.67 13 4.33
## [21.762,24.723) 28 0.09 9.33 41 13.67
## [24.723,27.684) 51 0.17 17.00 92 30.67
## [27.684,30.645) 67 0.22 22.33 159 53.00
## [30.645,33.606) 61 0.20 20.33 220 73.33
## [33.606,36.567) 44 0.15 14.67 264 88.00
## [36.567,39.528) 26 0.09 8.67 290 96.67
## [39.528,42.489) 8 0.03 2.67 298 99.33
## [42.489,45.45) 2 0.01 0.67 300 100.00
Generamos un histograma que mostrara, de manera gráfica, la frecuencia con respecto a la tabla de arriba:
hist(Edades_2, breaks="Sturges")
Mostramos la dispersión de los datos creados en la tabla de Edades_2, utilizando un data frame que nos permita usar sus columnas como parámetros para crear la gráfica (con la función ggplot()):
#Creamos el data frame con Edades_2
Datos.Edades_2 <- data.frame(x=1:length(Edades_2), Edad=Edades_2)
ggplot(Datos.Edades_2, aes(x=x,y=Edad))+
geom_point() +
geom_hline(yintercept = mean(Edades_2),col='red') +
ggtitle(label="Dispersión de Edades_2", subtitle = paste("Media = ",mean(Edades_2)))
Las medidas de dispersión varianza y desviación estándar miden el valor de dispersión de un conjunto de datos numéricos.
La dispersión significa que tanto los datos están alejados de la media, el valor de la desviación se compara con la media y se interpreta que tanto los valores distan del valor de la media.
Obtenemos la media aritmética de cada uno de nuestros conjuntos de datos, y mostramos el resultado:
Media_Edades_1 <- mean(Edades_1)
Media_Edades_2 <- mean(Edades_2)
Media_Edades_1;Media_Edades_2#Esta es otra forma de mostrar los valores de las diferentes variables
## [1] 37.83333
## [1] 30.17
\[ S^2 = \frac{\sum_{i=1}^n(x_i- \bar{x})^2}{n-1} \] \[ S = \sqrt{S^{2}} \]
Tabla.Varianza.Edades_1 <- data.frame(x = Edades_1, x_media = Media_Edades_1,xi.menos.media=Edades_1-Media_Edades_1,xi.menos.media.cuad=(Edades_1-Media_Edades_1)^2)
Tabla.Varianza.Edades_1
## x x_media xi.menos.media xi.menos.media.cuad
## 1 50 37.83333 12.1666667 148.02777778
## 2 60 37.83333 22.1666667 491.36111111
## 3 46 37.83333 8.1666667 66.69444444
## 4 22 37.83333 -15.8333333 250.69444444
## 5 51 37.83333 13.1666667 173.36111111
## 6 25 37.83333 -12.8333333 164.69444444
## 7 45 37.83333 7.1666667 51.36111111
## 8 59 37.83333 21.1666667 448.02777778
## 9 23 37.83333 -14.8333333 220.02777778
## 10 50 37.83333 12.1666667 148.02777778
## 11 50 37.83333 12.1666667 148.02777778
## 12 33 37.83333 -4.8333333 23.36111111
## 13 50 37.83333 12.1666667 148.02777778
## 14 18 37.83333 -19.8333333 393.36111111
## 15 46 37.83333 8.1666667 66.69444444
## 16 48 37.83333 10.1666667 103.36111111
## 17 37 37.83333 -0.8333333 0.69444444
## 18 48 37.83333 10.1666667 103.36111111
## 19 19 37.83333 -18.8333333 354.69444444
## 20 55 37.83333 17.1666667 294.69444444
## 21 50 37.83333 12.1666667 148.02777778
## 22 21 37.83333 -16.8333333 283.36111111
## 23 35 37.83333 -2.8333333 8.02777778
## 24 57 37.83333 19.1666667 367.36111111
## 25 47 37.83333 9.1666667 84.02777778
## 26 60 37.83333 22.1666667 491.36111111
## 27 56 37.83333 18.1666667 330.02777778
## 28 42 37.83333 4.1666667 17.36111111
## 29 40 37.83333 2.1666667 4.69444444
## 30 33 37.83333 -4.8333333 23.36111111
## 31 19 37.83333 -18.8333333 354.69444444
## 32 51 37.83333 13.1666667 173.36111111
## 33 47 37.83333 9.1666667 84.02777778
## 34 24 37.83333 -13.8333333 191.36111111
## 35 19 37.83333 -18.8333333 354.69444444
## 36 44 37.83333 6.1666667 38.02777778
## 37 58 37.83333 20.1666667 406.69444444
## 38 36 37.83333 -1.8333333 3.36111111
## 39 53 37.83333 15.1666667 230.02777778
## 40 42 37.83333 4.1666667 17.36111111
## 41 23 37.83333 -14.8333333 220.02777778
## 42 31 37.83333 -6.8333333 46.69444444
## 43 22 37.83333 -15.8333333 250.69444444
## 44 23 37.83333 -14.8333333 220.02777778
## 45 35 37.83333 -2.8333333 8.02777778
## 46 45 37.83333 7.1666667 51.36111111
## 47 40 37.83333 2.1666667 4.69444444
## 48 33 37.83333 -4.8333333 23.36111111
## 49 33 37.83333 -4.8333333 23.36111111
## 50 27 37.83333 -10.8333333 117.36111111
## 51 54 37.83333 16.1666667 261.36111111
## 52 20 37.83333 -17.8333333 318.02777778
## 53 60 37.83333 22.1666667 491.36111111
## 54 26 37.83333 -11.8333333 140.02777778
## 55 45 37.83333 7.1666667 51.36111111
## 56 28 37.83333 -9.8333333 96.69444444
## 57 41 37.83333 3.1666667 10.02777778
## 58 32 37.83333 -5.8333333 34.02777778
## 59 20 37.83333 -17.8333333 318.02777778
## 60 53 37.83333 15.1666667 230.02777778
## 61 53 37.83333 15.1666667 230.02777778
## 62 35 37.83333 -2.8333333 8.02777778
## 63 23 37.83333 -14.8333333 220.02777778
## 64 31 37.83333 -6.8333333 46.69444444
## 65 37 37.83333 -0.8333333 0.69444444
## 66 22 37.83333 -15.8333333 250.69444444
## 67 56 37.83333 18.1666667 330.02777778
## 68 27 37.83333 -10.8333333 117.36111111
## 69 50 37.83333 12.1666667 148.02777778
## 70 25 37.83333 -12.8333333 164.69444444
## 71 27 37.83333 -10.8333333 117.36111111
## 72 32 37.83333 -5.8333333 34.02777778
## 73 33 37.83333 -4.8333333 23.36111111
## 74 37 37.83333 -0.8333333 0.69444444
## 75 48 37.83333 10.1666667 103.36111111
## 76 23 37.83333 -14.8333333 220.02777778
## 77 18 37.83333 -19.8333333 393.36111111
## 78 37 37.83333 -0.8333333 0.69444444
## 79 31 37.83333 -6.8333333 46.69444444
## 80 54 37.83333 16.1666667 261.36111111
## 81 55 37.83333 17.1666667 294.69444444
## 82 27 37.83333 -10.8333333 117.36111111
## 83 46 37.83333 8.1666667 66.69444444
## 84 42 37.83333 4.1666667 17.36111111
## 85 58 37.83333 20.1666667 406.69444444
## 86 56 37.83333 18.1666667 330.02777778
## 87 58 37.83333 20.1666667 406.69444444
## 88 32 37.83333 -5.8333333 34.02777778
## 89 18 37.83333 -19.8333333 393.36111111
## 90 22 37.83333 -15.8333333 250.69444444
## 91 20 37.83333 -17.8333333 318.02777778
## 92 59 37.83333 21.1666667 448.02777778
## 93 41 37.83333 3.1666667 10.02777778
## 94 26 37.83333 -11.8333333 140.02777778
## 95 35 37.83333 -2.8333333 8.02777778
## 96 20 37.83333 -17.8333333 318.02777778
## 97 19 37.83333 -18.8333333 354.69444444
## 98 50 37.83333 12.1666667 148.02777778
## 99 33 37.83333 -4.8333333 23.36111111
## 100 22 37.83333 -15.8333333 250.69444444
## 101 23 37.83333 -14.8333333 220.02777778
## 102 29 37.83333 -8.8333333 78.02777778
## 103 26 37.83333 -11.8333333 140.02777778
## 104 23 37.83333 -14.8333333 220.02777778
## 105 45 37.83333 7.1666667 51.36111111
## 106 40 37.83333 2.1666667 4.69444444
## 107 45 37.83333 7.1666667 51.36111111
## 108 21 37.83333 -16.8333333 283.36111111
## 109 28 37.83333 -9.8333333 96.69444444
## 110 55 37.83333 17.1666667 294.69444444
## 111 31 37.83333 -6.8333333 46.69444444
## 112 48 37.83333 10.1666667 103.36111111
## 113 49 37.83333 11.1666667 124.69444444
## 114 41 37.83333 3.1666667 10.02777778
## 115 39 37.83333 1.1666667 1.36111111
## 116 44 37.83333 6.1666667 38.02777778
## 117 48 37.83333 10.1666667 103.36111111
## 118 35 37.83333 -2.8333333 8.02777778
## 119 34 37.83333 -3.8333333 14.69444444
## 120 39 37.83333 1.1666667 1.36111111
## 121 35 37.83333 -2.8333333 8.02777778
## 122 37 37.83333 -0.8333333 0.69444444
## 123 46 37.83333 8.1666667 66.69444444
## 124 54 37.83333 16.1666667 261.36111111
## 125 25 37.83333 -12.8333333 164.69444444
## 126 23 37.83333 -14.8333333 220.02777778
## 127 34 37.83333 -3.8333333 14.69444444
## 128 49 37.83333 11.1666667 124.69444444
## 129 60 37.83333 22.1666667 491.36111111
## 130 40 37.83333 2.1666667 4.69444444
## 131 21 37.83333 -16.8333333 283.36111111
## 132 47 37.83333 9.1666667 84.02777778
## 133 59 37.83333 21.1666667 448.02777778
## 134 59 37.83333 21.1666667 448.02777778
## 135 35 37.83333 -2.8333333 8.02777778
## 136 27 37.83333 -10.8333333 117.36111111
## 137 36 37.83333 -1.8333333 3.36111111
## 138 49 37.83333 11.1666667 124.69444444
## 139 39 37.83333 1.1666667 1.36111111
## 140 47 37.83333 9.1666667 84.02777778
## 141 41 37.83333 3.1666667 10.02777778
## 142 35 37.83333 -2.8333333 8.02777778
## 143 32 37.83333 -5.8333333 34.02777778
## 144 25 37.83333 -12.8333333 164.69444444
## 145 49 37.83333 11.1666667 124.69444444
## 146 21 37.83333 -16.8333333 283.36111111
## 147 31 37.83333 -6.8333333 46.69444444
## 148 20 37.83333 -17.8333333 318.02777778
## 149 47 37.83333 9.1666667 84.02777778
## 150 50 37.83333 12.1666667 148.02777778
## 151 52 37.83333 14.1666667 200.69444444
## 152 18 37.83333 -19.8333333 393.36111111
## 153 45 37.83333 7.1666667 51.36111111
## 154 60 37.83333 22.1666667 491.36111111
## 155 34 37.83333 -3.8333333 14.69444444
## 156 59 37.83333 21.1666667 448.02777778
## 157 21 37.83333 -16.8333333 283.36111111
## 158 18 37.83333 -19.8333333 393.36111111
## 159 57 37.83333 19.1666667 367.36111111
## 160 46 37.83333 8.1666667 66.69444444
## 161 57 37.83333 19.1666667 367.36111111
## 162 18 37.83333 -19.8333333 393.36111111
## 163 36 37.83333 -1.8333333 3.36111111
## 164 20 37.83333 -17.8333333 318.02777778
## 165 29 37.83333 -8.8333333 78.02777778
## 166 39 37.83333 1.1666667 1.36111111
## 167 29 37.83333 -8.8333333 78.02777778
## 168 44 37.83333 6.1666667 38.02777778
## 169 58 37.83333 20.1666667 406.69444444
## 170 27 37.83333 -10.8333333 117.36111111
## 171 51 37.83333 13.1666667 173.36111111
## 172 52 37.83333 14.1666667 200.69444444
## 173 42 37.83333 4.1666667 17.36111111
## 174 29 37.83333 -8.8333333 78.02777778
## 175 21 37.83333 -16.8333333 283.36111111
## 176 21 37.83333 -16.8333333 283.36111111
## 177 45 37.83333 7.1666667 51.36111111
## 178 49 37.83333 11.1666667 124.69444444
## 179 48 37.83333 10.1666667 103.36111111
## 180 40 37.83333 2.1666667 4.69444444
## 181 51 37.83333 13.1666667 173.36111111
## 182 48 37.83333 10.1666667 103.36111111
## 183 50 37.83333 12.1666667 148.02777778
## 184 39 37.83333 1.1666667 1.36111111
## 185 24 37.83333 -13.8333333 191.36111111
## 186 58 37.83333 20.1666667 406.69444444
## 187 33 37.83333 -4.8333333 23.36111111
## 188 28 37.83333 -9.8333333 96.69444444
## 189 32 37.83333 -5.8333333 34.02777778
## 190 31 37.83333 -6.8333333 46.69444444
## 191 51 37.83333 13.1666667 173.36111111
## 192 22 37.83333 -15.8333333 250.69444444
## 193 55 37.83333 17.1666667 294.69444444
## 194 32 37.83333 -5.8333333 34.02777778
## 195 36 37.83333 -1.8333333 3.36111111
## 196 38 37.83333 0.1666667 0.02777778
## 197 47 37.83333 9.1666667 84.02777778
## 198 58 37.83333 20.1666667 406.69444444
## 199 23 37.83333 -14.8333333 220.02777778
## 200 33 37.83333 -4.8333333 23.36111111
## 201 22 37.83333 -15.8333333 250.69444444
## 202 54 37.83333 16.1666667 261.36111111
## 203 41 37.83333 3.1666667 10.02777778
## 204 50 37.83333 12.1666667 148.02777778
## 205 57 37.83333 19.1666667 367.36111111
## 206 26 37.83333 -11.8333333 140.02777778
## 207 49 37.83333 11.1666667 124.69444444
## 208 25 37.83333 -12.8333333 164.69444444
## 209 44 37.83333 6.1666667 38.02777778
## 210 29 37.83333 -8.8333333 78.02777778
## 211 25 37.83333 -12.8333333 164.69444444
## 212 35 37.83333 -2.8333333 8.02777778
## 213 33 37.83333 -4.8333333 23.36111111
## 214 27 37.83333 -10.8333333 117.36111111
## 215 31 37.83333 -6.8333333 46.69444444
## 216 26 37.83333 -11.8333333 140.02777778
## 217 28 37.83333 -9.8333333 96.69444444
## 218 18 37.83333 -19.8333333 393.36111111
## 219 20 37.83333 -17.8333333 318.02777778
## 220 43 37.83333 5.1666667 26.69444444
## 221 36 37.83333 -1.8333333 3.36111111
## 222 55 37.83333 17.1666667 294.69444444
## 223 56 37.83333 18.1666667 330.02777778
## 224 31 37.83333 -6.8333333 46.69444444
## 225 44 37.83333 6.1666667 38.02777778
## 226 21 37.83333 -16.8333333 283.36111111
## 227 56 37.83333 18.1666667 330.02777778
## 228 21 37.83333 -16.8333333 283.36111111
## 229 23 37.83333 -14.8333333 220.02777778
## 230 39 37.83333 1.1666667 1.36111111
## 231 48 37.83333 10.1666667 103.36111111
## 232 33 37.83333 -4.8333333 23.36111111
## 233 45 37.83333 7.1666667 51.36111111
## 234 60 37.83333 22.1666667 491.36111111
## 235 29 37.83333 -8.8333333 78.02777778
## 236 58 37.83333 20.1666667 406.69444444
## 237 58 37.83333 20.1666667 406.69444444
## 238 30 37.83333 -7.8333333 61.36111111
## 239 19 37.83333 -18.8333333 354.69444444
## 240 35 37.83333 -2.8333333 8.02777778
## 241 52 37.83333 14.1666667 200.69444444
## 242 33 37.83333 -4.8333333 23.36111111
## 243 30 37.83333 -7.8333333 61.36111111
## 244 20 37.83333 -17.8333333 318.02777778
## 245 47 37.83333 9.1666667 84.02777778
## 246 46 37.83333 8.1666667 66.69444444
## 247 44 37.83333 6.1666667 38.02777778
## 248 53 37.83333 15.1666667 230.02777778
## 249 33 37.83333 -4.8333333 23.36111111
## 250 43 37.83333 5.1666667 26.69444444
## 251 24 37.83333 -13.8333333 191.36111111
## 252 48 37.83333 10.1666667 103.36111111
## 253 57 37.83333 19.1666667 367.36111111
## 254 38 37.83333 0.1666667 0.02777778
## 255 53 37.83333 15.1666667 230.02777778
## 256 46 37.83333 8.1666667 66.69444444
## 257 55 37.83333 17.1666667 294.69444444
## 258 50 37.83333 12.1666667 148.02777778
## 259 44 37.83333 6.1666667 38.02777778
## 260 57 37.83333 19.1666667 367.36111111
## 261 54 37.83333 16.1666667 261.36111111
## 262 23 37.83333 -14.8333333 220.02777778
## 263 37 37.83333 -0.8333333 0.69444444
## 264 39 37.83333 1.1666667 1.36111111
## 265 47 37.83333 9.1666667 84.02777778
## 266 19 37.83333 -18.8333333 354.69444444
## 267 25 37.83333 -12.8333333 164.69444444
## 268 53 37.83333 15.1666667 230.02777778
## 269 18 37.83333 -19.8333333 393.36111111
## 270 22 37.83333 -15.8333333 250.69444444
## 271 19 37.83333 -18.8333333 354.69444444
## 272 28 37.83333 -9.8333333 96.69444444
## 273 41 37.83333 3.1666667 10.02777778
## 274 29 37.83333 -8.8333333 78.02777778
## 275 22 37.83333 -15.8333333 250.69444444
## 276 18 37.83333 -19.8333333 393.36111111
## 277 37 37.83333 -0.8333333 0.69444444
## 278 42 37.83333 4.1666667 17.36111111
## 279 43 37.83333 5.1666667 26.69444444
## 280 48 37.83333 10.1666667 103.36111111
## 281 48 37.83333 10.1666667 103.36111111
## 282 21 37.83333 -16.8333333 283.36111111
## 283 24 37.83333 -13.8333333 191.36111111
## 284 30 37.83333 -7.8333333 61.36111111
## 285 30 37.83333 -7.8333333 61.36111111
## 286 24 37.83333 -13.8333333 191.36111111
## 287 41 37.83333 3.1666667 10.02777778
## 288 46 37.83333 8.1666667 66.69444444
## 289 40 37.83333 2.1666667 4.69444444
## 290 36 37.83333 -1.8333333 3.36111111
## 291 25 37.83333 -12.8333333 164.69444444
## 292 45 37.83333 7.1666667 51.36111111
## 293 31 37.83333 -6.8333333 46.69444444
## 294 36 37.83333 -1.8333333 3.36111111
## 295 50 37.83333 12.1666667 148.02777778
## 296 36 37.83333 -1.8333333 3.36111111
## 297 28 37.83333 -9.8333333 96.69444444
## 298 20 37.83333 -17.8333333 318.02777778
## 299 32 37.83333 -5.8333333 34.02777778
## 300 22 37.83333 -15.8333333 250.69444444
Ahora se realiza la suma de la última columna (xi.media.cuad) para poder determinar la varianza de los datos(En este caso del conjunto de Edades_1):
N <- length(Edades_1)
Suma <- sum(Tabla.Varianza.Edades_1$xi.menos.media.cuad)
Suma
## [1] 46999.67
Varianza <- Suma/(N-1)
Varianza
## [1] 157.1895
Nota: También es posible obtener la varianza y la desviación estándar a través de las funciones var() y sd() respectivamente:
Varianza_Edades_1 <- var(Edades_1)
Varianza_Edades_1
## [1] 157.1895
Varianza_Edaes_2 <- var(Edades_2)
Varianza_Edaes_2
## [1] 27.12485
Desv_Est_Edades_1 <- sd(Edades_1)
Desv_Est_Edades_1
## [1] 12.53752
Desv_Est_Edades_2 <- sd(Edades_2)
Desv_Est_Edades_2
## [1] 5.208152
El coeficiente de variación (CV) es un estadístico que permite comparar entre dos o más conjuntos de datos para determinar cuál tiene una dispersión mayor o menor.
Al identificar el CV de un conjunto de datos y compararlo con otro CV con datos similares, se puede determinar cuál de los datos tiene mayor o menor dispersión y se puede concluir en cual es estos están más dispersos sus datos, es decir, cuál de ellos se aleja más o menos de la media (según sea el caso).
Para determinar el coeficiente de variación se establece la división de la desviación estándar entre la media del conjunto de datos.
\[ CV = \frac{\sigma}{\bar{x}} \] A manera de código quedaria como:
CV_Edades_1 <- Desv_Est_Edades_1/Media_Edades_1
CV_Edades_1
## [1] 0.3313883
CV_Edades_2 <- Desv_Est_Edades_2/Media_Edades_2
CV_Edades_2
## [1] 0.1726269
¿Qué representan las tablas de frecuencias para los datos Edades?
Las tablas de frecuencia representan las clases y la frecuencias de casos de cada una de las clases, permiten observar los valores relativos y porcentuales de las frecuencias.
Con respecto a Edades_1 existe un 13.67% de valores que están en un rango o intervalo entre 34.93 y 39.21.
En relación a Edades_2 existe una cantidad de valores entre 31.626 y 35.082 que representan el 24.33%.
¿Cuáles son los valores media y desviación de los conjuntos de datos Edades?
Con respecto a los valores estadísticos del conjunto de datos Edades_1, el valor de la media es de: 37.8333333, la desviación es de: 12.5375245.
Con respecto a los valores estadísticos del conjunto de datos Edades_2, el valor la media es de: 30.17, y la desviación es de: 5.2081522.
¿Cuáles son los valores de coeficiente de variación para los conjuntos de datos Edades y que representan?
El coeficiente de variación de Edades_1 es de: 0.3313883 y el CV de Edades_2 es de: 0.1726269.
Existe mayor dispersión en los valores del conjunto de datos Edades_1 con respecto a Edades_2 por tener ligeramente mayor valor en su coeficiente de variación.