Determinar medidas de dispersión de datos como edades, sueldos y calificaciones.
Simular muestra de varios conjuntos de datos
Se identifica media de los datos
Se muestran tablas de frecuencias
Se calculan medidas de dispersión, varianza y desviación estándar.
Se visualiza la dispersión de los datos en relación a la media.
Se calcula el coeficiente de variación y se compara con similares conjuntos de datos.
¿Para que sirven las medidas de dispersión?
El reporte de una medida de centralización como la media, mediana y moda sólo da información parcial sobre un conjunto o distribución de datos. Diferentes muestras o poblaciones pueden tener medidas idénticas de centro y aun así diferir una de otra en otras importantes maneras. [@devore2016].
La imagen siguiente muestra tres conjuntos de datos y los tres tienen media y mediana igual, sin embargo la dispersión es diferentes, es decir cual conjunto de datos se aleja mas de la media.
La primera tiene la cantidad más grande de variabilidad, la tercera tiene la cantidad más pequeña y la segunda es intermedia respecto a las otras dos en este aspecto.
La varianza es una medida de variabilidad que utiliza todos los datos. La varianza está basada en la diferencia entre el valor de cada observación (\(x_i\)) y la media \(\bar{x}\) [@anderson2008].
Se identifican las fórmulas para varianza poblacional y muestral, dependiendo de los datos a analizar, si es todas las observaciones de la población y solo una muestra de la misma.
Para efectos de este ejercicio se utiliza mas específicamente la varianza y desviación muestral.
\[ \sigma^2 = \frac{\sum_{i=1}^N(x_i- \mu)^2}{N} \]
siendo \(\mu\) la media poblacional y \(N\) el total de los datos de la población.
\[ S^2 = \frac{\sum_{i=1}^n(x_i- \bar{x})^2}{n-1} \]
siendo \(\bar{x}\) la media muestral y \(n\) el total de los datos de la muestra.
Las unidades al cuadrado de la varianza dificultan la comprensión e interpretación intuitiva de los valores numéricos de la varianza.
La desviación estándar se define como la raíz cuadrada positiva de la varianza.
Continuando con la notación adoptada para la varianza muestral y para la varianza poblacional, se emplea \(\varsigma\) para denotar la desviación estándar muestral y \(\sigma\) para denotar la desviación estándar poblacional.
¿Qué se gana con convertir la varianza en la correspondiente desviación estándar?.
Como la desviación estándar es la raíz cuadrada de la varianza, las unidades de la varianza, son al cuadrado, posiblemente dificulta su interpretación, por tanto, la desviación estándar de se interpreta de mejor manera la variabilidad de los datos porque el valor resultante se mide en las mismas unidades que los datos originales. [@anderson2008].
Una interpretación preliminar de la desviación estándar muestral es que es el tamaño de una desviación típica o representativa de la media muestral dentro de la muestra dada.[@devore2016]
\[ \sigma = \sqrt{\sigma^2} \]
\[ S = \sqrt{S^2} \]
En algunas ocasiones se requiere un estadístico descriptivo que indique cuán grande es la desviación estándar en relación con la media. Existe el coeficiente de variación y resuelve ese propósito.
La fórmula del coeficiente de variación indica el grado de dispersión de un conjunto de datos con respecto a la media.
\[ CV = \left(\frac{\sigma}{\bar{x}} \times 100 \right) \text{%} \]
Instalar librerías anticipadamente con install.packages(“fdth”)
library(fdth) # Para tablas de frecuencias
library(ggplot2) # Para gráficos
Se establece valor de semilla para que se generen los mismos datos.
set.seed(2023)
Se generan 250 edades en dos conjuntos de datos diferentes.
edades1 se genera con función de aleatoriedad sample()
edades2 se genera con la función de distribución normal rnorm().
n <- 250
edades1 <- sample(x = 17:55,size = n,replace = TRUE )
Se identifican los datos edades1
edades1
## [1] 32 24 42 50 17 45 33 21 24 50 19 31 20 48 21 40 25 50 54 37 55 46 55 47 46
## [26] 49 22 20 22 22 34 50 51 40 23 48 49 52 33 48 53 35 48 44 42 31 37 28 28 47
## [51] 44 25 38 43 32 36 48 19 47 36 36 33 26 45 25 22 26 48 54 33 48 52 52 25 34
## [76] 25 43 19 39 40 18 35 40 43 39 39 28 21 33 28 33 54 31 25 34 48 40 34 20 52
## [101] 23 33 21 28 52 32 47 26 40 22 43 44 18 19 53 23 54 21 42 30 51 41 32 46 37
## [126] 18 21 40 31 19 21 44 30 26 42 19 48 37 49 52 21 27 24 47 34 34 43 27 38 19
## [151] 37 31 44 45 49 51 33 48 20 52 44 35 40 33 53 24 26 53 29 54 32 52 20 31 18
## [176] 32 37 23 37 22 47 42 48 48 49 52 26 40 30 54 35 55 23 33 52 18 43 20 51 29
## [201] 43 23 39 17 55 42 46 40 45 47 23 44 19 21 45 54 26 33 26 39 22 23 52 17 39
## [226] 46 55 55 40 52 41 51 31 21 49 20 32 36 53 43 48 23 50 32 43 20 55 35 50 52
Se muestran las tablas de frecuencias del conjunto de datos edades1.
En las tablas de frecuencias se determina matemáticamente el número de clases, La opción matemáticamente más consistente es la conocida como regla de Sturges.
La solución de esta ecuación proporciona una regla práctica para obtener el número de clases.
\[ k=1+3.322*log2(n) \]
Siendo k el número de clases
log es la función logarítmica de base 10, log2()
y n el total de la muestra
El rango de clase de acuerdo a Sturges está dada por \[ h=\frac{max(datos) - min(datos)}{k} \]Siendo h el rango de cada clase y max(datos) - min(datos) el rango del total de los datos, es decir la diferencia entre límite superior menos límite inferior.
Existen otras formas de determinar el número de clases a utilizar, algunas más complejas, otras más simples.
Independientemente de la forma de cálculo seleccionada ya se Sturges, Scott o Freedman-Diaconis (FD), lo realmente importante es que la información mostrada en la tabla de frecuencia sea fácil de revisar, que no contenga un número excesivo de clases y que la información que en ella se refleja permita comprender cómo se presentan los datos en la población o de una muestra.
El número de clase de acuerdo par \(n=250\) de acuerdo a Sturges es:
k <- round(1+3.322 * log10(n))
k
## [1] 9
La amplitud h1 y h2 para cada conjunto de datos es igual a:
h = diff(range(edades1)) / k
h
## [1] 4.222222
tabla.edades1 <- fdt(x = edades1, breaks="Sturges")
tabla.edades1
## Class limits f rf rf(%) cf cf(%)
## [16.83,21.132) 34 0.14 13.6 34 13.6
## [21.132,25.434) 26 0.10 10.4 60 24.0
## [25.434,29.737) 17 0.07 6.8 77 30.8
## [29.737,34.039) 35 0.14 14.0 112 44.8
## [34.039,38.341) 18 0.07 7.2 130 52.0
## [38.341,42.643) 25 0.10 10.0 155 62.0
## [42.643,46.946) 26 0.10 10.4 181 72.4
## [46.946,51.248) 37 0.15 14.8 218 87.2
## [51.248,55.55) 32 0.13 12.8 250 100.0
Class limits significa el rango de cada clase
f significa la frecuencia, la suma de f debe ser el total de elementos.
rf significa frecuencia relativa la suma de todas las rf debe ser el 1
rf% significa el valor relativo pero en porcentaje, la suma de rf% debe ser el 100%
cf significa frecuencia acumulada
cf% significa frecuencia porcentual acumulada
hist(edades1, breaks = "Sturges" )
datos.edades1 <- data.frame(x = 1:length(edades1), edad= edades1)
ggplot(datos.edades1, aes(x=x, y=edad))+
geom_point() +
geom_hline(yintercept = mean(edades1), col='red') +
ggtitle(label = "Dispersión de edades1", subtitle = paste("media = ", mean(edades1)))
edades2 <- round(rnorm(n = n, mean = 30, sd = 5))
Se identifican los datos edades2
sort(edades2)
## [1] 14 18 19 20 21 22 22 22 22 22 22 22 22 22 22 23 23 23 23 23 23 23 23 23 23
## [26] 24 24 24 24 24 24 24 24 24 24 24 24 24 24 25 25 25 25 25 25 25 25 25 25 25
## [51] 25 26 26 26 26 26 26 26 26 26 26 26 26 26 26 26 26 27 27 27 27 27 27 27 27
## [76] 27 27 27 27 27 27 27 27 27 27 27 27 27 27 27 27 28 28 28 28 28 28 28 28 28
## [101] 28 28 28 28 28 28 28 28 28 28 28 29 29 29 29 29 29 29 29 29 29 29 29 29 29
## [126] 29 29 30 30 30 30 30 30 30 30 30 30 30 30 30 30 30 30 30 30 31 31 31 31 31
## [151] 31 31 31 31 31 31 31 31 31 31 31 31 31 31 31 31 31 31 32 32 32 32 32 32 32
## [176] 32 32 32 32 32 32 32 32 32 32 32 32 32 33 33 33 33 33 33 33 33 33 33 33 33
## [201] 33 33 33 33 34 34 34 34 34 34 34 34 34 34 34 34 34 35 35 35 35 35 35 35 35
## [226] 35 36 36 36 36 36 36 36 37 37 37 37 37 37 37 37 37 38 38 39 40 40 40 42 53
Se muestran las tablas de frecuencias del conjunto de datos edades2.
tabla.edades2 <- fdt(x = edades2, breaks="Sturges")
tabla.edades2
## Class limits f rf rf(%) cf cf(%)
## [13.86,18.268) 2 0.01 0.8 2 0.8
## [18.268,22.676) 13 0.05 5.2 15 6.0
## [22.676,27.083) 76 0.30 30.4 91 36.4
## [27.083,31.491) 77 0.31 30.8 168 67.2
## [31.491,35.899) 58 0.23 23.2 226 90.4
## [35.899,40.307) 22 0.09 8.8 248 99.2
## [40.307,44.714) 1 0.00 0.4 249 99.6
## [44.714,49.122) 0 0.00 0.0 249 99.6
## [49.122,53.53) 1 0.00 0.4 250 100.0
hist(edades2, breaks = "Sturges" )
datos.edades2 <- data.frame(x = 1:length(edades2), edad= edades2)
ggplot(datos.edades2, aes(x=x, y=edad))+
geom_point() +
geom_hline(yintercept = mean(edades2), col='red') +
ggtitle(label = "Dispersión de edades2", subtitle = paste("media = ", mean(edades2)))
Las medidas de dispersión varianza y desviación estándar miden el valor de dispersión de un conjunto de datos numéricos.
La dispersión significa que tanto los datos están alejados de la media, el valor de la desviación se compara con la media y se interpreta que tanto los valores distan del valor de la media.
media_edades1 <- mean(edades1)
media_edades2 <- mean(edades2)
media_edades1; media_edades2
## [1] 36.712
## [1] 29.436
\[ S^2 = \frac{\sum_{i=1}^n(x_i- \bar{x})^2}{n-1} \]
\[ S = \sqrt{S^{2}} \]
tabla.varianza.edades1 <- data.frame(x = edades1,
x_media = media_edades1,
xi.menos.media = edades1 - media_edades1,
xi.menos.media.cuad = (edades1 - media_edades1)^2)
tabla.varianza.edades1
## x x_media xi.menos.media xi.menos.media.cuad
## 1 32 36.712 -4.712 22.202944
## 2 24 36.712 -12.712 161.594944
## 3 42 36.712 5.288 27.962944
## 4 50 36.712 13.288 176.570944
## 5 17 36.712 -19.712 388.562944
## 6 45 36.712 8.288 68.690944
## 7 33 36.712 -3.712 13.778944
## 8 21 36.712 -15.712 246.866944
## 9 24 36.712 -12.712 161.594944
## 10 50 36.712 13.288 176.570944
## 11 19 36.712 -17.712 313.714944
## 12 31 36.712 -5.712 32.626944
## 13 20 36.712 -16.712 279.290944
## 14 48 36.712 11.288 127.418944
## 15 21 36.712 -15.712 246.866944
## 16 40 36.712 3.288 10.810944
## 17 25 36.712 -11.712 137.170944
## 18 50 36.712 13.288 176.570944
## 19 54 36.712 17.288 298.874944
## 20 37 36.712 0.288 0.082944
## 21 55 36.712 18.288 334.450944
## 22 46 36.712 9.288 86.266944
## 23 55 36.712 18.288 334.450944
## 24 47 36.712 10.288 105.842944
## 25 46 36.712 9.288 86.266944
## 26 49 36.712 12.288 150.994944
## 27 22 36.712 -14.712 216.442944
## 28 20 36.712 -16.712 279.290944
## 29 22 36.712 -14.712 216.442944
## 30 22 36.712 -14.712 216.442944
## 31 34 36.712 -2.712 7.354944
## 32 50 36.712 13.288 176.570944
## 33 51 36.712 14.288 204.146944
## 34 40 36.712 3.288 10.810944
## 35 23 36.712 -13.712 188.018944
## 36 48 36.712 11.288 127.418944
## 37 49 36.712 12.288 150.994944
## 38 52 36.712 15.288 233.722944
## 39 33 36.712 -3.712 13.778944
## 40 48 36.712 11.288 127.418944
## 41 53 36.712 16.288 265.298944
## 42 35 36.712 -1.712 2.930944
## 43 48 36.712 11.288 127.418944
## 44 44 36.712 7.288 53.114944
## 45 42 36.712 5.288 27.962944
## 46 31 36.712 -5.712 32.626944
## 47 37 36.712 0.288 0.082944
## 48 28 36.712 -8.712 75.898944
## 49 28 36.712 -8.712 75.898944
## 50 47 36.712 10.288 105.842944
## 51 44 36.712 7.288 53.114944
## 52 25 36.712 -11.712 137.170944
## 53 38 36.712 1.288 1.658944
## 54 43 36.712 6.288 39.538944
## 55 32 36.712 -4.712 22.202944
## 56 36 36.712 -0.712 0.506944
## 57 48 36.712 11.288 127.418944
## 58 19 36.712 -17.712 313.714944
## 59 47 36.712 10.288 105.842944
## 60 36 36.712 -0.712 0.506944
## 61 36 36.712 -0.712 0.506944
## 62 33 36.712 -3.712 13.778944
## 63 26 36.712 -10.712 114.746944
## 64 45 36.712 8.288 68.690944
## 65 25 36.712 -11.712 137.170944
## 66 22 36.712 -14.712 216.442944
## 67 26 36.712 -10.712 114.746944
## 68 48 36.712 11.288 127.418944
## 69 54 36.712 17.288 298.874944
## 70 33 36.712 -3.712 13.778944
## 71 48 36.712 11.288 127.418944
## 72 52 36.712 15.288 233.722944
## 73 52 36.712 15.288 233.722944
## 74 25 36.712 -11.712 137.170944
## 75 34 36.712 -2.712 7.354944
## 76 25 36.712 -11.712 137.170944
## 77 43 36.712 6.288 39.538944
## 78 19 36.712 -17.712 313.714944
## 79 39 36.712 2.288 5.234944
## 80 40 36.712 3.288 10.810944
## 81 18 36.712 -18.712 350.138944
## 82 35 36.712 -1.712 2.930944
## 83 40 36.712 3.288 10.810944
## 84 43 36.712 6.288 39.538944
## 85 39 36.712 2.288 5.234944
## 86 39 36.712 2.288 5.234944
## 87 28 36.712 -8.712 75.898944
## 88 21 36.712 -15.712 246.866944
## 89 33 36.712 -3.712 13.778944
## 90 28 36.712 -8.712 75.898944
## 91 33 36.712 -3.712 13.778944
## 92 54 36.712 17.288 298.874944
## 93 31 36.712 -5.712 32.626944
## 94 25 36.712 -11.712 137.170944
## 95 34 36.712 -2.712 7.354944
## 96 48 36.712 11.288 127.418944
## 97 40 36.712 3.288 10.810944
## 98 34 36.712 -2.712 7.354944
## 99 20 36.712 -16.712 279.290944
## 100 52 36.712 15.288 233.722944
## 101 23 36.712 -13.712 188.018944
## 102 33 36.712 -3.712 13.778944
## 103 21 36.712 -15.712 246.866944
## 104 28 36.712 -8.712 75.898944
## 105 52 36.712 15.288 233.722944
## 106 32 36.712 -4.712 22.202944
## 107 47 36.712 10.288 105.842944
## 108 26 36.712 -10.712 114.746944
## 109 40 36.712 3.288 10.810944
## 110 22 36.712 -14.712 216.442944
## 111 43 36.712 6.288 39.538944
## 112 44 36.712 7.288 53.114944
## 113 18 36.712 -18.712 350.138944
## 114 19 36.712 -17.712 313.714944
## 115 53 36.712 16.288 265.298944
## 116 23 36.712 -13.712 188.018944
## 117 54 36.712 17.288 298.874944
## 118 21 36.712 -15.712 246.866944
## 119 42 36.712 5.288 27.962944
## 120 30 36.712 -6.712 45.050944
## 121 51 36.712 14.288 204.146944
## 122 41 36.712 4.288 18.386944
## 123 32 36.712 -4.712 22.202944
## 124 46 36.712 9.288 86.266944
## 125 37 36.712 0.288 0.082944
## 126 18 36.712 -18.712 350.138944
## 127 21 36.712 -15.712 246.866944
## 128 40 36.712 3.288 10.810944
## 129 31 36.712 -5.712 32.626944
## 130 19 36.712 -17.712 313.714944
## 131 21 36.712 -15.712 246.866944
## 132 44 36.712 7.288 53.114944
## 133 30 36.712 -6.712 45.050944
## 134 26 36.712 -10.712 114.746944
## 135 42 36.712 5.288 27.962944
## 136 19 36.712 -17.712 313.714944
## 137 48 36.712 11.288 127.418944
## 138 37 36.712 0.288 0.082944
## 139 49 36.712 12.288 150.994944
## 140 52 36.712 15.288 233.722944
## 141 21 36.712 -15.712 246.866944
## 142 27 36.712 -9.712 94.322944
## 143 24 36.712 -12.712 161.594944
## 144 47 36.712 10.288 105.842944
## 145 34 36.712 -2.712 7.354944
## 146 34 36.712 -2.712 7.354944
## 147 43 36.712 6.288 39.538944
## 148 27 36.712 -9.712 94.322944
## 149 38 36.712 1.288 1.658944
## 150 19 36.712 -17.712 313.714944
## 151 37 36.712 0.288 0.082944
## 152 31 36.712 -5.712 32.626944
## 153 44 36.712 7.288 53.114944
## 154 45 36.712 8.288 68.690944
## 155 49 36.712 12.288 150.994944
## 156 51 36.712 14.288 204.146944
## 157 33 36.712 -3.712 13.778944
## 158 48 36.712 11.288 127.418944
## 159 20 36.712 -16.712 279.290944
## 160 52 36.712 15.288 233.722944
## 161 44 36.712 7.288 53.114944
## 162 35 36.712 -1.712 2.930944
## 163 40 36.712 3.288 10.810944
## 164 33 36.712 -3.712 13.778944
## 165 53 36.712 16.288 265.298944
## 166 24 36.712 -12.712 161.594944
## 167 26 36.712 -10.712 114.746944
## 168 53 36.712 16.288 265.298944
## 169 29 36.712 -7.712 59.474944
## 170 54 36.712 17.288 298.874944
## 171 32 36.712 -4.712 22.202944
## 172 52 36.712 15.288 233.722944
## 173 20 36.712 -16.712 279.290944
## 174 31 36.712 -5.712 32.626944
## 175 18 36.712 -18.712 350.138944
## 176 32 36.712 -4.712 22.202944
## 177 37 36.712 0.288 0.082944
## 178 23 36.712 -13.712 188.018944
## 179 37 36.712 0.288 0.082944
## 180 22 36.712 -14.712 216.442944
## 181 47 36.712 10.288 105.842944
## 182 42 36.712 5.288 27.962944
## 183 48 36.712 11.288 127.418944
## 184 48 36.712 11.288 127.418944
## 185 49 36.712 12.288 150.994944
## 186 52 36.712 15.288 233.722944
## 187 26 36.712 -10.712 114.746944
## 188 40 36.712 3.288 10.810944
## 189 30 36.712 -6.712 45.050944
## 190 54 36.712 17.288 298.874944
## 191 35 36.712 -1.712 2.930944
## 192 55 36.712 18.288 334.450944
## 193 23 36.712 -13.712 188.018944
## 194 33 36.712 -3.712 13.778944
## 195 52 36.712 15.288 233.722944
## 196 18 36.712 -18.712 350.138944
## 197 43 36.712 6.288 39.538944
## 198 20 36.712 -16.712 279.290944
## 199 51 36.712 14.288 204.146944
## 200 29 36.712 -7.712 59.474944
## 201 43 36.712 6.288 39.538944
## 202 23 36.712 -13.712 188.018944
## 203 39 36.712 2.288 5.234944
## 204 17 36.712 -19.712 388.562944
## 205 55 36.712 18.288 334.450944
## 206 42 36.712 5.288 27.962944
## 207 46 36.712 9.288 86.266944
## 208 40 36.712 3.288 10.810944
## 209 45 36.712 8.288 68.690944
## 210 47 36.712 10.288 105.842944
## 211 23 36.712 -13.712 188.018944
## 212 44 36.712 7.288 53.114944
## 213 19 36.712 -17.712 313.714944
## 214 21 36.712 -15.712 246.866944
## 215 45 36.712 8.288 68.690944
## 216 54 36.712 17.288 298.874944
## 217 26 36.712 -10.712 114.746944
## 218 33 36.712 -3.712 13.778944
## 219 26 36.712 -10.712 114.746944
## 220 39 36.712 2.288 5.234944
## 221 22 36.712 -14.712 216.442944
## 222 23 36.712 -13.712 188.018944
## 223 52 36.712 15.288 233.722944
## 224 17 36.712 -19.712 388.562944
## 225 39 36.712 2.288 5.234944
## 226 46 36.712 9.288 86.266944
## 227 55 36.712 18.288 334.450944
## 228 55 36.712 18.288 334.450944
## 229 40 36.712 3.288 10.810944
## 230 52 36.712 15.288 233.722944
## 231 41 36.712 4.288 18.386944
## 232 51 36.712 14.288 204.146944
## 233 31 36.712 -5.712 32.626944
## 234 21 36.712 -15.712 246.866944
## 235 49 36.712 12.288 150.994944
## 236 20 36.712 -16.712 279.290944
## 237 32 36.712 -4.712 22.202944
## 238 36 36.712 -0.712 0.506944
## 239 53 36.712 16.288 265.298944
## 240 43 36.712 6.288 39.538944
## 241 48 36.712 11.288 127.418944
## 242 23 36.712 -13.712 188.018944
## 243 50 36.712 13.288 176.570944
## 244 32 36.712 -4.712 22.202944
## 245 43 36.712 6.288 39.538944
## 246 20 36.712 -16.712 279.290944
## 247 55 36.712 18.288 334.450944
## 248 35 36.712 -1.712 2.930944
## 249 50 36.712 13.288 176.570944
## 250 52 36.712 15.288 233.722944
Calculando la suma y determinando varianza
n <- length(edades1)
suma <- sum(tabla.varianza.edades1$xi.menos.media.cuad)
suma
## [1] 33207.26
varianza <- suma / (n -1)
varianza
## [1] 133.3625
Con las funciones de var() y sd() se determinan la varianza y a desviación respectivamente y con mean() la media de la muestra.
varianza_edades1 <- var(edades1)
varianza_edades2 <- var(edades2)
desv.std_edades1 <- sd(edades1)
desv.std_edades2 <- sd(edades2)
Se muestran los valores generados, el punto y coma en R significa en una misma linea se ejecutan dos instrucciones o dos comandos, en este caso solo mostrar los valores.
varianza_edades1; varianza_edades2
## [1] 133.3625
## [1] 22.80914
desv.std_edades1; desv.std_edades2
## [1] 11.54827
## [1] 4.775892
El coeficiente de variación (CV) es un estadístico que permite comparar entre dos o mas conjuntos de datos cuál es estos tiene una dispersión mayor o menor.
Al identificar el CV de un conjunto de datos y compararlo con otro CV de otro conjunto de datos similares, se puede determinar cual de los datos tiene mayor o menor dispersión y se puede concluir en cual es estos está mas dispersos sus datos, es decir cuál de ellos se aleja mas o menos de la media, según sea el caso.
Para determinar el coeficiente de variación se establece la división de la desviación estándar entre la media del conjunto de datos.
\[ CV = \frac{\sigma}{\bar{x}} \]
CV_edades1 <- desv.std_edades1 / media_edades1
CV_edades1
## [1] 0.3145639
CV_edades2 <- desv.std_edades2 / media_edades2
CV_edades2
## [1] 0.1622466
¿Qué representan las tablas de frecuencias para los datos edades?
Las tablas de frecuencia representan las clases y la frecuencias de casos de cada una de las clases, permiten observar los valores relativos y porcentuales de las frecuencias.
Con respecto a edades1 existe un 14.8% de valores que están en un rango o intervalo entre 46.946 y 51.248. En este intervalo de edad se encuentra la clase con mayor frecuencia de datos registrados.
En relación a edades2 existe una cantidad de valores entre 27.083 y 31.491 que representan el 30.8%. En el caso de edades dos esta es la clase con mayor frecuencia.
¿Cuáles son los valores media y desviación de los conjuntos de datos edades?
Con respecto a los valores estadísticos del conjunto de datos edades1, el valor la media es de: 36.712, la desviación es de: 11.5482685.
Con respecto a los valores estadísticos del conjunto de datos edades2, el valor la media es de: 29.436, la desviación es de: 4.7758916.
¿Cuáles son los valores de coeficiente de variación para los conjuntos de datos edades y que representan?
El coeficiente de variación de edades1 es de: 0.3145639y el CV de edades2 es de: 0.1622466
Existe mayor dispersión en los valores del conjunto de datos edades1 con respecto a edades2 por tener ligeramente mayor valor en su coeficiente de variación. Aunque en el mapa de dispersión se puede apreciar con facilidad lo anteriormente mencionado.
En la tabla de edades2 me llama la atencion que el reparto aleatorio de las edades dio lugar a que existan muy pocas edades grandes (Las más cercanas a los extremos), se puede notar esto en las tablas de frecuencia de las edades2.
https://economipedia.com/definiciones/coeficiente-de-variacion.html Francisco Javier Marco Sanjuán, 02 de octubre, 2017 Coeficiente de variación. Economipedia.com