A continuación se presenta el objetivo general de la práctica:
A continuación, se presenta los objetivos específicos que tiene la siguiente práctica:
Simular Una Muestra Poblacional De Varios Conjuntos De Datos
Identificar La Media Estadística De La Muestra Poblacional Obtenida
Mostrar Un Tabla De Frecuencia A Partir De Un Análisis De Datos
Calcular Y Determinar Las Medidas Estadísticas De Dispersión, Varianza Y Desviación Estándar
Visualizar La Dispersión De Los Datos Estadísticos En Relación Con La Media Aritmética
Calcular El Coeficiente De Variación Y Comparar Con Similares Conjuntos De Datos.
Las medidas de dispersión tratan, a través del cálculo de diferentes fórmulas, de arrojar un valor numérico que ofrezca información sobre el grado de variabilidad de una variable.
En otras palabras, las medidas de dispersión son números que indican si una variable se mueve mucho, poco, más o menos que otra. La razón de ser de este tipo de medidas es conocer de manera resumida una característica de la variable estudiada.
En este sentido, deben acompañar a las medidas de tendencia central. Juntas, ofrecen información de un sólo vistazo que luego podremos utilizar para comparar y, si fuera preciso, tomar decisiones.
A continuación, se presentan algunas de las características principales y más representativas de las medidas de dispersión:
Las medidas de dispersión indican qué tan diseminados se encuentran los datos de una distribución.
Permite conocer qué tan cerca o lejos de la media se encuentran los datos.
Las medidas de variabilidad te dan la posibilidad de saber la homogeneidad o heterogeneidad de las distribuciones de los datos.
Su aplicación es fácil y rápida.
Su valores de dispersión siempre son positivos o cero, en caso estos sean iguales.
El uso de las medidas de dispersión se puede aplicar en diversos ámbitos, como el sector salud, industrial, económico empresarial, etc.
La varianza es una medida de variabilidad que utiliza todos los datos. La varianza está basada en la diferencia entre el valor de cada observación (\(x_i\)) y la media \(\bar{x}\).
Se identifican las fórmulas para varianza poblacional y muestral, dependiendo de los datos a analizar, si es todas las observaciones de la población y solo una muestra de la misma.
Para efectos de este ejercicio se utiliza mas específicamente la varianza y desviación muestral.
\[ \sigma^2 = \frac{\sum_{i=1}^N(x_i- \mu)^2}{N} \]
Donde:
\(\mu\) Es La Media Poblacional
\(N\) Es El Número Total De Datos Poblacionales
\[ S^2 = \frac{\sum_{i=1}^n(x_i- \bar{x})^2}{n-1} \]
siendo \(\bar{x}\) la media muestral y \(n\) el total de los datos de la muestra.
Las unidades al cuadrado de la varianza dificultan la comprensión e interpretación intuitiva de los valores numéricos de la varianza.
La desviación estándar se define como la raíz cuadrada positiva de la varianza.
Continuando con la notación adoptada para la varianza muestral y para la varianza poblacional, se emplea \(\varsigma\) para denotar la desviación estándar muestral y \(\sigma\) para denotar la desviación estándar poblacional.
Como la desviación estándar es la raíz cuadrada de la varianza, las unidades de la varianza, son al cuadrado, posiblemente dificulta su interpretación, por tanto, la desviación estándar de se interpreta de mejor manera la variabilidad de los datos porque el valor resultante se mide en las mismas unidades que los datos originales.
\[ \sigma = \sqrt{\sigma^2} \]
Donde: \[ \sigma Es La Varianza \]
\[ S = \sqrt{S^2} \]
En algunas ocasiones se requiere un estadístico descriptivo que indique cuán grande es la desviación estándar en relación con la media. Existe el coeficiente de variación y resuelve ese propósito.
La fórmula del coeficiente de variación indica el grado de dispersión de un conjunto de datos con respecto a la media.
\[ CV = \left(\frac{\sigma}{\bar{x}} \times 100 \right) \text{%} \]
Primeramente, instalar las librerías anticipadamente con install.packages(“fdth”)
library(fdth) # Para tablas de frecuencias
library(ggplot2) # Para gráficos
Se establece valor de semilla para que se generen los mismos datos.
set.seed(1186)
Se generan 200 edades en dos conjuntos de datos diferentes.
edades1 se genera con función de aleatoriedad sample()
edades2 se genera con la función de distribución normal rnorm().
n <- 200
edades1 <- sample(x = 18:60,size = n,replace = TRUE )
Se identifican los datos Edades 1
edades1
## [1] 28 22 51 42 39 52 25 57 36 38 38 37 50 51 59 20 18 22 26 30 26 43 34 50 47
## [26] 47 56 52 39 21 26 21 55 25 29 19 28 56 36 29 34 28 35 54 56 25 37 34 30 52
## [51] 33 55 39 52 37 43 23 37 30 56 36 31 38 31 22 44 29 53 56 45 20 55 18 28 50
## [76] 34 35 53 34 18 25 20 24 25 43 20 32 32 25 41 34 48 51 50 54 32 33 34 57 33
## [101] 27 36 54 49 40 48 51 20 27 32 37 19 49 19 56 20 54 37 44 48 25 49 31 32 56
## [126] 25 59 37 52 37 18 20 28 29 22 48 47 18 29 32 24 27 46 24 60 57 53 59 49 60
## [151] 33 26 47 44 41 28 42 49 24 46 29 20 54 27 30 32 21 27 37 18 48 45 60 43 35
## [176] 40 41 20 28 36 35 25 55 48 52 36 52 24 24 25 29 29 36 28 28 43 28 56 58 53
Se muestran las tablas de frecuencias del conjunto de datos edades1.
En las tablas de frecuencias se determina matemáticamente el número de clases, La opción matemáticamente más consistente es la conocida como regla de Sturges.
La solución de esta ecuación proporciona una regla práctica para obtener el número de clases.
\[ k=1+3.322*log2(n) \]
Donde:
Siendo k el número de clases
log es la función logarítmica de base 10, log10()
y n el total de la muestra
El rango de clase de acuerdo a Sturges está dada por \[ h=\frac{max(datos) - min(datos)}{k} \]Siendo h el rango de cada clase y max(datos) - min(datos) el rango del total de los datos, es decir la diferencia entre límite superior menos límite inferior.
Existen otras formas de determinar el número de clases a utilizar, algunas más complejas, otras más simples.
Independientemente de la forma de cálculo seleccionada ya se Sturges, Scott o Freedman-Diaconis (FD), lo realmente importante es que la información mostrada en la tabla de frecuencia sea fácil de revisar, que no contenga un número excesivo de clases y que la información que en ella se refleja permita comprender cómo se presentan los datos en la población o de una muestra.
El número de clase de acuerdo par \(n=200\) de acuerdo a Sturges es:
k <- round(1+3.322 * log2(n))
k
## [1] 26
La amplitud h1 y h2 para cada conjunto de datos es igual a:
h = diff(range(edades1)) / k
h
## [1] 1.615385
tabla.edades1 <- fdt(x = edades1, breaks="Sturges")
tabla.edades1
## Class limits f rf rf(%) cf cf(%)
## [17.82,22.57) 25 0.12 12.5 25 12.5
## [22.57,27.33) 26 0.13 13.0 51 25.5
## [27.33,32.08) 32 0.16 16.0 83 41.5
## [32.08,36.83) 22 0.11 11.0 105 52.5
## [36.83,41.59) 20 0.10 10.0 125 62.5
## [41.59,46.34) 14 0.07 7.0 139 69.5
## [46.34,51.09) 23 0.12 11.5 162 81.0
## [51.09,55.85) 20 0.10 10.0 182 91.0
## [55.85,60.6) 18 0.09 9.0 200 100.0
Class limits significa el rango de cada clase
f significa la frecuencia, la suma de f debe ser el total de elementos.
rf significa frecuencia relativa la suma de todas las rf debe ser el 1
rf% significa el valor relativo pero en porcentaje, la suma de rf% debe ser el 100%
cf significa frecuencia acumulada
cf% significa frecuencia porcentual acumulada
hist(edades1, breaks = "Sturges" )
datos.edades1 <- data.frame(x = 1:length(edades1), edad= edades1)
ggplot(datos.edades1,fill="green", aes(x=x, y=edad))+
geom_point() +
geom_hline(yintercept = mean(edades1), col='red') +
ggtitle(label = "Dispersión de edades1", subtitle = paste("media = ", mean(edades1)))
edades2 <- round(rnorm(n = n, mean = 30, sd = 5))
Se identifican los datos edades2
sort(edades2)
## [1] 18 18 19 20 20 20 22 22 22 22 23 23 23 23 23 23 23 23 23 23 24 24 24 24 24
## [26] 24 24 25 25 25 25 25 25 25 25 25 25 25 25 26 26 26 26 26 26 26 26 26 26 26
## [51] 26 26 26 26 26 26 27 27 27 27 27 27 27 27 27 27 27 27 27 28 28 28 28 28 28
## [76] 28 28 28 28 28 28 28 28 29 29 29 29 29 29 29 29 29 29 29 29 29 29 29 29 29
## [101] 30 30 30 30 30 30 30 30 30 30 30 30 30 30 30 30 30 30 31 31 31 31 31 31 31
## [126] 31 31 31 31 31 31 32 32 32 32 32 32 32 32 32 32 32 32 32 32 32 32 33 33 33
## [151] 33 33 33 33 33 34 34 34 34 34 34 34 34 34 35 35 35 35 35 35 35 35 35 35 36
## [176] 36 36 36 36 36 36 36 37 37 38 38 38 38 38 38 39 39 39 39 39 40 40 40 41 42
Se muestran las tablas de frecuencias del conjunto de datos edades2.
tabla.edades2 <- fdt(x = edades2, breaks="Sturges")
tabla.edades2
## Class limits f rf rf(%) cf cf(%)
## [17.82,20.553) 6 0.03 3.0 6 3.0
## [20.553,23.287) 14 0.07 7.0 20 10.0
## [23.287,26.02) 36 0.18 18.0 56 28.0
## [26.02,28.753) 27 0.14 13.5 83 41.5
## [28.753,31.487) 48 0.24 24.0 131 65.5
## [31.487,34.22) 33 0.16 16.5 164 82.0
## [34.22,36.953) 18 0.09 9.0 182 91.0
## [36.953,39.687) 13 0.06 6.5 195 97.5
## [39.687,42.42) 5 0.03 2.5 200 100.0
hist(edades2, breaks = "Sturges" )
datos.edades2 <- data.frame(x = 1:length(edades2), edad= edades2)
ggplot(datos.edades2, aes(x=x, y=edad))+
geom_point() +
geom_hline(yintercept = mean(edades2), col='red') +
ggtitle(label = "Dispersión de edades2", subtitle = paste("media = ", mean(edades2)))
Las medidas de dispersión varianza y desviación estándar miden el valor de dispersión de un conjunto de datos numéricos.
La dispersión significa que tanto los datos están alejados de la media, el valor de la desviación se compara con la media y se interpreta que tanto los valores distan del valor de la media.
media_edades1 <- mean(edades1)
media_edades2 <- mean(edades2)
media_edades1; media_edades2
## [1] 37.34
## [1] 29.71
\[ S^2 = \frac{\sum_{i=1}^n(x_i- \bar{x})^2}{n-1} \]
\[ S = \sqrt{S^{2}} \]
tabla.varianza.edades1 <- data.frame(x = edades1,
x_media = media_edades1,
xi.menos.media = edades1 - media_edades1,
xi.menos.media.cuad = (edades1 - media_edades1)^2)
tabla.varianza.edades1
## x x_media xi.menos.media xi.menos.media.cuad
## 1 28 37.34 -9.34 87.2356
## 2 22 37.34 -15.34 235.3156
## 3 51 37.34 13.66 186.5956
## 4 42 37.34 4.66 21.7156
## 5 39 37.34 1.66 2.7556
## 6 52 37.34 14.66 214.9156
## 7 25 37.34 -12.34 152.2756
## 8 57 37.34 19.66 386.5156
## 9 36 37.34 -1.34 1.7956
## 10 38 37.34 0.66 0.4356
## 11 38 37.34 0.66 0.4356
## 12 37 37.34 -0.34 0.1156
## 13 50 37.34 12.66 160.2756
## 14 51 37.34 13.66 186.5956
## 15 59 37.34 21.66 469.1556
## 16 20 37.34 -17.34 300.6756
## 17 18 37.34 -19.34 374.0356
## 18 22 37.34 -15.34 235.3156
## 19 26 37.34 -11.34 128.5956
## 20 30 37.34 -7.34 53.8756
## 21 26 37.34 -11.34 128.5956
## 22 43 37.34 5.66 32.0356
## 23 34 37.34 -3.34 11.1556
## 24 50 37.34 12.66 160.2756
## 25 47 37.34 9.66 93.3156
## 26 47 37.34 9.66 93.3156
## 27 56 37.34 18.66 348.1956
## 28 52 37.34 14.66 214.9156
## 29 39 37.34 1.66 2.7556
## 30 21 37.34 -16.34 266.9956
## 31 26 37.34 -11.34 128.5956
## 32 21 37.34 -16.34 266.9956
## 33 55 37.34 17.66 311.8756
## 34 25 37.34 -12.34 152.2756
## 35 29 37.34 -8.34 69.5556
## 36 19 37.34 -18.34 336.3556
## 37 28 37.34 -9.34 87.2356
## 38 56 37.34 18.66 348.1956
## 39 36 37.34 -1.34 1.7956
## 40 29 37.34 -8.34 69.5556
## 41 34 37.34 -3.34 11.1556
## 42 28 37.34 -9.34 87.2356
## 43 35 37.34 -2.34 5.4756
## 44 54 37.34 16.66 277.5556
## 45 56 37.34 18.66 348.1956
## 46 25 37.34 -12.34 152.2756
## 47 37 37.34 -0.34 0.1156
## 48 34 37.34 -3.34 11.1556
## 49 30 37.34 -7.34 53.8756
## 50 52 37.34 14.66 214.9156
## 51 33 37.34 -4.34 18.8356
## 52 55 37.34 17.66 311.8756
## 53 39 37.34 1.66 2.7556
## 54 52 37.34 14.66 214.9156
## 55 37 37.34 -0.34 0.1156
## 56 43 37.34 5.66 32.0356
## 57 23 37.34 -14.34 205.6356
## 58 37 37.34 -0.34 0.1156
## 59 30 37.34 -7.34 53.8756
## 60 56 37.34 18.66 348.1956
## 61 36 37.34 -1.34 1.7956
## 62 31 37.34 -6.34 40.1956
## 63 38 37.34 0.66 0.4356
## 64 31 37.34 -6.34 40.1956
## 65 22 37.34 -15.34 235.3156
## 66 44 37.34 6.66 44.3556
## 67 29 37.34 -8.34 69.5556
## 68 53 37.34 15.66 245.2356
## 69 56 37.34 18.66 348.1956
## 70 45 37.34 7.66 58.6756
## 71 20 37.34 -17.34 300.6756
## 72 55 37.34 17.66 311.8756
## 73 18 37.34 -19.34 374.0356
## 74 28 37.34 -9.34 87.2356
## 75 50 37.34 12.66 160.2756
## 76 34 37.34 -3.34 11.1556
## 77 35 37.34 -2.34 5.4756
## 78 53 37.34 15.66 245.2356
## 79 34 37.34 -3.34 11.1556
## 80 18 37.34 -19.34 374.0356
## 81 25 37.34 -12.34 152.2756
## 82 20 37.34 -17.34 300.6756
## 83 24 37.34 -13.34 177.9556
## 84 25 37.34 -12.34 152.2756
## 85 43 37.34 5.66 32.0356
## 86 20 37.34 -17.34 300.6756
## 87 32 37.34 -5.34 28.5156
## 88 32 37.34 -5.34 28.5156
## 89 25 37.34 -12.34 152.2756
## 90 41 37.34 3.66 13.3956
## 91 34 37.34 -3.34 11.1556
## 92 48 37.34 10.66 113.6356
## 93 51 37.34 13.66 186.5956
## 94 50 37.34 12.66 160.2756
## 95 54 37.34 16.66 277.5556
## 96 32 37.34 -5.34 28.5156
## 97 33 37.34 -4.34 18.8356
## 98 34 37.34 -3.34 11.1556
## 99 57 37.34 19.66 386.5156
## 100 33 37.34 -4.34 18.8356
## 101 27 37.34 -10.34 106.9156
## 102 36 37.34 -1.34 1.7956
## 103 54 37.34 16.66 277.5556
## 104 49 37.34 11.66 135.9556
## 105 40 37.34 2.66 7.0756
## 106 48 37.34 10.66 113.6356
## 107 51 37.34 13.66 186.5956
## 108 20 37.34 -17.34 300.6756
## 109 27 37.34 -10.34 106.9156
## 110 32 37.34 -5.34 28.5156
## 111 37 37.34 -0.34 0.1156
## 112 19 37.34 -18.34 336.3556
## 113 49 37.34 11.66 135.9556
## 114 19 37.34 -18.34 336.3556
## 115 56 37.34 18.66 348.1956
## 116 20 37.34 -17.34 300.6756
## 117 54 37.34 16.66 277.5556
## 118 37 37.34 -0.34 0.1156
## 119 44 37.34 6.66 44.3556
## 120 48 37.34 10.66 113.6356
## 121 25 37.34 -12.34 152.2756
## 122 49 37.34 11.66 135.9556
## 123 31 37.34 -6.34 40.1956
## 124 32 37.34 -5.34 28.5156
## 125 56 37.34 18.66 348.1956
## 126 25 37.34 -12.34 152.2756
## 127 59 37.34 21.66 469.1556
## 128 37 37.34 -0.34 0.1156
## 129 52 37.34 14.66 214.9156
## 130 37 37.34 -0.34 0.1156
## 131 18 37.34 -19.34 374.0356
## 132 20 37.34 -17.34 300.6756
## 133 28 37.34 -9.34 87.2356
## 134 29 37.34 -8.34 69.5556
## 135 22 37.34 -15.34 235.3156
## 136 48 37.34 10.66 113.6356
## 137 47 37.34 9.66 93.3156
## 138 18 37.34 -19.34 374.0356
## 139 29 37.34 -8.34 69.5556
## 140 32 37.34 -5.34 28.5156
## 141 24 37.34 -13.34 177.9556
## 142 27 37.34 -10.34 106.9156
## 143 46 37.34 8.66 74.9956
## 144 24 37.34 -13.34 177.9556
## 145 60 37.34 22.66 513.4756
## 146 57 37.34 19.66 386.5156
## 147 53 37.34 15.66 245.2356
## 148 59 37.34 21.66 469.1556
## 149 49 37.34 11.66 135.9556
## 150 60 37.34 22.66 513.4756
## 151 33 37.34 -4.34 18.8356
## 152 26 37.34 -11.34 128.5956
## 153 47 37.34 9.66 93.3156
## 154 44 37.34 6.66 44.3556
## 155 41 37.34 3.66 13.3956
## 156 28 37.34 -9.34 87.2356
## 157 42 37.34 4.66 21.7156
## 158 49 37.34 11.66 135.9556
## 159 24 37.34 -13.34 177.9556
## 160 46 37.34 8.66 74.9956
## 161 29 37.34 -8.34 69.5556
## 162 20 37.34 -17.34 300.6756
## 163 54 37.34 16.66 277.5556
## 164 27 37.34 -10.34 106.9156
## 165 30 37.34 -7.34 53.8756
## 166 32 37.34 -5.34 28.5156
## 167 21 37.34 -16.34 266.9956
## 168 27 37.34 -10.34 106.9156
## 169 37 37.34 -0.34 0.1156
## 170 18 37.34 -19.34 374.0356
## 171 48 37.34 10.66 113.6356
## 172 45 37.34 7.66 58.6756
## 173 60 37.34 22.66 513.4756
## 174 43 37.34 5.66 32.0356
## 175 35 37.34 -2.34 5.4756
## 176 40 37.34 2.66 7.0756
## 177 41 37.34 3.66 13.3956
## 178 20 37.34 -17.34 300.6756
## 179 28 37.34 -9.34 87.2356
## 180 36 37.34 -1.34 1.7956
## 181 35 37.34 -2.34 5.4756
## 182 25 37.34 -12.34 152.2756
## 183 55 37.34 17.66 311.8756
## 184 48 37.34 10.66 113.6356
## 185 52 37.34 14.66 214.9156
## 186 36 37.34 -1.34 1.7956
## 187 52 37.34 14.66 214.9156
## 188 24 37.34 -13.34 177.9556
## 189 24 37.34 -13.34 177.9556
## 190 25 37.34 -12.34 152.2756
## 191 29 37.34 -8.34 69.5556
## 192 29 37.34 -8.34 69.5556
## 193 36 37.34 -1.34 1.7956
## 194 28 37.34 -9.34 87.2356
## 195 28 37.34 -9.34 87.2356
## 196 43 37.34 5.66 32.0356
## 197 28 37.34 -9.34 87.2356
## 198 56 37.34 18.66 348.1956
## 199 58 37.34 20.66 426.8356
## 200 53 37.34 15.66 245.2356
Calculando la suma y determinando varianza
n <- length(edades1)
suma <- sum(tabla.varianza.edades1$xi.menos.media.cuad)
suma
## [1] 29930.88
varianza <- suma / (n -1)
varianza
## [1] 150.4064
Con las funciones de var() y sd() se determinan la varianza y a desviación respectivamente y con mean() la media de la muestra.
varianza_edades1 <- var(edades1)
varianza_edades2 <- var(edades2)
desv.std_edades1 <- sd(edades1)
desv.std_edades2 <- sd(edades2)
Se muestran los valores generados, el punto y coma en R significa en una misma linea se ejecutan dos instrucciones o dos comandos, en este caso solo mostrar los valores.
varianza_edades1; varianza_edades2
## [1] 150.4064
## [1] 23.79487
desv.std_edades1; desv.std_edades2
## [1] 12.26403
## [1] 4.877999
El coeficiente de variación (CV) es un estadístico que permite comparar entre dos o mas conjuntos de datos cuál es estos tiene una dispersión mayor o menor.
Al identificar el CV de un conjunto de datos y compararlo con otro CV de otro conjunto de datos similares, se puede determinar cual de los datos tiene mayor o menor dispersión y se puede concluir en cual es estos está mas dispersos sus datos, es decir cuál de ellos se aleja mas o menos de la media, según sea el caso.
Para determinar el coeficiente de variación se establece la división de la desviación estándar entre la media del conjunto de datos.
\[ CV = \frac{\sigma}{\bar{x}} \]
CV_edades1 <- desv.std_edades1 / media_edades1
CV_edades1
## [1] 0.3284422
CV_edades2 <- desv.std_edades2 / media_edades2
CV_edades2
## [1] 0.1641871
Llegado al final de esta práctica, se logra concluir que, una medida de dispersión son valores estadísticos que interviene en un análisis critico de información de una muestra o población estadística, que representan variables y datos que supone la descripción de un modelo matemático en las que se organizan en variables y que buscan descubrir patrones y esquemas.
A su vez, las tabla de frecuencia nos permiten visualizar un conjunto de datos estadísticos de manera ordenada. A cada uno de ellos, se le asigna una frecuencia, es decir, es el número de veces que se repite un dato.
Dentro de la Práctica, en lo que confiere, a Las Edades 1, existen un 16% de la población total, en los que el valor de los datos estadísticos se estimó entre un 27.33,32.08 donde 32 elementos se posicionaron ahí. De Igual manera, existe un 7% de la población total que corresponde a un rango de 41.59,46.34, lo que equivale, a 14 elementos.
Por otro lado, a Las Edades 2, existen un 24% de la población total, en los que el valor de los datos estadísticos se estimó entre un 28.753,31.487 donde 48 elementos se posicionaron ahí. De Igual manera, existe un 3% de la población total que corresponde a un rango de 39.687,42.42, lo que equivale, a 5 elementos.
Con respecto a los valores estadísticos del conjunto de datos edades1, el valor la media es de: 37.34, la desviación es de: 12.26403.
Con respecto a los valores estadísticos del conjunto de datos edades2, el valor la media es de: 29.71, la desviación es de: 4.877999.
El coeficiente de variación de edades1 es de: 0.3284422y el CV de edades2 es de: 0.1641871
Finalmente, existe una mayor dispersión en los valores del conjunto de datos Edades 1 con respecto a Edades 2 por tener ligeramente mayor valor en su coeficiente de variación.
Anderson, D. R. (2008). Estadística para administración y economía. (10ª. ed.) México : Cengage Learning.
Berenson, M. (2006). Estadística para administración. (4ª. ed.) México : Pearson Educación.
Carot, V. (2006). Control estadístico de la calidad. España : Alfaomega.