Medidas de localización o de Tendencia Central
Realizar cálculos para determinar medidas de localización y tendencia central como la media, mediana, moda con un conjunto de datos de personas
Con un conjunto de datos de personas y con variables de interés como la edad, peso y estatura, determinar medidas de localización y tendencia central, se pide mostrar los datos, identificar las medidas visualizar gráficamente e interpretar las medidas.
En esta práctica se presentan ejemplos para determinar medidas de tendencia central, si estas medidas las calcula con los datos de una muestra, se llaman estadísticos muestrales. Si estas medidas las calcula con los datos de una población se llaman parámetros poblacionales Anderson, D., Sweeney, D., & Williams, T. (2008).
La medida de localización más importante es la media, o valor promedio, de una variable. La media proporciona una medida de localización central de los datos. Si los datos son datos de una muestra, la media se denota como \(\overline{x}\); si los datos son datos de una población, la media se denota con la letra griega \(\mu\). Anderson, D., Sweeney, D., & Williams, T. (2008).
La media es el valor promedio de un conjunto de datos numéricos, calculada como la suma del conjunto de valores dividida entre el número total de valores.
La media o también llamada media aritmética o promedio representa el reparto por igual, el equilibrio, la equidad. Es el valor que tendrían los datos, si todos ellos fueran los mismos. O, también, el valor que correspondería a cada uno de los datos de la distribución si su suma total se repartiera por igual.
La media aritmética es la medida de ubicación que más se utiliza y que se publica con mayor frecuencia, por lo cual se le considerará como parámetro para una población y como estadístico para una muestra. Lind, Douglas A., Marchal William G., Wathen Samuel A. (2015)
Algunos símbolos:
\(\mu\) es la letra minúscula griega \(mu\), y representa la media poblacional;
\(\overline{x}\) es la ‘x barra’ y representa la media muestral
\(N\) es el número de valores de una población;
\(n\) es el número de valores de una muestra
\(x\) representa cualquier valor particular;
\(\sum\) es la letra griega \(sigma\), e indica la operación suma;
\(\suma{x}\) es la suma de \(C\) valores de la población o la muestra. Lind, Douglas A., Marchal William G., Wathen Samuel A. (2015)
Fórmula de la media:
\[\overline{x} = \sum{X_i / n}\]
o la media poblacional
\[\mu = \sum{X_i / N}\]
donde:
\[\sum{X_i = X_1 + X_2 + X_3 + .... X_n}\]
La mediana es otra medida de localización central. Es el valor de enmedio en los datos ordenados de menor a mayor (en forma ascendente). Cuando tiene un número impar de observaciones, la mediana es el valor de enmedio. Cuando la cantidad de observaciones es par, no hay un número enmedio. En este caso, se sigue una convención y la mediana es definida como el promedio de las dos observaciones de enmedio. Anderson, D., Sweeney, D., & Williams, T. (2008).
Para determinar la mediana, se deben ordenar los datos de menor a mayor (en forma ascendente). * a. Si el número de observaciones es impar, la mediana es el valor de enmedio de la posición entera. \(posición.entera = round(n/2)\) * b. Si el número de observaciones es par, la mediana es el promedio de las dos observaciones. \(posición.entera = round(n/2 + 1)\) de enmedio.Anderson, D., Sweeney, D., & Williams, T. (2008).
La mediana es el punto medio de los valores una vez que se han ordenado de menor a mayor o de mayor a menor.Lind, Douglas A., Marchal William G., Wathen Samuel A. (2015)
La moda es el valor de la observación que aparece con mayor frecuencia. Lind, Douglas A., Marchal William G., Wathen Samuel A. (2015)
Hay situaciones en que la frecuencia mayor se presenta con dos o más valores distintos. Cuando esto ocurre hay más de una moda. Si los datos contienen más de una moda se dice que los datos son bimodales. Si contienen más de dos modas, son multimodales. En los casos multimodales casi nunca se da la moda, porque dar tres o más modas no resulta de mucha ayuda para describir la localización de los datos.
La moda es un valor que se ve directamente al observar el diagrama de barras si la variable es discreta, o el histograma si es continua. https://bookdown.org/aquintela/EBE/
library(readr) # Por si acaso cargamos datos ...
library(ggplot2) # Para visualizar
library(resumeRdesc) # Para estadísticos descriptivos
set.seed(2020)
n <- 100 # Total de observaciones
edades <- sample(15:65, n, replace = TRUE)
pesos <- sample(40:100, n, replace = TRUE)
estaturas <- sample(140:205, n, replace = TRUE) /100
personas <- data.frame(edades, pesos, estaturas)
names(personas) <- c("edad", "peso", "estatura")
personas
## edad peso estatura
## 1 42 97 1.97
## 2 58 89 1.77
## 3 37 52 1.43
## 4 36 44 1.65
## 5 38 63 1.60
## 6 15 87 1.64
## 7 31 59 1.72
## 8 50 91 1.70
## 9 56 59 1.70
## 10 20 53 1.40
## 11 63 52 1.90
## 12 59 67 1.43
## 13 22 56 1.42
## 14 56 69 1.59
## 15 64 84 1.98
## 16 30 78 1.63
## 17 43 80 1.59
## 18 48 99 1.83
## 19 62 99 1.68
## 20 17 79 1.40
## 21 16 66 1.83
## 22 43 68 1.83
## 23 54 92 1.61
## 24 18 74 1.96
## 25 64 98 1.51
## 26 28 74 1.51
## 27 28 41 2.00
## 28 26 52 1.49
## 29 62 47 1.52
## 30 61 62 1.66
## 31 28 100 1.96
## 32 21 71 1.41
## 33 34 43 1.88
## 34 32 78 1.83
## 35 35 85 1.50
## 36 62 88 1.90
## 37 58 94 1.80
## 38 32 92 1.41
## 39 24 75 1.93
## 40 45 63 1.59
## 41 20 87 1.46
## 42 61 80 2.01
## 43 57 99 1.53
## 44 27 68 1.64
## 45 46 67 1.75
## 46 38 93 1.62
## 47 27 41 1.90
## 48 59 71 2.03
## 49 16 56 1.52
## 50 45 56 1.66
## 51 30 76 1.66
## 52 27 49 1.59
## 53 15 90 1.62
## 54 52 86 1.67
## 55 17 50 1.91
## 56 43 90 1.78
## 57 39 56 1.92
## 58 59 78 1.84
## 59 57 52 1.87
## 60 39 49 1.55
## 61 19 77 1.65
## 62 57 94 1.81
## 63 52 95 1.67
## 64 16 60 1.89
## 65 39 49 2.04
## 66 49 98 1.81
## 67 38 50 1.73
## 68 64 99 1.84
## 69 47 86 1.45
## 70 21 42 1.90
## 71 22 64 1.42
## 72 35 83 1.86
## 73 27 70 1.65
## 74 48 62 1.93
## 75 19 90 1.95
## 76 18 84 1.77
## 77 33 87 1.73
## 78 62 43 1.43
## 79 37 60 1.82
## 80 18 99 1.81
## 81 32 100 1.80
## 82 56 80 1.69
## 83 15 76 1.71
## 84 61 91 1.95
## 85 36 95 1.70
## 86 45 98 1.77
## 87 55 42 1.66
## 88 30 97 1.86
## 89 20 65 1.50
## 90 38 93 1.41
## 91 40 40 1.40
## 92 24 68 1.46
## 93 40 53 1.58
## 94 47 63 1.92
## 95 42 66 1.84
## 96 15 78 1.51
## 97 31 57 1.93
## 98 54 75 1.50
## 99 29 58 1.98
## 100 58 64 1.67
media.edad <- sum(personas$edad) / n
media.edad
## [1] 38.81
media.edad <- mean(personas$edad)
media.edad
## [1] 38.81
mediana.edad <- median(personas$edad)
mediana.edad
## [1] 38
orden.personas.edad <- sort(personas$edad)
posicion <- ceiling(n /2)
orden.personas.edad
## [1] 15 15 15 15 16 16 16 17 17 18 18 18 19 19 20 20 20 21 21 22 22 24 24 26 27
## [26] 27 27 27 28 28 28 29 30 30 30 31 31 32 32 32 33 34 35 35 36 36 37 37 38 38
## [51] 38 38 39 39 39 40 40 42 42 43 43 43 45 45 45 46 47 47 48 48 49 50 52 52 54
## [76] 54 55 56 56 56 57 57 57 58 58 58 59 59 59 61 61 61 62 62 62 62 63 64 64 64
# La posicion
cat("Valor de la posición ",posicion, " del conjunto de datos (Vector) edades es: ", orden.personas.edad[posicion])
## Valor de la posición 50 del conjunto de datos (Vector) edades es: 38
# La posición cuando son par
cat("Valor de la posición ",posicion + 1, " del conjunto de datos (Vector) edades es: ", orden.personas.edad[posicion + 1])
## Valor de la posición 51 del conjunto de datos (Vector) edades es: 38
mediana.edad <- sum(orden.personas.edad[posicion], orden.personas.edad[posicion + 1]) / 2
mediana.edad
## [1] 38
frecuencia <- table(personas$edad)
frecuencia <- sort(frecuencia, decreasing = TRUE)
frecuencia
##
## 15 27 38 62 16 18 20 28 30 32 39 43 45 56 57 58 59 61 64 17 19 21 22 24 31 35
## 4 4 4 4 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 2 2 2 2 2 2 2
## 36 37 40 42 47 48 52 54 26 29 33 34 46 49 50 55 63
## 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1
moda <- frecuencia[1]
moda
## 15
## 4
cat("La moda de edad es: ", names(moda), " con ", frecuencia[1])
## La moda de edad es: 15 con 4
print("¿Es una sola moda, bimodal o multimodal ?")
## [1] "¿Es una sola moda, bimodal o multimodal ?"
library(resumeRdesc)
moda <- Mode(personas$edad)
moda
## [1] 15 27 38 62
ggplot(data = personas, aes(x = edad)) +
geom_bar()
ggplot(data = personas, aes(x = edad)) +
geom_histogram(bins = 30)
ggplot(personas, aes(x=edad)) +
geom_histogram(aes(fill=..count..), bins=20, color="white") +
geom_vline(aes(xintercept=mean(edad)), color="red") +
geom_vline(aes(xintercept=median(edad)), color= "darkgreen")
ggplot(aes(x = edad), data = personas) +
geom_histogram(color = 'green',
fill = 'green',
alpha = 0.2) +
labs(title = "Histograma de Edad") +
geom_vline(aes(xintercept = median(edad),
color = "mediana"),
linetype = "dashed",
size = 1) +
geom_vline(aes(xintercept = mean(edad),
color = "media"),
linetype = "dashed",
size = 1) +
geom_vline(
aes(xintercept = moda[1],
color = "moda"),
linetype = "dashed",
size = 1
)
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.