Realizar cálculos para determinar medidas de localización y tendencia central como la media, mediana, moda con un conjunto de datos de personas
Con un conjunto de datos de personas y con variables de interés como la edad, peso y estatura, determinar medidas de localización y tendencia central, se pide mostrar los datos, identificar las medidas visualizar gráficamente e interpretar las medidas.
En esta práctica se presentan ejemplos para determinar medidas de tendencia central, si estas medidas las calcula con los datos de una muestra, se llaman estadísticos muestrales. Si estas medidas las calcula con los datos de una población se llaman parámetros poblacionales Anderson, D., Sweeney, D., & Williams, T. (2008).
La medida de localización más importante es la media, o valor promedio, de una variable. La media proporciona una medida de localización central de los datos. Si los datos son datos de una muestra, la media se denota como x¯¯¯; si los datos son datos de una población, la media se denota con la letra griega μ. Anderson, D., Sweeney, D., & Williams, T. (2008).
La media es el valor promedio de un conjunto de datos numéricos, calculada como la suma del conjunto de valores dividida entre el número total de valores.
La media o también llamada media aritmética o promedio representa el reparto por igual, el equilibrio, la equidad. Es el valor que tendrían los datos, si todos ellos fueran los mismos. O, también, el valor que correspondería a cada uno de los datos de la distribución si su suma total se repartiera por igual.
La media aritmética es la medida de ubicación que más se utiliza y que se publica con mayor frecuencia, por lo cual se le considerará como parámetro para una población y como estadístico para una muestra. Lind, Douglas A., Marchal William G., Wathen Samuel A. (2015)
Algunos símbolos:
º μ es la letra minúscula griega mu, y representa la media poblacional;
º x¯ es la ‘x barra’ y representa la media muestral
º N es el número de valores de una población;
º n es el número de valores de una muestra
º x representa cualquier valor particular;
º ∑ es la letra griega sigma, e indica la operación suma;
º es la suma de C valores de la población o la muestra. Lind, Douglas A., Marchal William G., Wathen Samuel A. (2015)
Fórmula de la media: \(x¯=∑Xi/n\)
o la media poblacional \(μ=∑Xi/N\)
donde: \(∑Xi=X1+X2+X3+....Xn\)
La mediana es otra medida de localización central. Es el valor de enmedio en los datos ordenados de menor a mayor (en forma ascendente). Cuando tiene un número impar de observaciones, la mediana es el valor de enmedio. Cuando la cantidad de observaciones es par, no hay un número enmedio. En este caso, se sigue una convención y la mediana es definida como el promedio de las dos observaciones de enmedio. Anderson, D., Sweeney, D., & Williams, T. (2008).
Para determinar la mediana, se deben ordenar los datos de menor a mayor (en forma ascendente). * a. Si el número de observaciones es impar, la mediana es el valor de enmedio de la posición entera. posición.entera=round(n/2) * b. Si el número de observaciones es par, la mediana es el promedio de las dos observaciones. posición.entera=round(n/2+1) de enmedio.Anderson, D., Sweeney, D., & Williams, T. (2008).
La mediana es el punto medio de los valores una vez que se han ordenado de menor a mayor o de mayor a menor.Lind, Douglas A., Marchal William G., Wathen Samuel A. (2015)
La moda es el valor de la observación que aparece con mayor frecuencia. Lind, Douglas A., Marchal William G., Wathen Samuel A. (2015)
Hay situaciones en que la frecuencia mayor se presenta con dos o más valores distintos. Cuando esto ocurre hay más de una moda. Si los datos contienen más de una moda se dice que los datos son bimodales. Si contienen más de dos modas, son multimodales. En los casos multimodales casi nunca se da la moda, porque dar tres o más modas no resulta de mucha ayuda para describir la localización de los datos.
La moda es un valor que se ve directamente al observar el diagrama de barras si la variable es discreta, o el histograma si es continua. https://bookdown.org/aquintela/EBE/
ºCargar librerías
ºCargar o construir los datos
ºLa media
ºLa mediana
ºLa moda
ºVisualizar datos
ºInterpretar y comunicar datos
ºlibrería readr para cargar datos de formato csv en caso de que se necesite
ºLibrería ggplot2 para gráficos más amigables
library(readr)
library(ggplot2) # Para visualizar
ºDeteminar o sembrar una semilla de inicio para generar los mismos números de la muestra sample()
set.seed(2020)
ºSimular los datos
ºn Total de observaciones de la muestra
ºedades de un rango entre 15 y 65 años
ºpesos de un rango entre 40 y 100 kgs.
ºestaturas de un rango entre 1.40 y 2.05 metros
ºConstruir un conjunto de datos llamado personas
ºModificar el nombre del conjuto de datos personas con ‘edad’, ‘peso’ y
º‘estatura’ con la función name()
ºMostrar el conjunto de datos personas
n <- 100 # Total de observaciones
edades <- sample(15:65, n, replace = TRUE)
pesos <- sample(40:100, n, replace = TRUE)
estaturas <- sample(140:205, n, replace = TRUE) /100
personas <- data.frame(edades, pesos, estaturas)
names(personas) <- c("edad", "peso", "estatura")
personas
## edad peso estatura
## 1 42 97 1.97
## 2 58 89 1.77
## 3 37 52 1.43
## 4 36 44 1.65
## 5 38 63 1.60
## 6 15 87 1.64
## 7 31 59 1.72
## 8 50 91 1.70
## 9 56 59 1.70
## 10 20 53 1.40
## 11 63 52 1.90
## 12 59 67 1.43
## 13 22 56 1.42
## 14 56 69 1.59
## 15 64 84 1.98
## 16 30 78 1.63
## 17 43 80 1.59
## 18 48 99 1.83
## 19 62 99 1.68
## 20 17 79 1.40
## 21 16 66 1.83
## 22 43 68 1.83
## 23 54 92 1.61
## 24 18 74 1.96
## 25 64 98 1.51
## 26 28 74 1.51
## 27 28 41 2.00
## 28 26 52 1.49
## 29 62 47 1.52
## 30 61 62 1.66
## 31 28 100 1.96
## 32 21 71 1.41
## 33 34 43 1.88
## 34 32 78 1.83
## 35 35 85 1.50
## 36 62 88 1.90
## 37 58 94 1.80
## 38 32 92 1.41
## 39 24 75 1.93
## 40 45 63 1.59
## 41 20 87 1.46
## 42 61 80 2.01
## 43 57 99 1.53
## 44 27 68 1.64
## 45 46 67 1.75
## 46 38 93 1.62
## 47 27 41 1.90
## 48 59 71 2.03
## 49 16 56 1.52
## 50 45 56 1.66
## 51 30 76 1.66
## 52 27 49 1.59
## 53 15 90 1.62
## 54 52 86 1.67
## 55 17 50 1.91
## 56 43 90 1.78
## 57 39 56 1.92
## 58 59 78 1.84
## 59 57 52 1.87
## 60 39 49 1.55
## 61 19 77 1.65
## 62 57 94 1.81
## 63 52 95 1.67
## 64 16 60 1.89
## 65 39 49 2.04
## 66 49 98 1.81
## 67 38 50 1.73
## 68 64 99 1.84
## 69 47 86 1.45
## 70 21 42 1.90
## 71 22 64 1.42
## 72 35 83 1.86
## 73 27 70 1.65
## 74 48 62 1.93
## 75 19 90 1.95
## 76 18 84 1.77
## 77 33 87 1.73
## 78 62 43 1.43
## 79 37 60 1.82
## 80 18 99 1.81
## 81 32 100 1.80
## 82 56 80 1.69
## 83 15 76 1.71
## 84 61 91 1.95
## 85 36 95 1.70
## 86 45 98 1.77
## 87 55 42 1.66
## 88 30 97 1.86
## 89 20 65 1.50
## 90 38 93 1.41
## 91 40 40 1.40
## 92 24 68 1.46
## 93 40 53 1.58
## 94 47 63 1.92
## 95 42 66 1.84
## 96 15 78 1.51
## 97 31 57 1.93
## 98 54 75 1.50
## 99 29 58 1.98
## 100 58 64 1.67
Determinar la media de la variable edades de personas
ºLa variable de interés es edad
ºSumar todos los valores de la variable edad y dividirlo entre el número de elementos
media.edad <- sum(personas$edad) / n
media.edad
## [1] 38.81
ºLa mejor forma en R de determinar la media de un conjunto de datos ya sea de una muestra o de una población es mediante al función mean()
ºSe utiliza la misma variable media.edad por lo que se actualiza el valor en la variable, al final se obtiene el mismo valor que en el anterior bloque de código.
media.edad <- mean(personas$edad)
media.edad
## [1] 38.81
Determinar la mediana de edad de personas
ºLa variable de interés es edad
ºLa función median() determina la mediana de un conjunto de datos
mediana.edad <- median(personas$edad)
mediana.edad
## [1] 38
º comprobar la mediana se ordenan las edades de personas
ºSe determina el valor la posición de enmedio del total de los datos ordenados
a.Si el número de observaciones es impar, la mediana es el valor de la posición de enmedio. 50 exactamente
b.Si el número de observaciones es par, la mediana es valor promedio que está en las posiciones de las dos observaciones de enmedio. promedio.de.las.posiciones( 50 y 51 ) de la variable edad
ºSe utiliza la variable mediana.edad por lo que se actualiza el valor en la variable, al final se obtiene el mismo valor que en el anterior bloque de código.
orden.personas.edad <- sort(personas$edad)
posicion <- ceiling(n /2)
orden.personas.edad
## [1] 15 15 15 15 16 16 16 17 17 18 18 18 19 19 20 20 20 21 21 22 22 24 24 26 27
## [26] 27 27 27 28 28 28 29 30 30 30 31 31 32 32 32 33 34 35 35 36 36 37 37 38 38
## [51] 38 38 39 39 39 40 40 42 42 43 43 43 45 45 45 46 47 47 48 48 49 50 52 52 54
## [76] 54 55 56 56 56 57 57 57 58 58 58 59 59 59 61 61 61 62 62 62 62 63 64 64 64
# La posicion
cat("Valor de la posición ",posicion, " del conjunto de datos (Vector) edades es: ", orden.personas.edad[posicion])
## Valor de la posición 50 del conjunto de datos (Vector) edades es: 38
# La posición cuando son par
cat("Valor de la posición ",posicion + 1, " del conjunto de datos (Vector) edades es: ", orden.personas.edad[posicion + 1])
## Valor de la posición 51 del conjunto de datos (Vector) edades es: 38
mediana.edad <- sum(orden.personas.edad[posicion], orden.personas.edad[posicion + 1]) / 2
mediana.edad
## [1] 38
Determinar la moda de edad
ºLa variable de interés es edad
ºPor medio de la función table() determinar las frecuencia de cada valor de edad
ºOrdenar las frecuencias descendente para identificar de mejor manera las frecuencias de cada valor de edad y dejar el resultado en la misma variable (Vector) frecuencia
ºEl valor de la posición 1 es la de mayor frecuencia si es que se ordenó descendentemente
frecuencia <- table(personas$edad)
frecuencia <- sort(frecuencia, decreasing = TRUE)
frecuencia
##
## 15 27 38 62 16 18 20 28 30 32 39 43 45 56 57 58 59 61 64 17 19 21 22 24 31 35
## 4 4 4 4 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 2 2 2 2 2 2 2
## 36 37 40 42 47 48 52 54 26 29 33 34 46 49 50 55 63
## 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1
moda <- frecuencia[1]
moda
## 15
## 4
cat("La moda de edad es: ", names(moda), " con ", frecuencia[1])
## La moda de edad es: 15 con 4
print("¿Es una sola moda, bimodal o multimodal ?")
## [1] "¿Es una sola moda, bimodal o multimodal ?"
ºPara utilizar esta librería es necesario haberla instalado previamente
ºinstall.packages(“remotes”)
ºremotes::install_github(“osoramirez/resumeRdesc”)
Utilizar las funciones de la librería ggplot2
ºGráfica de barra de edad
ggplot(data = personas, aes(x = edad)) +
geom_bar()
ºHistograma de edad
ggplot(data = personas, aes(x = edad)) +
geom_histogram(bins = 30)
ºHistograma de edad con medidas de localización
ggplot(personas, aes(x=edad)) +
geom_histogram(aes(fill=..count..), bins=20, color="white") +
geom_vline(aes(xintercept=mean(edad)), color="red") +
geom_vline(aes(xintercept=median(edad)), color= "darkgreen")
ºGráfico más completo
ggplot(aes(x = edad), data = personas) +
geom_histogram(color = 'green',
fill = 'green',
alpha = 0.2) +
labs(title = "Histograma de Edad") +
geom_vline(aes(xintercept = median(edad),
color = "mediana"),
linetype = "dashed",
size = 1) +
geom_vline(aes(xintercept = mean(edad),
color = "media"),
linetype = "dashed",
size = 1) +
geom_vline(
aes(xintercept = moda[1],
color = "moda"),
linetype = "dashed",
size = 1
)
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
Se verieron las primeras formulas en este caso, recoleccion de datos para las tablas y graficos mas completos y largos, el trabajo se trata de aplicar las formulas con las siguientes temas: Media y Moda, tambien este trabajo dentro el codigo modificamos los colores de dichas graficas para ser mas notorio en la presentacion y tenga una mejor estatica para todos aquellos que entren a la paguina y pudan leerlo con mas facilidad.