library(readr)
library(ggplot2)
library(resumeRdesc)
set.seed(2020)
n <- 100 # Total de observaciones
edades <- sample(10:90, n, replace = TRUE)
pesos <- sample(40:120, n, replace = TRUE)
estaturas <- sample(140:210, n, replace = TRUE) /100
personas <- data.frame(edades, pesos, estaturas)
names(personas) <- c("edad", "peso", "estatura")
personas
## edad peso estatura
## 1 37 94 1.59
## 2 31 92 1.62
## 3 74 75 2.10
## 4 26 87 1.67
## 5 45 80 2.08
## 6 51 68 1.91
## 7 79 41 1.78
## 8 58 71 1.92
## 9 65 120 1.84
## 10 81 56 1.87
## 11 51 76 1.55
## 12 89 49 1.65
## 13 38 50 1.81
## 14 12 90 1.67
## 15 75 120 1.89
## 16 13 52 2.04
## 17 87 49 1.81
## 18 87 94 1.73
## 19 85 113 1.84
## 20 57 98 1.45
## 21 56 114 1.90
## 22 87 86 1.42
## 23 16 106 1.86
## 24 27 64 1.65
## 25 61 70 1.93
## 26 57 62 1.95
## 27 53 84 1.77
## 28 19 87 1.73
## 29 79 107 1.43
## 30 52 99 1.82
## 31 86 80 1.81
## 32 41 76 1.80
## 33 22 98 1.69
## 34 75 42 1.71
## 35 89 97 1.95
## 36 86 93 1.70
## 37 10 104 1.77
## 38 47 68 1.66
## 39 12 117 1.86
## 40 38 57 1.50
## 41 34 75 1.41
## 42 54 58 1.40
## 43 52 64 1.46
## 44 78 97 1.58
## 45 67 77 2.09
## 46 75 43 1.92
## 47 34 113 1.84
## 48 44 65 1.51
## 49 33 60 1.93
## 50 59 64 1.50
## 51 42 72 1.98
## 52 16 118 1.67
## 53 17 70 1.69
## 54 65 115 1.69
## 55 22 70 1.51
## 56 78 40 2.10
## 57 77 90 2.10
## 58 28 43 1.97
## 59 32 42 2.09
## 60 77 59 2.09
## 61 51 98 1.99
## 62 10 63 1.78
## 63 56 59 1.97
## 64 40 83 1.42
## 65 69 68 1.85
## 66 25 40 1.41
## 67 79 83 1.53
## 68 64 83 2.10
## 69 35 61 1.69
## 70 19 96 1.91
## 71 37 51 2.10
## 72 74 51 1.69
## 73 26 100 1.62
## 74 49 49 1.87
## 75 24 52 1.62
## 76 53 66 1.95
## 77 59 96 1.83
## 78 86 41 1.70
## 79 14 88 1.96
## 80 57 83 1.49
## 81 29 107 1.71
## 82 61 50 1.74
## 83 23 90 1.44
## 84 22 80 1.58
## 85 37 41 1.86
## 86 90 93 1.95
## 87 50 59 1.58
## 88 69 46 1.61
## 89 49 101 1.92
## 90 36 111 1.54
## 91 68 53 2.09
## 92 44 64 1.83
## 93 11 75 1.59
## 94 86 62 1.61
## 95 17 113 1.74
## 96 70 90 1.62
## 97 41 103 1.44
## 98 77 52 1.49
## 99 48 66 2.04
## 100 55 66 1.57
media <- mean(personas$edad)
media
## [1] 50.48
media <- mean(personas$peso)
media
## [1] 76.54
media <- mean(personas$estatura)
media
## [1] 1.7569
La variable de interés es peso
Se determina el valor la posición de enmedio del total de los datos ordenados
Si el número de observaciones es impar, la mediana es el valor de la posición de enmedio exactamente 51 cuando n sea = 101
Si el número de observaciones es par, la mediana es valor promedio que está en las posiciones de las dos observaciones de enmedio. promedio.de.las.posiciones( 50 y 51 ) de la variable edad cuando n = 100
Se utiliza la variable mediana.edad
mediana.edad <- median(personas$edad)
mediana.edad
## [1] 51
mediana.peso <- median(personas$peso)
mediana.peso
## [1] 75
mediana.estatura <- median(personas$estatura)
mediana.estatura
## [1] 1.755
Por medio de la función table() determinar las frecuencia de cada valor de peso.
Ordenar las frecuencias descendente para identificar de mejor manera las * frecuencias de cada valor de peso y dejar el resultado en la misma variable (Vector) frecuencia.
El valor de la posición 1 es la de mayor frecuencia si es que se ordenó descendentemente.
edad
moda.e <- Mode(personas$edad)
moda.e
## [1] 86
moda.p <- Mode(personas$peso)
moda.p
## [1] 64 83 90
moda.es <- Mode(personas$estatura)
moda.es
## [1] 1.69 2.10
ggplot(data = personas, aes(x = edad)) +
geom_bar()
ggplot(data = personas, aes(x = peso)) +
geom_bar()
ggplot(data = personas, aes(x = estatura)) +
geom_bar()
ggplot(personas, aes(x=edad)) +
geom_histogram(aes(fill=..count..), bins=20, color="white") +
geom_vline(aes(xintercept=mean(edad)), color="red") +
geom_vline(aes(xintercept=median(edad)), color= "darkgreen")
ggplot(personas, aes(x=peso)) +
geom_histogram(aes(fill=..count..), bins=20, color="white") +
geom_vline(aes(xintercept=mean(peso)), color="red") +
geom_vline(aes(xintercept=median(peso)), color= "darkgreen")
ggplot(personas, aes(x=estatura)) +
geom_histogram(aes(fill=..count..), bins=20, color="white") +
geom_vline(aes(xintercept=mean(estatura)), color="red") +
geom_vline(aes(xintercept=median(estatura)), color= "darkgreen")
ggplot(aes(x = edad), data = personas) +
geom_histogram(color = 'green',
fill = 'green',
alpha = 0.2) +
labs(title = "Histograma de edad") +
geom_vline(aes(xintercept = median(edad),
color = "mediana"),
linetype = "dashed",
size = 1) +
geom_vline(aes(xintercept = mean(edad),
color = "media"),
linetype = "dashed",
size = 1) +
geom_vline(
aes(xintercept = moda.e[1],
color = "moda"),
linetype = "dashed",
size = 1
)
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
* Gráfico mas completo
ggplot(aes(x = peso), data = personas) +
geom_histogram(color = 'green',
fill = 'green',
alpha = 0.2) +
labs(title = "Histograma de Peso") +
geom_vline(aes(xintercept = median(peso),
color = "mediana"),
linetype = "dashed",
size = 1) +
geom_vline(aes(xintercept = mean(peso),
color = "media"),
linetype = "dashed",
size = 1) +
geom_vline(
aes(xintercept = moda.p[1],
color = "moda"),
linetype = "dashed",
size = 1
)
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
* Gráfico mas completo
ggplot(aes(x = estatura), data = personas) +
geom_histogram(color = 'green',
fill = 'green',
alpha = 0.2) +
labs(title = "Histograma de estatura") +
geom_vline(aes(xintercept = median(estatura),
color = "mediana"),
linetype = "dashed",
size = 1) +
geom_vline(aes(xintercept = mean(estatura),
color = "media"),
linetype = "dashed",
size = 1) +
geom_vline(
aes(xintercept = moda.es[1],
color = "moda"),
linetype = "dashed",
size = 1
)
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
Si una distribución está sesgada a la derecha, la media se corre a la derecha; si una distribución está sesgada a la izquierda, la media se corre a la izquierda. La mediana no es afectada por estos valores extremos porque los valores numéricos de las mediciones no se usan en este cálculo. Cuando una distribución es simétrica, la media y la mediana son iguales. (Mendenhal, Beaver & Beaver (2015). Introducción a la probabilidad y estadística
En este caso vemos lo que es la media, mediana y moda mediante el uso de Histogramas de las variables edad, peso y estatura utilizando las librerías readr, ggplot2 y resumeRdesc en Rstudio La media de un conjunto de números, algunas ocasiones simplemente llamada el promedio La mediana de un conjunto de números es el número medio en el conjunto La moda de un conjunto de números es el número que aparece más a menudo.