library(readr)
library(ggplot2)
library(resumeRdesc)
set.seed(1215)
edades <- sample(15:65, 100, replace = TRUE)
pesos <- sample(40:100, 100, replace = TRUE)
estaturas <- sample(140:205, 100, replace = TRUE) /100
personas <- data.frame(edades, pesos, estaturas)
names(personas) <- c("edad", "peso", "estatura")
personas
## edad peso estatura
## 1 65 71 1.84
## 2 57 47 1.83
## 3 47 49 1.99
## 4 59 74 1.67
## 5 42 92 1.64
## 6 36 95 1.72
## 7 49 99 1.93
## 8 52 43 1.98
## 9 35 90 1.44
## 10 20 78 1.97
## 11 37 49 1.62
## 12 22 52 1.55
## 13 21 79 1.76
## 14 59 41 1.79
## 15 65 78 2.01
## 16 39 51 1.41
## 17 63 44 1.94
## 18 50 96 1.50
## 19 33 89 2.01
## 20 20 76 1.96
## 21 44 59 2.01
## 22 51 90 2.04
## 23 59 88 1.80
## 24 34 77 1.61
## 25 45 87 1.67
## 26 22 85 1.55
## 27 22 61 1.95
## 28 15 69 1.70
## 29 55 99 1.71
## 30 32 94 1.75
## 31 63 89 1.64
## 32 28 85 1.51
## 33 15 79 1.68
## 34 21 46 1.72
## 35 52 81 1.82
## 36 51 83 1.74
## 37 26 76 1.69
## 38 58 79 1.52
## 39 29 50 2.02
## 40 62 98 1.98
## 41 61 61 1.83
## 42 29 82 1.92
## 43 62 45 1.82
## 44 39 51 1.85
## 45 32 78 1.50
## 46 49 54 1.64
## 47 24 90 2.05
## 48 63 97 1.77
## 49 38 95 1.65
## 50 19 90 1.75
## 51 19 61 1.70
## 52 61 41 1.79
## 53 39 42 1.89
## 54 19 68 1.67
## 55 42 59 1.78
## 56 64 45 2.03
## 57 36 72 1.60
## 58 47 74 1.49
## 59 16 40 1.87
## 60 17 68 1.87
## 61 42 59 1.42
## 62 23 70 1.56
## 63 50 63 2.01
## 64 36 44 2.01
## 65 41 80 1.84
## 66 52 90 1.67
## 67 27 75 2.04
## 68 51 61 1.83
## 69 42 77 1.72
## 70 56 60 1.66
## 71 37 63 1.47
## 72 55 60 1.95
## 73 60 56 1.72
## 74 63 70 1.55
## 75 15 60 1.81
## 76 18 62 1.96
## 77 27 43 2.03
## 78 24 80 1.88
## 79 64 79 1.73
## 80 19 82 1.56
## 81 60 85 2.01
## 82 43 54 1.60
## 83 62 42 1.56
## 84 20 82 1.55
## 85 61 62 1.42
## 86 62 44 1.55
## 87 56 96 1.46
## 88 20 96 1.73
## 89 21 53 2.05
## 90 63 50 1.99
## 91 18 65 1.56
## 92 22 80 1.88
## 93 19 61 1.95
## 94 62 42 1.98
## 95 34 60 1.82
## 96 36 88 1.78
## 97 17 65 1.47
## 98 32 63 1.77
## 99 29 77 1.67
## 100 49 94 1.90
media.edad <- mean(personas$edad)
media.edad
## [1] 40.19
media.peso <- mean(personas$peso)
media.peso
## [1] 69.74
media.estatura <- mean(personas$estatura)
media.estatura
## [1] 1.7626
orden.personas.edad <- sort(personas$edad)
posicion <- ceiling(100 /2)
orden.personas.edad
## [1] 15 15 15 16 17 17 18 18 19 19 19 19 19 20 20 20 20 21 21 21 22 22 22 22 23
## [26] 24 24 26 27 27 28 29 29 29 32 32 32 33 34 34 35 36 36 36 36 37 37 38 39 39
## [51] 39 41 42 42 42 42 43 44 45 47 47 49 49 49 50 50 51 51 51 52 52 52 55 55 56
## [76] 56 57 58 59 59 59 60 60 61 61 61 62 62 62 62 62 63 63 63 63 63 64 64 65 65
La posición.
cat("Valor de la posición ",posicion, " del conjunto de datos (Vector) edades es: ", orden.personas.edad[posicion])
## Valor de la posición 50 del conjunto de datos (Vector) edades es: 39
La posición cuando son par.
cat("Valor de la posición ",posicion + 1, " del conjunto de datos (Vector) edades es: ", orden.personas.edad[posicion + 1])
## Valor de la posición 51 del conjunto de datos (Vector) edades es: 39
*Operacion simplificada
mediana.edad <- sum(orden.personas.edad[posicion], orden.personas.edad[posicion + 1]) / 2
mediana.edad
## [1] 39
La función median() determina la mediana de un conjunto de datos. *edad
mediana.edad <- median(personas$edad)
mediana.edad
## [1] 39
*Peso.
mediana.peso <- median(personas$peso)
mediana.peso
## [1] 70.5
Estatura.
mediana.estatura <- median(personas$estatura)
mediana.estatura
## [1] 1.765
Ordenar las frecuencias descendente para identificar de mejor manera las frecuencias de cada valor de edad y dejar el resultado en la misma variable (Vector) frecuencia.
El valor de la posición 1 es la de mayor frecuencia si es que se ordenó descendentemente.
Edad.
moda.edad <- Mode(personas$edad)
moda.edad
## [1] 19 62 63
Peso.
moda.peso <- Mode(personas$peso)
moda.peso
## [1] 61 90
Estatura.
moda.estatura <- Mode(personas$estatura)
moda.estatura
## [1] 2.01
ggplot(data = personas, aes(x = edad)) +
geom_bar()
Histograma (Edad)
ggplot(data = personas, aes(x = edad)) +
geom_histogram(bins = 30)
Histograma con medidas de localización (Edad).
ggplot(personas, aes(x=edad)) +
geom_histogram(aes(fill=..count..), bins=20, color="white") +
geom_vline(aes(xintercept=mean(edad)), color="yellow") +
geom_vline(aes(xintercept=median(edad)), color= "orange")
Gráfico completo (Edad)
ggplot(aes(x = edad), data = personas) +
geom_histogram(color = 'green',
fill = 'green',
alpha = 0.2) +
labs(title = "Histograma de Edad") +
geom_vline(aes(xintercept = median(edad),
color = "mediana"),
linetype = "dashed",
size = 1) +
geom_vline(aes(xintercept = mean(edad),
color = "media"),
linetype = "dashed",
size = 1) +
geom_vline(
aes(xintercept = moda.edad[1],
color = "moda"),
linetype = "dashed",
size = 1
)
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
Gráfico completo (Peso)
ggplot(aes(x = peso), data = personas) +
geom_histogram(color = 'orange',
fill = 'orange',
alpha = 0.2) +
labs(title = "Histograma de Peso") +
geom_vline(aes(xintercept = median(peso),
color = "mediana"),
linetype = "dashed",
size = 1) +
geom_vline(aes(xintercept = mean(peso),
color = "media"),
linetype = "dashed",
size = 1) +
geom_vline(
aes(xintercept = moda.peso[1],
color = "moda"),
linetype = "dashed",
size = 1
)
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
Gráfico completo (Estatura)
ggplot(aes(x = estatura), data = personas) +
geom_histogram(color = 'yellow',
fill = 'yellow',
alpha = 0.2) +
labs(title = "Histograma de Estatura") +
geom_vline(aes(xintercept = median(estatura),
color = "mediana"),
linetype = "dashed",
size = 1) +
geom_vline(aes(xintercept = mean(estatura),
color = "media"),
linetype = "dashed",
size = 1) +
geom_vline(
aes(xintercept = moda.estatura[1],
color = "moda"),
linetype = "dashed",
size = 1
)
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
Estas medidas de tendencia son muy útiles para hacer una interpretación de los datos, segun sea la función que se les quiera dar pueden ser usadas como un punto de partida o referencia para la toma de decisiones. En esta ocaccion usando R podemos determinar rápidamente estas medidas haciendo uso de la libreria “resumeRdesc”, con este nuevo enfoque es muy sencillo implementar a gran cantidad de datos, lo cual simplifica mucho el análisis de los mismos