Caso 4. Cuartiles/Percentiles.

Objetivo: Realizar cálculos para determinar medidas de localización y tendencia central como cuartiles y percentiles con un conjunto de datos de personas.

Descripción: Con un conjunto de datos de personas y con variables de interés como la edad, peso y estatura, determinar medidas de localización y tendencia central, se pide mostrar los datos, identificar las medidas visualizar gráficamente e interpretar las medidas.

  1. Cargar librerías.
library(readr)
library(ggplot2)
library(resumeRdesc)
  1. Construir los datos (Aleatorios)
set.seed(2020)
n <-  100
media.edad <- 33; ds.edad <- 11
media.peso <- 80; ds.peso <- 13
media.estatura <- 1.78; ds.estatura <- 0.19
edad <- round(rnorm(n = n, mean = media.edad, sd = ds.edad),0)
peso <- round(rnorm(n = n, mean = media.peso, sd = ds.peso),2)
estatura <- round(rnorm(n = n, mean = media.estatura, sd = ds.estatura),2)

personas <- data.frame(edad, peso, estatura)

head(personas); tail(personas)
##   edad  peso estatura
## 1   37 57.53     1.64
## 2   36 67.11     1.94
## 3   21 72.39     1.70
## 4   21 84.99     1.86
## 5    2 89.71     1.58
## 6   41 67.93     1.54
##     edad  peso estatura
## 95    31 70.55     1.84
## 96    24 88.15     1.65
## 97    37 65.81     1.68
## 98    40 73.29     2.13
## 99    27 80.22     1.60
## 100   26 88.59     1.67
  1. Cuartiles al 25%, 50%, y 75%
cuartiles <- quantile(personas$edad, probs = c(0.25, 0.50, 0.75), type = 6)
cuartiles[1]
## 25% 
##  27
cuartiles[2]
## 50% 
##  34
cuartiles[3]
##   75% 
## 41.75
  1. Percentiles.
percentil <- quantile(personas$edad, probs = c(0.10, 0.30, 0.50, 0.70, 0.90), type = 7)
percentil[1]
##  10% 
## 19.8
percentil[1]
##  10% 
## 19.8
percentil[2]
## 30% 
##  29
percentil[3]
## 50% 
##  34
percentil[4]
##  70% 
## 39.3
percentil[5]
##  90% 
## 51.1
  1. Visualización de los datos.
ggplot(data = personas, aes(edad, colour = 'edad')) +
    geom_histogram(position = "stack", bins = 30)

ggplot(data = personas, aes(edad, colour = 'edad')) +
    geom_density()

  1. Interpretación de los datos.
ggplot(data = personas, aes(edad)) +
    geom_histogram(bins = 30) + 
    geom_vline(aes(xintercept = median(edad),
                  color = "mediana"),
              linetype = "dashed",
              size = 1) +
    geom_vline(aes(xintercept = mean(edad),
                  color = "media"),
              linetype = "dashed",
              size = 1) +
  labs(title = "Histograma de Edad",subtitle =  paste("Media = ", round(mean(edad),2), ", Mediana = ", round(median(edad),2)))

ggplot(data = personas, aes(edad)) +
    geom_histogram(bins = 30) + 
    geom_vline(aes(xintercept = cuartiles[1],
                  color = "Q1"),
              linetype = "dashed",
              size = 1) +
    geom_vline(aes(xintercept = cuartiles[2],
                  color = "Q2"),
              linetype = "dashed",
              size = 1) +
    geom_vline(aes(xintercept = cuartiles[3],
                  color = "Q3"),
              linetype = "dashed",
              size = 1) +  
  labs(title = "Histograma de Edad",subtitle =  paste("Cuartil 1 al 25% = ",round(cuartiles[1],2), ", Cuartil 2 al 50% = ",round(cuartiles[2],2), ", Cuartil 3 al 75% = ",round(cuartiles[3],2)))

ggplot(data = personas, aes(edad)) +
    geom_histogram(bins = 30) + 
    geom_vline(aes(xintercept = percentil[1],
                  color = "Perc1"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = percentil[2],
                  color = "Perc2"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = percentil[3],
                  color = "Perc3"),
              linetype = "solid",
              size = 2) +  
      geom_vline(aes(xintercept = percentil[4],
                  color = "Perc4"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = percentil[5],
                  color = "Perc5"),
              linetype = "solid",
              size = 2) + 
  labs(title = "Histograma de Edad. Perc = Percentiles",subtitle =  paste("Perc al 10% = ",round(percentil[1],2), "Perc al 30% = ",round(percentil[2],2),"Perc al 50% = ",round(percentil[3],2),"Perc al 70% = ",round(percentil[4],2),"Perc al 90% = ",round(percentil[5],2)))

  1. Descripción del caso. *Comprensión del caso.

En este caso utilizamos ggplot para ayudarnos a ver de una manera más fácil la información y los datos que nos arrojaron los percentiles de 3 posiciones y los cuartiles de 5 posiciones que se generaron en un histograma para usar una manera más visual y agradable en forma de gráficas y observar la frecuencia de los valores obtenidos y con esto lograr una vista más fácil y general de los datos que hemos utilizado.