CASO 4. Medidas de Localización. Medidas de Tendencia central CUARTILES Y PERCENTEILES

Objetivo Realizar cálculos para determinar medidas de localización y tendencia central como CUARTILES Y PERCENTILES con un conjunto de datos de personas

Descripción Con un conjunto de datos de personas y con variables de interés como la edad, peso y estatura, determinar medidas de localización y tendencia central, se pide mostrar los datos, identificar las medidas visualizar gráficamente e interpretar las medidas.

1. Cargar librerías

library(readr)
library(ggplot2)
library(resumeRdesc)

2. Cargar o construir los datos

Sin Olvidarse de la Semilla

set.seed(2000)

Simulamos los datos con rnorm() edades en donde la media sea 45 años y desviación stándard igual a 10 años pesos en donde la media sea 75 kgs y desviación standard = 15 kgs estaturas en donde la media sea 1.70 y desviación estándard igual a 0.10 *Construir un conjunto de datos llamado personas

n<- 5700
media.edad<- 45; ds.edad<-10
media.peso<- 75; ds.peso<-15
media.estatura<- 1.70; ds.estatura<-0.10

Despues Contruimos el conjunto de datos personas head(personas); tail(personas), los primeros y últimos seis registros u observaciones del conjunto de datos

edad<- round(rnorm(n=n, mean = media.edad,sd=ds.edad),0)
peso<- round(rnorm(n=n, mean = media.peso,sd=ds.peso),2)
estatura<- round(rnorm(n=n, mean = media.estatura,sd=ds.estatura),2)

personas<- data.frame(edad,peso,estatura)

head(personas);tail(personas)
##   edad  peso estatura
## 1   36 75.79     1.74
## 2   41 72.89     1.94
## 3   54 93.69     1.66
## 4   62 66.93     1.77
## 5   54 77.53     1.70
## 6   33 97.95     1.56
##      edad  peso estatura
## 5695   48 57.95     1.70
## 5696   45 88.82     1.53
## 5697   56 66.62     1.75
## 5698   58 80.36     1.75
## 5699   52 90.13     1.66
## 5700   32 77.03     1.66

3. Cuartiles al 25%, 50% y 75%

EDAD

Variable de Interes es Edad 25%

cuartilese<- quantile(personas$edad, probs=c(0.25,0.50,0.75), type=7)
cuartilese[1]
## 25% 
##  38

*50%

cuartilese[2]
## 50% 
##  45

*75%

cuartilese[3]
## 75% 
##  52

PESO

Variable de Interes es Peso 25%

cuartilesp<- quantile(personas$peso, probs=c(0.25,0.50,0.75), type=7)
cuartilesp[1]
##    25% 
## 64.345

*50%

cuartilesp[2]
##   50% 
## 74.87

*75%

cuartilesp[3]
##     75% 
## 85.2325

ESTATURA

Variable de Interes es Estatura 25%

cuartileses<- quantile(personas$estatura, probs=c(0.25,0.50,0.75), type=7)
cuartileses[1]
##  25% 
## 1.63

*50%

cuartileses[2]
## 50% 
## 1.7

*75%

cuartileses[3]
##  75% 
## 1.77

4. Percentiles al 10%, 30%, 50%, 70% y 90%

EDAD

Variable a enfocarnos es Edad 10%

percentile<- quantile(personas$edad, probs=c(0.10,0.30,0.50,0.70,0.90),type=7)
percentile[1]
## 10% 
##  32

*30%

percentile[2]
## 30% 
##  40

*50%

percentile[3]
## 50% 
##  45

*70%

percentile[4]
## 70% 
##  50

*90%

percentile[5]
## 90% 
##  58

PESO

Variable a enfocarnos es Peso 10%

percentilp<- quantile(personas$peso, probs=c(0.10,0.30,0.50,0.70,0.90),type=7)
percentilp[1]
##    10% 
## 55.667

*30%

percentilp[2]
##   30% 
## 66.69

*50%

percentilp[3]
##   50% 
## 74.87

*70%

percentilp[4]
##   70% 
## 82.79

*90%

percentilp[5]
##    90% 
## 94.381

ESTATURA

Variable a enfocarnos es Estatura 10%

percentiles<- quantile(personas$estatura, probs=c(0.10,0.30,0.50,0.70,0.90),type=7)
percentiles[1]
##  10% 
## 1.57

*30%

percentiles[2]
##  30% 
## 1.65

*50%

percentiles[3]
## 50% 
## 1.7

*70%

percentiles[4]
##  70% 
## 1.75

*90%

percentiles[5]
##  90% 
## 1.83

5. Visualizar datos

EDADES

*Histograma de edades con ggplot

ggplot(data = personas, aes(edad, colour = 'edad')) +
    geom_histogram(position = "stack", bins = 20)

*Densidad de Edad con ggplot

ggplot(data = personas, aes(edad, colour = 'edad')) +
    geom_density()

*Histograma media,mediana juntos

ggplot(data = personas, aes(edad)) +
    geom_histogram(bins = 30) + 
    geom_vline(aes(xintercept = median(edad),
                  color = "mediana"),
              linetype = "solid",
              size = 1) +
    geom_vline(aes(xintercept = mean(edad),
                  color = "media"),
              linetype = "solid",
              size = 1) +
    geom_vline(aes(xintercept = mean(edad),
                  color = "media"),
              linetype = "solid",
              size = 1) +
  labs(title = "Histograma de Edad",subtitle =  paste("Media = ", round(mean(edad),2), ", Mediana = ", round(median(edad),2))) 

*Histograma y Cuartiles Juntos

ggplot(data = personas, aes(edad)) +
    geom_histogram(bins = 30) + 
    geom_vline(aes(xintercept = cuartilese[1],
                  color = "Q1"),
              linetype = "solid",
              size = 1) +
    geom_vline(aes(xintercept = cuartilese[2],
                  color = "Q2"),
              linetype = "solid",
              size = 1) +
    geom_vline(aes(xintercept = cuartilese[3],
                  color = "Q3"),
              linetype = "solid",
              size = 1) +  
  labs(title = "Histograma de Edad",subtitle =  paste("Cuartil 1 al 25% = ",round(cuartilese[1],2), ", Cuartil 2 al 50% = ",round(cuartilese[2],2), ", Cuartil 3 al 75% = ",round(cuartilese[3],2)))

*Histograma y Percentiles Juntos

ggplot(data = personas, aes(edad)) +
    geom_histogram(bins = 30) + 
    geom_vline(aes(xintercept = percentile[1],
                  color = "Perc1"),
              linetype = "solid",
              size = 1) +
    geom_vline(aes(xintercept = percentile[2],
                  color = "Perc2"),
              linetype = "solid",
              size = 1) +
    geom_vline(aes(xintercept = percentile[3],
                  color = "Perc3"),
              linetype = "solid",
              size = 1) +  
      geom_vline(aes(xintercept = percentile[4],
                  color = "Perc4"),
              linetype = "solid",
              size = 1) +
    geom_vline(aes(xintercept = percentile[5],
                  color = "Perc5"),
              linetype = "solid",
              size = 1) + 
  labs(title = "Histograma de Edad. Perc = Percentiles",subtitle =  paste("Perc al 10% = ",round(percentile[1],2), "Perc al 30% = ",round(percentile[2],2),"Perc al 50% = ",round(percentile[3],2),"Perc al 70% = ",round(percentile[4],2),"Perc al 90% = ",round(percentile[5],2)))

Peso

*Histograma de los pesos con ggplot

ggplot(data = personas, aes(peso, colour = 'Peso')) +
    geom_histogram(position = "stack", bins = 20)

*Densidad del peso con ggplot

ggplot(data = personas, aes(peso, colour = 'Peso')) +
    geom_density()

*Histograma media,mediana juntos

ggplot(data = personas, aes(peso)) +
    geom_histogram(bins = 30) + 
    geom_vline(aes(xintercept = median(peso),
                  color = "mediana"),
              linetype = "solid",
              size = 1) +
    geom_vline(aes(xintercept = mean(peso),
                  color = "media"),
              linetype = "solid",
              size = 1) +
    geom_vline(aes(xintercept = mean(peso),
                  color = "media"),
              linetype = "solid",
              size = 1) +
  labs(title = "Histograma de los Pesos",subtitle =  paste("Media = ", round(mean(peso),2), ", Mediana = ", round(median(peso),2))) 

*Histograma y Cuartiles Juntos

ggplot(data = personas, aes(peso)) +
    geom_histogram(bins = 30) + 
    geom_vline(aes(xintercept = cuartilesp[1],
                  color = "Q1"),
              linetype = "solid",
              size = 1) +
    geom_vline(aes(xintercept = cuartilesp[2],
                  color = "Q2"),
              linetype = "solid",
              size = 1) +
    geom_vline(aes(xintercept = cuartilesp[3],
                  color = "Q3"),
              linetype = "solid",
              size = 1) +  
  labs(title = "Histograma de los Pesos",subtitle =  paste("Cuartil 1 al 25% = ",round(cuartilesp[1],2), ", Cuartil 2 al 50% = ",round(cuartilesp[2],2), ", Cuartil 3 al 75% = ",round(cuartilesp[3],2)))

*Histograma y Percentiles Juntos

ggplot(data = personas, aes(peso)) +
    geom_histogram(bins = 30) + 
    geom_vline(aes(xintercept = percentilp[1],
                  color = "Perc1"),
              linetype = "solid",
              size = 1) +
    geom_vline(aes(xintercept = percentilp[2],
                  color = "Perc2"),
              linetype = "solid",
              size = 1) +
    geom_vline(aes(xintercept = percentilp[3],
                  color = "Perc3"),
              linetype = "solid",
              size = 1) +  
      geom_vline(aes(xintercept = percentilp[4],
                  color = "Perc4"),
              linetype = "solid",
              size = 1) +
    geom_vline(aes(xintercept = percentilp[5],
                  color = "Perc5"),
              linetype = "solid",
              size = 1) + 
  labs(title = "Histograma de los Pesos. Perc = Percentiles",subtitle =  paste("Perc al 10% = ",round(percentilp[1],2), "Perc al 30% = ",round(percentilp[2],2),"Perc al 50% = ",round(percentilp[3],2),"Perc al 70% = ",round(percentilp[4],2),"Perc al 90% = ",round(percentilp[5],2)))

Estatura

*Histograma de estaturas con ggplot

ggplot(data = personas, aes(edad, colour = 'estatura')) +
    geom_histogram(position = "stack", bins = 20)

*Densidad de Estatura con ggplot

ggplot(data = personas, aes(edad, colour = 'estatura')) +
    geom_density()

*Histograma media,mediana juntos

ggplot(data = personas, aes(estatura)) +
    geom_histogram(bins = 30) + 
    geom_vline(aes(xintercept = median(estatura),
                  color = "mediana"),
              linetype = "solid",
              size = 1) +
    geom_vline(aes(xintercept = mean(estatura),
                  color = "media"),
              linetype = "solid",
              size = 1) +
    geom_vline(aes(xintercept = mean(estatura),
                  color = "media"),
              linetype = "solid",
              size = 1) +
  labs(title = "Histograma de Estatura",subtitle =  paste("Media = ", round(mean(estatura),2), ", Mediana = ", round(median(estatura),2))) 

*Histograma y Cuartiles Juntos

ggplot(data = personas, aes(estatura)) +
    geom_histogram(bins = 30) + 
    geom_vline(aes(xintercept = cuartileses[1],
                  color = "Q1"),
              linetype = "solid",
              size = 1) +
    geom_vline(aes(xintercept = cuartileses[2],
                  color = "Q2"),
              linetype = "solid",
              size = 1) +
    geom_vline(aes(xintercept = cuartileses[3],
                  color = "Q3"),
              linetype = "solid",
              size = 1) +  
  labs(title = "Histograma de Estatura",subtitle =  paste("Cuartil 1 al 25% = ",round(cuartileses[1],2), ", Cuartil 2 al 50% = ",round(cuartileses[2],2), ", Cuartil 3 al 75% = ",round(cuartileses[3],2)))

*Histograma y Percentiles Juntos

ggplot(data = personas, aes(estatura)) +
    geom_histogram(bins = 30) + 
    geom_vline(aes(xintercept = percentiles[1],
                  color = "Perc1"),
              linetype = "solid",
              size = 1) +
    geom_vline(aes(xintercept = percentiles[2],
                  color = "Perc2"),
              linetype = "solid",
              size = 1) +
    geom_vline(aes(xintercept = percentiles[3],
                  color = "Perc3"),
              linetype = "solid",
              size = 1) +  
      geom_vline(aes(xintercept = percentiles[4],
                  color = "Perc4"),
              linetype = "solid",
              size = 1) +
    geom_vline(aes(xintercept = percentiles[5],
                  color = "Perc5"),
              linetype = "solid",
              size = 1) + 
  labs(title = "Histograma de Estatura. Perc = Percentiles",subtitle =  paste("Perc al 10% = ",round(percentiles[1],2), "Perc al 30% = ",round(percentiles[2],2),"Perc al 50% = ",round(percentiles[3],2),"Perc al 70% = ",round(percentiles[4],2),"Perc al 90% = ",round(percentiles[5],2)))

6. Interpretar y comunicar datos

Realizando el análisis sobre este caso que trata sobre los cuartiles y los percentiles antes de iniciar ¿Qué son los cuartiles? Bueno los cuartiles son los tres elementos de un conjunto de datos ordenados que dividen el conjunto en cuatro partes iguales. Distinguimos los casos en que los datos están agrupados en frecuencias y los que no lo están. Los datos también pueden estar agrupados en intervalos de valores. Los Percentiles es una medida de posición usada en estadística que indica, una vez ordenados los datos de menor a mayor, el valor de la variable por debajo del cual se encuentra un porcentaje dado de observaciones en un grupo. Ya mencionado lo que es cada uno empecemos tenemos una muestra de 5700 con el cual se va a construir un conjunto de datos ordenados en una tabla con los nombres de edad, peso y estatura, al sacar los cuartiles de la edad pudimos observar que en el 25% era el de 38 años, el del 50% el 45 y 75% fue el 52, el Percentil de las edades fue 10% es de 32 años, 30% es de 40 años, 50% fue de 45 años, 70% fue de 50 y 90% fue de 58. Nos Pasamos al Peso que al sacar los cuartiles el 25% es 64.3Kg, 50% es 74.8Kg, 75% es 85.2Kg, los Percentiles son: 10% es 55.6Kg, 30% es 66.6Kg, 50% es 74.8Kg, 70% es 82.7kg y 90% es 94.3% y Por último la Estatura que en cuartiles son: el 25% es 1.63m, 50% es 1.7m, 75% es 1.77m, Y en los Percentiles Son: 10% es 1.57m, 30% es 1.65m, 50% es 1.7m, 70% es 1.75 y Por último el 90% es de 1.83(Justo lo que mido yo) y ya finalmente se muestran los gráficos con la ayuda del ggplot a visualizar mejor los datos ya mencionados.