OBJETIVO:

Realizar cálculos para determinar medidas de localización y tendencia central como CUARTILES Y PERCENTILES con un conjunto de datos de personas.

DESCRIPCIÓN

Con un conjunto de datos de personas y con variables de interés como la edad, peso y estatura, determinar medidas de localización y tendencia central, se pide mostrar los datos, identificar las medidas visualizar gráficamente e interpretar las medidas.

PASOS A SEGUIR

1.- Cargar librerías.

• library(readr) # Por si acaso cargar datos
• library(ggplot2) # Para visualizar
• library(resumeRdesc) # Para estadísticos

2.- Cargar o construir los datos.

• 100 observaciones
• Utilizar rnorm() con los parámetros necesarios

3.- Cuartiles al 25%, 50% y 75%.

a) Edad
b) Peso
c) Estatura

4.- Percentiles.

a) Edad
b) Peso
c) Estatura

5-. Visualizar datos.

• Utilizar la librería ggplot2
• Diagrama de caja

6.- Interpretar y comunicar datos.

PASO 1. Cargar las librerías.

library(readr)
library (ggplot2)
library(resumeRdesc)  # En caso de que la usemos

PASO 2. Cargar o construir los datos.

Semilla para mismos datos aleatorios siempre

set.seed(421)

• Simular los datos, utilizar rnorm()

n: Total de observaciones de la muestra

Edades en donde la media sea 45 años y desviación stándard igual a 10 años

Pesos en donde: media = 75 kgs y desviación estándar = 15 kgs

• Estaturas en donde: media = 1.70metros y desviación estándar = 0.10

• Construir un conjunto de datos llamado Personas

• Cambiar nombre del conjunto de datos Personas a ‘Edad’, ‘Peso’ y ‘Estatura’ con la función name()

• Mostrar conjunto de datos Personas

• Generar datos de las medias de las variables de inicio y de interés: Edad, Peso y Estatura

n =  100
Media.Edad = 45; Des.Edad = 10
Media.Peso = 75; Des.Peso = 15
Media.Estatura = 1.70; Des.Estatura = 0.10

#Construyendo el conjunto de datos Personas
Edad = round(rnorm(n = n, mean = Media.Edad, sd = Des.Edad),0)
Peso = round(rnorm(n = n, mean = Media.Peso, sd = Des.Peso),2)
Estatura = round(rnorm(n = n, mean = Media.Estatura, sd = Des.Estatura),2)

Personas = data.frame(Edad, Peso, Estatura)

head(Personas); tail(Personas) #Mostrar los primeros 6 y últimos 6 registros del conjunto.
##   Edad  Peso Estatura
## 1   53 73.62     1.57
## 2   51 69.44     1.80
## 3   55 77.23     1.71
## 4   58 68.75     1.57
## 5   46 63.93     1.77
## 6   40 83.95     1.76
##     Edad   Peso Estatura
## 95    62  64.38     1.72
## 96    31  64.32     1.81
## 97    40  62.56     1.85
## 98    41  83.22     1.85
## 99    39  81.62     1.78
## 100   38 111.14     1.78

PASO 3 Cuartiles al 25%, 50% y 75%.

a)

• La variable de interés es: Edad

• Cuartiles generados en un vector de 3 posiciones ([1],[2],[3])

Cuartiles = quantile(Personas$Edad, probs = c(0.25, 0.50, 0.75), type = 6)
Cuartiles[1]
##   25% 
## 39.25
Cuartiles[2]
## 50% 
##  46
Cuartiles[3]
## 75% 
##  54

b)

• La variable de interés es: Estatura

• Cuartiles generados en un vector de 3 posiciones ([1],[2],[3])

Cuartiles = quantile(Personas$Estatura, probs = c(0.25, 0.50, 0.75), type = 6)
Cuartiles[1]
##  25% 
## 1.62
Cuartiles[2]
##  50% 
## 1.72
Cuartiles[3]
##  75% 
## 1.78

c)

• La variable de interés es: Peso

• Cuartiles generados en un vector de 3 posiciones ([1],[2],[3])

Cuartiles = quantile(Personas$Peso, probs = c(0.25, 0.50, 0.75), type = 6)
Cuartiles[1]
##     25% 
## 64.0275
Cuartiles[2]
##    50% 
## 74.635
Cuartiles[3]
##     75% 
## 86.1925

PASO 4. Percentiles.

a)

• La varialble de interés es: Edad

• Percentiles es un vector de 5 posiciones ([1],[2],[3],[4],[5])

Percentil = quantile(Personas$Edad, probs = c(0.1, 0.3, 0.5, 0.7, 0.9), type = 7)
Percentil[1]
## 10% 
##  31
Percentil[2]
## 30% 
##  40
Percentil[3]
## 50% 
##  46
Percentil[4]
## 70% 
##  52
Percentil[5]
## 90% 
##  60

b)

• La varialble de interés es: Peso

• Percentiles es un vector de 5 posiciones ([1],[2],[3],[4],[5])

Percentil = quantile(Personas$Peso, probs = c(0.1, 0.3, 0.5, 0.7, 0.9), type = 7)
Percentil[1]
##    10% 
## 57.132
Percentil[2]
##    30% 
## 66.573
Percentil[3]
##    50% 
## 74.635
Percentil[4]
##    70% 
## 84.761
Percentil[5]
##    90% 
## 94.094

c)

• La varialble de interés es: Estatura

• Percentiles es un vector de 5 posiciones ([1],[2],[3],[4],[5])

Percentil = quantile(Personas$Estatura, probs = c(0.1, 0.3, 0.5, 0.7, 0.9), type = 7)
Percentil[1]
##  10% 
## 1.58
Percentil[2]
##  30% 
## 1.67
Percentil[3]
##  50% 
## 1.72
Percentil[4]
##   70% 
## 1.763
Percentil[5]
##   90% 
## 1.822

PASO 5. Visualizar datos.

• Usaremos la librería ggplot

• Haremos el histograma de la variable: Edad

a) Edad

ggplot(data = Personas, aes(Edad, colour = 'Edad')) +
    geom_histogram(position = "stack", bins = 30)

• Con la librería ggplot calcularemos la densidad de la variable: Edad

ggplot(data = Personas, aes(Edad, colour = '')) +
    geom_density()

• Haremos un histograma con la media y la mediana juntas. Variable: Edad

ggplot(data = Personas, aes(Edad)) +
    geom_histogram(bins = 30) + 
    geom_vline(aes(xintercept = median(Edad),
                  color = "Mediana"),
              linetype = "dashed",
              size = 1) +
    geom_vline(aes(xintercept = mean(Edad),
                  color = "Media"),
              linetype = "dashed",
              size = 1) +
  labs(title = "Histograma de Edad",subtitle =  paste("Media = ", round(mean(Edad),2), ", Mediana = ", round(median(Edad),2))) 

• Histograma con cuartiles juntos. Variable: Edad

ggplot(data = Personas, aes(Edad)) +
    geom_histogram(bins = 30) + 
    geom_vline(aes(xintercept = Cuartiles[1],
                  color = "Q1"),
              linetype = "dashed",
              size = 1) +
    geom_vline(aes(xintercept = Cuartiles[2],
                  color = "Q2"),
              linetype = "dashed",
              size = 1) +
    geom_vline(aes(xintercept = Cuartiles[3],
                  color = "Q3"),
              linetype = "dashed",
              size = 1) +  
  labs(title = "Histograma de Edad",subtitle =  paste("Cuartil 1 al 25% = ",round(Cuartiles[1],2), ", Cuartil 2 al 50% = ",round(Cuartiles[2],2), ", Cuartil 3 al 75% = ",round(Cuartiles[3],2)))

• Histograma con percentiles juntos. Variable: Edad

ggplot(data = Personas, aes(Edad)) +
    geom_histogram(bins = 30) + 
    geom_vline(aes(xintercept = Percentil[1],
                  color = "Perc1"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = Percentil[2],
                  color = "Perc2"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = Percentil[3],
                  color = "Perc3"),
              linetype = "solid",
              size = 2) +  
      geom_vline(aes(xintercept = Percentil[4],
                  color = "Perc4"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = Percentil[5],
                  color = "Perc5"),
              linetype = "solid",
              size = 2) + 
  labs(title = "Histograma de Edad. Perc = Percentiles",subtitle =  paste("Perc al 10% = ",round(Percentil[1],2), "Perc al 30% = ",round(Percentil[2],2),"Perc al 50% = ",round(Percentil[3],2),"Perc al 70% = ",round(Percentil[4],2),"Perc al 90% = ",round(Percentil[5],2)))

b) Peso

ggplot(data = Personas, aes(Peso, colour = 'Peso')) +
    geom_histogram(position = "stack", bins = 30)

• Con la librería ggplot calcularemos la densidad de la variable: Peso

ggplot(data = Personas, aes(Peso, colour = 'Peso')) +
    geom_density()

• Haremos un histograma con la media y la mediana juntas. Variable: Peso

ggplot(data = Personas, aes(Peso)) +
    geom_histogram(bins = 30) + 
    geom_vline(aes(xintercept = median(Peso),
                  color = "Mediana"),
              linetype = "dashed",
              size = 1) +
    geom_vline(aes(xintercept = mean(Peso),
                  color = "Media"),
              linetype = "dashed",
              size = 1) +
  labs(title = "Histograma de Peso",subtitle =  paste("Media = ", round(mean(Peso),2), ", Mediana = ", round(median(Peso),2))) 

• Histograma con cuartiles juntos. Variable: Peso

ggplot(data = Personas, aes(Peso)) +
    geom_histogram(bins = 30) + 
    geom_vline(aes(xintercept = Cuartiles[1],
                  color = "Q1"),
              linetype = "dashed",
              size = 1) +
    geom_vline(aes(xintercept = Cuartiles[2],
                  color = "Q2"),
              linetype = "dashed",
              size = 1) +
    geom_vline(aes(xintercept = Cuartiles[3],
                  color = "Q3"),
              linetype = "dashed",
              size = 1) +  
  labs(title = "Histograma de ",subtitle =  paste("Cuartil 1 al 25% = ",round(Cuartiles[1],2), ", Cuartil 2 al 50% = ",round(Cuartiles[2],2), ", Cuartil 3 al 75% = ",round(Cuartiles[3],2)))

• Histograma con percentiles juntos. Variable: Peso

ggplot(data = Personas, aes(Peso)) +
    geom_histogram(bins = 30) + 
    geom_vline(aes(xintercept = Percentil[1],
                  color = "Perc1"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = Percentil[2],
                  color = "Perc2"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = Percentil[3],
                  color = "Perc3"),
              linetype = "solid",
              size = 2) +  
      geom_vline(aes(xintercept = Percentil[4],
                  color = "Perc4"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = Percentil[5],
                  color = "Perc5"),
              linetype = "solid",
              size = 2) + 
  labs(title = "Histograma de Edad. Perc = Percentiles",subtitle =  paste("Perc al 10% = ",round(Percentil[1],2), "Perc al 30% = ",round(Percentil[2],2),"Perc al 50% = ",round(Percentil[3],2),"Perc al 70% = ",round(Percentil[4],2),"Perc al 90% = ",round(Percentil[5],2)))

c) Estatura

ggplot(data = Personas, aes(Estatura, colour = 'Estatura')) +
    geom_histogram(position = "stack", bins = 30)

• Con la librería ggplot calcularemos la densidad de la variable: Estatura

ggplot(data = Personas, aes(Estatura, colour = 'Estatura')) +
    geom_density()

• Haremos un histograma con la media y la mediana juntas. Variable: Estatura

ggplot(data = Personas, aes(Estatura)) +
    geom_histogram(bins = 30) + 
    geom_vline(aes(xintercept = median(Estatura),
                  color = "Mediana"),
              linetype = "dashed",
              size = 1) +
    geom_vline(aes(xintercept = mean(Estatura),
                  color = "Media"),
              linetype = "dashed",
              size = 1) +
  labs(title = "Histograma de Estatura",subtitle =  paste("Media = ", round(mean(Estatura),2), ", Mediana = ", round(median(Estatura),2))) 

• Histograma con cuartiles juntos. Variable: Estatura

ggplot(data = Personas, aes(Estatura)) +
    geom_histogram(bins = 30) + 
    geom_vline(aes(xintercept = Cuartiles[1],
                  color = "Q1"),
              linetype = "dashed",
              size = 1) +
    geom_vline(aes(xintercept = Cuartiles[2],
                  color = "Q2"),
              linetype = "dashed",
              size = 1) +
    geom_vline(aes(xintercept = Cuartiles[3],
                  color = "Q3"),
              linetype = "dashed",
              size = 1) +  
  labs(title = "Histograma de Estatura",subtitle =  paste("Cuartil 1 al 25% = ",round(Cuartiles[1],2), ", Cuartil 2 al 50% = ",round(Cuartiles[2],2), ", Cuartil 3 al 75% = ",round(Cuartiles[3],2)))

• Histograma con percentiles juntos. Variable: Estatura

ggplot(data = Personas, aes(Estatura)) +
    geom_histogram(bins = 30) + 
    geom_vline(aes(xintercept = Percentil[1],
                  color = "Perc1"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = Percentil[2],
                  color = "Perc2"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = Percentil[3],
                  color = "Perc3"),
              linetype = "solid",
              size = 2) +  
      geom_vline(aes(xintercept = Percentil[4],
                  color = "Perc4"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = Percentil[5],
                  color = "Perc5"),
              linetype = "solid",
              size = 2) + 
  labs(title = "Histograma de Edad. Perc = Percentiles",subtitle =  paste("Perc al 10% = ",round(Percentil[1],2), "Perc al 30% = ",round(Percentil[2],2),"Perc al 50% = ",round(Percentil[3],2),"Perc al 70% = ",round(Percentil[4],2),"Perc al 90% = ",round(Percentil[5],2)))

PASO 6. Interpretar y comunicar datos

• Los cuartiles consiten en dividir nuestro conjunto de datos en 4 partes iguales.

• Utilizando cuartiles podemos observar rápidamente cómo se distribuyen nuestros datos.

• Los cuartiles también nos sirven para evaluar la dispersión de un conjunto de datos.

• Por dispersión se refiere a cómo están distribuidos los datos.

• La dispersión se puede medir de diferentes maneras, algunas de las medidas de dispersión son la varianza y la dispersión estándar

• Los percentiles nos sirven para comparar un conjunto de datos con otro.

• Los valores de los cuartiles de mi variable Edad son :

Cuartil 1 al 25%: 39.25
Cuartil 2 al 50%: 46
Cuartil 3 al 75%: 54

• Los valores de los cuartiles de mi variable Estatura son :

Cuartil 1 al 25%: 1.62 m
Cuartil 2 al 50%: 1.72 m
Cuartil 3 al 75%: 1.78 m