*Objetivo
Realizar cálculos para determinar medidas de localización y tendencia central como CUARTILES Y PERCENTILES con un conjunto de datos de personas
*Descripción
Con un conjunto de datos de personas y con variables de interés como la edad, peso y estatura, determinar medidas de localización y tendencia central, se pide mostrar los datos, identificar las medidas visualizar gráficamente e interpretar las medidas.
library(readr)
library(ggplot2)
library(resumeRdesc)
*Semilla para datos aleatorios
set.seed(2020)
n <- 100
media.edad <- 45; ds.edad <- 10
media.peso <- 75; ds.peso <- 15
media.estatura <- 1.70; ds.estatura <- 0.10
*conjunto de los datos
edad <- round(rnorm(n = n, mean = media.edad, sd = ds.edad),0)
peso <- round(rnorm(n = n, mean = media.peso, sd = ds.peso),2)
estatura <- round(rnorm(n = n, mean = media.estatura, sd = ds.estatura),2)
personas <- data.frame(edad, peso, estatura)
head(personas); tail(personas)
## edad peso estatura
## 1 49 49.07 1.63
## 2 48 60.13 1.79
## 3 34 66.22 1.66
## 4 34 80.75 1.74
## 5 17 86.20 1.60
## 6 52 61.07 1.57
## edad peso estatura
## 95 43 64.09 1.73
## 96 37 84.40 1.63
## 97 48 58.63 1.65
## 98 52 67.26 1.88
## 99 40 75.25 1.60
## 100 38 84.91 1.64
cuartiles <- quantile(personas$edad, probs = c(0.25, 0.50, 0.75), type = 6)
cuartiles[1]
## 25%
## 39
cuartiles[2]
## 50%
## 46
cuartiles[3]
## 75%
## 52.75
cuartiles <- quantile(personas$peso, probs = c(0.25, 0.50, 0.75), type = 6)
cuartiles[1]
## 25%
## 59.53
cuartiles[2]
## 50%
## 74.14
cuartiles[3]
## 75%
## 85.88
cuartiles <- quantile(personas$estatura, probs = c(0.25, 0.50, 0.75), type = 6)
cuartiles[1]
## 25%
## 1.605
cuartiles[2]
## 50%
## 1.69
cuartiles[3]
## 75%
## 1.7675
*percentiles es un Vector de 5 posiciones [1],[2],[3],[4],[5]
percentil <- quantile(personas$edad, probs = c(0.10, 0.30, 0.50, 0.70, 0.90), type = 7)
percentil[1]
## 10%
## 32.9
percentil[2]
## 30%
## 41.7
percentil[3]
## 50%
## 46
percentil[4]
## 70%
## 51
percentil[5]
## 90%
## 61.1
percentil <- quantile(personas$peso, probs = c(0.10, 0.30, 0.50, 0.70, 0.90), type = 7)
percentil[1]
## 10%
## 50.902
percentil[2]
## 30%
## 63.302
percentil[3]
## 50%
## 74.14
percentil[4]
## 70%
## 82.613
percentil[5]
## 90%
## 93.698
percentil <- quantile(personas$estatura, probs = c(0.10, 0.30, 0.50, 0.70, 0.90), type = 7)
percentil[1]
## 10%
## 1.548
percentil[2]
## 30%
## 1.63
percentil[3]
## 50%
## 1.69
percentil[4]
## 70%
## 1.75
percentil[5]
## 90%
## 1.821
*Histograma de edad con ggplot
ggplot(data = personas, aes(edad, colour = 'edad')) +
geom_histogram(position = "stack", bins = 30)
ggplot(data = personas, aes(peso, colour = 'peso')) +
geom_histogram(position = "stack", bins = 30)
ggplot(data = personas, aes(estatura, colour = 'estatura')) +
geom_histogram(position = "stack", bins = 30)
*Densidad de edad
ggplot(data = personas, aes(edad, colour = 'edad')) +
geom_density()
*Densidad de peso
ggplot(data = personas, aes(peso, colour = 'peso')) +
geom_density()
*Densidad de estatura
ggplot(data = personas, aes(estatura, colour = 'estatura')) +
geom_density()
*Histograma de edad, media, mediana juntos
ggplot(data = personas, aes(edad)) +
geom_histogram(bins = 30) +
geom_vline(aes(xintercept = median(edad),
color = "mediana"),
linetype = "dashed",
size = 1) +
geom_vline(aes(xintercept = mean(edad),
color = "media"),
linetype = "dashed",
size = 1) +
labs(title = "Histograma de Edad",subtitle = paste("Media = ", round(mean(edad),2), ", Mediana = ", round(median(edad),2)))
*Histograma de peso, media, mediana juntos
ggplot(data = personas, aes(peso)) +
geom_histogram(bins = 30) +
geom_vline(aes(xintercept = median(peso),
color = "mediana"),
linetype = "dashed",
size = 1) +
geom_vline(aes(xintercept = mean(peso),
color = "media"),
linetype = "dashed",
size = 1) +
labs(title = "Histograma de Peso",subtitle = paste("Media = ", round(mean(peso),2), ", Mediana = ", round(median(peso),2)))
*Histograma de estatura, media, mediana juntos
ggplot(data = personas, aes(estatura)) +
geom_histogram(bins = 30) +
geom_vline(aes(xintercept = median(estatura),
color = "mediana"),
linetype = "dashed",
size = 1) +
geom_vline(aes(xintercept = mean(estatura),
color = "media"),
linetype = "dashed",
size = 1) +
labs(title = "Histograma de Estatura",subtitle = paste("Media = ", round(mean(estatura),2), ", Mediana = ", round(median(estatura),2)))
*Histograma y cuartiles juntos (edad)
ggplot(data = personas, aes(edad)) +
geom_histogram(bins = 30) +
geom_vline(aes(xintercept = cuartiles[1],
color = "Q1"),
linetype = "dashed",
size = 1) +
geom_vline(aes(xintercept = cuartiles[2],
color = "Q2"),
linetype = "dashed",
size = 1) +
geom_vline(aes(xintercept = cuartiles[3],
color = "Q3"),
linetype = "dashed",
size = 1) +
labs(title = "Histograma de Edad",subtitle = paste("Cuartil 1 al 25% = ",round(cuartiles[1],2), ", Cuartil 2 al 50% = ",round(cuartiles[2],2), ", Cuartil 3 al 75% = ",round(cuartiles[3],2)))
*Histograma y cuartiles juntos (peso)
ggplot(data = personas, aes(peso)) +
geom_histogram(bins = 30) +
geom_vline(aes(xintercept = cuartiles[1],
color = "Q1"),
linetype = "solid",
size = 1) +
geom_vline(aes(xintercept = cuartiles[2],
color = "Q2"),
linetype = "solid",
size = 1) +
geom_vline(aes(xintercept = cuartiles[3],
color = "Q3"),
linetype = "solid",
size = 1) +
labs(title = "Histograma de los Pesos",subtitle = paste("Cuartil 1 al 25% = ",round(cuartiles[1],2), ", Cuartil 2 al 50% = ",round(cuartiles[2],2), ", Cuartil 3 al 75% = ",round(cuartiles[3],2)))
*Histograma y cuartiles juntos (estatura)
ggplot(data = personas, aes(estatura)) +
geom_histogram(bins = 30) +
geom_vline(aes(xintercept = cuartiles[1],
color = "Q1"),
linetype = "solid",
size = 1) +
geom_vline(aes(xintercept = cuartiles[2],
color = "Q2"),
linetype = "solid",
size = 1) +
geom_vline(aes(xintercept = cuartiles[3],
color = "Q3"),
linetype = "solid",
size = 1) +
labs(title = "Histograma de los estatura",subtitle = paste("Cuartil 1 al 25% = ",round(cuartiles[1],2), ", Cuartil 2 al 50% = ",round(cuartiles[2],2), ", Cuartil 3 al 75% = ",round(cuartiles[3],2)))
*Histograma y percentiles juntos (edad)
ggplot(data = personas, aes(edad)) +
geom_histogram(bins = 30) +
geom_vline(aes(xintercept = percentil[1],
color = "Perc1"),
linetype = "solid",
size = 2) +
geom_vline(aes(xintercept = percentil[2],
color = "Perc2"),
linetype = "solid",
size = 2) +
geom_vline(aes(xintercept = percentil[3],
color = "Perc3"),
linetype = "solid",
size = 2) +
geom_vline(aes(xintercept = percentil[4],
color = "Perc4"),
linetype = "solid",
size = 2) +
geom_vline(aes(xintercept = percentil[5],
color = "Perc5"),
linetype = "solid",
size = 2) +
labs(title = "Histograma de Edad. Perc = Percentiles",subtitle = paste("Perc al 10% = ",round(percentil[1],2), "Perc al 30% = ",round(percentil[2],2),"Perc al 50% = ",round(percentil[3],2),"Perc al 70% = ",round(percentil[4],2),"Perc al 90% = ",round(percentil[5],2)))
*Histograma y Percentiles Juntos (peso)
ggplot(data = personas, aes(peso)) +
geom_histogram(bins = 30) +
geom_vline(aes(xintercept = percentil[1],
color = "Perc1"),
linetype = "solid",
size = 1) +
geom_vline(aes(xintercept = percentil[2],
color = "Perc2"),
linetype = "solid",
size = 1) +
geom_vline(aes(xintercept = percentil[3],
color = "Perc3"),
linetype = "solid",
size = 1) +
geom_vline(aes(xintercept = percentil[4],
color = "Perc4"),
linetype = "solid",
size = 1) +
geom_vline(aes(xintercept = percentil[5],
color = "Perc5"),
linetype = "solid",
size = 1) +
labs(title = "Histograma de los Pesos. Perc = Percentiles",subtitle = paste("Perc al 10% = ",round(percentil[1],2), "Perc al 30% = ",round(percentil[2],2),"Perc al 50% = ",round(percentil[3],2),"Perc al 70% = ",round(percentil[4],2),"Perc al 90% = ",round(percentil[5],2)))
*Histograma y percentiles juntos (estatura)
ggplot(data = personas, aes(estatura)) +
geom_histogram(bins = 30) +
geom_vline(aes(xintercept = percentil[1],
color = "Perc1"),
linetype = "solid",
size = 1) +
geom_vline(aes(xintercept = percentil[2],
color = "Perc2"),
linetype = "solid",
size = 1) +
geom_vline(aes(xintercept = percentil[3],
color = "Perc3"),
linetype = "solid",
size = 1) +
geom_vline(aes(xintercept = percentil[4],
color = "Perc4"),
linetype = "solid",
size = 1) +
geom_vline(aes(xintercept = percentil[5],
color = "Perc5"),
linetype = "solid",
size = 1) +
labs(title = "Histograma de la estura. Perc = Percentiles",subtitle = paste("Perc al 10% = ",round(percentil[1],2), "Perc al 30% = ",round(percentil[2],2),"Perc al 50% = ",round(percentil[3],2),"Perc al 70% = ",round(percentil[4],2),"Perc al 90% = ",round(percentil[5],2)))
Primero que nada comenzaremos definiendo que son los cuartiles y los percentiles, ya que teniendo una pequeña definición de esta podremos tener un poco más entendido el programa que acabamos de realizar. ¿Que son los cuartiles? Los cuartiles son valores que dividen una muestra de datos en cuatro partes iguales. Utilizando cuartiles puede evaluar rápidamente la dispersión y la tendencia central de un conjunto de datos, que son los pasos iniciales importantes para comprender sus datos ¿Que es el percentil? El percentil es una medida de posición usada en estadística que indica, una vez ordenados los datos de menor a mayor, el valor de la variable por debajo del cual se encuentra un porcentaje dado de observaciones en un grupo. En este trabajo nos daremos cuenta que el porcentaje en el que estaremos trabajando los cuartiles serán el 25%, el 50% y el 70% tanto en edad, peso y estatura del número de datos que pusimos al inicio El percentil lo estamos trabajando con los porcentajes 10%, 30%, 50%, 70% y 90% Con los porcentajes que estaremos trabjando nos daran los recultados de cada uno de los puntos que estamos buscando que son como ya lo mencione la edad, el peso y la estatura *Y finalmente se muestran los gráficos con la ayuda del ggplot para visualizar mejor los datos ya mencionados.