library(readr)
library(ggplot2)
library(resumeRdesc)
*Semilla para datos aleatorios
set.seed(2020)
n <- 100
media.edad <-55; ds.edad <-10
media.peso <- 75; ds.peso <- 20
media.estatura <- 1.77; ds.estatura <-0.80
#Construir el conjunto de datos personas head(personas); tail(personas); los primeros y ulltimos 6 registros u observaciones del conjunto
edad <- round(rnorm(n = n, mean = media.edad, sd = ds.edad),0)
peso <- round(rnorm(n = n, mean = media.peso, sd = ds.peso),2)
estatura <- round(rnorm(n = n, mean = media.estatura, sd = ds.estatura),2)
personas <- data.frame(edad, peso, estatura)
head(personas); tail(personas)
## edad peso estatura
## 1 59 40.42 1.19
## 2 58 55.17 2.45
## 3 44 63.29 1.45
## 4 44 82.67 2.10
## 5 27 89.93 0.94
## 6 62 56.43 0.77
## edad peso estatura
## 95 53 60.46 2.03
## 96 47 87.53 1.22
## 97 58 53.17 1.35
## 98 62 64.68 3.23
## 99 50 75.34 1.01
## 100 48 88.22 1.31
cuartiles <- quantile(personas$edad, probs = c(0.25,0.50,0.70), type = 6)
cuartiles[1]
## 25%
## 49
cuartiles[2]
## 50%
## 56
cuartiles[3]
## 70%
## 61
*Percentiles es un Vector de 5 posiciones [1],[2],[3],[4],[5]
percentil <- quantile(personas$edad, probs = c(0.10, 0.30, 0.50, 0.70, 0.90), type = 7)
percentil[1]
## 10%
## 42.9
percentil[2]
## 30%
## 51.7
percentil[3]
## 50%
## 56
percentil[4]
## 70%
## 61
percentil[5]
## 90%
## 71.1
*Histograma de edad con ggplot
ggplot(data = personas, aes(edad, colour = 'edad')) +
geom_histogram(position = "stack", bins = 30)
ggplot(data = personas, aes(edad, colour = 'edad')) +
geom_density()
ggplot(data = personas, aes(edad)) +
geom_histogram(bins = 30) +
geom_vline(aes(xintercept = median(edad),
color = "mediana"),
linetype = "dashed",
size = 1) +
geom_vline(aes(xintercept = mean(edad),
color = "media"),
linetype = "dashed",
size = 1) +
labs(title = "Histograma de Edad",subtitle = paste("Media = ", round(mean(edad),2), ", Mediana = ", round(median(edad),2)))
ggplot(data = personas, aes(edad)) +
geom_histogram(bins = 30) +
geom_vline(aes(xintercept = cuartiles[1],
color = "Q1"),
linetype = "dashed",
size = 1) +
geom_vline(aes(xintercept = cuartiles[2],
color = "Q2"),
linetype = "dashed",
size = 1) +
geom_vline(aes(xintercept = cuartiles[3],
color = "Q3"),
linetype = "dashed",
size = 1) +
labs(title = "Histograma de Edad",subtitle = paste("Cuartil 1 al 25% = ",round(cuartiles[1],2), ", Cuartil 2 al 50% = ",round(cuartiles[2],2), ", Cuartil 3 al 75% = ",round(cuartiles[3],2)))
ggplot(data = personas, aes(edad)) +
geom_histogram(bins = 30) +
geom_vline(aes(xintercept = percentil[1],
color = "Perc1"),
linetype = "solid",
size = 2) +
geom_vline(aes(xintercept = percentil[2],
color = "Perc2"),
linetype = "solid",
size = 2) +
geom_vline(aes(xintercept = percentil[3],
color = "Perc3"),
linetype = "solid",
size = 2) +
geom_vline(aes(xintercept = percentil[4],
color = "Perc4"),
linetype = "solid",
size = 2) +
geom_vline(aes(xintercept = percentil[5],
color = "Perc5"),
linetype = "solid",
size = 2) +
labs(title = "Histograma de Edad. Perc = Percentiles",subtitle = paste("Perc al 10% = ",round(percentil[1],2), "Perc al 30% = ",round(percentil[2],2),"Perc al 50% = ",round(percentil[3],2),"Perc al 70% = ",round(percentil[4],2),"Perc al 90% = ",round(percentil[5],2)))
#### Interpretar y comunicar datos *En una distribución de datos estadísticos los cuartiles son aquellos que la dividen en curtos, Los cuales son los siguientes en este caso el valor es el que que sirve para comparar un conjunto de datos, los percentiles son una medida de estadística relativa, indica que porcentaje de mediciones son iguales o menores que el valor concreto que se ha obtenido. Los cuartiles y percentiles nos ayudan a ubicar datos en particular en cierta posición en una distribución de datos, de hecho, son las medidas de posición más conocidas en la estadística. Más comúnmente se utilizan en datos de ventas y encuestas, sirven para dividir las poblaciones en grupos, y así pode manejarlos de una manera más cómoda y por p.