library(readr)
library(ggplot2)
library(resumeRdesc)
set.seed(2000)
Simulamos los datos con rnorm() edades en donde la media sea 45 años y desviación stándard igual a 10 años pesos en donde la media sea 75 kgs y desviación standard = 15 kgs estaturas en donde la media sea 1.70 y desviación estándard igual a 0.10 *Construir un conjunto de datos llamado personas
n<- 5700
media.edad<- 45; ds.edad<-10
media.peso<- 75; ds.peso<-15
media.estatura<- 1.70; ds.estatura<-0.10
Despues Contruimos el conjunto de datos personas head(personas); tail(personas), los primeros y últimos seis registros u observaciones del conjunto de datos
edad<- round(rnorm(n=n, mean = media.edad,sd=ds.edad),0)
peso<- round(rnorm(n=n, mean = media.peso,sd=ds.peso),2)
estatura<- round(rnorm(n=n, mean = media.estatura,sd=ds.estatura),2)
personas<- data.frame(edad,peso,estatura)
head(personas);tail(personas)
## edad peso estatura
## 1 36 75.79 1.74
## 2 41 72.89 1.94
## 3 54 93.69 1.66
## 4 62 66.93 1.77
## 5 54 77.53 1.70
## 6 33 97.95 1.56
## edad peso estatura
## 5695 48 57.95 1.70
## 5696 45 88.82 1.53
## 5697 56 66.62 1.75
## 5698 58 80.36 1.75
## 5699 52 90.13 1.66
## 5700 32 77.03 1.66
Variable de Interes es Edad 25%
cuartilese<- quantile(personas$edad, probs=c(0.25,0.50,0.75), type=7)
cuartilese[1]
## 25%
## 38
*50%
cuartilese[2]
## 50%
## 45
*75%
cuartilese[3]
## 75%
## 52
Variable de Interes es Peso 25%
cuartilesp<- quantile(personas$peso, probs=c(0.25,0.50,0.75), type=7)
cuartilesp[1]
## 25%
## 64.345
*50%
cuartilesp[2]
## 50%
## 74.87
*75%
cuartilesp[3]
## 75%
## 85.2325
Variable de Interes es Estatura 25%
cuartileses<- quantile(personas$estatura, probs=c(0.25,0.50,0.75), type=7)
cuartileses[1]
## 25%
## 1.63
*50%
cuartileses[2]
## 50%
## 1.7
*75%
cuartileses[3]
## 75%
## 1.77
Variable a enfocarnos es Edad 10%
percentile<- quantile(personas$edad, probs=c(0.10,0.30,0.50,0.70,0.90),type=7)
percentile[1]
## 10%
## 32
*30%
percentile[2]
## 30%
## 40
*50%
percentile[3]
## 50%
## 45
*70%
percentile[4]
## 70%
## 50
*90%
percentile[5]
## 90%
## 58
Variable a enfocarnos es Peso 10%
percentilp<- quantile(personas$peso, probs=c(0.10,0.30,0.50,0.70,0.90),type=7)
percentilp[1]
## 10%
## 55.667
*30%
percentilp[2]
## 30%
## 66.69
*50%
percentilp[3]
## 50%
## 74.87
*70%
percentilp[4]
## 70%
## 82.79
*90%
percentilp[5]
## 90%
## 94.381
Variable a enfocarnos es Estatura 10%
percentiles<- quantile(personas$estatura, probs=c(0.10,0.30,0.50,0.70,0.90),type=7)
percentiles[1]
## 10%
## 1.57
*30%
percentiles[2]
## 30%
## 1.65
*50%
percentiles[3]
## 50%
## 1.7
*70%
percentiles[4]
## 70%
## 1.75
*90%
percentiles[5]
## 90%
## 1.83
*Histograma de edades con ggplot
ggplot(data = personas, aes(edad, colour = 'edad')) +
geom_histogram(position = "stack", bins = 20)
*Densidad de Edad con ggplot
ggplot(data = personas, aes(edad, colour = 'edad')) +
geom_density()
*Histograma media,mediana juntos
ggplot(data = personas, aes(edad)) +
geom_histogram(bins = 30) +
geom_vline(aes(xintercept = median(edad),
color = "mediana"),
linetype = "solid",
size = 1) +
geom_vline(aes(xintercept = mean(edad),
color = "media"),
linetype = "solid",
size = 1) +
geom_vline(aes(xintercept = mean(edad),
color = "media"),
linetype = "solid",
size = 1) +
labs(title = "Histograma de Edad",subtitle = paste("Media = ", round(mean(edad),2), ", Mediana = ", round(median(edad),2)))
*Histograma y Cuartiles Juntos
ggplot(data = personas, aes(edad)) +
geom_histogram(bins = 30) +
geom_vline(aes(xintercept = cuartilese[1],
color = "Q1"),
linetype = "solid",
size = 1) +
geom_vline(aes(xintercept = cuartilese[2],
color = "Q2"),
linetype = "solid",
size = 1) +
geom_vline(aes(xintercept = cuartilese[3],
color = "Q3"),
linetype = "solid",
size = 1) +
labs(title = "Histograma de Edad",subtitle = paste("Cuartil 1 al 25% = ",round(cuartilese[1],2), ", Cuartil 2 al 50% = ",round(cuartilese[2],2), ", Cuartil 3 al 75% = ",round(cuartilese[3],2)))
*Histograma y Percentiles Juntos
ggplot(data = personas, aes(edad)) +
geom_histogram(bins = 30) +
geom_vline(aes(xintercept = percentile[1],
color = "Perc1"),
linetype = "solid",
size = 1) +
geom_vline(aes(xintercept = percentile[2],
color = "Perc2"),
linetype = "solid",
size = 1) +
geom_vline(aes(xintercept = percentile[3],
color = "Perc3"),
linetype = "solid",
size = 1) +
geom_vline(aes(xintercept = percentile[4],
color = "Perc4"),
linetype = "solid",
size = 1) +
geom_vline(aes(xintercept = percentile[5],
color = "Perc5"),
linetype = "solid",
size = 1) +
labs(title = "Histograma de Edad. Perc = Percentiles",subtitle = paste("Perc al 10% = ",round(percentile[1],2), "Perc al 30% = ",round(percentile[2],2),"Perc al 50% = ",round(percentile[3],2),"Perc al 70% = ",round(percentile[4],2),"Perc al 90% = ",round(percentile[5],2)))
*Histograma de los pesos con ggplot
ggplot(data = personas, aes(peso, colour = 'Peso')) +
geom_histogram(position = "stack", bins = 20)
*Densidad del peso con ggplot
ggplot(data = personas, aes(peso, colour = 'Peso')) +
geom_density()
*Histograma media,mediana juntos
ggplot(data = personas, aes(peso)) +
geom_histogram(bins = 30) +
geom_vline(aes(xintercept = median(peso),
color = "mediana"),
linetype = "solid",
size = 1) +
geom_vline(aes(xintercept = mean(peso),
color = "media"),
linetype = "solid",
size = 1) +
geom_vline(aes(xintercept = mean(peso),
color = "media"),
linetype = "solid",
size = 1) +
labs(title = "Histograma de los Pesos",subtitle = paste("Media = ", round(mean(peso),2), ", Mediana = ", round(median(peso),2)))
*Histograma y Cuartiles Juntos
ggplot(data = personas, aes(peso)) +
geom_histogram(bins = 30) +
geom_vline(aes(xintercept = cuartilesp[1],
color = "Q1"),
linetype = "solid",
size = 1) +
geom_vline(aes(xintercept = cuartilesp[2],
color = "Q2"),
linetype = "solid",
size = 1) +
geom_vline(aes(xintercept = cuartilesp[3],
color = "Q3"),
linetype = "solid",
size = 1) +
labs(title = "Histograma de los Pesos",subtitle = paste("Cuartil 1 al 25% = ",round(cuartilesp[1],2), ", Cuartil 2 al 50% = ",round(cuartilesp[2],2), ", Cuartil 3 al 75% = ",round(cuartilesp[3],2)))
*Histograma y Percentiles Juntos
ggplot(data = personas, aes(peso)) +
geom_histogram(bins = 30) +
geom_vline(aes(xintercept = percentilp[1],
color = "Perc1"),
linetype = "solid",
size = 1) +
geom_vline(aes(xintercept = percentilp[2],
color = "Perc2"),
linetype = "solid",
size = 1) +
geom_vline(aes(xintercept = percentilp[3],
color = "Perc3"),
linetype = "solid",
size = 1) +
geom_vline(aes(xintercept = percentilp[4],
color = "Perc4"),
linetype = "solid",
size = 1) +
geom_vline(aes(xintercept = percentilp[5],
color = "Perc5"),
linetype = "solid",
size = 1) +
labs(title = "Histograma de los Pesos. Perc = Percentiles",subtitle = paste("Perc al 10% = ",round(percentilp[1],2), "Perc al 30% = ",round(percentilp[2],2),"Perc al 50% = ",round(percentilp[3],2),"Perc al 70% = ",round(percentilp[4],2),"Perc al 90% = ",round(percentilp[5],2)))
*Histograma de estaturas con ggplot
ggplot(data = personas, aes(edad, colour = 'estatura')) +
geom_histogram(position = "stack", bins = 20)
*Densidad de Estatura con ggplot
ggplot(data = personas, aes(edad, colour = 'estatura')) +
geom_density()
*Histograma media,mediana juntos
ggplot(data = personas, aes(estatura)) +
geom_histogram(bins = 30) +
geom_vline(aes(xintercept = median(estatura),
color = "mediana"),
linetype = "solid",
size = 1) +
geom_vline(aes(xintercept = mean(estatura),
color = "media"),
linetype = "solid",
size = 1) +
geom_vline(aes(xintercept = mean(estatura),
color = "media"),
linetype = "solid",
size = 1) +
labs(title = "Histograma de Estatura",subtitle = paste("Media = ", round(mean(estatura),2), ", Mediana = ", round(median(estatura),2)))
*Histograma y Cuartiles Juntos
ggplot(data = personas, aes(estatura)) +
geom_histogram(bins = 30) +
geom_vline(aes(xintercept = cuartileses[1],
color = "Q1"),
linetype = "solid",
size = 1) +
geom_vline(aes(xintercept = cuartileses[2],
color = "Q2"),
linetype = "solid",
size = 1) +
geom_vline(aes(xintercept = cuartileses[3],
color = "Q3"),
linetype = "solid",
size = 1) +
labs(title = "Histograma de Estatura",subtitle = paste("Cuartil 1 al 25% = ",round(cuartileses[1],2), ", Cuartil 2 al 50% = ",round(cuartileses[2],2), ", Cuartil 3 al 75% = ",round(cuartileses[3],2)))
*Histograma y Percentiles Juntos
ggplot(data = personas, aes(estatura)) +
geom_histogram(bins = 30) +
geom_vline(aes(xintercept = percentiles[1],
color = "Perc1"),
linetype = "solid",
size = 1) +
geom_vline(aes(xintercept = percentiles[2],
color = "Perc2"),
linetype = "solid",
size = 1) +
geom_vline(aes(xintercept = percentiles[3],
color = "Perc3"),
linetype = "solid",
size = 1) +
geom_vline(aes(xintercept = percentiles[4],
color = "Perc4"),
linetype = "solid",
size = 1) +
geom_vline(aes(xintercept = percentiles[5],
color = "Perc5"),
linetype = "solid",
size = 1) +
labs(title = "Histograma de Estatura. Perc = Percentiles",subtitle = paste("Perc al 10% = ",round(percentiles[1],2), "Perc al 30% = ",round(percentiles[2],2),"Perc al 50% = ",round(percentiles[3],2),"Perc al 70% = ",round(percentiles[4],2),"Perc al 90% = ",round(percentiles[5],2)))
Realizando el análisis sobre este caso que trata sobre los cuartiles y los percentiles antes de iniciar ¿Qué son los cuartiles? Bueno los cuartiles son los tres elementos de un conjunto de datos ordenados que dividen el conjunto en cuatro partes iguales. Distinguimos los casos en que los datos están agrupados en frecuencias y los que no lo están. Los datos también pueden estar agrupados en intervalos de valores. Los Percentiles es una medida de posición usada en estadística que indica, una vez ordenados los datos de menor a mayor, el valor de la variable por debajo del cual se encuentra un porcentaje dado de observaciones en un grupo. Ya mencionado lo que es cada uno empecemos tenemos una muestra de 5700 con el cual se va a construir un conjunto de datos ordenados en una tabla con los nombres de edad, peso y estatura, al sacar los cuartiles de la edad pudimos observar que en el 25% era el de 38 años, el del 50% el 45 y 75% fue el 52, el Percentil de las edades fue 10% es de 32 años, 30% es de 40 años, 50% fue de 45 años, 70% fue de 50 y 90% fue de 58. Nos Pasamos al Peso que al sacar los cuartiles el 25% es 64.3Kg, 50% es 74.8Kg, 75% es 85.2Kg, los Percentiles son: 10% es 55.6Kg, 30% es 66.6Kg, 50% es 74.8Kg, 70% es 82.7kg y 90% es 94.3% y Por último la Estatura que en cuartiles son: el 25% es 1.63m, 50% es 1.7m, 75% es 1.77m, Y en los Percentiles Son: 10% es 1.57m, 30% es 1.65m, 50% es 1.7m, 70% es 1.75 y Por último el 90% es de 1.83(Justo lo que mido yo) y ya finalmente se muestran los gráficos con la ayuda del ggplot a visualizar mejor los datos ya mencionados.