En estadística, un histograma es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. Sirven para obtener una “primera vista” general, o panorama, de la distribución de la población, o de la muestra, respecto a una característica, cuantitativa y continua (como la longitud o el peso). De esta manera ofrece una visión de grupo permitiendo observar una preferencia, o tendencia, por parte de la muestra o población por ubicarse hacia una determinada región de valores dentro del espectro de valores posibles (sean infinitos o no) que pueda adquirir la característica.
library(tidyverse)
## -- Attaching packages --------------------------------------- tidyverse 1.3.1 --
## v ggplot2 3.3.5 v purrr 0.3.4
## v tibble 3.1.6 v dplyr 1.0.7
## v tidyr 1.1.4 v stringr 1.4.0
## v readr 2.1.1 v forcats 0.5.1
## -- Conflicts ------------------------------------------ tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag() masks stats::lag()
df<-read.csv("https://raw.githubusercontent.com/mcfrank/tidyverse-tutorial/master/data/ws.csv")
head(df)
## data_id age comprehension production language form birth_order ethnicity
## 1 51699 27 497 497 English WS Fourth Hispanic
## 2 51700 21 369 369 English WS Second White
## 3 51701 26 190 190 English WS Fourth White
## 4 51702 27 264 264 English WS Second White
## 5 51703 19 159 159 English WS Second Other
## 6 51704 30 513 513 English WS Second Other
## sex zygosity norming longitudinal source_name mom_ed
## 1 Female NA TRUE FALSE Marchman Some Secondary
## 2 Female NA TRUE FALSE Marchman Secondary
## 3 Female NA TRUE FALSE Marchman College
## 4 Male NA TRUE FALSE Marchman Secondary
## 5 Female NA TRUE FALSE Marchman Secondary
## 6 Female NA TRUE FALSE Marchman Secondary
df%>%group_by(ethnicity)%>%summarize(promedio=mean(comprehension))
## # A tibble: 6 x 2
## ethnicity promedio
## <chr> <dbl>
## 1 Asian 273.
## 2 Black 289.
## 3 Hispanic 221.
## 4 Other 223.
## 5 White 281.
## 6 <NA> 256.
Como podemos observar existe una mayor comprensión en relación a la etnia, para la etnia negra al tener un promedio de 289.1982. Por el contrario para la etnia hispánica quienes tienen la menor compresión con un promedio de 221.1069.
df%>%group_by(sex)%>% summarize(promedio=mean(production))
## # A tibble: 3 x 2
## sex promedio
## <chr> <dbl>
## 1 Female 297.
## 2 Male 260.
## 3 <NA> 233.
Podemos determinar mediante el promedio que las mujeres tienen una mayor producción (296.9729) con respecto a los hombres (260.1618).
hist(df$age,col="firebrick4", main="Histograma distribución por edad de los participantes",xlab="Age",freq = FALSE, xlim=c(16,30),ylim=c(0,0.25))
lines(density(df$age),col="blue",lwd=2)
El histograma representa la frecuencia relativa mediante la superficie de las barras. Para su elaboración debe introducirse el concepto de altura de histograma, que es un concepto equivalente al de densidad de probabilidad, y que se calcula dividiendo la frecuencia relativa de ese intervalo (o sea la superficie que queremos darle) entre la anchura del intervalo (la base del rectángulo). Ahora las barras tendrán siempre superficie igual a la frecuencia relativa y la suma de todas esas superficies (de todas las barras) será 1, o sea el 100% Podemos observar que en nuestro histograma observamos la distribución de las edades de los participantes que existe mayor distribución en las edades de 16-17 años, la variable edad se puede considerar continua pues el tiempo es una variable continua, por lo cual, está representado con un número entero (la administración no suele considerar edades fraccionarias) y podemos decir entonces que es una variable discreta.