Semestral QM 206

Introducción

En estadística, un histograma es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. Sirven para obtener una “primera vista” general, o panorama, de la distribución de la población, o de la muestra, respecto a una característica, cuantitativa y continua (como la longitud o el peso). De esta manera ofrece una visión de grupo permitiendo observar una preferencia, o tendencia, por parte de la muestra o población por ubicarse hacia una determinada región de valores dentro del espectro de valores posibles (sean infinitos o no) que pueda adquirir la característica.

library(tidyverse)

## -- Attaching packages --------------------------------------- tidyverse 1.3.1 --

## v ggplot2 3.3.5     v purrr   0.3.4
## v tibble  3.1.6     v dplyr   1.0.7
## v tidyr   1.1.4     v stringr 1.4.0
## v readr   2.1.1     v forcats 0.5.1

## -- Conflicts ------------------------------------------ tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()

Lectura de datos y creación del data frame

df<-read.csv("https://raw.githubusercontent.com/mcfrank/tidyverse-tutorial/master/data/ws.csv")
head(df)

##   data_id age comprehension production language form birth_order ethnicity
## 1   51699  27           497        497  English   WS      Fourth  Hispanic
## 2   51700  21           369        369  English   WS      Second     White
## 3   51701  26           190        190  English   WS      Fourth     White
## 4   51702  27           264        264  English   WS      Second     White
## 5   51703  19           159        159  English   WS      Second     Other
## 6   51704  30           513        513  English   WS      Second     Other
##      sex zygosity norming longitudinal source_name         mom_ed
## 1 Female       NA    TRUE        FALSE    Marchman Some Secondary
## 2 Female       NA    TRUE        FALSE    Marchman      Secondary
## 3 Female       NA    TRUE        FALSE    Marchman        College
## 4   Male       NA    TRUE        FALSE    Marchman      Secondary
## 5 Female       NA    TRUE        FALSE    Marchman      Secondary
## 6 Female       NA    TRUE        FALSE    Marchman      Secondary

Promedio del puntaje de Comprensión para cada Etnia

df%>%group_by(ethnicity)%>%summarize(promedio=mean(comprehension))

## # A tibble: 6 x 2
##   ethnicity promedio
##   <chr>        <dbl>
## 1 Asian         273.
## 2 Black         289.
## 3 Hispanic      221.
## 4 Other         223.
## 5 White         281.
## 6 <NA>          256.

Como podemos observar existe una mayor comprensión en relación a la etnia, para la etnia negra al tener un promedio de 289.1982. Por el contrario para la etnia hispánica quienes tienen la menor compresión con un promedio de 221.1069.

Promedio de Producción para cada Sexo

df%>%group_by(sex)%>% summarize(promedio=mean(production))

## # A tibble: 3 x 2
##   sex    promedio
##   <chr>     <dbl>
## 1 Female     297.
## 2 Male       260.
## 3 <NA>       233.

Podemos determinar mediante el promedio que las mujeres tienen una mayor producción (296.9729) con respecto a los hombres (260.1618).

Histograma para la distribución de las edades

hist(df$age,col="firebrick4", main="Histograma distribución por edad de los participantes",xlab="Age",freq = FALSE, xlim=c(16,30),ylim=c(0,0.25))
lines(density(df$age),col="blue",lwd=2)

El histograma representa la frecuencia relativa mediante la superficie de las barras. Para su elaboración debe introducirse el concepto de altura de histograma, que es un concepto equivalente al de densidad de probabilidad, y que se calcula dividiendo la frecuencia relativa de ese intervalo (o sea la superficie que queremos darle) entre la anchura del intervalo (la base del rectángulo). Ahora las barras tendrán siempre superficie igual a la frecuencia relativa y la suma de todas esas superficies (de todas las barras) será 1, o sea el 100% Podemos observar que en nuestro histograma observamos la distribución de las edades de los participantes que existe mayor distribución en las edades de 16-17 años, la variable edad se puede considerar continua pues el tiempo es una variable continua, por lo cual, está representado con un número entero (la administración no suele considerar edades fraccionarias) y podemos decir entonces que es una variable discreta.