INDICACIONES:
A partir de los datos encontrados en el enlace:
https://github.com/mcfrank/tidyverse-tutorial/blob/master/data/ws.csv
Leer los datos y asignarlos a una dataframe con nombre df Calcule el promedio del puntaje de comprensión (“comprehension”) para cada una de las etnias (“ethnicity”) Calcule el promedio de producción (“production”) para cada por cada sexo (“sex”) Haga un histograma que muestre la distribución de las edades de los participantes.
library(tidyverse)
## -- Attaching packages --------------------------------------- tidyverse 1.3.1 --
## v ggplot2 3.3.5 v purrr 0.3.4
## v tibble 3.1.6 v dplyr 1.0.7
## v tidyr 1.1.4 v stringr 1.4.0
## v readr 2.1.0 v forcats 0.5.1
## -- Conflicts ------------------------------------------ tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag() masks stats::lag()
df<-read.csv("https://raw.githubusercontent.com/mcfrank/tidyverse-tutorial/master/data/ws.csv")
head(df)
## data_id age comprehension production language form birth_order ethnicity
## 1 51699 27 497 497 English WS Fourth Hispanic
## 2 51700 21 369 369 English WS Second White
## 3 51701 26 190 190 English WS Fourth White
## 4 51702 27 264 264 English WS Second White
## 5 51703 19 159 159 English WS Second Other
## 6 51704 30 513 513 English WS Second Other
## sex zygosity norming longitudinal source_name mom_ed
## 1 Female NA TRUE FALSE Marchman Some Secondary
## 2 Female NA TRUE FALSE Marchman Secondary
## 3 Female NA TRUE FALSE Marchman College
## 4 Male NA TRUE FALSE Marchman Secondary
## 5 Female NA TRUE FALSE Marchman Secondary
## 6 Female NA TRUE FALSE Marchman Secondary
El promedio del puntaje de comprensión de cada una de las etnias que forman parte de estos datos recopilados son las siguientes:
df %>% group_by(ethnicity)%>%summarize(promedio=mean(comprehension))
## # A tibble: 6 x 2
## ethnicity promedio
## <chr> <dbl>
## 1 Asian 273.
## 2 Black 289.
## 3 Hispanic 221.
## 4 Other 223.
## 5 White 281.
## 6 <NA> 256.
Se observa el mayor puntaje de compresión pertenece a la etnia negra con un promedio de 289.1982, posteriormente la etnia blanca con un promedio de 281.0922.
El promedio de producción por cada sexo es el presentado a continuación:
df %>% group_by(sex)%>% summarize(promedio=mean(production))
## # A tibble: 3 x 2
## sex promedio
## <chr> <dbl>
## 1 Female 297.
## 2 Male 260.
## 3 <NA> 233.
Según estos datos el promdio de producción de las mujeres es mayor que la produciión del sexo masculino
La distribución de las edades de los participantes esta presentada en el siguiente Histograma
hist(df$age,col="3", main="Histograma de la edad",xlab="Age",freq = FALSE)
lines(density(df$age))
El Histograma de la edad, muestra que hay mayor participantes de 16 a 17 años, seguidamente de 27 a 28 y 23 a 24 años Se puede observar dos distribuciones normales traslapadas y pero tambien una distribución segada a la derecha. NO es una distribución simétrica.