Semestral parte 5

INDICACIONES:

A partir de los datos encontrados en el enlace:

https://github.com/mcfrank/tidyverse-tutorial/blob/master/data/ws.csv

Leer los datos y asignarlos a una dataframe con nombre df Calcule el promedio del puntaje de comprensión (“comprehension”) para cada una de las etnias (“ethnicity”) Calcule el promedio de producción (“production”) para cada por cada sexo (“sex”) Haga un histograma que muestre la distribución de las edades de los participantes.

library(tidyverse)

## -- Attaching packages --------------------------------------- tidyverse 1.3.1 --

## v ggplot2 3.3.5     v purrr   0.3.4
## v tibble  3.1.6     v dplyr   1.0.7
## v tidyr   1.1.4     v stringr 1.4.0
## v readr   2.1.0     v forcats 0.5.1

## -- Conflicts ------------------------------------------ tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()

df<-read.csv("https://raw.githubusercontent.com/mcfrank/tidyverse-tutorial/master/data/ws.csv")
head(df)

##   data_id age comprehension production language form birth_order ethnicity
## 1   51699  27           497        497  English   WS      Fourth  Hispanic
## 2   51700  21           369        369  English   WS      Second     White
## 3   51701  26           190        190  English   WS      Fourth     White
## 4   51702  27           264        264  English   WS      Second     White
## 5   51703  19           159        159  English   WS      Second     Other
## 6   51704  30           513        513  English   WS      Second     Other
##      sex zygosity norming longitudinal source_name         mom_ed
## 1 Female       NA    TRUE        FALSE    Marchman Some Secondary
## 2 Female       NA    TRUE        FALSE    Marchman      Secondary
## 3 Female       NA    TRUE        FALSE    Marchman        College
## 4   Male       NA    TRUE        FALSE    Marchman      Secondary
## 5 Female       NA    TRUE        FALSE    Marchman      Secondary
## 6 Female       NA    TRUE        FALSE    Marchman      Secondary

Datos= Etnias

El promedio del puntaje de comprensión de cada una de las etnias que forman parte de estos datos recopilados son las siguientes:

df %>% group_by(ethnicity)%>%summarize(promedio=mean(comprehension))

## # A tibble: 6 x 2
##   ethnicity promedio
##   <chr>        <dbl>
## 1 Asian         273.
## 2 Black         289.
## 3 Hispanic      221.
## 4 Other         223.
## 5 White         281.
## 6 <NA>          256.

Se observa el mayor puntaje de compresión pertenece a la etnia negra con un promedio de 289.1982, posteriormente la etnia blanca con un promedio de 281.0922.

Datos= Sexo

El promedio de producción por cada sexo es el presentado a continuación:

df %>% group_by(sex)%>% summarize(promedio=mean(production))

## # A tibble: 3 x 2
##   sex    promedio
##   <chr>     <dbl>
## 1 Female     297.
## 2 Male       260.
## 3 <NA>       233.

Según estos datos el promdio de producción de las mujeres es mayor que la produciión del sexo masculino

Datos= Edad

La distribución de las edades de los participantes esta presentada en el siguiente Histograma

hist(df$age,col="3", main="Histograma de la edad",xlab="Age",freq = FALSE)
lines(density(df$age))

El Histograma de la edad, muestra que hay mayor participantes de 16 a 17 años, seguidamente de 27 a 28 y 23 a 24 años Se puede observar dos distribuciones normales traslapadas y pero tambien una distribución segada a la derecha. NO es una distribución simétrica.

Semestral parte 5

Liz Castillo

12/20/2021

Datos= Etnias

Datos= Sexo

Datos= Edad