Tidyverse es una colección de paquetes disponibles en R y orientados a la manipulación, importación, exploración y visualización de datos y que se utiliza exhaustivamente en ciencia de datos. El uso de Tidyverse permite facilitar el trabajo estadístico y la generación de trabajos reproducibles.
library(tidyverse)
## -- Attaching packages --------------------------------------- tidyverse 1.3.1 --
## v ggplot2 3.3.5 v purrr 0.3.4
## v tibble 3.1.6 v dplyr 1.0.7
## v tidyr 1.1.4 v stringr 1.4.0
## v readr 2.1.0 v forcats 0.5.1
## -- Conflicts ------------------------------------------ tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag() masks stats::lag()
## -- Attaching packages --------------------------------------- tidyverse 1.3.1 --
## v ggplot2 3.3.5 v purrr 0.3.4
## v tibble 3.1.6 v dplyr 1.0.7
## v tidyr 1.1.4 v stringr 1.4.0
## v readr 2.1.0 v forcats 0.5.1
## -- Conflicts ------------------------------------------ tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag() masks stats::lag()
df<-read.csv("https://raw.githubusercontent.com/mcfrank/tidyverse-tutorial/master/data/ws.csv")
head(df)
## data_id age comprehension production language form birth_order ethnicity
## 1 51699 27 497 497 English WS Fourth Hispanic
## 2 51700 21 369 369 English WS Second White
## 3 51701 26 190 190 English WS Fourth White
## 4 51702 27 264 264 English WS Second White
## 5 51703 19 159 159 English WS Second Other
## 6 51704 30 513 513 English WS Second Other
## sex zygosity norming longitudinal source_name mom_ed
## 1 Female NA TRUE FALSE Marchman Some Secondary
## 2 Female NA TRUE FALSE Marchman Secondary
## 3 Female NA TRUE FALSE Marchman College
## 4 Male NA TRUE FALSE Marchman Secondary
## 5 Female NA TRUE FALSE Marchman Secondary
## 6 Female NA TRUE FALSE Marchman Secondary
df %>% group_by(ethnicity)%>%summarize(promedio=mean(comprehension))
## # A tibble: 6 x 2
## ethnicity promedio
## <chr> <dbl>
## 1 Asian 273.
## 2 Black 289.
## 3 Hispanic 221.
## 4 Other 223.
## 5 White 281.
## 6 <NA> 256.
df %>% group_by(sex)%>% summarize(promedio=mean(production))
## # A tibble: 3 x 2
## sex promedio
## <chr> <dbl>
## 1 Female 297.
## 2 Male 260.
## 3 <NA> 233.
hist(df$age,col="grey", main="Histograma Distribución por edad de los participantes",xlab="Age",freq = FALSE)
El proceso de análisis de datos siempre conlleva procedimientos de limpieza de los valores que implican realizar eliminación o generación de nuevos datos. Este proceso es relevante ya que sin datos eficientes y veraces todos los procesos posteriores serán erróneos o poco eficaces.R trabaja en forma preferente con datos tabulados (en forma de tablas) y su formato es el dataframe. Los datos tabulados establecen: Cada variable esta almacenada en su propia columna. Cada observación esta almacenada en su propia fila. Cada tabla corresponde a un tipo de observación.
El análisis de los datos tiene como objetivo extraer información de ello. Por ello se requiere entre otras operaciones: Extraer las variables existentes en el conjunto de datos, Extraer las observaciones preexistentes, Derivar nuevas variables sobre las ya existentes y Cambiar las unidades de las variables. El paquete Tidyverse provee una serie de herramientas destinadas a facilitar estos procesos.