Introdução ao Tidyverse: tibble e dplyr
Aula 1 – Recomendações
Objetivo: instalar os pacotes necessários
# o símbolo # no início da linha indica que temos um comentário
# essa linha de comentário não é executada quando der o comando run (ctrl+enter)
#Para instalar o pacote (somente 1 vez)
#install.packages("tidyverse")
#Como o tidyverse é um pacote que contém vário pacotes, podemos
#Ter o mesmo efeito se instalarmos os seguintes pacotes
#Um por Um .
# install.packages(c(
# "broom", "dplyr", "feather",
# "forcats","ggplot2", "haven",
# "httr", "hms", "jsonlite",
# "lubridate", "magrittr",
# "modelr", "purrr", "readr",
# "readxl", "stringr", "tibble",
# "rvest", "tidyr", "xml2"
#))
#Lembrando que não é preciso instalar todos esses pacotes
#Se intalarmos o tidyverse já vamos obetê-los todos.
#Para carregar o pacote (sempre que for usá-lo)
library(tidyverse) #Ou require(tidyverse)
#Para finalizar esta aula, assista o vídeo
browseURL("https://youtu.be/dvkFWm6Th54")
#Parabéns, você completou a primeira aula!
Aula 2 – Tibble
Objetivo: apresentar a estrutura tibble
#1)Instalando O Pacote Tibble
#install.packages("tibble")
#2)Chamando o Pacote Tibble
#library(tibble)
#3)O Tibble so mostra as 10 primeiras linhas
tibble(x=1:100, y=100:1, z=rep("A",100))
#4)Montando tribble linha por linha
tribble(
~x,~y,~z,
10, 20,"A",
20, 30,"B",
40, 50,"C"
)
#4)Lendo Data.frame como tibble
DF=data.frame(Nome=c('Rafaela','Felipe','Rodolfo'),Idade=c(18,14,20),Nota=c(10,6,8))
DFT=as_tibble(DF)
DFT
#Comandos extras
#5)Criando Tibble com nomes de colunas nada convencionais
tibble(
':)' = 'simile', #Diferente do Data.frame, podemos usar simbolos como nome de colunass
' ' = 1:4,
x = 5:2,
y =x+1
)
#6)Podemos modificar a Quantidade De linhas que visualizamos
#Por padrão o sistema tidy exibe 10 linhas, mas podemos modificar esta opção
m=30
n=20
options(tibble.print_max = m, tibble.print_min = n)
#Ou seja:Se passar de 'm' linhas, printar 'n' linhas) )
#Podemos usar 'tibble.print_min = Inf' para printar todas as linhas
tibble(x=1:100, y=100:1, z=rep("A",100))
#Ou coloque a opção como argumento
tibble(x=1:100, y=100:1, z=rep("A",100), options(tibble.print_min = 15))
#7)Acessando partes do tibble
t=tibble(
x=1:5,
y=x+1,
z=x^2+y
)
t
t$x #Mostra a coluna X(ou t[['x']])
[1] 1 2 3 4 5
t[[2,3]] #Linha2,Coluna3
[1] 7
Aula 3 – Select e Distinct
Objetivo: manipular colunas de uma tabela de dados (tibble)
library(nycflights13)
flights
select(flights,dep_time, arr_delay)
select(flights, "dep_time", "arr_delay")
select(flights, -day, -dep_time)
select(flights, dep_time:arr_delay)
select(flights, 3:9)
select(flights, starts_with("arr"))
select(flights, ends_with("time"))
select(flights, contains("dep"))
select(flights, time_hour, air_time, everything())
#renomear
flights <- select(flights,x1=year, x2=dep_time, x3=arr_delay, everything() )
select(flights, num_range("x", 1:3))
# Distinc
distinct(flights, day)
Aula 4 – Filter, Arrange, count e pipe
Objetivo: filtrar, arrumar e contar observações de uma tabela de dados
## filter, arrange, count e pipe
## Carregando o pacote e os dados
# Para carregar o pacote podemos utilizar
require(tidyverse)
# As funções são do pacote dplyr: require(dplyr)
# Tabela de dados:
starwars
## Utilizando a função filter
## Utilizando comparadores lógicos:
# maior, menor, maior ou igual, menor ou igual, igual e diferente
filter(starwars, height > 160)
filter(starwars, height <= 150)
filter(starwars, height == 79)
# Vírgula funciona como 'E' (&)
filter(starwars, species == "Droid", homeworld == "Tatooine", skin_color == "gold")
# Utilizando operador OU (|)
filter(starwars, height > 185 | eye_color == "blue")
## Utilizando a função arrange
# Ordem crescente
arrange(starwars, mass)
# Ordem decrescente
arrange(starwars, desc(mass))
# Ou então
arrange(starwars, -mass)
# Mais de uma variável
arrange(starwars, mass, -birth_year)
## Utilizando a função count
# Apenas uma variável
count(starwars, gender)
count(starwars, species)
# Mais de uma variável
count(starwars, hair_color, eye_color)
##Utilizando o operador Pipe: %>% (Ctrl + Shift + M)
filter(starwars,species == "Human") %>%
select(contains("color"))
starwars %>%
filter(species == "Human") %>%
count(eye_color) %>%
arrange(-n)
Aula 5 – Mutate e transmute
Objetivo: criar novas colunas em um tibble
## Mutate e Transmute
## Carregando o pacote e os dados
# Para carregar o pacote podemos utilizar
require(tidyverse)
#As funções são do pacote dplyr: require(dplyr)
# Tabela de dados
cars
## Utilizando a função mutate
cars %>%
mutate(dist2 = dist*2)
### Mutate e ifelse
cars %>%
mutate(classe_speed = ifelse(speed > 10, "A","B"))
### Operador %in%
cars %>%
mutate(classe_dist = ifelse(dist %in% 10:20, "A","B"))
## Utilizando a função Transmute
cars %>%
transmute(classe_speed = ifelse(speed > 10,"A","B"))
cars %>%
transmute(tempo = speed * dist,
classe_speed = ifelse(speed > 10,"A","B"))
Aula 6 – Summarise, group_by e n_distinct
Objetivo: operar sobre linhas e colunas de um tibble
## summarise, group_by, n_distinct
## Carregando pacotes
# dplyr ou tidyverse
# install.packages("dplyr")
require(dplyr)
# install.packages("tidyverse")
require(tidyverse)
# install.packages("nycflights13") # Pacote com os dados
require(nycflights13)
# Tabela com dados
flights
## Estatísticas, media, mediana, max, min...
flights %>%
summarise(Tempo_voo_medio = mean(air_time, na.rm = T),
MaiorDistancia = max(distance))
# Podemos fazer uma sumarização
flights %>%
group_by(year, month, day) %>%
summarise(MenorDistancia = min(distance),
MaiorDistancia = max(distance))
Error in grouped_df_impl(data, unname(vars), drop) :
Column `year` is unknown
Aula 7 – Joins
Objetivo: unir através de chave comum dois tibbles
# inner_join e left_join
# Carregando o pacote
library(tidyverse)
# ou library(dplyr)
# Base de dados
x <- tribble(
~Chave, ~valor_x,
1, "x1",
2, "x2",
3, "x3"
)
y <- tribble(
~Chave, ~valor_y,
1, "y1",
2, "y2",
4, "y3"
)
# inner_join (Junta as observações quando chaves nas duas bases são iguais)
inner_join(x, y, by = "Chave")
# left_join (Mantem todas as observações de x)
left_join(x, y, by = "Chave")
# right_join (Mantem todas as observações de y)
right_join(x, y, by = "Chave")
# full_join (Mantem todas as observações de x e y)
full_join(x, y, by = "Chave")
Aula 8 – Exercício 1
Objetivo: praticar comandos do pacote dplyr
Abra um script no Rstudio para realizar estes exercícios Usaremos a base de dados starwars do pacote dplyr •1-Quantas species distintas há na base de dados? •2-Selecione todas as observações da species “Human” •3-Selecione o name e hair_color de todas as observações da species “Human” •4-Faça um agrupamento da base de dados considerando apenas species “Human”, de acordo com gender e resumindo para cada gender a altura média (height)
library(tidyverse)
starwars
#1-Quantas species distintas há na base de dados?
starwars %>%
select(species) %>%
n_distinct()
[1] 38
#2-Selecione todas as observações da species Human
starwars %>%
filter(species == "Human")
#3-Selecione o name e hair_color de todas as observações da species Human
starwars %>%
filter(species == "Human") %>%
select(name, hair_color)
#4-Faça um agrupamento da species Human por gender e resuma pela média da altura (height)
starwars %>%
filter(species == "Human") %>%
group_by(gender) %>%
summarise(media=mean(height, na.rm=T))
Aula 9 – Exercício 2
Objetivo: praticar comandos do pacote dplyr
•1-Crie 2 tibbles: tbb1 = tibble( setor = rep(c(“F”, “M”, “I”), 2) , peso = runif(6, 50, 100)) tbb2 = tibble( setor = rep(c(“I”),2) , altura = c(167, 180) •2- Una tbb1 e tbb2 com a função inner_join •3- Una tbb1 e tbb2 com a função full_join •4- Una tbb1 e tbb2 com a função left_join •5- Una tbb1 e tbb2 com a função right_join •6- Ordene o tbb1 por ordem crescente do peso •7- Agrupe tbb1 por setor e sumarize com o peso médio
#1-Crie 2 tibbles:
tbb1 = tibble( setor = rep(c("F", "M", "I"), 2) , peso = runif(6, 50, 100))
tbb2 = tibble( setor = rep(c("I"),2) , altura = c(167, 180) )
# 2- Una tbb1 e tbb2 com a função inner_join
tbb1
tbb2
inner_join(tbb1, tbb2, chave="setor")
Joining, by = "setor"
#3- Una tbb1 e tbb2 com a função full_join
full_join(tbb1,tbb2,chave="setor")
Joining, by = "setor"
#4- Una tbb1 e tbb2 com a função left_join
left_join(tbb1,tbb2,chave="setor")
Joining, by = "setor"
#5- Una tbb1 e tbb2 com a função right_join
right_join(tbb1,tbb2,chave="setor")
Joining, by = "setor"
#6- Ordene o tbb1 por ordem crescente do peso
tbb1 %>% arrange(peso)
#7- Agrupe tbb1 por setor e sumarize com o peso médio
tbb1 %>%
group_by(setor) %>%
summarise("peso medio"=mean(peso)) %>%
ungroup()
---
title: "minicurso tidyverse - IV SER "
author: "Leoni, R. C. Prof. Dr."
output: 
  html_notebook: 
    code_folding: hide
    theme: journal
    toc: yes
---

# Introdução ao Tidyverse: tibble e dplyr

# Aula 1 – Recomendações

    Objetivo: instalar os pacotes necessários

```{r}
# o símbolo # no início da linha indica que temos um comentário
# essa linha de comentário não é executada quando der o comando run (ctrl+enter)


#Para instalar o pacote (somente 1 vez)
#install.packages("tidyverse")

#Como o tidyverse é um pacote que contém vário pacotes, podemos
#Ter o mesmo efeito se instalarmos os seguintes pacotes
#Um por Um .

# install.packages(c(
#  "broom", "dplyr", "feather",
#  "forcats","ggplot2", "haven",
#  "httr", "hms", "jsonlite",
#  "lubridate", "magrittr",
#  "modelr", "purrr", "readr",
#  "readxl", "stringr", "tibble",
#  "rvest", "tidyr", "xml2"
#))

#Lembrando que não é preciso instalar todos esses pacotes
#Se intalarmos o tidyverse já vamos obetê-los todos.

#Para carregar o pacote (sempre que for usá-lo)
library(tidyverse)  #Ou require(tidyverse)

#Para finalizar esta aula, assista o vídeo
browseURL("https://youtu.be/dvkFWm6Th54")

#Parabéns, você completou a primeira aula!

```

# Aula 2 – Tibble

    Objetivo: apresentar a estrutura tibble

```{r}
#1)Instalando O Pacote Tibble
#install.packages("tibble")

#2)Chamando o Pacote Tibble
#library(tibble)

#3)O Tibble so mostra as 10 primeiras linhas
tibble(x=1:100, y=100:1, z=rep("A",100)) 

#4)Montando tribble linha por linha
tribble(
  ~x,~y,~z,
  10, 20,"A",
  20, 30,"B",
  40, 50,"C" 
  )

#4)Lendo Data.frame como tibble
  DF=data.frame(Nome=c('Rafaela','Felipe','Rodolfo'),Idade=c(18,14,20),Nota=c(10,6,8))
  DFT=as_tibble(DF)
  DFT

#Comandos extras
#5)Criando Tibble com nomes de colunas nada convencionais
  tibble(
   ':)' = 'simile', #Diferente do Data.frame, podemos usar simbolos como nome de colunass
    ' '  = 1:4, 
    x    = 5:2,
   y    =x+1
  )

#6)Podemos modificar a Quantidade De linhas que visualizamos
#Por padrão o sistema tidy exibe 10 linhas, mas podemos modificar esta opção
  m=30
  n=20
  options(tibble.print_max = m, tibble.print_min = n) 
  #Ou seja:Se passar de 'm' linhas, printar 'n' linhas) )
  #Podemos usar 'tibble.print_min = Inf' para printar todas as linhas
  tibble(x=1:100, y=100:1, z=rep("A",100))
  
#Ou coloque a opção como argumento
  tibble(x=1:100, y=100:1, z=rep("A",100), options(tibble.print_min = 15))
  
#7)Acessando partes do tibble
  t=tibble(
    x=1:5,
    y=x+1,
    z=x^2+y
  )
  t
  t$x #Mostra a coluna X(ou t[['x']])
  t[[2,3]]  #Linha2,Coluna3

```


# Aula 3 – Select e Distinct

    Objetivo: manipular colunas de uma tabela de dados (tibble)

```{r}
library(nycflights13)
flights
select(flights,dep_time, arr_delay)
select(flights, "dep_time", "arr_delay")

select(flights, -day, -dep_time)

select(flights, dep_time:arr_delay)

select(flights, 3:9)

select(flights, starts_with("arr"))

select(flights, ends_with("time"))

select(flights, contains("dep"))

select(flights, time_hour, air_time, everything())

#renomear
flights <- select(flights,x1=year, x2=dep_time, x3=arr_delay, everything()  )

select(flights, num_range("x", 1:3))

# Distinc

distinct(flights, day)
```



# Aula 4 – Filter, Arrange, count e pipe 

    Objetivo: filtrar, arrumar e contar observações de uma tabela de dados

```{r}
## filter, arrange, count e pipe

## Carregando o pacote e os dados

# Para carregar o pacote podemos utilizar

require(tidyverse) 
# As funções são do pacote dplyr: require(dplyr)

# Tabela de dados:

starwars

## Utilizando a função filter

## Utilizando comparadores lógicos:
# maior, menor, maior ou igual, menor ou igual, igual e diferente

filter(starwars, height > 160)
filter(starwars, height <= 150)
filter(starwars, height == 79)

# Vírgula funciona como 'E' (&)

filter(starwars, species == "Droid", homeworld == "Tatooine", skin_color == "gold")

# Utilizando operador OU (|)

filter(starwars, height > 185 | eye_color == "blue")

## Utilizando a função arrange

# Ordem crescente
arrange(starwars, mass)

# Ordem decrescente
arrange(starwars, desc(mass))
# Ou então
arrange(starwars, -mass)

# Mais de uma variável

arrange(starwars, mass, -birth_year)

## Utilizando a função count

# Apenas uma variável
count(starwars, gender)
count(starwars, species)

# Mais de uma variável
count(starwars, hair_color, eye_color)

##Utilizando o operador Pipe: %>% (Ctrl + Shift + M)

filter(starwars,species == "Human") %>% 
  select(contains("color"))

starwars %>% 
  filter(species == "Human") %>% 
  count(eye_color) %>% 
  arrange(-n)


```


# Aula 5 – Mutate e transmute

    Objetivo: criar novas colunas em um tibble

```{r}
## Mutate e Transmute

## Carregando o pacote e os dados

# Para carregar o pacote podemos utilizar
require(tidyverse)

#As funções são do pacote dplyr: require(dplyr)

# Tabela de dados
cars

## Utilizando a função mutate
cars %>% 
  mutate(dist2 = dist*2)

### Mutate e ifelse
cars %>% 
  mutate(classe_speed = ifelse(speed > 10, "A","B"))

### Operador %in%
cars %>% 
  mutate(classe_dist = ifelse(dist %in% 10:20, "A","B"))

## Utilizando a função Transmute
cars %>% 
  transmute(classe_speed = ifelse(speed > 10,"A","B"))

cars %>% 
  transmute(tempo = speed * dist, 
            classe_speed = ifelse(speed > 10,"A","B"))

```


# Aula 6 – Summarise, group_by e n_distinct

    Objetivo: operar sobre linhas e colunas de um tibble

```{r}
## summarise, group_by, n_distinct

## Carregando pacotes 

# dplyr ou tidyverse

# install.packages("dplyr")
require(dplyr)
# install.packages("tidyverse")
require(tidyverse)
# install.packages("nycflights13") # Pacote com os dados
require(nycflights13)

# Tabela com dados
flights

## Estatísticas, media, mediana, max, min...
flights %>% 
  summarise(Tempo_voo_medio = mean(air_time, na.rm = T),
            MaiorDistancia = max(distance)) 

# Podemos fazer uma sumarização
flights %>% 
  group_by(year, month, day) %>% 
  summarise(MenorDistancia = min(distance),
            MaiorDistancia = max(distance))

## Contagem
# n() (numero total de elementos)
flights %>% 
  group_by(year, month, day) %>% 
  summarise(VoosPorDia = n())

# n_distinct (Elementos distintos)
flights %>% 
  group_by(dest) %>% 
  summarise(QuantComp = n_distinct(carrier)) %>% 
  arrange(desc(QuantComp)) #ordenando

ex <- flights %>% 
  filter(origin == "JFK", dest == "ATL") %>% 
  group_by(carrier) %>% 
  summarise(media = mean(air_time, na.rm = T))

## Desagrupando
ex %>%
  ungroup() %>%
  summarise(mean(media))
  

```

# Aula 7 – Joins

    Objetivo: unir através de chave comum dois tibbles

```{r}
# inner_join e left_join

# Carregando o pacote 

library(tidyverse)

# ou library(dplyr)

# Base de dados 

x <- tribble(
  ~Chave, ~valor_x,
  1, "x1",
  2, "x2",
  3, "x3"
)

y <- tribble(
  ~Chave, ~valor_y,
  1, "y1",
  2, "y2",
  4, "y3"
)

#Inner_join: une com base na interseção, tudo que coincide nas duas bases x e y
#•Left_join: une à esquerda, tudo de x que coincide com y
#•Right_join: une à direita, tudo de y que coincide com x
#•Full_join: une com base na união, tudo de x ou y

# inner_join (Junta as observações quando chaves nas duas bases são iguais)

inner_join(x, y, by = "Chave")

# left_join (Mantem todas as observações de x)

left_join(x, y, by = "Chave")

# right_join (Mantem todas as observações de y)

right_join(x, y, by = "Chave")

# full_join (Mantem todas as observações de x e y)

full_join(x, y, by = "Chave")



```


# Aula 8 – Exercício 1
    
    Objetivo: praticar comandos do pacote dplyr


Abra um script no Rstudio para realizar estes exercícios
Usaremos a base de dados starwars do pacote dplyr
•1-Quantas species distintas há na base de dados?
•2-Selecione todas as observações da species “Human”
•3-Selecione o name e hair_color de todas as observações da species “Human”
•4-Faça um agrupamento da base de dados considerando apenas species “Human”, de acordo com gender e resumindo para cada gender a altura média (height)

```{r}
library(tidyverse)
starwars

#1-Quantas species distintas há na base de dados?
starwars %>% 
  select(species) %>% 
  n_distinct()

#2-Selecione todas as observações da species Human
starwars %>% 
  filter(species == "Human") 

#3-Selecione o name e hair_color de todas as observações da species Human

starwars %>% 
  filter(species == "Human") %>% 
  select(name, hair_color)

#4-Faça um agrupamento da species Human por gender e resuma pela média da altura (height)
starwars %>% 
  filter(species == "Human") %>% 
  group_by(gender) %>% 
  summarise(media=mean(height, na.rm=T))
```


# Aula 9 – Exercício 2

    Objetivo: praticar comandos do pacote dplyr


•1-Crie 2 tibbles:
tbb1 = tibble( setor = rep(c("F", "M", "I"), 2) , peso = runif(6, 50, 100))
tbb2 = tibble( setor = rep(c("I"),2) , altura = c(167, 180)
•2- Una tbb1 e tbb2 com a função inner_join
•3- Una tbb1 e tbb2 com a função full_join
•4- Una tbb1 e tbb2 com a função left_join
•5- Una tbb1 e tbb2 com a função right_join
•6- Ordene o tbb1 por ordem crescente do peso
•7- Agrupe tbb1 por setor e sumarize com o peso médio

```{r}
#1-Crie 2 tibbles:
tbb1 = tibble( setor = rep(c("F", "M", "I"), 2) , peso = runif(6, 50, 100))
tbb2 = tibble( setor = rep(c("I"),2) , altura = c(167, 180) )
              
# 2- Una tbb1 e tbb2 com a função inner_join 
               
tbb1
tbb2
inner_join(tbb1, tbb2, chave="setor")

#3- Una tbb1 e tbb2 com a função full_join

full_join(tbb1,tbb2,chave="setor")

#4- Una tbb1 e tbb2 com a função left_join

left_join(tbb1,tbb2,chave="setor")

#5- Una tbb1 e tbb2 com a função right_join 

right_join(tbb1,tbb2,chave="setor")

#6- Ordene o tbb1 por ordem crescente do peso

tbb1 %>% arrange(peso)

#7- Agrupe tbb1 por setor e sumarize com o peso médio

tbb1 %>% 
  group_by(setor) %>% 
  summarise("peso medio"=mean(peso)) %>% 
  ungroup()
```


