Introdução ao Tidyverse: tibble e dplyr
Aula 1 – Recomendações
Objetivo: instalar os pacotes necessários
# o símbolo # no início da linha indica que temos um comentário
# essa linha de comentário não é executada quando der o comando run (ctrl+enter)
#Para instalar o pacote (somente 1 vez)
#install.packages("tidyverse")
#Como o tidyverse é um pacote que contém vário pacotes, podemos
#Ter o mesmo efeito se instalarmos os seguintes pacotes
#Um por Um .
# install.packages(c(
# "broom", "dplyr", "feather",
# "forcats","ggplot2", "haven",
# "httr", "hms", "jsonlite",
# "lubridate", "magrittr",
# "modelr", "purrr", "readr",
# "readxl", "stringr", "tibble",
# "rvest", "tidyr", "xml2"
#))
#Lembrando que não é preciso instalar todos esses pacotes
#Se intalarmos o tidyverse já vamos obetê-los todos.
#Para carregar o pacote (sempre que for usá-lo)
library(tidyverse) #Ou require(tidyverse)
#Para finalizar esta aula, assista o vídeo
browseURL("https://youtu.be/dvkFWm6Th54")
#Parabéns, você completou a primeira aula!
Aula 2 – Tibble
Objetivo: apresentar a estrutura tibble
#1)Instalando O Pacote Tibble
#install.packages("tibble")
#2)Chamando o Pacote Tibble
#library(tibble)
#3)O Tibble so mostra as 10 primeiras linhas
tibble(x=1:100, y=100:1, z=rep("A",100))
#4)Montando tribble linha por linha
tribble(
~x,~y,~z,
10, 20,"A",
20, 30,"B",
40, 50,"C"
)
#4)Lendo Data.frame como tibble
DF=data.frame(Nome=c('Rafaela','Felipe','Rodolfo'),Idade=c(18,14,20),Nota=c(10,6,8))
DFT=as_tibble(DF)
DFT
#Comandos extras
#5)Criando Tibble com nomes de colunas nada convencionais
tibble(
':)' = 'simile', #Diferente do Data.frame, podemos usar simbolos como nome de colunass
' ' = 1:4,
x = 5:2,
y =x+1
)
#6)Podemos modificar a Quantidade De linhas que visualizamos
#Por padrão o sistema tidy exibe 10 linhas, mas podemos modificar esta opção
m=30
n=20
options(tibble.print_max = m, tibble.print_min = n)
#Ou seja:Se passar de 'm' linhas, printar 'n' linhas) )
#Podemos usar 'tibble.print_min = Inf' para printar todas as linhas
tibble(x=1:100, y=100:1, z=rep("A",100))
#Ou coloque a opção como argumento
tibble(x=1:100, y=100:1, z=rep("A",100), options(tibble.print_min = 15))
#7)Acessando partes do tibble
t=tibble(
x=1:5,
y=x+1,
z=x^2+y
)
t
t$x #Mostra a coluna X(ou t[['x']])
[1] 1 2 3 4 5
t[[2,3]] #Linha2,Coluna3
[1] 7
Aula 3 – Select e Distinct
Objetivo: manipular colunas de uma tabela de dados (tibble)
library(nycflights13)
flights
select(flights,dep_time, arr_delay)
select(flights, "dep_time", "arr_delay")
select(flights, -day, -dep_time)
select(flights, dep_time:arr_delay)
select(flights, 3:9)
select(flights, starts_with("arr"))
select(flights, ends_with("time"))
select(flights, contains("dep"))
select(flights, time_hour, air_time, everything())
#renomear
flights <- select(flights,x1=year, x2=dep_time, x3=arr_delay, everything() )
select(flights, num_range("x", 1:3))
# Distinc
distinct(flights, day)
Aula 4 – Filter, Arrange, count e pipe
Objetivo: filtrar, arrumar e contar observações de uma tabela de dados
## filter, arrange, count e pipe
## Carregando o pacote e os dados
# Para carregar o pacote podemos utilizar
require(tidyverse)
# As funções são do pacote dplyr: require(dplyr)
# Tabela de dados:
starwars
## Utilizando a função filter
## Utilizando comparadores lógicos:
# maior, menor, maior ou igual, menor ou igual, igual e diferente
filter(starwars, height > 160)
filter(starwars, height <= 150)
filter(starwars, height == 79)
# Vírgula funciona como 'E' (&)
filter(starwars, species == "Droid", homeworld == "Tatooine", skin_color == "gold")
# Utilizando operador OU (|)
filter(starwars, height > 185 | eye_color == "blue")
## Utilizando a função arrange
# Ordem crescente
arrange(starwars, mass)
# Ordem decrescente
arrange(starwars, desc(mass))
# Ou então
arrange(starwars, -mass)
# Mais de uma variável
arrange(starwars, mass, -birth_year)
## Utilizando a função count
# Apenas uma variável
count(starwars, gender)
count(starwars, species)
# Mais de uma variável
count(starwars, hair_color, eye_color)
##Utilizando o operador Pipe: %>% (Ctrl + Shift + M)
filter(starwars,species == "Human") %>%
select(contains("color"))
starwars %>%
filter(species == "Human") %>%
count(eye_color) %>%
arrange(-n)
Aula 5 – Mutate e transmute
Objetivo: criar novas colunas em um tibble
## Mutate e Transmute
## Carregando o pacote e os dados
# Para carregar o pacote podemos utilizar
require(tidyverse)
#As funções são do pacote dplyr: require(dplyr)
# Tabela de dados
cars
## Utilizando a função mutate
cars %>%
mutate(dist2 = dist*2)
### Mutate e ifelse
cars %>%
mutate(classe_speed = ifelse(speed > 10, "A","B"))
### Operador %in%
cars %>%
mutate(classe_dist = ifelse(dist %in% 10:20, "A","B"))
## Utilizando a função Transmute
cars %>%
transmute(classe_speed = ifelse(speed > 10,"A","B"))
cars %>%
transmute(tempo = speed * dist,
classe_speed = ifelse(speed > 10,"A","B"))
Aula 6 – Summarise, group_by e n_distinct
Objetivo: operar sobre linhas e colunas de um tibble
## summarise, group_by, n_distinct
## Carregando pacotes
# dplyr ou tidyverse
# install.packages("dplyr")
require(dplyr)
# install.packages("tidyverse")
require(tidyverse)
# install.packages("nycflights13") # Pacote com os dados
require(nycflights13)
# Tabela com dados
flights
## Estatísticas, media, mediana, max, min...
flights %>%
summarise(Tempo_voo_medio = mean(air_time, na.rm = T),
MaiorDistancia = max(distance))
# Podemos fazer uma sumarização
flights %>%
group_by(year, month, day) %>%
summarise(MenorDistancia = min(distance),
MaiorDistancia = max(distance))
Error in grouped_df_impl(data, unname(vars), drop) :
Column `year` is unknown
Aula 7 – Joins
Objetivo: unir através de chave comum dois tibbles
# inner_join e left_join
# Carregando o pacote
library(tidyverse)
# ou library(dplyr)
# Base de dados
x <- tribble(
~Chave, ~valor_x,
1, "x1",
2, "x2",
3, "x3"
)
y <- tribble(
~Chave, ~valor_y,
1, "y1",
2, "y2",
4, "y3"
)
# inner_join (Junta as observações quando chaves nas duas bases são iguais)
inner_join(x, y, by = "Chave")
# left_join (Mantem todas as observações de x)
left_join(x, y, by = "Chave")
# right_join (Mantem todas as observações de y)
right_join(x, y, by = "Chave")
# full_join (Mantem todas as observações de x e y)
full_join(x, y, by = "Chave")
Aula 8 – Exercício 1
Objetivo: praticar comandos do pacote dplyr
Abra um script no Rstudio para realizar estes exercícios Usaremos a base de dados starwars do pacote dplyr •1-Quantas species distintas há na base de dados? •2-Selecione todas as observações da species “Human” •3-Selecione o name e hair_color de todas as observações da species “Human” •4-Faça um agrupamento da base de dados considerando apenas species “Human”, de acordo com gender e resumindo para cada gender a altura média (height)
library(tidyverse)
starwars
#1-Quantas species distintas há na base de dados?
starwars %>%
select(species) %>%
n_distinct()
[1] 38
#2-Selecione todas as observações da species Human
starwars %>%
filter(species == "Human")
#3-Selecione o name e hair_color de todas as observações da species Human
starwars %>%
filter(species == "Human") %>%
select(name, hair_color)
#4-Faça um agrupamento da species Human por gender e resuma pela média da altura (height)
starwars %>%
filter(species == "Human") %>%
group_by(gender) %>%
summarise(media=mean(height, na.rm=T))
Aula 9 – Exercício 2
Objetivo: praticar comandos do pacote dplyr
•1-Crie 2 tibbles: tbb1 = tibble( setor = rep(c(“F”, “M”, “I”), 2) , peso = runif(6, 50, 100)) tbb2 = tibble( setor = rep(c(“I”),2) , altura = c(167, 180) •2- Una tbb1 e tbb2 com a função inner_join •3- Una tbb1 e tbb2 com a função full_join •4- Una tbb1 e tbb2 com a função left_join •5- Una tbb1 e tbb2 com a função right_join •6- Ordene o tbb1 por ordem crescente do peso •7- Agrupe tbb1 por setor e sumarize com o peso médio
#1-Crie 2 tibbles:
tbb1 = tibble( setor = rep(c("F", "M", "I"), 2) , peso = runif(6, 50, 100))
tbb2 = tibble( setor = rep(c("I"),2) , altura = c(167, 180) )
# 2- Una tbb1 e tbb2 com a função inner_join
tbb1
tbb2
inner_join(tbb1, tbb2, chave="setor")
Joining, by = "setor"
#3- Una tbb1 e tbb2 com a função full_join
full_join(tbb1,tbb2,chave="setor")
Joining, by = "setor"
#4- Una tbb1 e tbb2 com a função left_join
left_join(tbb1,tbb2,chave="setor")
Joining, by = "setor"
#5- Una tbb1 e tbb2 com a função right_join
right_join(tbb1,tbb2,chave="setor")
Joining, by = "setor"
#6- Ordene o tbb1 por ordem crescente do peso
tbb1 %>% arrange(peso)
#7- Agrupe tbb1 por setor e sumarize com o peso médio
tbb1 %>%
group_by(setor) %>%
summarise("peso medio"=mean(peso)) %>%
ungroup()
