Este documento tem como objetivo contribuir para o entendimento de programação em R sobre os seguintes temas:
- Operadores relacionais
==
<
>
e lógicos and
or
not
;
- Condições
if
else
;
- Loops;
- Funções;
- A família de funções apply;
- Datas;
- Pacotes
Basicamente, é um resumo do curso Intermediate R do DataCamp (2017). Recomendo que você faça o curso para um entendimento mais detalhado dos temas estudados.
OPERADORES RELACIONAIS
Comumente temos que fazer escolhas dada uma condição. Se alguma coisa for verdade, então iremos agir de uma maneira, caso contrário, então podemos tomar outra ação. Você pode fazer isso também em uma análise de dados e por meio do R.
Abaixo, veremos quais são os operadores relacionais usados para testar condições como as citadas acima.
################################
#### IGUALDADE #####
################################
# Comparação de valores lógicos
TRUE == FALSE
# Comparação de valores numéricos
-6 * 14 != 17 - 101
# Comparação de strings
"useR" == "user"
# Comparação de um valor numérico com outro lógico
TRUE == 1
################################
#### MAIOR OU MENOR QUE #####
################################
# Comparação de números (resultado de cada lado)
-6 * 5 + 2 >= -10 + 1
# Comparação de strings
"raining" <= "raining dogs"
# Comparação de strings
TRUE > FALSE
################################
#### COMPARAR VETORES #####
################################
# Vetores com acessos ao LinkedIn and Facebook
linkedin <- c(16, 9, 13, 5, 2, 17, 14)
facebook <- c(17, 7, 5, 16, 8, 13, 14)
# Dias populares
linkedin > 15
# Dias com pouco acesso
linkedin <= 5
# Dias em que o LinkedIn foi mais popular que o Facebook
linkedin > facebook
################################
#### COMPARAR MATRIZES #####
################################
# Matriz com as visualizações do LinkedIn e Facebook
views <- matrix(c(linkedin, facebook), nrow = 2, byrow = TRUE)
# Quando as visualizações foram iguais a 13?
views == 13
# Quando as visualizações foram menores ou iguais a 14?
views <= 14
# Com que frequência o Facebook tem visualizações iguais ou superiores às do LinkedIn multiplicado por 2?
sum(facebook >= linkedin * 2)
OPERADORES LÓGICOS
Até o momento, nos operadores relacionais estávamos testando apenas uma condição. Agora, com a inserção dos operadores lógicos podemos testar mais de uma condição, o que é útil no dia a dia.
Abaixo, códigos em R que exemplificam como usar os operadores lógicos.
################################
#### & e | #####
################################
# Quando o LinkedIn excede 10 e Facebook menor que 10?
linkedin > 10 & facebook < 10
# Quando um ou outro foi visitado mais que 12 vezes?
linkedin > 12 | facebook > 12
# Quando as visitas foram maiores que 11 e menores ou iguais a 14?
views > 11 & views <= 14
################################
#### NOT #####
################################
# Contrário do resultado da condição
!(5 > 3)
CONDIÇÕES
Indepedente do operador utilizado anteriormente (relacional ou lógico) tínhamos como resultado os valores TRUE ou FALSE. Porém, nenhuma ação era tomada a partir dos testes.
Agora, usaremos condições e a partir dos resultados uma ação será executada como mostram os códigos em R abaixo.
################################
#### IFELSE #####
################################
# Último dia de visualização do LinkedIn e Facebook
li <- 15
fb <- 9
# Ifelse para testar condições
if (li >= 15 & fb >= 15) { # Testar se em ambos temos 15 ou mais visitas
sms <- (li + fb) * 2 # Se for verdade, execute a soma das visitas multiplicado por 2
} else if (li < 10 & fb < 10) { # Caso contrário, teste se em ambos temos menos que 10 visitas
sms <- (li + fb) / 2 # Se for verdade, execute a média de visitas
} else { # Caso contrário, apenas some as visitas
sms <- (li + fb)
}
# resultado
print(sms)
LOOPS
Muitas vezes pode ser preciso reescrever o seu código em função da necessidade de se repetir uma atividade. Isso pode ser trabalhoso e consumir bastante tempo. Felizmente, temos em programação a opção de usar loops
(no R, as funções for()
, while()
e repeat()
).
Nos códigos abaixo, temos exemplos de como usar os loops
no R.
################################
#### WHILE LOOP #####
################################
# Uma variável de velocidade
speed <- 64
# Enquanto a velocidade for maior que 30 execute
while (speed > 30 ) {
print('Desacelerando!')
speed <- speed - 7 # Desacelerar a velocidade
}
# Mostre o resultado
print(speed)
################################
#### FOR LOOP #####
################################
# Versão 1
for (views in linkedin) { # Para cada valor da matriz views que existe no vetor linkedin
print(views) # Mostre o valor
}
# Versão 2
for (i in 1:length(linkedin)) { # Para cada índice da sequência de 1 a length(linkedin)
print(linkedin[i]) # Mostre o valor do vetor do respectivo índice
}
# Versão 3: Usando a função seq_along. Ela cria um vetor
# de inteiros com índices para acompanhar o objeto.
for (i in seq_along(linkedin)) { # Para cada índice do vetor linkdedin
print(linkedin[i]) # Mostre os resultados
}
################################
### LOOP SOBRE UMA LISTA ###
################################
# Criando uma lista
nyc <- list(pop = 8405837, bairros = c("Manhattan", "Bronx", "Brooklyn", "Queens", "Staten Island"),
capital = FALSE)
# Versão 1
for (value in nyc) { # Para cada item da lista
print(value) # Mostre os valores contidos em cada item da lista
}
# Versão 2
for (i in 1:length(nyc)) { # Para cada índice da sequência de 1 até o tamanho de itens na lista
print(nyc[[i]]) # Mostre os valores contidos em cada item da lista usando o índice
}
################################
### LOOP SOBRE UMA MATRIZ ###
################################
# Criar uma matriz
ttt <- matrix(c("O", NA, "X", NA, "O", NA, "X", "O", "X"), nrow = 3, ncol = 3)
# Executar o loop
for (i in 1:nrow(ttt)) { # Para cada linha da matriz (1:nrow(ttt) criará os índices das linhas)
for (j in 1:ncol(ttt)) { # Para cada coluna da matriz (1:ncol(ttt) criará os índices das colunas)
print(paste("Na linha",i,"e coluna",j,"temos",ttt[i,j])) # Mostre os resultados
}
}
################################
#### LOOP COM CONDIÇÕES ####
################################
# Executar o loop
for (li in linkedin) { # Para cada índice do vetor linkedin (chamamos o índice de li)
if (li > 10) { # Se o índice for maior que 10
print("Você é popular") # Mostre a mensagem "Você é popular"
} else { # Caso contrário, se o índice for <= 10
print("Seja mais visível!") # Mostre outra mensagem "Seja mais visível"
}
}
FUNÇÕES
Durante a programação em R você pode fazer uso de funções “prontas” de pacotes do R, mas em alguns casos você pode optar por criar sua própria função. Desta forma, você evita repetir códigos para executar a mesma tarefa.
Nos códigos abaixo, temos códigos em R que mostram como acessar a documentação de uma função nativa do R e como criar sua própria função.
################################
#### FUNÇÕES NATIVAS #####
################################
# Para acessar a documentação de uma função nativa.
help(mean)
help(sd)
# Existem argumentos obrigatórios e opcionais em funções. Exemplo:
sd(x, na.rm = FALSE)
################################
### FUNÇÕES PRÓPRIAS ###
################################
# Criando a função quadrado que recebe o argumento x
quadrado <- function(x) {
result <- x^2
return(result)
}
# Usando a função quadrado
quadrado(12)
# Criando a função somar_abs() que recebe os argumentos x e y
somar_abs <- function(x, y) {
result <- abs(x) + abs(y)
return(result)
}
# Usando a função somar_abs
somar_abs(-2, 3)
# Expandir a função quadrado() para receber os argumentos x e print_info
quadrado <- function(x, print_info = T) { # argumentos da função
y <- x ^ 2 # tarefa a ser executada
if (print_info == T) { # verificar o argumento print_info
print(paste(x, 'elevado ao quadrado é',y)) # se TRUE, mostrar a mensagem
}
return(y) # a função deve retornar como saído os valores de y
}
quadrado(5)
quadrado(5, print_info=F)
A FAMÍLIA DE FUNÇÕES APPLY
Escrever loops da forma tradicional pode ser uma verdadeira tortura, tanto para o usuário quanto para o computador em função de performance.
Em função disso, surgiram as funções apply()
que são muito úteis na manipulação de dados e simplificam e aceleram o processo. Tudo que você conseguiria fazer com um for()
pode ser realizado com funções da família apply()
.
Aplica uma função nas margens de um array qualquer. Geralmente é aplicado em uma matriz/dataframe de forma a executar uma mesma função em todas as linhas ou colunas daquele objeto. Recebe como argumento um array, a marginal sobre a qual a função será aplicada (linha ou coluna) e a função.
É uma função que é aplicada em cada elemento de um vetor ou cada nó de uma lista. O output é uma lista obrigatoriamente. Recebe como argumentos um vetor/lista e uma função.
Similar ao lapply, porém a saída geralmente é simplificada, sendo apenas um vetor. Caso sua saída seja mais de um elemento, a saída deixa de ser um vetor e passa a ser uma matriz. Recebe como argumentos um vetor/lista e uma função. A diferença para o lapply é que o sapply tenta simplificar o resultado, retornando assim um vetor ou algo parecido.
Função com o objetivo de aplicar funções em grupos diferentes. Suponha que você tenha um dataframe com 2 colunas, uma com altura e outra com gênero, e você queira calcula a média de idade para cada um dos gẽneros, então neste caso a função tapply se aplica perfeitamente. Recebe como argumentos um vetor, um vetor com os fatores que irão estratificar o resultado e a função a ser aplicada em cada estrato.
Abaixo, códigos em R que mostram como fazer uso de cada uma das funções da família de funções apply.
################################
###### APPLY #####
################################
# matriz com 20 colunas e 10 linhas
x <- matrix(rnorm(200), ncol=20)
# média na linha (MARGIN = 1)
media_linha <- apply(x, MARGIN = 1, mean) # aplicar a função mean nas linhas
# média na coluna (MARGIN = 2)
media_coluna <- apply(x, MARGIN = 2, mean) # aplicar a função mean nas colunas
################################
###### LAPPLY #####
################################
# Uma lista qualquer com 7 vetores de temperaturas em cada dia
temp <- list(
c(3, 7, 9, 6, -1),
c(6, 9, 12, 13, 5),
c(4, 8, 3, -1, -3),
c(1, 4, 7, 2, -2),
c(5, 7, 9, 4, 2),
c(-3, 5, 8, 9, 4),
c(3, 6, 9, 4, 1)
)
# Temperatura mínima em cada dia. Retorna uma lista.
lapply(temp, min)
# Temperatura máxima em cada dia. Retorna uma lista.
lapply(temp, max)
# Temperatura média em cada dia. Retorna uma lista.
lapply(temp, mean)
################################
###### SAPPLY #####
################################
# Temperatura mínima em cada dia. Retorna um vetor.
sapply(temp, min)
# Temperatura máxima em cada dia. Retorna um vetor.
sapply(temp, max)
# Temperatura média em cada dia. Retorna um vetor.
sapply(temp, mean)
# Teste que retorna apenas em formato diferente, mas com resultados iguais
unlist(lapply(temp, max)) == sapply(temp, max)
# Função que calcula a média do mínimo e máximo de um vetor
extremes_avg <- function(x) {
avg <- mean(c(min(x), max(x)))
return(avg)
}
# Usando ela com o sapply(). Poderíamos usar ela em lapply() ou apply().
sapply(temp, extremes_avg)
PACOTES
Como comentado anteriormente, você pode fazer uso de funcionalidades de pacotes do R. Neste caso, você precisa adicionar esse pacote no conjunto de bibliotecas disponíveis no R para que seja possível usar suas funções.
Isto é necessário porque quando iniciamos o RStudio apenas alguns pacotes básicos são carregados automaticamente. Para que os outros também sejam carregados, é preciso acioná-los.
Abaixo, veremos como fazer a instalação de pacotes bem como seu carregamento no RStudio.
################################
##### INSTALAR #####
################################
# Além dessa opção você pode instalar pacotes diretamente no painel inferior direito do RStudio
install.packages("dplyr")
install.packages(c("dplyr", "data.table"))
################################
##### CARREGAR #####
################################
# Forma tradicional. Aqui, não precisamos das aspas porque o R já reconhece que há o pacote no ambiente
require(dplyr)
require(data.table)
# Alternativa para no momento de carregamento do pacote não aparecerem mensagens
suppressMessages(require(dplyr))
suppressMessages(require(data.table))
# Acionando todas as funções disponíveis no pacote
help(dplyr)
help(data.table)
REFERÊNCIAS
Wickham, Hadley. 2014. Advanced R. CRC Press.
