Este documento tem como objetivo contribuir para o entendimento de programação em R sobre os seguintes temas:

Basicamente, é um resumo do curso Intermediate R do DataCamp (2017). Recomendo que você faça o curso para um entendimento mais detalhado dos temas estudados.

OPERADORES RELACIONAIS

Comumente temos que fazer escolhas dada uma condição. Se alguma coisa for verdade, então iremos agir de uma maneira, caso contrário, então podemos tomar outra ação. Você pode fazer isso também em uma análise de dados e por meio do R.

Abaixo, veremos quais são os operadores relacionais usados para testar condições como as citadas acima.

################################
####     IGUALDADE         #####
################################

# Comparação de valores lógicos
TRUE == FALSE

# Comparação de valores numéricos
-6 * 14 != 17 - 101

# Comparação de strings
"useR" == "user"

# Comparação de um valor numérico com outro lógico
TRUE == 1

################################
####  MAIOR OU MENOR QUE   #####
################################

# Comparação de números (resultado de cada lado)
-6 * 5 + 2 >= -10 + 1

# Comparação de strings
"raining" <= "raining dogs"

# Comparação de strings
TRUE > FALSE

################################
####   COMPARAR VETORES    #####
################################

# Vetores com acessos ao LinkedIn and Facebook
linkedin <- c(16, 9, 13, 5, 2, 17, 14)
facebook <- c(17, 7, 5, 16, 8, 13, 14)

# Dias populares
linkedin > 15

# Dias com pouco acesso
linkedin <= 5

# Dias em que o LinkedIn foi mais popular que o Facebook
linkedin > facebook

################################
####   COMPARAR MATRIZES   #####
################################

# Matriz com as visualizações do LinkedIn e Facebook
views <- matrix(c(linkedin, facebook), nrow = 2, byrow = TRUE)

# Quando as visualizações foram iguais a 13?
views == 13

# Quando as visualizações foram menores ou iguais a 14?
views <= 14

# Com que frequência o Facebook tem visualizações iguais ou superiores às do LinkedIn multiplicado por 2?
sum(facebook >= linkedin * 2)

OPERADORES LÓGICOS

Até o momento, nos operadores relacionais estávamos testando apenas uma condição. Agora, com a inserção dos operadores lógicos podemos testar mais de uma condição, o que é útil no dia a dia.

Abaixo, códigos em R que exemplificam como usar os operadores lógicos.

################################
####         & e |         #####
################################

# Quando o LinkedIn excede 10 e Facebook menor que 10?
linkedin > 10 & facebook < 10

# Quando um ou outro foi visitado mais que 12 vezes?
linkedin > 12 | facebook > 12

# Quando as visitas foram maiores que 11 e menores ou iguais a 14?
views > 11 & views <= 14

################################
####         NOT           #####
################################

# Contrário do resultado da condição
!(5 > 3)

CONDIÇÕES

Indepedente do operador utilizado anteriormente (relacional ou lógico) tínhamos como resultado os valores TRUE ou FALSE. Porém, nenhuma ação era tomada a partir dos testes.

Agora, usaremos condições e a partir dos resultados uma ação será executada como mostram os códigos em R abaixo.

################################
####         IFELSE        #####
################################

# Último dia de visualização do LinkedIn e Facebook
li <- 15
fb <- 9

# Ifelse para testar condições
if (li >= 15 & fb >= 15) {          # Testar se em ambos temos 15 ou mais visitas
  sms <- (li + fb) * 2              # Se for verdade, execute a soma das visitas multiplicado por 2 
} else if (li < 10 & fb < 10) {     # Caso contrário, teste se em ambos temos menos que 10 visitas
  sms <- (li + fb) / 2              # Se for verdade, execute a média de visitas
} else {                            # Caso contrário, apenas some as visitas
  sms <- (li + fb)
}

# resultado
print(sms)

LOOPS

Muitas vezes pode ser preciso reescrever o seu código em função da necessidade de se repetir uma atividade. Isso pode ser trabalhoso e consumir bastante tempo. Felizmente, temos em programação a opção de usar loops (no R, as funções for(), while() e repeat()).

Nos códigos abaixo, temos exemplos de como usar os loops no R.

################################
####      WHILE LOOP       #####
################################

# Uma variável de velocidade
speed <- 64

# Enquanto a velocidade for maior que 30 execute
while (speed > 30 ) {
  print('Desacelerando!')
  speed <- speed - 7   # Desacelerar a velocidade        
}
# Mostre o resultado
print(speed)

################################
####       FOR LOOP        #####
################################

#  Versão 1
for (views in linkedin) {       # Para cada valor da matriz views que existe no vetor linkedin
  print(views)                  # Mostre o valor
}

# Versão 2
for (i in 1:length(linkedin)) { # Para cada índice da sequência de 1 a length(linkedin) 
  print(linkedin[i])            # Mostre o valor do vetor do respectivo índice
}

# Versão 3: Usando a função seq_along. Ela cria um vetor 
# de inteiros com índices para acompanhar o objeto. 
for (i in seq_along(linkedin)) { # Para cada índice do vetor linkdedin
  print(linkedin[i])             # Mostre os resultados
}

################################
###   LOOP SOBRE UMA LISTA   ###
################################

# Criando uma lista
nyc <- list(pop = 8405837, bairros = c("Manhattan", "Bronx", "Brooklyn", "Queens", "Staten Island"), 
            capital = FALSE)

# Versão 1
for (value in nyc) {             # Para cada item da lista 
  print(value)                   # Mostre os valores contidos em cada item da lista
}

# Versão 2
for (i in 1:length(nyc)) {       # Para cada índice da sequência de 1 até o tamanho de itens na lista
  print(nyc[[i]])                # Mostre os valores contidos em cada item da lista usando o índice
}

################################
###   LOOP SOBRE UMA MATRIZ  ###
################################

# Criar uma matriz
ttt <- matrix(c("O", NA, "X", NA, "O", NA, "X", "O", "X"), nrow = 3, ncol = 3)

# Executar o loop 
for (i in 1:nrow(ttt)) {        # Para cada linha da matriz (1:nrow(ttt) criará os índices das linhas)
  for (j in 1:ncol(ttt)) {      # Para cada coluna da matriz (1:ncol(ttt) criará os índices das colunas)
  print(paste("Na linha",i,"e coluna",j,"temos",ttt[i,j]))  # Mostre os resultados 
  }
}

################################
####  LOOP COM CONDIÇÕES    ####
################################

# Executar o loop
for (li in linkedin) {            # Para cada índice do vetor linkedin (chamamos o índice de li)
  if (li > 10) {                  # Se o índice for maior que 10
    print("Você é popular")       # Mostre a mensagem "Você é popular"
  } else {                        # Caso contrário, se o índice for <= 10
    print("Seja mais visível!")   # Mostre outra mensagem "Seja mais visível"
  }
}

FUNÇÕES

Durante a programação em R você pode fazer uso de funções “prontas” de pacotes do R, mas em alguns casos você pode optar por criar sua própria função. Desta forma, você evita repetir códigos para executar a mesma tarefa.

Nos códigos abaixo, temos códigos em R que mostram como acessar a documentação de uma função nativa do R e como criar sua própria função.

################################
####   FUNÇÕES NATIVAS     #####
################################

# Para acessar a documentação de uma função nativa.
help(mean)
help(sd)

# Existem argumentos obrigatórios e opcionais em funções. Exemplo:
sd(x, na.rm = FALSE)

################################
###   FUNÇÕES PRÓPRIAS       ###
################################

# Criando a função quadrado que recebe o argumento x
quadrado <- function(x) {
 result <- x^2
 return(result)
}

# Usando a função quadrado
quadrado(12)

# Criando a função somar_abs() que recebe os argumentos x e y
somar_abs <- function(x, y) {
  result <- abs(x) + abs(y)
  return(result)
}

# Usando a função somar_abs
somar_abs(-2, 3)


# Expandir a função quadrado() para receber os argumentos x e print_info
quadrado <- function(x, print_info = T) {         # argumentos da função
  y <- x ^ 2                                      # tarefa a ser executada
  if (print_info == T) {                          # verificar o argumento print_info
    print(paste(x, 'elevado ao quadrado é',y))    # se TRUE, mostrar a mensagem
  }
  return(y)                                       # a função deve retornar como saído os valores de y
}

quadrado(5)
quadrado(5, print_info=F)
A FAMÍLIA DE FUNÇÕES APPLY

Escrever loops da forma tradicional pode ser uma verdadeira tortura, tanto para o usuário quanto para o computador em função de performance.

Em função disso, surgiram as funções apply() que são muito úteis na manipulação de dados e simplificam e aceleram o processo. Tudo que você conseguiria fazer com um for() pode ser realizado com funções da família apply().

  • apply():

Aplica uma função nas margens de um array qualquer. Geralmente é aplicado em uma matriz/dataframe de forma a executar uma mesma função em todas as linhas ou colunas daquele objeto. Recebe como argumento um array, a marginal sobre a qual a função será aplicada (linha ou coluna) e a função.

  • lapply():

É uma função que é aplicada em cada elemento de um vetor ou cada nó de uma lista. O output é uma lista obrigatoriamente. Recebe como argumentos um vetor/lista e uma função.

  • sapply():

Similar ao lapply, porém a saída geralmente é simplificada, sendo apenas um vetor. Caso sua saída seja mais de um elemento, a saída deixa de ser um vetor e passa a ser uma matriz. Recebe como argumentos um vetor/lista e uma função. A diferença para o lapply é que o sapply tenta simplificar o resultado, retornando assim um vetor ou algo parecido.

  • tapply():

Função com o objetivo de aplicar funções em grupos diferentes. Suponha que você tenha um dataframe com 2 colunas, uma com altura e outra com gênero, e você queira calcula a média de idade para cada um dos gẽneros, então neste caso a função tapply se aplica perfeitamente. Recebe como argumentos um vetor, um vetor com os fatores que irão estratificar o resultado e a função a ser aplicada em cada estrato.

Abaixo, códigos em R que mostram como fazer uso de cada uma das funções da família de funções apply.

################################
######       APPLY         #####
################################

# matriz com 20 colunas e 10 linhas
x <- matrix(rnorm(200), ncol=20)

# média na linha (MARGIN = 1)
media_linha <- apply(x, MARGIN = 1, mean)   # aplicar a função mean nas linhas

# média na coluna (MARGIN = 2)
media_coluna <- apply(x, MARGIN = 2, mean)  # aplicar a função mean nas colunas

################################
######       LAPPLY        #####
################################

# Uma lista qualquer com 7 vetores de temperaturas em cada dia
temp <- list(
  c(3, 7,  9,  6, -1),
  c(6,  9, 12, 13,  5),
  c(4,  8,  3, -1, -3),
  c(1,  4,  7,  2, -2),
  c(5, 7, 9, 4, 2),
  c(-3,  5,  8,  9,  4),
  c(3, 6, 9, 4, 1)
  )

# Temperatura mínima em cada dia. Retorna uma lista.
lapply(temp, min)

# Temperatura máxima em cada dia. Retorna uma lista. 
lapply(temp, max)

# Temperatura média em cada dia. Retorna uma lista.
lapply(temp, mean)

################################
######       SAPPLY        #####
################################

# Temperatura mínima em cada dia. Retorna um vetor.
sapply(temp, min)

# Temperatura máxima em cada dia. Retorna um vetor.
sapply(temp, max)

# Temperatura média em cada dia. Retorna um vetor.
sapply(temp, mean)

# Teste que retorna apenas em formato diferente, mas com resultados iguais
unlist(lapply(temp, max)) == sapply(temp, max)

# Função que calcula a média do mínimo e máximo de um vetor
extremes_avg <- function(x) {
 avg <- mean(c(min(x), max(x)))
 return(avg)
}

# Usando ela com o sapply(). Poderíamos usar ela em lapply() ou apply().
sapply(temp, extremes_avg)
TRABALHANDO COM DATAS

A data ou tempo é um dado que necessita de uma manipulação específica. Como trabalharemos com séries temporais, é de suma importância o bom entendimento de como lidar com dados temporais que, necessáriamente, serão armazenados cronológicamente.

No R temos várias formas de trabalhar com datas. Abaixo, alguns exemplos que podem nos ajudar.

################################
#####    DATA/TEMPO        #####
################################

# A data atual. A função primitiva Sys.Date() cria uma data no formato correto
today <- Sys.Date()

# Se excluirmos a classe vemos que teremos um número que não é interpretável 
unclass(today)

# A hora corrente
now <- Sys.time()

################################
####  CRIANDO DATA/TEMPO   #####
################################

# Definindo datas em um formato qualquer como character
str1 <- "2012-3-15"
str2 <- "02/27/92"

# Convertendo para datas no formato que o R reconhece
date1 <- as.Date(str1, format = "%Y-%m-%d")
date2 <- as.Date(str2, format = "%m/%d/%y")

# Definindo tempo em formato de string
str1 <- "2012-3-12 14:23:08"

# Converter as string para um objecto POSIXct
time1 <- as.POSIXct(str1, format = "%Y-%m-%d %T")

################################
####  CÁLCULO DATA/TEMPO   #####
################################

# Datas
day1 <- as.Date("2017-03-12")
day2 <- as.Date("2017-03-14")
day3 <- as.Date("2017-03-19")
day4 <- as.Date("2017-03-25")
day5 <- as.Date("2017-03-30")

# Diferença entre o primeiro e o último dia
day5-day1

# Criar um vetor com as datas
pizza <- c(day1, day2, day3, day4, day5)
pizza

# Criar um vetor com a diferença entre os dias consecutivos
day_diff <- diff(pizza)
day_diff

# Período médio entre dois dias consecutivos 
mean(day_diff)
PACOTES

Como comentado anteriormente, você pode fazer uso de funcionalidades de pacotes do R. Neste caso, você precisa adicionar esse pacote no conjunto de bibliotecas disponíveis no R para que seja possível usar suas funções.

Isto é necessário porque quando iniciamos o RStudio apenas alguns pacotes básicos são carregados automaticamente. Para que os outros também sejam carregados, é preciso acioná-los.

Abaixo, veremos como fazer a instalação de pacotes bem como seu carregamento no RStudio.

################################
#####      INSTALAR        #####
################################

# Além dessa opção você pode instalar pacotes diretamente no painel inferior direito do RStudio
install.packages("dplyr")
install.packages(c("dplyr", "data.table"))

################################
#####       CARREGAR       #####
################################

# Forma tradicional. Aqui, não precisamos das aspas porque o R já reconhece que há o pacote no ambiente
require(dplyr)
require(data.table)

# Alternativa para no momento de carregamento do pacote não aparecerem mensagens
suppressMessages(require(dplyr))
suppressMessages(require(data.table))

# Acionando todas as funções disponíveis no pacote
help(dplyr)
help(data.table)

REFERÊNCIAS

DataCamp, Inc. 2017. “Intermediate R.” https://www.datacamp.com/courses/intermediate-r.

Wickham, Hadley. 2014. Advanced R. CRC Press.

2018. “Curso-R.” http://material.curso-r.com/.

