Métodos Computacionais para Estatística II

13 novembro, 2018

Alunos:

- Iasmyn Lugon
- Lucas Mattos
- Luiz Fernando
- Lyncoln Sousa
- Marcson Araújo

Sparklyr

O que é o Spark

  • Big data
  • Cluster
  • Apache Spark

SparkR x SparklyR

O que é Sparklyr

Conexão do spark com o R

  • Criar uma conexão
  • Nome da fonte de dados = spark_connect(master = “Local de conexão do cluster”)
  • Adicionar dados na fonte de dados
  • Nome da conexão = nome da fonte de dados %>% copy_to(data frame, “Nome do DF na fonte de dados”)

Exemplo

Aplicação dos códigos :

library(sparklyr)
sc <- spark_connect(master = "local")
flights <- sc %>% copy_to(nycflights13::flights, "teste")

Exemplo usando filter

Exemplo utilizando o ggplot2

library(ggplot2)
df <- flights  %>% 
  filter(month == 11 , day == 13) %>% 
  collect()
ggplot(df, aes(sample = dep_delay)) + 
  stat_qq() + 
  stat_qq_line(colour = "red")

Conclusão final

OBRIGADO!