Apresentação

Bom dia/tarde/noite! Meu nome é Rômulo Damasceno, serei o professor do curso de R Intermediário, e te agradeço por escolher o MQuinho!

Saiba que ao nos dar essa chance você está contribuindo com um dos projetos mais bonitos do curso de Ciências Sociais (e da UFMG), que busca espalhar conhecimento de qualidade à comunidade por um valor bastante acessível :)

O projeto do curso

Um curso de R intermediário pode significar muitas coisas dependendo da escolha de uma abordagem focada nos aspectos mais abstratos da programação, ou mais voltada para o dia-a-dia do analista/cientista de dados. Escolhi trabalhar essa segunda perspectiva, que é aquela que tem maior probabilidade de afetar positivamente o seu cotidiano com dados, que na maior parte das vezes deverá consistir em alguns grandes processos:

  1. Lidar (sem surtar) com dados sujos, isto é, múltiplas informações numa mesma célula, erros de preenchimento e bancos de dados mal estruturados;
  2. Realizar boas análises de dados, capazes de produzir insights úteis ao seu propósito;
  3. Produzir boas visualizações e relatórios, que sejam capazes de informar o leitor de maneira limpa e suscinta os achados da análise.

O esquema da aula consistirá em uma parte demonstrativa das funções e aplicações em um banco de dados proposto, e uma segunda parte de exercícios que simulam cenários reais em que tais funções seriam úteis. A ideia é que ao final do curso tenhamos um relatório completo, resultante dos processos de limpeza, análise e visualização de dados, que poderá ser usado por cada um de vocês como um projeto de portfólio.

O que aprenderemos neste curso?

O Tidyverse é o conjunto de pacotes mais popular do R. Nele, várias (se não todas) as funcionalidades necessárias para limpeza, visualização e análise de dados estão condensadas. Quase a totalidade do curso será feita tendo o Tidyverse como referência.

Vamos relembrar!

O primeiro dia de curso será dedicado a compreender o nível de programação em R da turma, relembrando alguns aspectos fundamentais e retomando o que for necessário.

  1. O “workflow” das ciências de dados;
  2. A iniciativa tidyverse;
  3. Revisão sobre formatos de dados;
  4. Noções gerais de programação em R;

Dados sujos e o que fazer

  1. A noção de dado limpo (Tidy data) e por que isso é importante;
  2. Funções para checar a integridade e consistência do banco de dados;
  3. O pacote tidyr para correções estruturais no dado;
  4. O pacote stringr para manipulação e correção de variáveis textuais;

Aprofundamentos no processo de análise de dados

  1. Condução de uma análise de dados padrão: dplyr e ggplot2;
  2. Aprofundamento nos verbos do dplyr - select(), filter(), arrange(), summarise(). Quais as outras possibilidades?
  3. Aprofundamento no ggplot2: escalas, temas, legendas, formatações gerais;

Relatórios em RMarkdown - outras possibilidades

  1. Opções de relatório em HTML;
  2. Opções de relatório em PDF;
  3. Estética de relatório.;
  4. Deploy do relatório no RPubs.