Contextualização

No momento em que escrevo este documento, uma das grandes dificuldades que a Meios Jr passa é, em minha visão, a dedicação excessiva dos membros a tarefas pontuais de suas respectivas coordenadorias, em detrimento à execução de mais projetos de fato - que contribuiriam com a formação específica do cientista social.

Um dos pilares desse problema é o processo de repasse do conhecimento. Ainda que existam projetos em andamento, é comum que os membros (em especial os recém-ingressantes na empresa) se sintam acanhados em se integrar e fazer parte das atividades. Uma parcela do problema decorre das dificuldades comunicacionais inatas ao trabalho remoto, e outra, talvez até mais expressiva , da sensação de incapacidade técnica para contribuir na execução dos projetos.

Nesse sentido, gostaria de deixar uma coisa registrada:

Por que uma capacitação em análise de dados?

Grande parte dos trabalhos que executamos na Meios envolvem os seguintes passos, que são bem ilustrados pelo infográfico abaixo.

  1. Reconhecimento da demanda do cliente;
  2. Formulação de um instrumento de coleta de dados (caso o dado não seja disponibilizado de antemão);
  3. Tratamento dos dados;
  4. Análise quantitativa;
  5. Produção do relatório final, com as conclusões do projetos.

Saber realizar análise de dados é fundamental para as atividades que nos propomos a executar, e é absolutamente indispensável do ponto de vista da carreira e empregabilidade - independente de ser acadêmica ou de mercado.

Por que o R?

O R, junto ao Python, são hoje as duas maiores linguagens de programação de análise de dados do mercado mundial. Diferentemente do Excel, Google Sheets, SPSS, Stata, SAS, etc, que estão em rápido declínio. Isso quando são citados.

Fonte: https://towardsdatascience.com/getting-started-with-r-programming-2f15e9256c9

O R possui uma ênfase mais acadêmica (apesar de estar crescendo rapidamente no mercado), e é mais comum encontrar utilizadores da linguagem nas áreas da Estatística, Demografia e Estudos Médicos. Já no caso do Python, é mais comum encontrar cientistas da computação, cientistas de dados, programadores de outras coisas (que não sejam necessariamente análise de dados), e pessoas que trabalham com Machine Learning, Deep Learning, etc. Coisas interessantes, mas que fogem aos nossos propósitos aqui.

Nesse sentido, acredito que seja mais útil, do ponto de vista da empregabilidade e da funcionalidade (as possibilidades são praticamente infinitas), encarar a curva de aprendizado mais complexa que o R possui, do que realizar o trabalho nos outros softwares, que ainda que tenham uma interface mais amigável, são mais limitados, e estão lutando pra permanecer relevantes no mercado.

O que aprenderemos nessa capacitação?

Introdução e pequenas reflexões

  1. As Ciências Sociais e sua capacidade desestruturante, do ponto de vista de um estudante de graduação.
  2. A programação e a necessidade de estruturação linear do pensamento para fazê-la.
  3. Quem são as mentes (humanas) por trás do R e do RStudio?
  4. Por quê o R e não o Excel, SPSS, SAS, Stata, etc?

Base de dados utilizada e noções preliminares fundamentais

  1. A pesquisa de percepção dos estudantes do CACS Línguas
  2. O RMarkdown (onde estamos agora?)
  3. A iniciativa Tidyverse
  4. O processo de analise de dados e suas etapas

Trazendo o dado para o R

  1. Importação de dados para o ambiente R com o readr e o readxl
  2. Checagem de consistência e características gerais do banco de dados

Análise exploratória

  1. Medidas de posição: Quartis, média e mediana
  2. Medidas de dispersão: Variância, desvio padrão e amplitude

Tabelas de frequência e percentual

  1. Tabelas univariadas e bivariadas com o R base
  2. Tabelas de percentual com o R base
  3. Tabelas customizáveis com o dplyr, kable e kableExtra

Gráficos com o ggplot2

  1. Quando usar cada tipo de gráfico?

    1. Gráficos de barras

    2. Histogramas

    3. Boxplots

    4. Diagramas de dispersão / gráficos de pontos / scatterplots

  2. A Gramática de Gráficos

    Quais os componentes de um ggplot? Por que isso importa?

  3. Construindo gráficos

    geom_bar(), geom_col(), geom_histogram(), geom_boxplot e geom_point()

Análise qualitativa

Produção de nuvens de palavras com o wordcloud

Produção e formatação de um relatório RMarkdown

Ambiente de programação colaborativo da Meios Jr no GitHub