Importando os dados

library(tidyverse)
library(readr)

dados <- read_csv("./../data/dados-fpcc2.csv")

Analisando os dados rapidamente temos:

## Observations: 29
## Variables: 11
## $ `Carimbo de data/hora`               <chr> "2020/03/10 11:05:00 AM GMT-3", …
## $ Idade                                <dbl> 22, 22, 22, 23, 24, 24, 28, 26, …
## $ `Você é`                             <chr> "Homem", "Homem", "Homem", "Home…
## $ `Curso no PPGCC / UFCG`              <chr> "Mestrado", "Mestrado", "Mestrad…
## $ `Área de pesquisa`                   <chr> "Análise de dados", "Mobilidade …
## $ `Nível de interesse na pós-gradução` <dbl> 3, 3, 3, 3, 3, 2, 3, 2, 3, 3, 2,…
## $ `Programa em R`                      <chr> "Sim", "Sim", "Não", "Sim", "Não…
## $ `Instituição de origem (abreviado)`  <chr> "UFCG", "UFCG", "UFCG", "UFCG", …
## $ `Estado de nascimento (abreviado)`   <chr> "PB", "PB", "PB", "DF", "SP", "B…
## $ `Número de irmãos (irmãs)`           <chr> "5", "1", "0", "2", "02", "1", "…
## $ `Altura (em centímetros)`            <dbl> 178.00, 175.00, 173.00, 184.00, …

Calcule média e desvio padrão da idade e nível de interesse. As métricas contendos as métricas calculadas para idade e nível de interesse devem ser apresentadas de forma ordenada. Além de apresentar no relatório, os resultados devem ser salvos em um arquivo csv.

##          metrica     media desvio_padrao
## 1          idade 25.793103     4.9524836
## 2 nivel_interese  2.827586     0.3844259

Qual o curso com maior valor médio de idade? Discutir os resultados com base nos dados disponíveis em termos de representatividade.

##   Curso no PPGCC / UFCG media_idade contagem
## 1        Aluno especial    36.33333        3
## 2             Doutorado    30.25000        4
## 3              Mestrado    23.54545       22

O curso com o maior valor médio de idade é o de mestrado. Além disso é importante observar a essa amostra de dados que os alunos do curso de doutorado e o conjunto de alunos que cursam como alunos especiais possuem poucas pessoas e não podem não representar muito bem o PPGCC como um todo.

Crie um gráfico que mostra a idade média para cada curso. Apresente o gráfico e discuta os resultados no relatório. O gráfico também deve ser salvo em uma imagem no formato png.

O gráfico mostra a média de idade por curso para cada uma das categorias de curso na amostra obtida. Sabendo o que foi visto anteriormente em relação à quantidade de alunos de doutorado e de alunos especiais, podemos extrair que a média de alunos do mestrado é muito mais representativa em relação aos outros dois grupos, pois outliers podem afetá-los facilmente.

Crie um gráfico que mostra o percentual de alunos para cada estado de origem. Apresente o gráfico e discuta os resultados no relatório. O gráfico também deve ser salvo em uma imagem no formato png.

Observa-se que a grande maioria dos alunos tem o estado da Paraíba como origem, o que faz muito sentido uma vez que a UFCG está neste mesmo estado. Outro detalhe é que em relação aos alunos de outros estados, eles são em grande parte de estados da região Nordeste - apresentando alguns poucos locais que não são dessa região, como DF, SC e SP.

Compare a média de idade geral com a média dos top-5 e dos bottom-5. Além de apresentar e discutir os resultados no relatório, salvar em uma tabela (dataframe) com as médias em questão.

##   tipo_media   media
## 1      geral 25.7931
## 2      top_5 21.8000
## 3   bottom_5 35.2000

Você acredita que existe uma relação entre idade e nível de interesse? Discuta.

Para tentar responder essa pergunta podemos utilizar um gráfico. Possívelmente se isso existir pode haver alguma concentração de pontos associando idade e nível de interesse: uma concentração de notas de interesse para apenas uma determinada faixa de valores de idade. Por exemplo: alunos mais jovens respondendo que possuem pouco nível de interesse enquanto alunos mais velhos com um maior nível de interesse. Entretanto, não é isso que podemos observar, pois existem alunos com um nível de interesse alto de diversas faixas etárias.
Uma alternativa para responder a pergunta é realizar uma regressão para identificar uma possível relação entre as variáveis, mas a análise visual feita acima já é suficiente para identificar que se existir uma relação entre elas é algo bem fraco.