Importando os dados
library(tidyverse)
library(readr)
dados <- read_csv("./../data/dados-fpcc2.csv")
Analisando os dados rapidamente temos:
## Observations: 29
## Variables: 11
## $ `Carimbo de data/hora` <chr> "2020/03/10 11:05:00 AM GMT-3", …
## $ Idade <dbl> 22, 22, 22, 23, 24, 24, 28, 26, …
## $ `Você é` <chr> "Homem", "Homem", "Homem", "Home…
## $ `Curso no PPGCC / UFCG` <chr> "Mestrado", "Mestrado", "Mestrad…
## $ `Área de pesquisa` <chr> "Análise de dados", "Mobilidade …
## $ `Nível de interesse na pós-gradução` <dbl> 3, 3, 3, 3, 3, 2, 3, 2, 3, 3, 2,…
## $ `Programa em R` <chr> "Sim", "Sim", "Não", "Sim", "Não…
## $ `Instituição de origem (abreviado)` <chr> "UFCG", "UFCG", "UFCG", "UFCG", …
## $ `Estado de nascimento (abreviado)` <chr> "PB", "PB", "PB", "DF", "SP", "B…
## $ `Número de irmãos (irmãs)` <chr> "5", "1", "0", "2", "02", "1", "…
## $ `Altura (em centímetros)` <dbl> 178.00, 175.00, 173.00, 184.00, …
## metrica media desvio_padrao
## 1 idade 25.793103 4.9524836
## 2 nivel_interese 2.827586 0.3844259
## Curso no PPGCC / UFCG media_idade contagem
## 1 Aluno especial 36.33333 3
## 2 Doutorado 30.25000 4
## 3 Mestrado 23.54545 22
O curso com o maior valor médio de idade é o de mestrado. Além disso é importante observar a essa amostra de dados que os alunos do curso de doutorado e o conjunto de alunos que cursam como alunos especiais possuem poucas pessoas e não podem não representar muito bem o PPGCC como um todo.
O gráfico mostra a média de idade por curso para cada uma das categorias de curso na amostra obtida. Sabendo o que foi visto anteriormente em relação à quantidade de alunos de doutorado e de alunos especiais, podemos extrair que a média de alunos do mestrado é muito mais representativa em relação aos outros dois grupos, pois outliers podem afetá-los facilmente.
Observa-se que a grande maioria dos alunos tem o estado da Paraíba como origem, o que faz muito sentido uma vez que a UFCG está neste mesmo estado. Outro detalhe é que em relação aos alunos de outros estados, eles são em grande parte de estados da região Nordeste - apresentando alguns poucos locais que não são dessa região, como DF, SC e SP.
## tipo_media media
## 1 geral 25.7931
## 2 top_5 21.8000
## 3 bottom_5 35.2000
Para tentar responder essa pergunta podemos utilizar um gráfico. Possívelmente se isso existir pode haver alguma concentração de pontos associando idade e nível de interesse: uma concentração de notas de interesse para apenas uma determinada faixa de valores de idade. Por exemplo: alunos mais jovens respondendo que possuem pouco nível de interesse enquanto alunos mais velhos com um maior nível de interesse. Entretanto, não é isso que podemos observar, pois existem alunos com um nível de interesse alto de diversas faixas etárias.
Uma alternativa para responder a pergunta é realizar uma regressão para identificar uma possível relação entre as variáveis, mas a análise visual feita acima já é suficiente para identificar que se existir uma relação entre elas é algo bem fraco.