Calcule média e desvio padrão da idade e nível de interesse. As métricas contendos as métricas calculadas para idade e nível de interesse devem ser apresentadas de forma ordenada. Além de apresentar no relatório, os resultados devem ser salvos em um arquivo csv.

fpcc2_data <- read.csv(file = here('data/dados-fpcc2.csv'), fileEncoding = "UTF-8")

idade <- fpcc2_data$Idade
interesse <- fpcc2_data$`Nível.de.interesse.na.pós.graduação`

idade_mean <- mean(idade)
idade_sd <- sd(idade)

interesse_mean <- mean(interesse)
interesse_sd <- sd(interesse)

axis <- c("Desvio padrão interesse", "Média interesse", "Desvio padrão idade", "Média idade")
ages <- c(interesse_sd, interesse_mean, idade_sd, idade_mean)

age_interest <- data.frame(`Métrica` = axis, Valor = ages)

write.csv(age_interest, here('reports/age_interest.csv'))

age_interest
##                   Métrica      Valor
## 1 Desvio padrão interesse  0.3844259
## 2         Média interesse  2.8275862
## 3     Desvio padrão idade  4.9524836
## 4             Média idade 25.7931034

Qual o curso com maior valor médio de idade? Discutir os resultados com base nos dados disponíveis em termos de representatividade.

age_mean = aggregate(fpcc2_data$Idade, list(fpcc2_data$Curso.no.PPGCC...UFCG), mean)
colnames(age_mean) <- c("Curso", "Média de idade")
age_mean$`Média de idade` = round(age_mean$`Média de idade`)
age_mean
##            Curso Média de idade
## 1 Aluno especial             36
## 2      Doutorado             30
## 3       Mestrado             24
Aluno especial é o curso com maior média de idade. Ao meu ver, são pessoas que não tem condições no momento de se dedicar exclusivamente ao programa de pós-graduação.

Crie um gráfico que mostra a idade média para cada curso. Apresente o gráfico e discuta os resultados no relatório. O gráfico também deve ser salvo em uma imagem no formato png.

table_age_mean = ggplot(age_mean) +
  geom_bar(
    aes(x = Curso, y = `Média de idade`), 
    stat = "identity", 
    color = "red", 
    fill = "pink"
  )

ggsave("plot_age_mean.png", width = 7, height = 7, units = "in")

table_age_mean

Crie um gráfico que mostra o percentual de alunos para cada estado de origem. Apresente o gráfico e discuta os resultados no relatório. O gráfico também deve ser salvo em uma imagem no formato png.

sum_all = count(fpcc2_data)
percentage_students = count(fpcc2_data, fpcc2_data$Estado.de.nascimento..abreviado.)
percentage_students$percentage=(percentage_students$n/sum_all$n)*100
colnames(percentage_students) <- c("Estado de origem", "Quantidade", "Porcentagem")

table_percentage_students = ggplot(percentage_students) +
  geom_bar(
    aes(x = `Estado de origem`, y = `Porcentagem`), 
    stat = "identity", 
    color = "red", 
    fill = "pink"
  )

ggsave("plot_percentage_students.png", width = 7, height = 7, units = "in")

table_percentage_students

O programa recebe mais alunos da Paraíba, creio que seja pelo fato do programa ser bem reconhecido no estado, e atrair pessoas da região.

Compare a média de idade geral com a média dos top-5 e dos bottom-5. Além de apresentar e discutir os resultados no relatório, salvar em uma tabela (dataframe) com as médias em questão.

age_mean_all <- round(mean(fpcc2_data$Idade), digits=0)

df_sorted <- fpcc2_data[with(fpcc2_data, order(Idade)),]

top_5 <- round(mean(head(df_sorted)$Idade), digits=0)
bottom_5 <- round(mean(tail(df_sorted)$Idade), digits=0)

axis <- c("Média de idade GERAL", "Média de idade TOP 5", "Média de idade BOTTOM 5")
values <- c(age_mean_all, top_5, bottom_5)

df_means <- data.frame(axis, values)

colnames(df_means) <- c("Métrica", "Valor")

write.csv(df_means, here('reports/age_means.csv'))

df_means
##                   Métrica Valor
## 1    Média de idade GERAL    26
## 2    Média de idade TOP 5    22
## 3 Média de idade BOTTOM 5    34
A média geral se aproxima mais da média do TOP 5, muitos dos alunos do programa são recém saídos da graduação, que querem continuar os estudos.

Você acredita que existe uma relação entre idade e nível de interesse? Discuta.

age_interest_cor = cor.test(fpcc2_data$Idade, fpcc2_data$`Nível.de.interesse.na.pós.graduação`, method = "pearson")

age_interest_cor
## 
##  Pearson's product-moment correlation
## 
## data:  fpcc2_data$Idade and fpcc2_data$Nível.de.interesse.na.pós.graduação
## t = 0.78525, df = 27, p-value = 0.4391
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.2296589  0.4891419
## sample estimates:
##      cor 
## 0.149424
A correlação entre as variáveis é bem próxima de zero, indicando que as variáveis são FRACAMENTE correlacionadas, logo creio que a idade não influencie no interesse pela pós-graduação.