## Rows: 12,299
## Columns: 19
## $ task_number <chr> "1735", "1742", "1971", "2134", "2251", "2283",…
## $ summary <chr> "Flag RI on SCM Message Summary screen using me…
## $ priority <dbl> 1, 1, 2, 5, 10, 1, 5, 5, 6, 5, 2, 1, 3, 1, 1, 8…
## $ raised_by_id <chr> "58", "58", "7", "50", "46", "13", "13", "13", …
## $ assigned_to_id <chr> "58", "42", "58", "42", "13", "13", "13", "58",…
## $ authorised_by_id <chr> "6", "6", "6", "6", "6", "58", "6", "6", "6", "…
## $ status_code <chr> "FINISHED", "FINISHED", "FINISHED", "FINISHED",…
## $ project_code <chr> "PC2", "PC2", "PC2", "PC2", "PC2", "PC9", "PC2"…
## $ project_breakdown_code <chr> "PBC42", "PBC21", "PBC75", "PBC42", "PBC21", "P…
## $ category <chr> "Development", "Development", "Operational", "D…
## $ sub_category <chr> "Enhancement", "Enhancement", "In House Support…
## $ hours_estimate <dbl> 14.00, 7.00, 0.70, 0.70, 3.50, 7.00, 7.00, 7.00…
## $ hours_actual <dbl> 1.75, 7.00, 0.70, 0.70, 3.50, 7.00, 7.00, 7.00,…
## $ developer_id <chr> "58", "42", "58", "42", "13", "13", "43", "58",…
## $ developer_hours_actual <dbl> 1.75, 7.00, 0.70, 0.70, 3.50, 7.00, 7.00, 7.00,…
## $ task_performance <dbl> 12.25, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00…
## $ developer_performance <dbl> 12.25, 0.00, 0.00, 0.00, 0.00, 0.00, NA, 0.00, …
## $ erro <dbl> 12.25, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00…
## $ erro_abs <dbl> 12.25, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00…
Qual a distribuição das estimativas? Dos tempos de tarefa? Os tamanhos de time? Quantos projetos temos? O que mais lhe parece relevante de explorar antes de começar a trabalhar com perguntas sobre as estimativas e tempos de tarefa das pessoas que trabalharam nas tarefas que os dados descrevem?
## # A tibble: 20 x 2
## # Groups: project_code [20]
## project_code n
## <chr> <int>
## 1 PC1 54
## 2 PC10 73
## 3 PC11 292
## 4 PC12 54
## 5 PC13 171
## 6 PC14 105
## 7 PC15 3
## 8 PC16 114
## 9 PC17 449
## 10 PC18 2888
## 11 PC19 41
## 12 PC2 4553
## 13 PC20 5
## 14 PC3 87
## 15 PC4 511
## 16 PC5 648
## 17 PC6 287
## 18 PC7 145
## 19 PC8 64
## 20 PC9 1755
Olhando um pouco como estão dsitribuidas as horas estimadas.
Os valores tem um range bastante amplo que vão de menos de um até mais de 800. A concentração maior parece estar em tasks estimadas de 1 a 8 horas. Tasks com mais de 50 horas são menos comum e acima de 200 parecem ser raras.
Vendo como as horas estimadas se comportam em cada projeto. O “PC20” tem uma mediana e uma concentração bastante alta (provavel que seja poucos registros). Como observado no plot anterior a maioria dos projetos parecem que concentram suas horas estimadas nos valores de 1 a 9. O ‘PC1’ tem uma mediana e concetração mas alta que os demais, onde sua tasks se concentram nos valores de 15 a 25.
Uma outra forma de visualizar distribuição de horas estimada.
Observando cada categoria de tasks as tasks de ‘Development’ paresem apresentar maior mediana. ‘Management’ e "Operational’ apresentam medianas bem proximas. A tasks de 1 hora são as mais predominantes na categoria ‘Development’, além disso essa categoria parece ser mais esparça. As outras duas se concentram mais em taks de 3 horas e parecem ser menos esparças.
#### Distribuição das horas estimadas para cada categoria de task e cada projeto
A dsitribuição das horas reais aparenta ser significamente diferente da distribuição de horas estimadas. Isso pode ser um indicativo de que as hoas não estão sendo bem estimadas.
#### Horas reais em cada projeto
Novamente “PC20” apresenta uma distribuição bem alta. Os demais parecem se concentrar em tempos de 1 a 9 horas. PC 18, 14 e 2 apresentam valores bastante altol que ultrapassam 500 horas, porém não são valores frequente, são possivéis outliers.
#### Horas reais em cada projeto e por tipo de task
Aqui podemos ver como são as horas reais para cada categoria de task em cada um dos projetos.
Um raking do tamanho dos times. ## Analisando as performances as tasks
Consideremos que o erro em uma estimativa é a diferença entre a estimativa e o tempo que a tarefa de fato tomou. O erro absoluto é o módulo do erro.
###Como é a distribuição do erro nas estimativas de diferentes subcategorias de tarefas? Se quiser, use também as categorias nos dados.
Podemos observar que nem todos os projetos tem todas as subcategorias. As tasks de mettings são predominamtemente com valore baixos. Training e Cliente Support tem uma distribuição bastante ampla.
## Warning in self$trans$transform(x): NaNs produced
## Warning: Transformation introduced infinite values in continuous y-axis
## Warning in self$trans$transform(x): NaNs produced
## Warning: Transformation introduced infinite values in continuous y-axis
## Warning: Removed 8241 rows containing non-finite values (stat_ydensity).
## Warning: Removed 8241 rows containing non-finite values (stat_boxplot).
Sim, existe times com uma quantidade bem maior de horas do que outros. Como o PC2 que é o maior time logo era esperado esses valores nos histogramas.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
Aqui é possivel obesevar se alguns times se concentraem em horas maiores ou menores. Por exemplo o PC15 parece se concetrem bastante em tasks de 1 hora. O demais parecem se concetram mais em tasks de 3 a 6 horas. O PC17 apresenta um quantidade consideravel de tasks de ~30 horas ou mais.