## Rows: 12,299
## Columns: 17
## $ task_number <chr> "1735", "1742", "1971", "2134", "2251", "2283",…
## $ summary <chr> "Flag RI on SCM Message Summary screen using me…
## $ priority <dbl> 1, 1, 2, 5, 10, 1, 5, 5, 6, 5, 2, 1, 3, 1, 1, 8…
## $ raised_by_id <chr> "58", "58", "7", "50", "46", "13", "13", "13", …
## $ assigned_to_id <chr> "58", "42", "58", "42", "13", "13", "13", "58",…
## $ authorised_by_id <chr> "6", "6", "6", "6", "6", "58", "6", "6", "6", "…
## $ status_code <chr> "FINISHED", "FINISHED", "FINISHED", "FINISHED",…
## $ project_code <chr> "PC2", "PC2", "PC2", "PC2", "PC2", "PC9", "PC2"…
## $ project_breakdown_code <chr> "PBC42", "PBC21", "PBC75", "PBC42", "PBC21", "P…
## $ category <chr> "Development", "Development", "Operational", "D…
## $ sub_category <chr> "Enhancement", "Enhancement", "In House Support…
## $ hours_estimate <dbl> 14.00, 7.00, 0.70, 0.70, 3.50, 7.00, 7.00, 7.00…
## $ hours_actual <dbl> 1.75, 7.00, 0.70, 0.70, 3.50, 7.00, 7.00, 7.00,…
## $ developer_id <chr> "58", "42", "58", "42", "13", "13", "43", "58",…
## $ developer_hours_actual <dbl> 1.75, 7.00, 0.70, 0.70, 3.50, 7.00, 7.00, 7.00,…
## $ task_performance <dbl> 12.25, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00…
## $ developer_performance <dbl> 12.25, 0.00, 0.00, 0.00, 0.00, 0.00, NA, 0.00, …
## # A tibble: 1 x 6
## projetos categoprias sub_categorias estimativas tasks prioridades
## <int> <int> <int> <int> <int> <int>
## 1 20 3 24 12299 10266 10
Temos 20 projetos, com 12299 estimativas de tempo para tasks. Não há apenas uma estimativa por tarefa, já que há apenas 10266 valores distintos de task_number
.
## # A tibble: 10,268 x 4
## task_number category summary n
## <chr> <chr> <chr> <int>
## 1 10605 Management Staff Meeting 8
## 2 6889 Management SiP Staff Meeting 8
## 3 10089 Operational Office Move and bits and bobs 7
## 4 10974 Management Extended SiP Lunch 7
## 5 11056 Management SiP Company Meeting 7
## 6 11270 Management Staff Meeting 7
## 7 13124 Management Company Meeting - scorecard and discussion 7
## 8 13190 Management Marketing management meeting 7
## 9 13253 Management YYY ZZZ's Marketing presentation and meeting 7
## 10 3812 Development Weekly Developer Meeting 14th September 2005 -… 7
## # … with 10,258 more rows
Para nossa análise, usaremos uma estimativa por task. Caso haja mais de uma usaremos a média das estimativas_raw:
## `geom_smooth()` using formula 'y ~ x'
## # A tibble: 1 x 3
## pearson spearman kendall
## <dbl> <dbl> <dbl>
## 1 0.316 0.826 0.696
Parece existir um nível de correção entre as horas estimadas e as horas reais. O cálculo pelo método de pearson não parece conseguir identificar essa correlação. Os outros dois métodos apesentam uma correlação positiva e significativa.
Cada subcategoria parece apresentar algumas diferenças. Algumas parecem ter uma correlação maior, ou seja, pode ser indicio que alguns tipos de categorias de tasks sejam mais fáceis de estimar.
## `geom_smooth()` using formula 'y ~ x'
## # A tibble: 24 x 4
## sub_category pearson spearman kendall
## <chr> <dbl> <dbl> <dbl>
## 1 Board Meeting 0.906 0.913 0.808
## 2 Bug 0.494 0.767 0.637
## 3 Business Specification 0.806 0.818 0.688
## 4 Client Support 0.323 0.880 0.768
## 5 Consultancy 0.709 0.717 0.580
## 6 Conversion 0.548 0.796 0.637
## 7 Documentation 0.232 0.819 0.659
## 8 Enhancement 0.428 0.828 0.679
## 9 General Documentation 0.595 0.851 0.700
## 10 In House Support 0.117 0.812 0.703
## # … with 14 more rows
Por exemplo, a categorias Board Meeting tem alta correlação positiva (já era esperado). Business e Technical Specification também apresentam altas correlações positivas em quase todos os métodos. Entretanto, alguns tipos como: Office Management e Progress Meeting apresentam correlações positivas, porém não tão significantes, oque pode ser indicio que esse são tipos de tasks mais difíceis de estimar.
## `geom_smooth()` using formula 'y ~ x'
## # A tibble: 1 x 3
## pearson spearman kendall
## <dbl> <dbl> <dbl>
## 1 -0.137 0.0438 0.0324
Não parece existir uma correlação entre o erro médio e a quantidade de desenvolvedores no time.
## Warning: Transformation introduced infinite values in continuous y-axis
## Warning: Transformation introduced infinite values in continuous y-axis
## `geom_smooth()` using formula 'y ~ x'
## Warning: Removed 3499 rows containing non-finite values (stat_smooth).
## # A tibble: 1 x 3
## pearson spearman kendall
## <dbl> <dbl> <dbl>
## 1 0.00594 -0.0312 -0.0250
Não pare exister correlação entre a prioridade da task e seu erro absoluto na estimativa.