Correlações no SIP Dataset

O que são os dados

## Rows: 12,299
## Columns: 17
## $ task_number            <chr> "1735", "1742", "1971", "2134", "2251", "2283",…
## $ summary                <chr> "Flag RI on SCM Message Summary screen using me…
## $ priority               <dbl> 1, 1, 2, 5, 10, 1, 5, 5, 6, 5, 2, 1, 3, 1, 1, 8…
## $ raised_by_id           <chr> "58", "58", "7", "50", "46", "13", "13", "13", …
## $ assigned_to_id         <chr> "58", "42", "58", "42", "13", "13", "13", "58",…
## $ authorised_by_id       <chr> "6", "6", "6", "6", "6", "58", "6", "6", "6", "…
## $ status_code            <chr> "FINISHED", "FINISHED", "FINISHED", "FINISHED",…
## $ project_code           <chr> "PC2", "PC2", "PC2", "PC2", "PC2", "PC9", "PC2"…
## $ project_breakdown_code <chr> "PBC42", "PBC21", "PBC75", "PBC42", "PBC21", "P…
## $ category               <chr> "Development", "Development", "Operational", "D…
## $ sub_category           <chr> "Enhancement", "Enhancement", "In House Support…
## $ hours_estimate         <dbl> 14.00, 7.00, 0.70, 0.70, 3.50, 7.00, 7.00, 7.00…
## $ hours_actual           <dbl> 1.75, 7.00, 0.70, 0.70, 3.50, 7.00, 7.00, 7.00,…
## $ developer_id           <chr> "58", "42", "58", "42", "13", "13", "43", "58",…
## $ developer_hours_actual <dbl> 1.75, 7.00, 0.70, 0.70, 3.50, 7.00, 7.00, 7.00,…
## $ task_performance       <dbl> 12.25, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00…
## $ developer_performance  <dbl> 12.25, 0.00, 0.00, 0.00, 0.00, 0.00, NA, 0.00, …

Entendendo os dados

## # A tibble: 1 x 6
##   projetos categoprias sub_categorias estimativas tasks prioridades
##      <int>       <int>          <int>       <int> <int>       <int>
## 1       20           3             24       12299 10266          10

Temos 20 projetos, com 12299 estimativas de tempo para tasks. Não há apenas uma estimativa por tarefa, já que há apenas 10266 valores distintos de task_number.

## # A tibble: 10,268 x 4
##    task_number category    summary                                             n
##    <chr>       <chr>       <chr>                                           <int>
##  1 10605       Management  Staff Meeting                                       8
##  2 6889        Management  SiP Staff Meeting                                   8
##  3 10089       Operational Office Move and bits and bobs                       7
##  4 10974       Management  Extended SiP Lunch                                  7
##  5 11056       Management  SiP Company Meeting                                 7
##  6 11270       Management  Staff Meeting                                       7
##  7 13124       Management  Company Meeting - scorecard and discussion          7
##  8 13190       Management  Marketing management meeting                        7
##  9 13253       Management  YYY ZZZ's Marketing presentation and meeting        7
## 10 3812        Development Weekly Developer Meeting 14th September 2005 -…     7
## # … with 10,258 more rows

Dados com 1 estimativa por task

Para nossa análise, usaremos uma estimativa por task. Caso haja mais de uma usaremos a média das estimativas_raw:

Dados por time

Qual a relação entre as estimativas e horas reais tomadas na empresa como um todo e como é essa relação em diferentes subcategorias de tarefa?

Como um todo

## `geom_smooth()` using formula 'y ~ x'

## # A tibble: 1 x 3
##   pearson spearman kendall
##     <dbl>    <dbl>   <dbl>
## 1   0.316    0.826   0.696

Parece existir um nível de correção entre as horas estimadas e as horas reais. O cálculo pelo método de pearson não parece conseguir identificar essa correlação. Os outros dois métodos apesentam uma correlação positiva e significativa.

por subcategorias

Cada subcategoria parece apresentar algumas diferenças. Algumas parecem ter uma correlação maior, ou seja, pode ser indicio que alguns tipos de categorias de tasks sejam mais fáceis de estimar.

## `geom_smooth()` using formula 'y ~ x'

## # A tibble: 24 x 4
##    sub_category           pearson spearman kendall
##    <chr>                    <dbl>    <dbl>   <dbl>
##  1 Board Meeting            0.906    0.913   0.808
##  2 Bug                      0.494    0.767   0.637
##  3 Business Specification   0.806    0.818   0.688
##  4 Client Support           0.323    0.880   0.768
##  5 Consultancy              0.709    0.717   0.580
##  6 Conversion               0.548    0.796   0.637
##  7 Documentation            0.232    0.819   0.659
##  8 Enhancement              0.428    0.828   0.679
##  9 General Documentation    0.595    0.851   0.700
## 10 In House Support         0.117    0.812   0.703
## # … with 14 more rows

Por exemplo, a categorias Board Meeting tem alta correlação positiva (já era esperado). Business e Technical Specification também apresentam altas correlações positivas em quase todos os métodos. Entretanto, alguns tipos como: Office Management e Progress Meeting apresentam correlações positivas, porém não tão significantes, oque pode ser indicio que esse são tipos de tasks mais difíceis de estimar.

Há uma relação perceptível entre o tamanho da equipe está relacionado com o erro médio das estimativas da equipe? Como é essa relação?

## `geom_smooth()` using formula 'y ~ x'

## # A tibble: 1 x 3
##   pearson spearman kendall
##     <dbl>    <dbl>   <dbl>
## 1  -0.137   0.0438  0.0324

Não parece existir uma correlação entre o erro médio e a quantidade de desenvolvedores no time.

Qual a relação entre prioridade da tarefa e erro na sua estimativa?

## Warning: Transformation introduced infinite values in continuous y-axis

## Warning: Transformation introduced infinite values in continuous y-axis

## `geom_smooth()` using formula 'y ~ x'

## Warning: Removed 3499 rows containing non-finite values (stat_smooth).

## # A tibble: 1 x 3
##   pearson spearman kendall
##     <dbl>    <dbl>   <dbl>
## 1 0.00594  -0.0312 -0.0250

Não pare exister correlação entre a prioridade da task e seu erro absoluto na estimativa.