Correlações no SiP Dataset

O que são os dados

## Rows: 12,299
## Columns: 17
## $ task_number            <chr> "1735", "1742", "1971", "2134", "2251", "2283",~
## $ summary                <chr> "Flag RI on SCM Message Summary screen using me~
## $ priority               <dbl> 1, 1, 2, 5, 10, 1, 5, 5, 6, 5, 2, 1, 3, 1, 1, 8~
## $ raised_by_id           <chr> "58", "58", "7", "50", "46", "13", "13", "13", ~
## $ assigned_to_id         <chr> "58", "42", "58", "42", "13", "13", "13", "58",~
## $ authorised_by_id       <chr> "6", "6", "6", "6", "6", "58", "6", "6", "6", "~
## $ status_code            <chr> "FINISHED", "FINISHED", "FINISHED", "FINISHED",~
## $ project_code           <chr> "PC2", "PC2", "PC2", "PC2", "PC2", "PC9", "PC2"~
## $ project_breakdown_code <chr> "PBC42", "PBC21", "PBC75", "PBC42", "PBC21", "P~
## $ category               <chr> "Development", "Development", "Operational", "D~
## $ sub_category           <chr> "Enhancement", "Enhancement", "In House Support~
## $ hours_estimate         <dbl> 14.00, 7.00, 0.70, 0.70, 3.50, 7.00, 7.00, 7.00~
## $ hours_actual           <dbl> 1.75, 7.00, 0.70, 0.70, 3.50, 7.00, 7.00, 7.00,~
## $ developer_id           <chr> "58", "42", "58", "42", "13", "13", "43", "58",~
## $ developer_hours_actual <dbl> 1.75, 7.00, 0.70, 0.70, 3.50, 7.00, 7.00, 7.00,~
## $ task_performance       <dbl> 12.25, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00~
## $ developer_performance  <dbl> 12.25, 0.00, 0.00, 0.00, 0.00, 0.00, NA, 0.00, ~

Entendendo os dados

## # A tibble: 1 x 6
##   projetos categoprias sub_categorias estimativas tasks prioridades
##      <int>       <int>          <int>       <int> <int>       <int>
## 1       20           3             24       12299 10266          10

Temos 20 projetos, com 12299 estimativas de tempo para tasks. Não há apenas uma estimativa por tarefa, já que há apenas 10266 valores distintos de task_number.

## # A tibble: 10,268 x 4
##    task_number category    summary                                             n
##    <chr>       <chr>       <chr>                                           <int>
##  1 10605       Management  Staff Meeting                                       8
##  2 6889        Management  SiP Staff Meeting                                   8
##  3 10089       Operational Office Move and bits and bobs                       7
##  4 10974       Management  Extended SiP Lunch                                  7
##  5 11056       Management  SiP Company Meeting                                 7
##  6 11270       Management  Staff Meeting                                       7
##  7 13124       Management  Company Meeting - scorecard and discussion          7
##  8 13190       Management  Marketing management meeting                        7
##  9 13253       Management  YYY ZZZ's Marketing presentation and meeting        7
## 10 3812        Development Weekly Developer Meeting 14th September 2005 -~     7
## # ... with 10,258 more rows

Dados com 1 estimativa por task

Para nossa análise, usaremos uma estimativa por task. Caso haja mais de uma usaremos a média das estimativas_raw:

Dados por time

Dados por prioridade

Qual a relação entre as estimativas e horas reais tomadas na empresa como um todo e como é essa relação em diferentes subcategorias de tarefa?

Para entender a primeira parte dessa pergunta, podemos visualizar as horas estimadas em relação ao custo real, em seguida repetindo esse processo nas subtarefas:

A visualização acima não nos permite ver com muitos detalhes, também pela grande concentração dos pontos próximo ao 0. Vejamos se, ao mudar a escala dos eixos para uma escala logarítmica, se conseguimos visualizar melhor a relação entre as variáveis:

Agora a linearidade dos dados é bem mais evidente. Podemos também ver diversos pontos alinhados verticalmente, e isso ocorre nos casos de tarefas que receberam a mesma estimativa mas tiveram um tempo dedicado diferente. Entretanto, ainda não conseguimos distinguir essa informação entre as diferentes subcategorias de tarefas. Como as subcategorias são muitas e diferem-se entre as categorias, vejamos as 3 subcategorias mais frequentes, e em gráficos separados:

Entre as categorias de Operacional e Gerência, a linearidade é bem mais evidente. Já no caso da categoria de Desenvolvimento, podemos ver que as categorias de Bug e Suporte estão bem correlacionadas, mas a categoria de Melhorias (Enhancement) é a que possui a maior variação, mostrando uma menor relação que as outras.

Há uma relação perceptível entre o tamanho da equipe está relacionado com o erro médio das estimativas da equipe? Como é essa relação?

Aparentemente não existe uma relação entre as duas variáveis. Tanto times com 2 pessoas quanto times com 11 pessoas erram bastante. Mas, além disso, o erro médio é bem similar independente do tamanho da equipe.

Qual a relação entre prioridade da tarefa e erro na sua estimativa?

Podemos observar acima 3 diferentes visualizações do erro de acordo com a prioridade da tarefa. No primeiro, vemos o erro médio, mas ele não tem grande variação de acordo com a prioridade da tarefa, mostrando pouca relação. No segundo, vemos o erro total por prioridade da tarefa, mas também não parece ter relação. Por último, visualizando a distribuição do erro de cada tarefa, sem sumarizar a informação, também não conseguimos entender uma correlação.