EDA SIP

O que são os dados

Qual a distribuição das estimativas? Dos tempos de tarefa? Os tamahos de time? Quantos projetos temos? O que mais lhe parece relevante de explorar antes de começar a trabalhar com perguntas sobre as estimativas e tempos de tarefa das pessoas que trabalharam nas tarefas que os dados descrevem?

## Rows: 12,299
## Columns: 17
## $ task_number            <chr> "1735", "1742", "1971", "2134", "2251", "2283",~
## $ summary                <chr> "Flag RI on SCM Message Summary screen using me~
## $ priority               <dbl> 1, 1, 2, 5, 10, 1, 5, 5, 6, 5, 2, 1, 3, 1, 1, 8~
## $ raised_by_id           <chr> "58", "58", "7", "50", "46", "13", "13", "13", ~
## $ assigned_to_id         <chr> "58", "42", "58", "42", "13", "13", "13", "58",~
## $ authorised_by_id       <chr> "6", "6", "6", "6", "6", "58", "6", "6", "6", "~
## $ status_code            <chr> "FINISHED", "FINISHED", "FINISHED", "FINISHED",~
## $ project_code           <chr> "PC2", "PC2", "PC2", "PC2", "PC2", "PC9", "PC2"~
## $ project_breakdown_code <chr> "PBC42", "PBC21", "PBC75", "PBC42", "PBC21", "P~
## $ category               <chr> "Development", "Development", "Operational", "D~
## $ sub_category           <chr> "Enhancement", "Enhancement", "In House Support~
## $ hours_estimate         <dbl> 14.00, 7.00, 0.70, 0.70, 3.50, 7.00, 7.00, 7.00~
## $ hours_actual           <dbl> 1.75, 7.00, 0.70, 0.70, 3.50, 7.00, 7.00, 7.00,~
## $ developer_id           <chr> "58", "42", "58", "42", "13", "13", "43", "58",~
## $ developer_hours_actual <dbl> 1.75, 7.00, 0.70, 0.70, 3.50, 7.00, 7.00, 7.00,~
## $ task_performance       <dbl> 12.25, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00~
## $ developer_performance  <dbl> 12.25, 0.00, 0.00, 0.00, 0.00, 0.00, NA, 0.00, ~

Entendendo os dados

Qual a distribuição das estimativas?

A distribuição é assimétrica á esquerda

-> Dos tempos de tarefa?

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

-> Os tamahos de time?

-> Quantos projetos temos?

Temos 20 projetos

## # A tibble: 20 x 2
##    project_code     n
##    <chr>        <int>
##  1 PC1             54
##  2 PC10            73
##  3 PC11           292
##  4 PC12            54
##  5 PC13           171
##  6 PC14           105
##  7 PC15             3
##  8 PC16           114
##  9 PC17           449
## 10 PC18          2888
## 11 PC19            41
## 12 PC2           4553
## 13 PC20             5
## 14 PC3             87
## 15 PC4            511
## 16 PC5            648
## 17 PC6            287
## 18 PC7            145
## 19 PC8             64
## 20 PC9           1755

##O que mais lhe parece relevante de explorar antes de começar a trabalhar com perguntas sobre as estimativas e tempos de tarefa das pessoas que trabalharam nas tarefas que os dados descrevem?

Duas perguntas

##Consideremos que o erro em uma estimativa é a diferença entre a estimativa e o tempo que a tarefa de fato tomou. O erro absoluto é o módulo do erro.

Como é a distribuição do erro nas estimativas de diferentes subcategorias de tarefas? Se quiser, use também as categorias nos dados.

Quem mais erra nas estimativas é a equipe de desenvolvimento em relação as outras duas categorias. Apesar de que houve um erro grande no erro na estimativa do time da categoria operacional.

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

O time de desenvolvimento erra mais nas estimativas do que as outras duas categorias.

Como se comparam as distribuições de tempo (real) das tarefas entre os diferentes times? Há times com tarefas consideravelmente maiores?

As tarefas de desenvolvimento demoraram mais do que as outras tarefas em média para serem concluídas

Tem uma tarefa operacional que demorou mais do que as tarefas das outras categorias (um ponto fora da curva, um outlier). Talvez seja essa tarefa que está relacionada com o erro na estimativa da pergunta 1

Sim, existem times com tarefas que demoram mais para serem executadas.