EDA SIP

O que são os dados

## Rows: 12,299
## Columns: 17
## $ task_number            <chr> "1735", "1742", "1971", "2134", "2251", "2283",…
## $ summary                <chr> "Flag RI on SCM Message Summary screen using me…
## $ priority               <dbl> 1, 1, 2, 5, 10, 1, 5, 5, 6, 5, 2, 1, 3, 1, 1, 8…
## $ raised_by_id           <chr> "58", "58", "7", "50", "46", "13", "13", "13", …
## $ assigned_to_id         <chr> "58", "42", "58", "42", "13", "13", "13", "58",…
## $ authorised_by_id       <chr> "6", "6", "6", "6", "6", "58", "6", "6", "6", "…
## $ status_code            <chr> "FINISHED", "FINISHED", "FINISHED", "FINISHED",…
## $ project_code           <chr> "PC2", "PC2", "PC2", "PC2", "PC2", "PC9", "PC2"…
## $ project_breakdown_code <chr> "PBC42", "PBC21", "PBC75", "PBC42", "PBC21", "P…
## $ category               <chr> "Development", "Development", "Operational", "D…
## $ sub_category           <chr> "Enhancement", "Enhancement", "In House Support…
## $ hours_estimate         <dbl> 14.00, 7.00, 0.70, 0.70, 3.50, 7.00, 7.00, 7.00…
## $ hours_actual           <dbl> 1.75, 7.00, 0.70, 0.70, 3.50, 7.00, 7.00, 7.00,…
## $ developer_id           <chr> "58", "42", "58", "42", "13", "13", "43", "58",…
## $ developer_hours_actual <dbl> 1.75, 7.00, 0.70, 0.70, 3.50, 7.00, 7.00, 7.00,…
## $ task_performance       <dbl> 12.25, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00…
## $ developer_performance  <dbl> 12.25, 0.00, 0.00, 0.00, 0.00, 0.00, NA, 0.00, …

Entendendo os dados

Qual a distribuição das estimativas? Dos tempos de tarefa? Os tamahos de time? Quantos projetos temos? O que mais lhe parece relevante de explorar antes de começar a trabalhar com perguntas sobre as estimativas e tempos de tarefa das pessoas que trabalharam nas tarefas que os dados descrevem?

Duas perguntas

Consideremos que o erro em uma estimativa é a diferença entre a estimativa e o tempo que a tarefa de fato tomou. O erro absoluto é o módulo do erro.

Como é a distribuição do erro nas estimativas de diferentes subcategorias de tarefas? Se quiser, use também as categorias nos dados.

As tarefas estão dividas em três categorias e 24 subcategorias. Será analisada abaixo como o erros se distribuem nessas categorias através de algumas visualizações. As categorias representam conjunto mais diversos do que a subcategorias podendo criar uma intuição melhor dos dados inicialmente.

A primeira visualização mostra a distribução de erros absolutos em cada categoria para cada desenvolvedor. É pssível notar maior concentração de dados entre 0 e 500 horas. Os erro são maiores em tarefas de desenvolvimento para quase todos os desenvolvedores.

Ainda temos poucas informações sobre os erros absolutos para cada categoria. Calculando os valores máximo, mínimo, mediana para cada categoria permitirá notar que em todas categorias o menor erro é 0. Outro valor importante foi o valor para o qual 90% dos dados estão abaixo. Como visto no gráfico anterior, com pouca resolução, a maior concentração de erros absolutos estava menor que 500 horas. Calculando essa valor obtemos que para as três categorias, esse valor está abaixo de um erro absoluto igual a 21 horas, três dias de trabalho considerando diárias de oito horas.

O gráfico a seguir mostra esses pontos: em vermelho são os pontos máximos; em verde é a mediana. E muito perto da mediana por conta da grande faixa de valores assumidos está o 90% percentil dos dados.

Para melhor visualização, será filtrado os erros absolutos menores que 24 horas pois representam mais de 90% dos erros. O ponto em verde mostra que mais da metade dos erros de todas categorias são menores que 3 horas.

As distribuições em subcategorias são vistas abaixo. A primeira mostra todos os valores sumarizados: em coral, o erro máximo; em azul, o 90% quartil; e em verde, a mediana.

Filtrando pela maioria dos valores, pelo 90% quartil, obtemos:

Nesse gráfico é notório os maiores ocorrem nas subcategorias de melhoramento, bug.

Como se comparam as distribuições de tempo (real) das tarefas entre os diferentes times? Há times com tarefas consideravelmente maiores?

Para responder a pergunta, os dados referentes aos tempos reais de execução de tarefa para cada time foram obtidos. A partir desses dados calculou-se os valores médios (laranja), maxímo (vermelho), minimo (amarelo), mediano (verde) e 90% quartil (azul). Esse valores pltados mostram sim uma desigualdade de duração de tarefas entre times. O times PC18 apresentou a maior tarefa com 2500 horas.

Para comentar mais detalhes, será feita uma redução do dados a durações de 24 horas. Nesse gráfico foi adicionado o mínimo (preto), 90% percentil (azul), a média (cinza), a mediana (verde). Permitindo, então, visualizar uma disparidade 5 horas entre as maiores tarefas.