Introdução

Hoje vamos conhecer um pouco sobre estimativas de tarefas entre projetos e diversas equipes de desenvolvimento. Para isso vamos explorar algumas variáveis como prioridades de tarefas, tempo gasto, tempo estimado, quantidade de horas gasta em cada categoria e explorar um pouco sobre suas subcategorias. Para isso, que tal olhar um pouco como está estruturados os dados.

O que são os dados

## Rows: 12,299
## Columns: 17
## $ task_number            <chr> "1735", "1742", "1971", "2134", "2251", "2283"…
## $ summary                <chr> "Flag RI on SCM Message Summary screen using m…
## $ priority               <dbl> 1, 1, 2, 5, 10, 1, 5, 5, 6, 5, 2, 1, 3, 1, 1, …
## $ raised_by_id           <chr> "58", "58", "7", "50", "46", "13", "13", "13",…
## $ assigned_to_id         <chr> "58", "42", "58", "42", "13", "13", "13", "58"…
## $ authorised_by_id       <chr> "6", "6", "6", "6", "6", "58", "6", "6", "6", …
## $ status_code            <chr> "FINISHED", "FINISHED", "FINISHED", "FINISHED"…
## $ project_code           <chr> "PC2", "PC2", "PC2", "PC2", "PC2", "PC9", "PC2…
## $ project_breakdown_code <chr> "PBC42", "PBC21", "PBC75", "PBC42", "PBC21", "…
## $ category               <chr> "Development", "Development", "Operational", "…
## $ sub_category           <chr> "Enhancement", "Enhancement", "In House Suppor…
## $ hours_estimate         <dbl> 14.00, 7.00, 0.70, 0.70, 3.50, 7.00, 7.00, 7.0…
## $ hours_actual           <dbl> 1.75, 7.00, 0.70, 0.70, 3.50, 7.00, 7.00, 7.00…
## $ developer_id           <chr> "58", "42", "58", "42", "13", "13", "43", "58"…
## $ developer_hours_actual <dbl> 1.75, 7.00, 0.70, 0.70, 3.50, 7.00, 7.00, 7.00…
## $ task_performance       <dbl> 12.25, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.0…
## $ developer_performance  <dbl> 12.25, 0.00, 0.00, 0.00, 0.00, 0.00, NA, 0.00,…

Análise dos dados

Que tal observarmos um pouco sobre a distribuição das estimativas?

A princípio, a ideia foi verificar como é o comportamento da quantidade de horas distribuídas entre as prioridades das taredas. E, tem-se que, tarefas de prioridade 1 possuem maior dedicação de tempo. Mas, uma surpresa foi que o segundo colocado nesse rank são tarefas classificadas como prioridade 3 e 5, e logo depois das atividades de prioridade 2 e 4.

E como é essa distribuição de horas por categoria de projeto?

Logo de cara, pode-se notar que a categoria de desenvolvimento tem a maior concentração de horas entre as tarefas e o padrão do gráfico 1 se manteve em todas as categorias.

E qual a distribuição dos tempos de tarefa?

Para isso, o histograma acima mostra que existe uma concentração de tarefas com horas estimadas no intervalo de 0h a 100h. A linha que está interceptando o gráfico é a média de horas das tarefas, com o valor de {r} mean_hrs horas. Outra medida que podemos verificar também é a mediana, como resultado, tem-se que o valor da mediana é de {r} median_hrs horas.

Para isso, o histograma acima mostra que existe uma concentração de tarefas com horas atuais no intervalo de 0h a 250h, comparando com as horas estimadas, está entre faixas de valores bem acima. A linha que está interceptando o gráfico é a média de horas das tarefas, com o valor de 13 horas. Outra medida que podemos verificar também é a mediana, como resultado, tem-se que o valor da mediana é de 3 horas.

E quanto aos tamanhos dos time?

Para ficar mais fácil a visualização, a quantidade de pessoas por categoria. E, tem-se que a categoria de desenvolvimento possui a maior concentração de pessoas, inclusive cerca de 4 vezes a mais do que a categoria de gestão e de operações.

Quanto aos projetos, qual a quantidade? E quanto a distribuição de tarefas entre eles?

Como pode-se observar, há 20 projetos e o PC2 é o que detem mais tarefas associadas, cerca de 4500. Em contrapartida, os projetos PC20 e PC15 são os que possuem menos atividades linkadas, 5 e 3 de tarefas, respectivamente.

Pensando nos dados, o que mais lhe parece relevante de explorar antes de começar a trabalhar com perguntas sobre as estimativas?

Logo de início, o que veio na cabeça foi saber mais sobre a distribuição de tempo entre as tarefas e como é o comportamento desses números por categoria. Para isso, logo abaixo essas questões foram exploradas.

Pode-se perceber que a categoria de desenvolvimento dedica muitas horas para realização das tarefas, devido a grande quantidade de pontos atribuídos a essa categoria. No entanto, as outras categorias possuem mais tarefas que exigem muito tempo para serem executadas.

E como está distribuído o tempo de tarefas entre as pessoas?

Pode-se observar que a pessoa de id 13 tem a maior concentração de horas nas tarefas e é da categoria de desenvolvimento. E algo que pode-se relacionar é a quantidade de tarefas atribuídas, como pode ser visto logo abaixo.

O desenvolvedor 13, que possui a maior concentração de horas, também a pessoa que mais tem tarefas atribuídas. No entanto, o desenvolvedor 58, que era o segundo com mais horas registradas, não possui um número tão expressivo de tarefas associadas, com isso pode-se dizer que as tarefas associadas a ele exigem maior tempo para serem executadas.

Duas perguntas

Consideremos que o erro em uma estimativa é a diferença entre a estimativa e o tempo que a tarefa de fato tomou. O erro absoluto é o módulo do erro.

Como é a distribuição do erro nas estimativas de diferentes subcategorias de tarefas? Se quiser, use também as categorias nos dados.

Para facilitar a visualização, separei por categoria e o cálculo de erro de estimativas consiste na diferença entre as horas atuais e as horas estimadas. Diante disso, pode-se observar que todas as categorias possuem erros para estimar as horas para a realização das tarefas, e chegando a números bem altos, com no mínimo com quase 5000 horas de erros somando todas as tarefas.

Como se comparam as distribuições de tempo (real) das tarefas entre os diferentes times? Há times com tarefas consideravelmente maiores?

O tempo gasto nas tarefas da categoria de desenvolvimento é bem acima das outras categorias, algo que também é causado pelo maior número de tarefas atribuídas para essa categoria como visto em outras visualizações. Algo que podemos expandir é verificar as subcategorias, logo abaixo podemos ver isso.

Algo que pode ser obervado é que as tarefas de aperfeiçoamento, bugs, marketing e suporte interno são as que mais exigiram horas.

Com a sumarização das variáveis, pôde-se observar que a categoria de desenvolvimento possui a maior concentração de tarefas, pessoas associadas e de erros de estimar horas. No entanto, outras categorias detêm mais tarefas que exigem mais horas de dedicação. Quanto as prioridades, muitas das tarefas estão classificadas como prioridade 1.