O que são os dados

task_number summary priority raised_by_id assigned_to_id authorised_by_id status_code project_code project_breakdown_code category sub_category hours_estimate hours_actual developer_id developer_hours_actual task_performance developer_performance
1735 Flag RI on SCM Message Summary screen using metadata RI application rules 1 58 58 6 FINISHED PC2 PBC42 Development Enhancement 14.0 1.75 58 1.75 12.25 12.25
1742 Allow RI Policies to be marked as Exhausted 1 58 42 6 FINISHED PC2 PBC21 Development Enhancement 7.0 7.00 42 7.00 0.00 0.00
1971 Fix Invalid UWREF Line DX402L99A1N 2 7 58 6 FINISHED PC2 PBC75 Operational In House Support 0.7 0.70 58 0.70 0.00 0.00
2134 New rows in the diary event for the SCM are read only. 5 50 42 6 FINISHED PC2 PBC42 Development Bug 0.7 0.70 42 0.70 0.00 0.00
2251 Application Screen Size - Need to set Min Size On Application Contoller. 10 46 13 6 FINISHED PC2 PBC21 Development Bug 3.5 3.50 13 3.50 0.00 0.00
2283 Remove Lloyds Specific Items From Node Type Enum In Technical Core 1 13 13 58 FINISHED PC9 PBC11 Development Enhancement 7.0 7.00 13 7.00 0.00 0.00

Os dado na tabela acima são referentes a medidas de tempo, ṕerfomance relacionada ao processo de desenvolvimento.

Entendendo os dados

## # A tibble: 1 x 7
##   projetos categoprias sub_categorias estimativas tasks prioridades
##      <int>       <int>          <int>       <int> <int>       <int>
## 1       20           3             24       12299 10266          10
## # … with 1 more variable: desenvolvedores <int>

Temos 20 projetos, com 12299 estimativas de tempo para tasks. Não há apenas uma estimativa por tarefa, já que há apenas 10266 valores distintos de task_number.

## # A tibble: 10,268 x 4
##    task_number category    summary                                             n
##    <chr>       <chr>       <chr>                                           <int>
##  1 10605       Management  Staff Meeting                                       8
##  2 6889        Management  SiP Staff Meeting                                   8
##  3 10089       Operational Office Move and bits and bobs                       7
##  4 10974       Management  Extended SiP Lunch                                  7
##  5 11056       Management  SiP Company Meeting                                 7
##  6 11270       Management  Staff Meeting                                       7
##  7 13124       Management  Company Meeting - scorecard and discussion          7
##  8 13190       Management  Marketing management meeting                        7
##  9 13253       Management  YYY ZZZ's Marketing presentation and meeting        7
## 10 3812        Development Weekly Developer Meeting 14th September 2005 -…     7
## # … with 10,258 more rows

Dados com 1 estimativa por task

Para nossa análise, usaremos uma estimativa por task. Caso haja mais de uma usaremos a média das estimativas_raw:

Qual a relação entre as estimativas e horas reais tomadas na empresa como um todo e como é essa relação em diferentes subcategorias de tarefa?

Plotando o gráfico de horas estimadas e horas reais, nota-se inicialmente uma não linearidade e uma correlação baixa entre dados. Olhando com mais atenção, no entanto, será que esses pontos com valores de grandes não seriam outliers ou pontos extremos que impossibilitam visualizar alguma correlação?

A partir desse gráfico, é possível afirmar que a correlação de Pearson, quando calculada terá um valor baixo ou mesmo 0. Levando a procurar alguma relação não-linear. Coeficientes de correlação de Spearman e kendall devem mostrar se existe alguma relação.

Com o cálculo dos coeficientes, percebe-se que existe uma correlação positiva e forte entre a hora real e a estimada.

## # A tibble: 1 x 3
##   pearson spearman kendall
##     <dbl>    <dbl>   <dbl>
## 1   0.261    0.783   0.642

Testando algumas relações aplicando log em algumas da variáveis, encontrou-se que o logarítmo de horas reais e o logaritmo de horas estimadas apresentam uma relação linear positiva de média para forte em intensidade.

#### Relação em diferentes subcategorias de tarefa e as horas estimada e reais

Percebe-se para todas as categorias um relação positiva, em geral forte, entre os logs das hora estimadas e reais.

Há uma relação perceptível entre o tamanho da equipe está relacionado com o erro médio das estimativas da equipe? Como é essa relação?

Dados por time

Plotando a quantidade de desenvolvedores por time versus o erro médio absoluto, não se percebe uma relação linear.

Com o cálculo dos coeficientes, podemos ter uma ideia melhor se há um relação não percebida. Para isso, será calculado a média do erros médios absolutos para cada quantidade de desenvolvedor.

## # A tibble: 1 x 3
##   pearson spearman kendall
##     <dbl>    <dbl>   <dbl>
## 1  -0.286   0.0839  0.0909

A conclusão que chegamos é que não há indicação de relação entre o erro médio absoluto e a quantidade de desenvolvedores.

Qual a relação entre prioridade da tarefa e erro na sua estimativa?

## # A tibble: 1 x 3
##   pearson spearman kendall
##     <dbl>    <dbl>   <dbl>
## 1   0.270   -0.164  -0.111

Percebe-se uma relação fraca e negativa entre prioridade e erro médio das estimativas.