EDA SIP

O que são os dados

## Rows: 12,299
## Columns: 19
## $ task_number            <chr> "1735", "1742", "1971", "2134", "2251", "2283",…
## $ summary                <chr> "Flag RI on SCM Message Summary screen using me…
## $ priority               <dbl> 1, 1, 2, 5, 10, 1, 5, 5, 6, 5, 2, 1, 3, 1, 1, 8…
## $ raised_by_id           <chr> "58", "58", "7", "50", "46", "13", "13", "13", …
## $ assigned_to_id         <chr> "58", "42", "58", "42", "13", "13", "13", "58",…
## $ authorised_by_id       <chr> "6", "6", "6", "6", "6", "58", "6", "6", "6", "…
## $ status_code            <chr> "FINISHED", "FINISHED", "FINISHED", "FINISHED",…
## $ project_code           <chr> "PC2", "PC2", "PC2", "PC2", "PC2", "PC9", "PC2"…
## $ project_breakdown_code <chr> "PBC42", "PBC21", "PBC75", "PBC42", "PBC21", "P…
## $ category               <chr> "Development", "Development", "Operational", "D…
## $ sub_category           <chr> "Enhancement", "Enhancement", "In House Support…
## $ hours_estimate         <dbl> 14.00, 7.00, 0.70, 0.70, 3.50, 7.00, 7.00, 7.00…
## $ hours_actual           <dbl> 1.75, 7.00, 0.70, 0.70, 3.50, 7.00, 7.00, 7.00,…
## $ developer_id           <chr> "58", "42", "58", "42", "13", "13", "43", "58",…
## $ developer_hours_actual <dbl> 1.75, 7.00, 0.70, 0.70, 3.50, 7.00, 7.00, 7.00,…
## $ task_performance       <dbl> 12.25, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00…
## $ developer_performance  <dbl> 12.25, 0.00, 0.00, 0.00, 0.00, 0.00, NA, 0.00, …
## $ erro                   <dbl> 12.25, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00…
## $ erro_abs               <dbl> 12.25, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00…

Entendendo os dados

Qual a distribuição das estimativas? Dos tempos de tarefa? Os tamanhos de time? Quantos projetos temos? O que mais lhe parece relevante de explorar antes de começar a trabalhar com perguntas sobre as estimativas e tempos de tarefa das pessoas que trabalharam nas tarefas que os dados descrevem?

Entendendo a distribuição das principais variaveis em cada projeto:

## # A tibble: 20 x 2
## # Groups:   project_code [20]
##    project_code     n
##    <chr>        <int>
##  1 PC1             54
##  2 PC10            73
##  3 PC11           292
##  4 PC12            54
##  5 PC13           171
##  6 PC14           105
##  7 PC15             3
##  8 PC16           114
##  9 PC17           449
## 10 PC18          2888
## 11 PC19            41
## 12 PC2           4553
## 13 PC20             5
## 14 PC3             87
## 15 PC4            511
## 16 PC5            648
## 17 PC6            287
## 18 PC7            145
## 19 PC8             64
## 20 PC9           1755

Analisando as horas estimadas

Olhando um pouco como estão dsitribuidas as horas estimadas.

Distribuição das horas estimadas

Os valores tem um range bastante amplo que vão de menos de um até mais de 800. A concentração maior parece estar em tasks estimadas de 1 a 8 horas. Tasks com mais de 50 horas são menos comum e acima de 200 parecem ser raras.

Distribuição das horas estimadas em cada projeto

Vendo como as horas estimadas se comportam em cada projeto. O “PC20” tem uma mediana e uma concentração bastante alta (provavel que seja poucos registros). Como observado no plot anterior a maioria dos projetos parecem que concentram suas horas estimadas nos valores de 1 a 9. O ‘PC1’ tem uma mediana e concetração mas alta que os demais, onde sua tasks se concentram nos valores de 15 a 25.

Uma outra forma de visualizar distribuição de horas estimada.

Distribuição das horas estimadas para cada categoria de task

Observando cada categoria de tasks as tasks de ‘Development’ paresem apresentar maior mediana. ‘Management’ e "Operational’ apresentam medianas bem proximas. A tasks de 1 hora são as mais predominantes na categoria ‘Development’, além disso essa categoria parece ser mais esparça. As outras duas se concentram mais em taks de 3 horas e parecem ser menos esparças.

#### Distribuição das horas estimadas para cada categoria de task e cada projeto

Analisando as horas reais

Distribuição das horas reais

A dsitribuição das horas reais aparenta ser significamente diferente da distribuição de horas estimadas. Isso pode ser um indicativo de que as hoas não estão sendo bem estimadas.

#### Horas reais em cada projeto

Novamente “PC20” apresenta uma distribuição bem alta. Os demais parecem se concentrar em tempos de 1 a 9 horas. PC 18, 14 e 2 apresentam valores bastante altol que ultrapassam 500 horas, porém não são valores frequente, são possivéis outliers.

#### Horas reais em cada projeto e por tipo de task

Aqui podemos ver como são as horas reais para cada categoria de task em cada um dos projetos.

Analisando o tamanho dos times

Um raking do tamanho dos times. ## Analisando as performances as tasks

Duas perguntas

Consideremos que o erro em uma estimativa é a diferença entre a estimativa e o tempo que a tarefa de fato tomou. O erro absoluto é o módulo do erro.

###Como é a distribuição do erro nas estimativas de diferentes subcategorias de tarefas? Se quiser, use também as categorias nos dados.

Podemos observar que nem todos os projetos tem todas as subcategorias. As tasks de mettings são predominamtemente com valore baixos. Training e Cliente Support tem uma distribuição bastante ampla.

## Warning in self$trans$transform(x): NaNs produced

## Warning: Transformation introduced infinite values in continuous y-axis

## Warning in self$trans$transform(x): NaNs produced

## Warning: Transformation introduced infinite values in continuous y-axis

## Warning: Removed 8241 rows containing non-finite values (stat_ydensity).

## Warning: Removed 8241 rows containing non-finite values (stat_boxplot).

Como se comparam as distribuições de tempo (real) das tarefas entre os diferentes times? Há times com tarefas consideravelmente maiores?

Sim, existe times com uma quantidade bem maior de horas do que outros. Como o PC2 que é o maior time logo era esperado esses valores nos histogramas.

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Aqui é possivel obesevar se alguns times se concentraem em horas maiores ou menores. Por exemplo o PC15 parece se concetrem bastante em tasks de 1 hora. O demais parecem se concetram mais em tasks de 3 a 6 horas. O PC17 apresenta um quantidade consideravel de tasks de ~30 horas ou mais.