Introdução

Hoje vamos entender um pouco sobre as relações entre as variáveis dos dados de estimativas de tempo entre as tarefas em uma empresa através de correlações. Será utilizado alguns métodos para calcular as correlações entre as variáveis a fim de compará-los também. Antes disso, vamos entender um pouco como os dados estão estruturados.

O que são os dados

## Rows: 12,299
## Columns: 17
## $ task_number            <chr> "1735", "1742", "1971", "2134", "2251", "2283"…
## $ summary                <chr> "Flag RI on SCM Message Summary screen using m…
## $ priority               <dbl> 1, 1, 2, 5, 10, 1, 5, 5, 6, 5, 2, 1, 3, 1, 1, …
## $ raised_by_id           <chr> "58", "58", "7", "50", "46", "13", "13", "13",…
## $ assigned_to_id         <chr> "58", "42", "58", "42", "13", "13", "13", "58"…
## $ authorised_by_id       <chr> "6", "6", "6", "6", "6", "58", "6", "6", "6", …
## $ status_code            <chr> "FINISHED", "FINISHED", "FINISHED", "FINISHED"…
## $ project_code           <chr> "PC2", "PC2", "PC2", "PC2", "PC2", "PC9", "PC2…
## $ project_breakdown_code <chr> "PBC42", "PBC21", "PBC75", "PBC42", "PBC21", "…
## $ category               <chr> "Development", "Development", "Operational", "…
## $ sub_category           <chr> "Enhancement", "Enhancement", "In House Suppor…
## $ hours_estimate         <dbl> 14.00, 7.00, 0.70, 0.70, 3.50, 7.00, 7.00, 7.0…
## $ hours_actual           <dbl> 1.75, 7.00, 0.70, 0.70, 3.50, 7.00, 7.00, 7.00…
## $ developer_id           <chr> "58", "42", "58", "42", "13", "13", "43", "58"…
## $ developer_hours_actual <dbl> 1.75, 7.00, 0.70, 0.70, 3.50, 7.00, 7.00, 7.00…
## $ task_performance       <dbl> 12.25, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.0…
## $ developer_performance  <dbl> 12.25, 0.00, 0.00, 0.00, 0.00, 0.00, NA, 0.00,…

Análise dos dados

## # A tibble: 1 x 6
##   projetos categoprias sub_categorias estimativas tasks prioridades
##      <int>       <int>          <int>       <int> <int>       <int>
## 1       20           3             24       12299 10266          10

Temos 20 projetos, com 12299 estimativas de tempo para tasks. Não há apenas uma estimativa por tarefa, já que há apenas 10266 valores distintos de task_number.

## # A tibble: 10,268 x 4
##    task_number category    summary                                             n
##    <chr>       <chr>       <chr>                                           <int>
##  1 10605       Management  Staff Meeting                                       8
##  2 6889        Management  SiP Staff Meeting                                   8
##  3 10089       Operational Office Move and bits and bobs                       7
##  4 10974       Management  Extended SiP Lunch                                  7
##  5 11056       Management  SiP Company Meeting                                 7
##  6 11270       Management  Staff Meeting                                       7
##  7 13124       Management  Company Meeting - scorecard and discussion          7
##  8 13190       Management  Marketing management meeting                        7
##  9 13253       Management  YYY ZZZ's Marketing presentation and meeting        7
## 10 3812        Development Weekly Developer Meeting 14th September 2005 -…     7
## # … with 10,258 more rows

Para nossa análise, usaremos uma estimativa por task. Caso haja mais de uma usaremos a média das estimativas_raw:

Qual a relação entre as estimativas e horas reais tomadas na empresa como um todo e como é essa relação em diferentes subcategorias de tarefa?

Pode-se observar que todas as categorias possuem erros de estimativas de horas para execução de tarefas, e a categoria de desenvolvimento obteve maior concentração de horas ultrapassadas pelas estimativas.

Com esse gráfico, pode-se ver que as tarefas de aprimoramento concentram o maior número de horas, pertencente a categoria de desenvolvimento. Logo em seguida, tem-se que suporte interno pertecente à categoria de operação.

Depois de observar como está a distribuição dos dados, como é a relação entre as variáveis de horas atuais e de horas estimadas?

Como pode-se observar, a correlação com o método de Pearson entre as variáveis de horas estimadas e horas atuais para a realização das tarefas possui uma correlação de 0.2614388, um valor relativamente baixo, pois quanto mais próximo de 1, mais forte é a relação entre as variáveis, e o mesmo vale para o inverso, quanto mais próximo de 0, menor é a relação entre as variáveis. No entanto, para os outros métodos obteve-se correlações altas, para o método de Spearman 0.782769 e para o Kendall 0.6422372.

Há uma relação perceptível entre o tamanho da equipe está relacionado com o erro médio das estimativas da equipe? Como é essa relação?

Pode-se observar que a equipe que tem maior média de erro em horas é a PC20 e, em contrapartida, é a equipe que tem o menor número de pessoas trabalhando. E o caso contrário, tem-se a equipe PC2, na qual há uma das menores concetrações de erro médio de horas e possui a maior concetração de pessoas trabalhando.

Sabendo disso, será que há uma forte relação entre as variáveis de quantidade de pessoas trabalhando na equipe e erro médio de horas?

Como pode-se observar, o coeficiente de correlação é bem baixo em todos os métodos, inferindo que a correlação entre as variáveis é baixa. Tem-se os seguintes valores para os métodos:

  • Pearson = -0.183199
  • Spearman = 0.0263257
  • Kendall = 0.0263853

Qual a relação entre prioridade da tarefa e erro na sua estimativa?

Pode-se observar que as tarefas classificadas como prioridade 9 tem a maior média de concentração de erro de horas. E que, prioridade 1 também tem uma concentração de horas também relevante nos projetos.

A correlação entre erro médio de horas e prioridade de tarefas não possui correlação alta em nenhum dos métodos, com valor de cerca de 0.3718066 para correlação de Pearson, 0.1393939 para o método de Spearman e para o método de Kendall tem-se 0.0666667.

Como pôde-se observar, um pouco sobre o comportamento das variáveis de tarefa e tempo de execução e realizar um estudo sobre as correlações entre algumas dessas variáveis. Com isso, foi visto que na maioria dos casos e distribuições, não existe relações muito forte entre elas e que o sucesso ou não de um acerto de estumativas de horas pode estar ligados a outros fatores ou variáveis que não foi explorado nesse notebook.