Hoje vamos entender um pouco sobre as relações entre as variáveis dos dados de estimativas de tempo entre as tarefas em uma empresa através de correlações. Será utilizado alguns métodos para calcular as correlações entre as variáveis a fim de compará-los também. Antes disso, vamos entender um pouco como os dados estão estruturados.
## Rows: 12,299
## Columns: 17
## $ task_number <chr> "1735", "1742", "1971", "2134", "2251", "2283"…
## $ summary <chr> "Flag RI on SCM Message Summary screen using m…
## $ priority <dbl> 1, 1, 2, 5, 10, 1, 5, 5, 6, 5, 2, 1, 3, 1, 1, …
## $ raised_by_id <chr> "58", "58", "7", "50", "46", "13", "13", "13",…
## $ assigned_to_id <chr> "58", "42", "58", "42", "13", "13", "13", "58"…
## $ authorised_by_id <chr> "6", "6", "6", "6", "6", "58", "6", "6", "6", …
## $ status_code <chr> "FINISHED", "FINISHED", "FINISHED", "FINISHED"…
## $ project_code <chr> "PC2", "PC2", "PC2", "PC2", "PC2", "PC9", "PC2…
## $ project_breakdown_code <chr> "PBC42", "PBC21", "PBC75", "PBC42", "PBC21", "…
## $ category <chr> "Development", "Development", "Operational", "…
## $ sub_category <chr> "Enhancement", "Enhancement", "In House Suppor…
## $ hours_estimate <dbl> 14.00, 7.00, 0.70, 0.70, 3.50, 7.00, 7.00, 7.0…
## $ hours_actual <dbl> 1.75, 7.00, 0.70, 0.70, 3.50, 7.00, 7.00, 7.00…
## $ developer_id <chr> "58", "42", "58", "42", "13", "13", "43", "58"…
## $ developer_hours_actual <dbl> 1.75, 7.00, 0.70, 0.70, 3.50, 7.00, 7.00, 7.00…
## $ task_performance <dbl> 12.25, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.0…
## $ developer_performance <dbl> 12.25, 0.00, 0.00, 0.00, 0.00, 0.00, NA, 0.00,…
## # A tibble: 1 x 6
## projetos categoprias sub_categorias estimativas tasks prioridades
## <int> <int> <int> <int> <int> <int>
## 1 20 3 24 12299 10266 10
Temos 20 projetos, com 12299 estimativas de tempo para tasks. Não há apenas uma estimativa por tarefa, já que há apenas 10266 valores distintos de task_number.
## # A tibble: 10,268 x 4
## task_number category summary n
## <chr> <chr> <chr> <int>
## 1 10605 Management Staff Meeting 8
## 2 6889 Management SiP Staff Meeting 8
## 3 10089 Operational Office Move and bits and bobs 7
## 4 10974 Management Extended SiP Lunch 7
## 5 11056 Management SiP Company Meeting 7
## 6 11270 Management Staff Meeting 7
## 7 13124 Management Company Meeting - scorecard and discussion 7
## 8 13190 Management Marketing management meeting 7
## 9 13253 Management YYY ZZZ's Marketing presentation and meeting 7
## 10 3812 Development Weekly Developer Meeting 14th September 2005 -… 7
## # … with 10,258 more rows
Para nossa análise, usaremos uma estimativa por task. Caso haja mais de uma usaremos a média das estimativas_raw:
Pode-se observar que todas as categorias possuem erros de estimativas de horas para execução de tarefas, e a categoria de desenvolvimento obteve maior concentração de horas ultrapassadas pelas estimativas.
Com esse gráfico, pode-se ver que as tarefas de aprimoramento concentram o maior número de horas, pertencente a categoria de desenvolvimento. Logo em seguida, tem-se que suporte interno pertecente à categoria de operação.
Como pode-se observar, a correlação com o método de Pearson entre as variáveis de horas estimadas e horas atuais para a realização das tarefas possui uma correlação de 0.2614388, um valor relativamente baixo, pois quanto mais próximo de 1, mais forte é a relação entre as variáveis, e o mesmo vale para o inverso, quanto mais próximo de 0, menor é a relação entre as variáveis. No entanto, para os outros métodos obteve-se correlações altas, para o método de Spearman 0.782769 e para o Kendall 0.6422372.
Pode-se observar que a equipe que tem maior média de erro em horas é a PC20 e, em contrapartida, é a equipe que tem o menor número de pessoas trabalhando. E o caso contrário, tem-se a equipe PC2, na qual há uma das menores concetrações de erro médio de horas e possui a maior concetração de pessoas trabalhando.
Como pode-se observar, o coeficiente de correlação é bem baixo em todos os métodos, inferindo que a correlação entre as variáveis é baixa. Tem-se os seguintes valores para os métodos:
Pode-se observar que as tarefas classificadas como prioridade 9 tem a maior média de concentração de erro de horas. E que, prioridade 1 também tem uma concentração de horas também relevante nos projetos.
A correlação entre erro médio de horas e prioridade de tarefas não possui correlação alta em nenhum dos métodos, com valor de cerca de 0.3718066 para correlação de Pearson, 0.1393939 para o método de Spearman e para o método de Kendall tem-se 0.0666667.
Como pôde-se observar, um pouco sobre o comportamento das variáveis de tarefa e tempo de execução e realizar um estudo sobre as correlações entre algumas dessas variáveis. Com isso, foi visto que na maioria dos casos e distribuições, não existe relações muito forte entre elas e que o sucesso ou não de um acerto de estumativas de horas pode estar ligados a outros fatores ou variáveis que não foi explorado nesse notebook.