issuekey ... storypoints
0 29688087 ... 1
1 29682716 ... 1
2 29644971 ... 1
3 29494181 ... 1
4 29437529 ... 1
[5 rows x 5 columns]
(355, 5)
Este conjunto de dados tem 355 observações. Cada observação é uma
User Story do Projeto 7764. O conjunto de dados tem 5 colunas.
storypoints context
0 1 Update templates for website merge requestsRel...
1 1 Make sure that we Capture Advanced Search in o...
2 1 Propose new IA for Brand and Digital Handbook#...
3 1 Cache `node_modules` for www-gitlab-com pipeli...
4 1 Disable all remaining unnecessary jobs in pipe...
valures Contagem
0 0 1
1 1 167
2 2 80
3 3 54
4 4 15
5 5 17
6 6 1
7 7 2
8 8 9
9 10 6
10 24 1
11 32 1
12 128 1
count 355.000000
mean 2.732394
std 7.186298
min 0.000000
25% 1.000000
50% 2.000000
75% 3.000000
max 128.000000
Name: storypoints, dtype: float64
A grande maioria das User Story. 75% da amostra foi medido como 1, 2
ou 3 Story Points.
<Figure size 800x600 with 0 Axes>
<AxesSubplot: >
Text(0.5, 1.0, 'Value Counts dos Story Points do Projeto 7764')
Text(0.5, 0, 'Valores do Story Point')
Text(0, 0.5, 'Contagem de vezes dos Story Points')

<Figure size 800x200 with 0 Axes>
{'whiskers': [<matplotlib.lines.Line2D object at 0x0000022113C614E0>, <matplotlib.lines.Line2D object at 0x0000022113C61780>], 'caps': [<matplotlib.lines.Line2D object at 0x0000022113C61A20>, <matplotlib.lines.Line2D object at 0x0000022113C61CC0>], 'boxes': [<matplotlib.lines.Line2D object at 0x0000022113C61240>], 'medians': [<matplotlib.lines.Line2D object at 0x0000022113C61F60>], 'fliers': [<matplotlib.lines.Line2D object at 0x0000022113C62200>], 'means': []}
Text(0.5, 1.0, 'Boxplot da Coluna Story Point')
Text(0.5, 0, 'Valores do Story Point')

Existem outliers nos Story Points, ou seja alguns Story Points são
distantes da média mais do que 2 desvios padrão.
storypoints context
0 1 Update templates for website merge requestsRel...
1 1 Make sure that we Capture Advanced Search in o...
2 1 Propose new IA for Brand and Digital Handbook#...
3 1 Cache `node_modules` for www-gitlab-com pipeli...
4 1 Disable all remaining unnecessary jobs in pipe...
<Figure size 800x200 with 0 Axes>
{'whiskers': [<matplotlib.lines.Line2D object at 0x0000022113CAB790>, <matplotlib.lines.Line2D object at 0x0000022113CABA30>], 'caps': [<matplotlib.lines.Line2D object at 0x0000022113CABCD0>, <matplotlib.lines.Line2D object at 0x0000022113CABF70>], 'boxes': [<matplotlib.lines.Line2D object at 0x0000022113CAB4F0>], 'medians': [<matplotlib.lines.Line2D object at 0x0000022113CD8250>], 'fliers': [<matplotlib.lines.Line2D object at 0x0000022113CD84F0>], 'means': []}
Text(0.5, 1.0, 'Boxplot dos Story Points do Projeto 7764 depois da remoção dos outliers')

<Figure size 800x600 with 0 Axes>
<AxesSubplot: >
Text(0.5, 1.0, 'Value Counts dos Story Points do Projeto 7764')
Text(0.5, 0, 'Valores do Story Point')
Text(0, 0.5, 'Contagem de vezes dos Story Points')

2.158536585365854
A média de Story Point de todo o conjunto de dados é de 2.15 Story
Point
1.3193741371375978
o MAE é de 1.31, quando utilizamos a média dos Story Points. Ou seja,
o Erro médo absoluto é de 1.28 SP quando sempre utilizamos um valor
fixo, lembrando que foi utilizado todo o conjunto de dados.
modelo MAE Teste color
0 Media 1.319374 blue
df_results
<string>:1: SettingWithCopyWarning:
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead
See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
<string>:1: SettingWithCopyWarning:
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead
See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
<string>:1: SettingWithCopyWarning:
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead
See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
<string>:1: SettingWithCopyWarning:
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead
See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
<string>:1: SettingWithCopyWarning:
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead
See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
<string>:1: SettingWithCopyWarning:
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead
See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
SVR()
<string>:1: FutureWarning: The frame.append method is deprecated and will be removed from pandas in a future version. Use pandas.concat instead.
modelo MAE Teste color
0 Media 1.319374 blue
1 Legibility SVM 1.221740 orange
O MAE do modelo preditivo legibility é menor do que o MAE, quando
utilizamos a média dos Story Poits.
SVR()
<string>:1: FutureWarning: The frame.append method is deprecated and will be removed from pandas in a future version. Use pandas.concat instead.
modelo MAE Teste color
0 Media 1.319374 blue
1 Legibility SVM 1.221740 orange
2 TF-IDF SVM 1.270728 green
<Figure size 640x480 with 0 Axes>
<BarContainer object of 3 artists>
Text(0.5, 1.0, 'Comparação do MAE entre os modelos')
Text(0.5, 0, 'Modelos')
Text(0, 0.5, 'MAE')
(1.1, 1.4)

---
title: "Análise Exploratório Projeto 7764"
output: html_notebook
author: 'Giseldo da Silva Néo'
---

```{python echo=FALSE}
import pandas as pd
import matplotlib.pyplot as plt
from textblob import TextBlob
import textstat
from sklearn.svm import SVR
from sklearn.feature_extraction.text import TfidfVectorizer
```

```{python  echo=FALSE}
import logging; 
logging.getLogger().setLevel(logging.CRITICAL)
```

```{python  echo=FALSE}
name = '7764'
filename = '../data/{}.csv'.format(name)
df = pd.read_csv(filename)
df.head()
```

```{python echo=False}
df.shape
```

Este conjunto de dados tem 355 observações. Cada observação é uma User Story do Projeto 7764. O conjunto de dados tem 5 colunas.

```{python echo=False}
df["context"] = df["title"] + df["description"]
df = df.drop(['created', 'issuekey', 'title', 'description'], axis=1)
df['context'] = df['context'].astype(str)
df.head()
```

```{python echo=False}
value_count = df['storypoints'].value_counts().sort_index()
df_value_count = pd.DataFrame(data = {'valures': value_count.index, 'Contagem': value_count.values})
df_value_count
```

```{python echo=False}
df['storypoints'].describe()
```
A grande maioria das User Story. 75% da amostra foi medido como 1, 2 ou 3 Story Points.


```{python echo=False}
plt.figure(figsize=(8, 6))
value_count.plot(kind='bar')
plt.title('Value Counts dos Story Points do Projeto 7764')
plt.xlabel('Valores do Story Point')
plt.ylabel('Contagem de vezes dos Story Points')
plt.show()
```

```{python echo=False}
plt.figure(figsize=(8, 2))
plt.boxplot(df['storypoints'], vert=False)
plt.title('Boxplot da Coluna Story Point')
plt.xlabel('Valores do Story Point')
plt.show()
```

Existem outliers nos Story Points, ou seja alguns Story Points são distantes da média mais do que 2 desvios padrão.


```{python echo=False}
mean = df['storypoints'].mean()
std_dev = df['storypoints'].std()
outlier_cutoff = 2 * std_dev
df_clean = df[(df['storypoints'] >= mean - outlier_cutoff) & (df['storypoints'] <= mean + outlier_cutoff)]
df_clean.head()
```

```{python echo=FALSE}
plt.figure(figsize=(8,2))
plt.boxplot(df_clean['storypoints'], vert=False)
plt.title('Boxplot dos Story Points do Projeto 7764 depois da remoção dos outliers')
plt.show()
```

```{python echo=FALSE}
value_count = df_clean['storypoints'].value_counts().sort_index()
plt.figure(figsize=(8, 6))
value_count.plot(kind='bar')
plt.title('Value Counts dos Story Points do Projeto 7764')
plt.xlabel('Valores do Story Point')
plt.ylabel('Contagem de vezes dos Story Points')
plt.show()
```

```{python echo=False}
# separação treino e teste
num_linhas_treino = int(len(df_clean) * 0.7)
dados_treino = df_clean.iloc[:num_linhas_treino]
dados_teste = df_clean.iloc[num_linhas_treino:]
```

```{python echo=False}
media_sp = dados_treino['storypoints'].mean()
media_sp
```

A média de Story Point de todo o conjunto de dados é de 2.15 Story Point

```{python echo=False}
def mean_absolute_error(y_true, y_pred):
  """
  Calcula o Mean Absolute Error (MAE), entre os valores verdadeiros (y_true) e os valores previstos (y_pred)

  Args:
    y_true: Uma lista ou array Numpy dos valores verdadeiros.
    y_pred: Uma lista ou array NumPy dos valores previstos.

  Returns:
    mae: O Mean Absolute Error entre y_true e y_pred
  """
  if len(y_true) != len(y_pred):
    raise ValueError('Os tamanhos de y_true e y_pred devem ser iguais')
  absolute_Errors =[abs(true-pred) for true, pred in zip(y_true, y_pred)]
  mae = sum(absolute_Errors) / len(y_true)
  return mae
```


```{python echo=False}
lista_y_pred = [media_sp] * len(dados_teste)
mae_media_sp = mean_absolute_error(dados_teste['storypoints'], lista_y_pred)
mae_media_sp
```

o MAE é de 1.31, quando utilizamos a média dos Story Points. Ou seja, o Erro médo absoluto é de 1.28 SP quando sempre utilizamos um valor fixo, lembrando que foi utilizado todo o conjunto de dados. 

```{python echo=FALSE}
df_results = pd.DataFrame(data=[['Media', mae_media_sp, 'blue']], columns=['modelo', 'MAE Teste', "color"])
df_results
```

df_results

```{python echo=False}
colunas = ['gunning_fog', 'polarity','subjectivity']

dados_treino['gunning_fog'] = dados_treino['context'].apply(textstat.gunning_fog)
dados_treino['polarity'] = dados_treino['context'].apply(lambda x: TextBlob(x).sentiment.polarity)
dados_treino['subjectivity'] = dados_treino['context'].apply(lambda x: TextBlob(x).sentiment.subjectivity)

dados_teste['gunning_fog'] = dados_teste['context'].apply(textstat.gunning_fog)
dados_teste['polarity'] = dados_teste['context'].apply(lambda x: TextBlob(x).sentiment.polarity)
dados_teste['subjectivity'] = dados_teste['context'].apply(lambda x: TextBlob(x).sentiment.subjectivity)
```

```{python echo=FALSE}
model = SVR()
model.fit(dados_treino[colunas], dados_treino['storypoints'])
y_pred = model.predict(dados_teste[colunas])
mae_leg = mean_absolute_error(dados_teste['storypoints'], y_pred)
df_results = df_results.append({'modelo':'Legibility SVM', 'MAE Teste': mae_leg, 'color': 'orange'}, ignore_index=True)
df_results
```

O MAE do modelo preditivo legibility é menor do que o MAE, quando utilizamos a média dos Story Poits.

```{python echo=FALSE}
vec = TfidfVectorizer(max_features=50)
tfidf_matrix_treino = vec.fit_transform(dados_treino['context'])
tfidf_matrix_teste = vec.transform(dados_teste['context'])
```

```{python echo=FALSE}
model = SVR()
model.fit(tfidf_matrix_treino, dados_treino['storypoints'])
y_pred = model.predict(tfidf_matrix_teste)
mae_tfidf = mean_absolute_error(dados_teste['storypoints'], y_pred)
df_results = df_results.append({'modelo':'TF-IDF SVM', 'MAE Teste': mae_tfidf, 'color': 'green'}, ignore_index=True)
df_results
```
```{python echo=FALSE}
plt.figure()
df_results = df_results.sort_values(by='MAE Teste')
plt.bar(df_results['modelo'], df_results['MAE Teste'], color=df_results['color'])
plt.title('Comparação do MAE entre os modelos')
plt.xlabel('Modelos')
plt.ylabel('MAE')
plt.ylim(1.1, 1.4)
plt.show()
```
