Semillero R

class: center, middle, inverse, title-slide

.title[
# Semillero R
]
.subtitle[
## Sesión 3: Ajuste de modelos e ingeniería de características
]
.institute[
### Universidad Nacional - Universidad de Antioquia
]
.date[
### 2022-04-09
]

---

class: inverse center, middle

# Modelos de machine learning

---

# Aprendizaje Supervisado

---

# Métricas de error o desempeño ([ver lista](https://yardstick.tidymodels.org/articles/metric-types.html))

.pull-left[

#### Clasificación

- Curva ROC (AUC)
- Log loss
- Accuracy
- Especificidad
- Sensitividad
- F1-Score
- Matriz de confusión
- ...

]

.pull-right[

#### Regresión

- RMSE
- MSE
- `$R^2$`
- MAPE
- MASE
- MAE
- Huber loss
- ...

]

---

# Funciones de *pérdida (loss)*

.panelset[

.panel[.panel-name[Representación]

]

.panel[.panel-name[Problemas de Optimización]

]

.panel[.panel-name[Tipos de Funciones]

.pull-left[

#### Sencillas

]

.pull-right[

#### Complejas

]

---

# Modelos Lineales

.panelset.sideways[

.panel[.panel-name[Regresión Lineal]

#### Modelo Lineal

`$$y = b + mx \\$$`

#### Modelo Lineal Múltiple

`$$\hat{y} = \hat{\beta_0} + \hat{\beta_1}X_{i1} + \hat{\beta_2}X_{i2} + ... + \hat{\beta_{p-1}}X_{i_{(p-1)}} +  \hat{\epsilon}$$`

#### Estimación por *Mínimos Cuadrados*

`$$\beta = (X^TX)^{-1}X^Ty$$`
#### Función de pérdida

`$$SSE = \sum_{i=1}^{n}(y_i - \hat{y}_i)^2$$`

]

.panel[.panel-name[Regresión Polinomial]

#### Regresión Polinomial

`$$\hat{y} = \hat{\beta_0} + \hat{\beta_1}X_{i1} + \hat{\beta_1}X_{i1}^2 + \hat{\beta_2}X_{i2}^3 + ... + \hat{\beta_{p-1}}X_{i_{(p-1)}}^k +  \hat{\epsilon}$$`

]

.panel[.panel-name[Regresión con Splines]

`$$\hat{y} = \hat{\beta_0} + \hat{\beta_1}b_1(X_{i1}) + \hat{\beta_2}b_2(X_{i2}) + \hat{\beta_3}b_3(X_{i3}) + ... + \hat{\beta_k}b_k(X_{ik}) +  \hat{\epsilon}$$`

Donde:

`$$(x-t_i)^3_+ = \begin{cases}  (x-t_i)^3 &\mbox{if } x > t_i \\ 0 & \mbox{if } x \leq t_i  \end{cases}$$`

]

.panel[.panel-name[Regresión Regularizada]

#### Regresión Ridge `$(L_2)$`

`$$SSE_{L_2} = \sum_{i=1}^{n}(y_i - \hat{y}_i)^2 + \lambda \sum_{j=1}^{p} \beta_j^2$$`

#### Regresión Lasso `$(L_1)$`

`$$SSE_{L_1} = \sum_{i=1}^{n}(y_i - \hat{y}_i)^2 + \lambda \sum_{j=1}^{p} |\beta_j|$$`

#### Regresión ElasticNet

`$$SSE_{Enet} = \sum_{i=1}^{n}(y_i - \hat{y}_i)^2 + \lambda_1 \sum_{j=1}^{p} \beta_j^2 + \lambda_2 \sum_{j=1}^{p} |\beta_j|$$`

]

.panel[.panel-name[Regresión Logística]

#### Modelo

`$$log(\frac{p}{1-p}) = \beta_0+\beta_1X_1+\beta_2X_2+...++\beta_pX_p$$`

#### Calculando probabilidades

`$$p = \frac{1}{1+exp[-(\beta_0+\beta_1X_1+\beta_2X_2+...+\beta_pX_p)]}$$`

#### Función de pérdida

`$$-\frac{1}{N} \sum_{i=1}^{N} y_i \times log(p(y_i)) + (1-y_i) \times log(1-p(y_i))$$`

]

---

# Ingeniería de características con `recipes`

.footnote[
[Funciones de referencia](https://recipes.tidymodels.org/reference/index.html)
]

---

# Representación de modelos "mentales"

#### Incorrecto

#### Correcto

.footnote[
[Fuente: *Tidy modeling with R*](https://www.tmwr.org/workflows.html)
]

---

# Ajuste de modelos con `tune`

.footnote[
[Funciones de referencia](https://tune.tidymodels.org/reference/index.html)
]

---
class: inverse, center, middle

# [*An Introduction to Statistical Learning*](https://www.statlearning.com/)

---
class: inverse, center, middle

# [*Applied Predictive Modeling*](https://www.ic.unicamp.br/~wainer/cursos/1s2021/432/2013_Book_AppliedPredictiveModeling.pdf)

---
class: inverse, center, middle

# [*The Elements of Statistical Learning*](https://hastie.su.domains/Papers/ESLII.pdf)

---
class: inverse, center, middle