Clases Desbalanceadas

Enver G. Tarazona Vargas
enver.tarazona@pucp.edu.pe

1EST17 - Aprendizaje Estadístico I
Pontificia Universidad Católica del Perú

¿Qué aprenderás?

  1. Definir cuando se consideran que las clases están desbalanceadas
  2. Conocer las principales técnicas de balance de datos: undersampling y oversampling
  3. Aplicar técnicsa de balance de datos en R y Python

¿Cuándo se consideran que las clases están desbalanceadas?

Balance de Datos

ROSE (Random Over-Sampling Examples)

Objetivo: Generar datos sintéticos para la clase minoritaria en problemas de clasificación desbalanceada, introduciendo variabilidad controlada.

Procedimiento:

  1. Definir el vecindario: Para cada instancia \(X_j\) de la clase minoritaria, se define un vecindario \(V_{\delta}(X_j) = \{X : d(X, X_j) \leq \delta\}\), donde \(\delta\) se calcula en función de la densidad local (por ejemplo, mediante los \(k\)-vecinos más cercanos).

  2. Generar \(n\) datos sintéticos: Se crean \(n = \frac{N_{\text{mayoritaria}} - N_{\text{minoritaria}}}{N_{\text{minoritaria}}}\) nuevas observaciones \(S_{ji} = X_j + \epsilon\) por cada \(X_j\), donde \(\epsilon \sim \mathcal{N}(0, \sigma^2)\) representa una perturbación para respetar la variabilidad local.