Data Preparation: Basic Models

Resumen

La preparación de datos es una de las etapas más críticas en minería de datos, pues los algoritmos solo funcionan bien si la información de entrada es confiable.
El proceso incluye:
- Integración de datos de distintas fuentes.
- Limpieza para manejar valores faltantes o inconsistencias.
- Normalización para que los atributos tengan escalas comparables.
- Transformación para crear atributos derivados que revelen patrones ocultos.


3.1 Overview

  • Los datos del mundo real casi nunca vienen listos: pueden estar incompletos, sucios o inconsistentes.
  • Ejemplo: encuestas con preguntas sin responder, errores de digitación, registros duplicados.
  • La calidad de datos depende de tres factores:
    1. Exactitud (los valores son correctos).
    2. Completitud (no faltan datos relevantes).
    3. Consistencia (no hay contradicciones entre registros).

3.2 Data Integration

Cuando se juntan datos de varias fuentes (ej. diferentes bases de clientes) pueden aparecer redundancias e inconsistencias.
Se usan métodos estadísticos para identificar correlación entre atributos:

Coeficiente de correlación entre atributos \(A\) y \(B\):
\[ r_{A,B} = \frac{\sum_{i=1}^{n}(a_i - \bar{A})(b_i - \bar{B})}{n \cdot \sigma_A \cdot \sigma_B} \] - Si \(r \approx 1\), alta correlación positiva.
- Si \(r \approx -1\), correlación negativa.
- Si \(r \approx 0\), no hay relación lineal.

χ² Test mide la independencia de variables categóricas:
\[ \chi^2 = \sum_{i=1}^{n} \frac{(O_i - E_i)^2}{E_i} \]
donde \(O_i\) son las frecuencias observadas y \(E_i\) las esperadas.


3.3 Data Cleaning

Los datos sucios incluyen valores faltantes y ruido:
- Valores faltantes (MV): se pueden reemplazar con la media, moda, predicción con regresión, o directamente eliminar la instancia.
- Ruido: datos anómalos, por ejemplo, una edad registrada como 250 años.

Métodos para detectar y manejar ruido:
- Boxplots (detectan outliers visualmente).
- Z-score: valores mayores a 3 desviaciones estándar suelen ser anomalías.
- Clustering: detectar instancias que no pertenecen a ningún grupo.


3.4 Data Normalization

Los algoritmos sensibles a la escala (ej. K-means, redes neuronales) necesitan que los atributos estén en rangos comparables.

1. Min-Max Normalization

Escala los valores a un intervalo definido:
\[ v' = \frac{v - min_A}{max_A - min_A} \cdot (new_{max} - new_{min}) + new_{min} \] Ejemplo: transformar notas de 0–20 al rango 0–1.

2. Z-Score Normalization

Convierte los datos a distribución con media 0 y desviación estándar 1:
\[ v' = \frac{v - \mu}{\sigma} \] Se usa mucho cuando los datos siguen una distribución normal.

3. Decimal Scaling

Mueve el punto decimal para que los valores queden dentro de (-1,1):
\[ v' = \frac{v}{10^j} \] Ejemplo: si \(v = 923\), con \(j=3\), se obtiene \(v' = 0.923\).


3.5 Data Transformation

Se generan nuevos atributos que permiten descubrir patrones ocultos.

  • Transformaciones lineales: promedios, sumas o combinaciones de variables.

  • Transformaciones cuadráticas: revelan formas geométricas. Ejemplo de cónica:
    \[ Ax^2 + Bxy + Cy^2 + Dx + Ey + F = 0 \]
    Dependiendo de los coeficientes, representa circunferencia, elipse, parábola o hipérbola.

  • Transformaciones no polinómicas: dependen del dominio (ej. extraer la raíz cuadrada de un área para obtener una longitud).


Conclusión

  • El preprocesamiento no es opcional, es fundamental.
  • Sin limpieza y normalización, los algoritmos pueden dar resultados engañosos.
  • Con buenos datos, la minería se vuelve más precisa, eficiente y confiable.

Tratamiento de Valores Perdidos

Los valores perdidos (MVs) son inevitables en los datos reales, por errores humanos, fallas en el registro o porque ciertas preguntas no se responden.
Si no se tratan adecuadamente, generan sesgos, pérdida de información y reducción de la precisión de los modelos.
Por eso, la imputación es un paso clave en el preprocesamiento.


Tipos de valores perdidos

  • MCAR (Missing Completely at Random): faltan al azar, sin relación con ninguna variable. → No introduce sesgos.
  • MAR (Missing at Random): dependen de otras variables observadas. → Puede corregirse con modelos estadísticos.
  • MNAR (Missing Not at Random): dependen del propio valor perdido. → El más difícil de manejar.

Representación de datos con valores perdidos

Un dataset puede representarse como matriz \(X\):

\[ X = \begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1p} \\ x_{21} & \text{NA} & \cdots & x_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ x_{n1} & x_{n2} & \cdots & \text{NA} \end{bmatrix} \]

Aquí, NA son valores faltantes. La imputación consiste en estimarlos para reconstruir la matriz completa.


Métodos clásicos de imputación

  • Eliminación (IM): descarta filas con NA, pero destruye información.
  • Media, moda o mediana: reemplaza con valores centrales, aunque reduce variabilidad.
  • Regresión: predice valores faltantes en función de otras variables:
    \[ \hat{Y} = \beta_0 + \beta_1 X_1 + \dots + \beta_p X_p \]
    → Mantiene mejor la estructura de correlaciones.
  • EM (Expectation Maximization): estima parámetros y NA en ciclos iterativos hasta converger.
  • MI (Imputación múltiple): genera varias versiones imputadas de \(X\) y combina resultados. → Aumenta robustez.

Métodos de Machine Learning

KNNI

Usa la matriz de distancias entre registros:

\[ D = \begin{bmatrix} 0 & d_{12} & \cdots & d_{1n} \\ d_{21} & 0 & \cdots & d_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ d_{n1} & d_{n2} & \cdots & 0 \end{bmatrix} \]

con
\[ d(x_i, x_j) = \sqrt{\sum_{k=1}^p (x_{ik} - x_{jk})^2} \]

El valor imputado es el promedio de los vecinos:
\[ v' = \frac{1}{K} \sum_{i=1}^K v_i \]

Idea: se asume que los registros cercanos en el espacio de atributos tienen valores similares.


WKNNI

Pondera por distancia:
\[ v' = \frac{\sum_{i=1}^K \frac{1}{d_i}\cdot v_i}{\sum_{i=1}^K \frac{1}{d_i}} \]

Los vecinos más cercanos influyen más en la imputación → mejora frente a KNNI básico.


SVMI

Usa máquinas de soporte vectorial. El modelo encuentra un hiperplano óptimo:

\[ \min_{w,b,\xi} \frac{1}{2}\|w\|^2 + C\sum_{i=1}^n \xi_i \]

sujeto a

\[ y_i (w \cdot x_i + b) \geq 1 - \xi_i, \quad \xi_i \geq 0 \]

Permite predecir valores perdidos maximizando la separación entre clases.


FKMI

Basado en clustering difuso: cada registro pertenece a varios grupos con diferentes grados:

\[ \mu_{ij} = \frac{1}{\sum_{k=1}^c \left(\frac{\|x_i - c_j\|}{\|x_i - c_k\|}\right)^{\frac{2}{m-1}}} \]

El valor imputado se calcula combinando los centroides según estos grados → captura estructuras más complejas.


Evaluación de la imputación

Noise Ratio (NR)

\[ NR = \frac{\text{Errores de imputación}}{\text{Total de imputaciones}} \]

Cuantifica cuánto “ruido” se introdujo. Mientras más bajo, mejor.


Mui Ratio

\[ Mui = \frac{MI(X', Y)}{MI(X,Y)} \]

donde la información mutua es:

\[ MI(X,Y) = \sum_{x\in X} \sum_{y\in Y} p(x,y)\cdot \log \left(\frac{p(x,y)}{p(x)p(y)}\right) \]

Si \(Mui \geq 1\): se preserva o refuerza la relación variable–clase.
Si \(Mui < 1\): la imputación debilitó esa relación.


Matriz de Confusión

Evalúa clasificadores después de la imputación:

\[ M = \begin{bmatrix} TP & FP \\ FN & TN \end{bmatrix} \]

donde: - TP: verdaderos positivos
- FP: falsos positivos
- FN: falsos negativos
- TN: verdaderos negativos

A partir de ella se calculan métricas como:

\[ Accuracy = \frac{TP + TN}{TP + TN + FP + FN} \]

Sirve para ver cómo afecta la imputación al rendimiento predictivo.


Resultados según clasificador

  • Inducción de reglas: mejores → FKMI, SVMI, EC.
  • Cajas negras (SVM, RNA): mejor → EC; peores → IM, DNI, BPCA.
  • Lazy learning (k-NN): mejores → MC, CMC.

Conclusión integradora

  1. Eliminar o ignorar NA destruye información.
  2. Métodos simples (media, moda) son poco confiables.
  3. Métodos avanzados (EM, MI, KNNI, SVMI, FKMI) preservan la estructura.
  4. El mejor método depende del clasificador.
  5. Una imputación adecuada logra:
    • Reducir ruido (\(NR \to 0\)).
    • Mantener información (\(Mui \geq 1\)).
    • Mejorar confiabilidad de los modelos.

Dealing with Noisy Data

Este capítulo aborda los problemas ocasionados por el ruido en los datos.
El ruido puede alterar la precisión de los modelos, reducir su capacidad de generalización y dificultar la selección de filtros adecuados.

Se estudian tres ejes principales:

  1. Filtros de ruido y estrategias robustas.
  2. Uso de sistemas de clasificadores múltiples (MCS).
  3. Descomposición One-vs-One (OVO) en escenarios ruidosos.

1. Complejidad de los datos y predicción del filtrado

Los conjuntos de datos se caracterizan mediante 12 métricas de complejidad (Ho y Basu, 2002).
Estas describen el nivel de dificultad de clasificación.

Un ejemplo de métrica es el volumen de solapamiento entre clases (F2):

\[ F2 = \frac{\text{Área de solapamiento}}{\text{Área total}} \]

  • Valores altos de \(F2\) → mayor dificultad para filtrar ruido.
  • Valores bajos → los filtros distinguen mejor instancias ruidosas.

Otros indicadores importantes:
- Relación intra/inter distancias (N2).
- Grado de solapamiento de atributos (F1, F3).

Conclusión: La combinación de métricas (F2, N2, F3 y F1) predice mejor la eficacia del filtrado que usarlas de forma aislada.

(Los resultados detallados se visualizan en una tabla y se clasifican por filtro: EF, CVCF e IPF.)


2. Análisis empírico de filtros y estrategias robustas

Se comparan filtros de ruido aplicados a conjuntos binarios mediante 1-NN y prueba estadística Wilcoxon Signed Rank Test.

  • Si el test muestra diferencias significativas:
    \[ H_0 : \mu_{\text{filtrado}} = \mu_{\text{no filtrado}} \quad \text{vs.} \quad H_a : \mu_{\text{filtrado}} \neq \mu_{\text{no filtrado}} \]

    Entonces se concluye si el filtrado mejora la clasificación.

Hallazgos principales: - Los filtros EF, CVCF e IPF superan el 80% de precisión en test.
- F2 y N2 son las métricas más discriminantes para predecir el éxito del filtrado.

(Los resultados detallados se visualizan en una tabla con precisiones de entrenamiento y test, así como el ranking de métricas seleccionadas.)


3. Sistemas de Clasificadores Múltiples (MCS) y Ruido

Se construyen MCS con SVM, C4.5 y 1-NN.
El objetivo es combinar clasificadores con diferentes niveles de tolerancia al ruido.

Escenario 1: Ruido de clase

Se evalúan niveles crecientes de ruido uniforme y por pares.

  • La precisión se mide como:
    \[ \text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN} \]

  • La robustez relativa (RLA) se expresa como:
    \[ RLA = \frac{\text{Error(MCS)} - \text{Error(Base)}}{\text{Error(Base)}} \]

Conclusiones:
- MCS3-1 es mejor que SVM y 1-NN en casi todos los niveles de ruido.
- Con C4.5, la mejora solo es significativa en niveles bajos de ruido.

(Los resultados detallados se visualizan en tablas que comparan performance y robustez por nivel de ruido.)

Escenario 2: Ruido en atributos

  • Ruido uniforme → el más disruptivo.
  • Ruido gaussiano → menos perjudicial.

Los MCS son más efectivos frente a ruido uniforme, aunque no superan en robustez al clasificador más fuerte individualmente (C4.5).


4. Descomposición One-vs-One (OVO) con Ruido

Se analiza si OVO mejora la robustez frente al ruido comparado con sus versiones base.

Escenario 1: Ruido de clase

  • OVO logra mayor precisión y menor RLA en todos los niveles de ruido uniforme.
  • En ruido por pares, OVO es especialmente ventajoso con 5-NN y RIPPER.

Escenario 2: Ruido en atributos

  • OVO mejora consistentemente la precisión frente a ruido uniforme y gaussiano.
  • En robustez, las diferencias aparecen con niveles altos de ruido, sobre todo en C4.5.

Fórmula clave para el ruido por pares:

\[ \text{Ejemplos ruidosos} = \frac{x \cdot N_{maj}}{100} \]

donde \(N_{maj}\) es el número de ejemplos de la clase mayoritaria.

(Los resultados detallados se visualizan en tablas que comparan accuracy, RLA y p-values para C4.5, RIPPER y 5-NN.)


5. Conclusiones generales

  1. Filtros de ruido: su eficacia depende de métricas de complejidad (F2, N2, F3, F1).
  2. MCS: mejoran la precisión en escenarios de ruido, pero no siempre la robustez.
  3. OVO: ofrece mayor estabilidad, precisión y homogeneidad en presencia de ruido disruptivo.

En resumen, la estrategia OVO y los sistemas MCS constituyen herramientas útiles para mitigar el impacto del ruido en clasificación multiclase.