La preparación de datos es una de las etapas más
críticas en minería de datos, pues los algoritmos solo
funcionan bien si la información de entrada es confiable.
El proceso incluye:
- Integración de datos de distintas fuentes.
- Limpieza para manejar valores faltantes o
inconsistencias.
- Normalización para que los atributos tengan escalas
comparables.
- Transformación para crear atributos derivados que
revelen patrones ocultos.
Cuando se juntan datos de varias fuentes (ej. diferentes bases de
clientes) pueden aparecer redundancias e
inconsistencias.
Se usan métodos estadísticos para identificar correlación entre
atributos:
Coeficiente de correlación entre atributos \(A\) y \(B\):
\[
r_{A,B} = \frac{\sum_{i=1}^{n}(a_i - \bar{A})(b_i - \bar{B})}{n \cdot
\sigma_A \cdot \sigma_B}
\] - Si \(r \approx 1\), alta
correlación positiva.
- Si \(r \approx -1\), correlación
negativa.
- Si \(r \approx 0\), no hay relación
lineal.
χ² Test mide la independencia de variables
categóricas:
\[
\chi^2 = \sum_{i=1}^{n} \frac{(O_i - E_i)^2}{E_i}
\]
donde \(O_i\) son las frecuencias
observadas y \(E_i\) las esperadas.
Los datos sucios incluyen valores faltantes y
ruido:
- Valores faltantes (MV): se pueden reemplazar con la media,
moda, predicción con regresión, o directamente eliminar la
instancia.
- Ruido: datos anómalos, por ejemplo, una edad registrada como
250 años.
Métodos para detectar y manejar ruido:
- Boxplots (detectan outliers visualmente).
- Z-score: valores mayores a 3 desviaciones estándar
suelen ser anomalías.
- Clustering: detectar instancias que no pertenecen a
ningún grupo.
Los algoritmos sensibles a la escala (ej. K-means, redes neuronales) necesitan que los atributos estén en rangos comparables.
Escala los valores a un intervalo definido:
\[
v' = \frac{v - min_A}{max_A - min_A} \cdot (new_{max} - new_{min}) +
new_{min}
\] Ejemplo: transformar notas de 0–20 al rango 0–1.
Convierte los datos a distribución con media 0 y desviación estándar
1:
\[
v' = \frac{v - \mu}{\sigma}
\] Se usa mucho cuando los datos siguen una distribución
normal.
Mueve el punto decimal para que los valores queden dentro de
(-1,1):
\[
v' = \frac{v}{10^j}
\] Ejemplo: si \(v = 923\), con
\(j=3\), se obtiene \(v' = 0.923\).
Se generan nuevos atributos que permiten descubrir patrones ocultos.
Transformaciones lineales: promedios, sumas o
combinaciones de variables.
Transformaciones cuadráticas: revelan formas
geométricas. Ejemplo de cónica:
\[
Ax^2 + Bxy + Cy^2 + Dx + Ey + F = 0
\]
Dependiendo de los coeficientes, representa circunferencia, elipse,
parábola o hipérbola.
Transformaciones no polinómicas: dependen del dominio (ej. extraer la raíz cuadrada de un área para obtener una longitud).
Los valores perdidos (MVs) son inevitables en los
datos reales, por errores humanos, fallas en el registro o porque
ciertas preguntas no se responden.
Si no se tratan adecuadamente, generan sesgos, pérdida de
información y reducción de la precisión de los modelos.
Por eso, la imputación es un paso clave en el preprocesamiento.
Un dataset puede representarse como matriz \(X\):
\[ X = \begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1p} \\ x_{21} & \text{NA} & \cdots & x_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ x_{n1} & x_{n2} & \cdots & \text{NA} \end{bmatrix} \]
Aquí, NA son valores faltantes. La imputación consiste en estimarlos para reconstruir la matriz completa.
Usa la matriz de distancias entre registros:
\[ D = \begin{bmatrix} 0 & d_{12} & \cdots & d_{1n} \\ d_{21} & 0 & \cdots & d_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ d_{n1} & d_{n2} & \cdots & 0 \end{bmatrix} \]
con
\[
d(x_i, x_j) = \sqrt{\sum_{k=1}^p (x_{ik} - x_{jk})^2}
\]
El valor imputado es el promedio de los vecinos:
\[
v' = \frac{1}{K} \sum_{i=1}^K v_i
\]
Idea: se asume que los registros cercanos en el espacio de atributos tienen valores similares.
Pondera por distancia:
\[
v' = \frac{\sum_{i=1}^K \frac{1}{d_i}\cdot v_i}{\sum_{i=1}^K
\frac{1}{d_i}}
\]
Los vecinos más cercanos influyen más en la imputación → mejora frente a KNNI básico.
Usa máquinas de soporte vectorial. El modelo encuentra un hiperplano óptimo:
\[ \min_{w,b,\xi} \frac{1}{2}\|w\|^2 + C\sum_{i=1}^n \xi_i \]
sujeto a
\[ y_i (w \cdot x_i + b) \geq 1 - \xi_i, \quad \xi_i \geq 0 \]
Permite predecir valores perdidos maximizando la separación entre clases.
Basado en clustering difuso: cada registro pertenece a varios grupos con diferentes grados:
\[ \mu_{ij} = \frac{1}{\sum_{k=1}^c \left(\frac{\|x_i - c_j\|}{\|x_i - c_k\|}\right)^{\frac{2}{m-1}}} \]
El valor imputado se calcula combinando los centroides según estos grados → captura estructuras más complejas.
\[ NR = \frac{\text{Errores de imputación}}{\text{Total de imputaciones}} \]
Cuantifica cuánto “ruido” se introdujo. Mientras más bajo, mejor.
\[ Mui = \frac{MI(X', Y)}{MI(X,Y)} \]
donde la información mutua es:
\[ MI(X,Y) = \sum_{x\in X} \sum_{y\in Y} p(x,y)\cdot \log \left(\frac{p(x,y)}{p(x)p(y)}\right) \]
Si \(Mui \geq 1\): se preserva o
refuerza la relación variable–clase.
Si \(Mui < 1\): la imputación
debilitó esa relación.
Evalúa clasificadores después de la imputación:
\[ M = \begin{bmatrix} TP & FP \\ FN & TN \end{bmatrix} \]
donde: - TP: verdaderos positivos
- FP: falsos positivos
- FN: falsos negativos
- TN: verdaderos negativos
A partir de ella se calculan métricas como:
\[ Accuracy = \frac{TP + TN}{TP + TN + FP + FN} \]
Sirve para ver cómo afecta la imputación al rendimiento predictivo.
Este capítulo aborda los problemas ocasionados por el ruido
en los datos.
El ruido puede alterar la precisión de los modelos, reducir su capacidad
de generalización y dificultar la selección de filtros adecuados.
Se estudian tres ejes principales:
Los conjuntos de datos se caracterizan mediante 12 métricas
de complejidad (Ho y Basu, 2002).
Estas describen el nivel de dificultad de clasificación.
Un ejemplo de métrica es el volumen de solapamiento entre clases (F2):
\[ F2 = \frac{\text{Área de solapamiento}}{\text{Área total}} \]
Otros indicadores importantes:
- Relación intra/inter distancias (N2).
- Grado de solapamiento de atributos (F1, F3).
Conclusión: La combinación de métricas (F2, N2, F3 y F1) predice mejor la eficacia del filtrado que usarlas de forma aislada.
(Los resultados detallados se visualizan en una tabla y se clasifican por filtro: EF, CVCF e IPF.)
Se comparan filtros de ruido aplicados a conjuntos binarios mediante 1-NN y prueba estadística Wilcoxon Signed Rank Test.
Si el test muestra diferencias significativas:
\[
H_0 : \mu_{\text{filtrado}} = \mu_{\text{no filtrado}} \quad \text{vs.}
\quad H_a : \mu_{\text{filtrado}} \neq \mu_{\text{no filtrado}}
\]
Entonces se concluye si el filtrado mejora la clasificación.
Hallazgos principales: - Los filtros EF, CVCF e IPF
superan el 80% de precisión en test.
- F2 y N2 son las métricas más discriminantes para predecir el éxito del
filtrado.
(Los resultados detallados se visualizan en una tabla con precisiones de entrenamiento y test, así como el ranking de métricas seleccionadas.)
Se construyen MCS con SVM, C4.5 y 1-NN.
El objetivo es combinar clasificadores con diferentes niveles de
tolerancia al ruido.
Se evalúan niveles crecientes de ruido uniforme y por pares.
La precisión se mide como:
\[
\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}
\]
La robustez relativa (RLA) se expresa como:
\[
RLA = \frac{\text{Error(MCS)} - \text{Error(Base)}}{\text{Error(Base)}}
\]
Conclusiones:
- MCS3-1 es mejor que SVM y 1-NN en casi todos los niveles de
ruido.
- Con C4.5, la mejora solo es significativa en niveles bajos de
ruido.
(Los resultados detallados se visualizan en tablas que comparan performance y robustez por nivel de ruido.)
Los MCS son más efectivos frente a ruido uniforme, aunque no superan en robustez al clasificador más fuerte individualmente (C4.5).
Se analiza si OVO mejora la robustez frente al ruido comparado con sus versiones base.
Fórmula clave para el ruido por pares:
\[ \text{Ejemplos ruidosos} = \frac{x \cdot N_{maj}}{100} \]
donde \(N_{maj}\) es el número de ejemplos de la clase mayoritaria.
(Los resultados detallados se visualizan en tablas que comparan accuracy, RLA y p-values para C4.5, RIPPER y 5-NN.)
En resumen, la estrategia OVO y los sistemas MCS constituyen herramientas útiles para mitigar el impacto del ruido en clasificación multiclase.