#Es el proceso de transformar la información cruda que son los datos sucios, y vamos a llevarlo a un formato limpio, coherente y útil para aplicar algoritmos de minería de datos. Los datos reales suelen ser incompletos, inconsistentes y ruidosos, lo que impide obtener buenos resultados, y al analizarlo no nos de una buena interpretacon por eso antes de eso debemos de limpiar.Este paso es fundamental porque permite mejorar la calidad y confiabilidad del análisis.
#Importancia: Antes de aplicar técnicas de minería de datos, los datos deben estar listos. Normalmente vienen con errores, duplicados, ruido o faltantes.
#La calidad de un modelo depende directamente de la calidad de los datos utilizados.Esto quiere decir que si los datos son crudos debemos de prepararlas, porque sino nos pueden generar predicciones equivocadas, sesgos y al preparar los datos garantiza:
#Precisión: los valores se ajustan a la realidad.
#Completitud: se reducen los faltantes.
#Consistencia: se corrigen duplicados, errores y diferencias de formato.
# Limpieza de datos
#Problemas:valores faltantes,ruido,errores de digitación,unidades distintas.
#Soluciones:eliminar tuplas incompletas,reemplazar valores con estimaciones (media, moda, mediana),aplicar filtros estadísticos para reducir ruido.
#Tambien se sabe que los redes neuronales son muy sensibles a los datos sucios,por eso este paso es indispensable.
# Integración de datos
#consiste en unificar información procedente de distintas fuentes.Sus principales dificultades son la redundancia, los duplicados y las inconsistencias.La redundancia se detecta aplicando pruebas estadísticas como el χ² que es el chi^2 en variables nominales y el coeficiente de Pearson o la covarianza en variables numéricas.
#Duplicados:uso de medidas de similitud distancia de edición,Jaro,q-grams
# Transformación de datos
#Busca adecuar los valores de los atributos para que sean más útiles en el análisis.Normalización:
#Min-Max:escala a un rango fijo [0,1]
#Z-score:centra en media 0 y desviación 1, robusta frente a diferencias de escala.
#Decimal scaling:mueve el punto decimal para reducir magnitudes.
#Transformaciones adicionales:
#Lineales: combinaciones o promedios de atributos.
#Cuadráticas: relaciones no lineales (ej. discriminante de cónicas).
#polinomiales que se definen según el conocimiento experto del problema.
# Reducción de datos
#Disminuye la complejidad de los datos, aplicando métodos como selección de atributos, reducción de dimensionalidad y agrupación, para acelerar los algoritmos sin perder información relevante.
#El tratamiento de valores faltantes se refiere al conjunto de técnicas y estrategias que se utilizan para manejar la ausencia de datos en un conjunto de datos y estos valores faltantes suelen representarse como NaN, NULL, NA, o sino simplemente como celdas vacías.
#La presencia de valores faltantes (Missing Values, MVs) es un problema común en minería de datos y puede afectar seriamente la calidad del análisis.
#Eliminación de casos (IM): descartar instancias incompletas. Aunque es sencillo, puede reducir mucho la muestra y generar sesgos.
#Imputación simple (MC, CMC): reemplazar valores por media, moda o variantes. Es práctica, pero puede introducir ruido si no se aplica correctamente.
#Métodos avanzados:
#EC, FKMI, KMI, SVMI, WKNNI: técnicas que usan correlaciones, vecinos o algoritmos de clustering para estimar valores faltantes.
#BPCA y EM: modelos estadísticos basados en componentes principales o máxima verosimilitud.
#LLSI y SVDI: aplican factorización y reducción de dimensionalidad.
Se realizaron experimentos comparando múltiples métodos de imputación y clasificadores, usando pruebas estadísticas.
# Rule Induction Learning=clasificadores basados en reglas
#Los mejores: FKMI, SVMI y EC.
#Peores: BPCA y DNI (sin imputación).
# Black Box Methods=redes neuronales,SVM, modelos estadísticos
#Lo mejor: EC, con diferencia significativa frente a los demás.
#Algunas alternativas:KMI y FKMI.
#Las peores:BPCA, DNI e IM.
# esto siempre debemos imputar,porque son muy sensibles a datos imcompletos
# Lazy Learning=1-NN, 3-NN, LBR, LWL
#Mejores:MC y CMC, seguidos de FKMI.
#Peores: DNI y BPCA.
# En este capitulo fue muy interante e los valores faltantes ya que es un paso esencial en la preparacion de los atops para mineria, y saber en elegir el metodo adecuado que depende del tipo de clasificador;una buena imputación no solo completa la información, sino que mejora la estabilidad y precisión de los modelos predictivos.
#Es el proceso de identificar y reducir el ruido en los datos, que son valores incorrectos, inconsistentes o atípicos que pueden afectar negativamente a los resultados de los análisis y modelos de minería de datos.
#Causas del ruido
#Errores humanos:fallas al ingresar datos manualmente o registrar información incorrecta
#Fallas en sensores o instrumentos:mediciones defectuosas o mal calibradas
#Problemas de transmisión de datos:pérdida de información o corrupción durante la transferencia de datos
#Datos inconsistentes:contradicciones dentro del conjunto de datos, como fechas o rangos imposibles.
#Métodos para tratar el ruido:
#Binning (agrupación): agrupa valores en intervalos o “cubetas” para suavizar variaciones extremas y reducir efectos de outliers.
#Regresión: ajusta un modelo a los datos y detecta los valores que se alejan significativamente de la tendencia esperada
#Clustering: identifica valores que no encajan en ningún grupo natural, considerándolos posibles outliers.
#Suavizado (smoothing): técnicas que reducen la variabilidad aleatoria de los datos sin eliminar la tendencia central
#Identificar y reducir el ruido mejora la calidad de los patrones descubiertos, aumenta la confiabilidad de los modelos y facilita la interpretación de resultados en minería de datos.
# MCS (Multiple Classifier Systems): combinan varios clasificadores para mejorar la precisión y la robustez.Su efectividad depende de la calidad de los clasificadores individuales.Son especialmente útiles frente a errores en las etiquetas de clase y menos frente a errores en los atributos.
#OVO (One-vs-One decomposition): divide problemas multicategoría en subproblemas binarios, aumentando precisión y estabilidad.Permite manejar mejor los efectos del ruido uniforme o aleatorio esto es especialmente recomendado cuando se desconoce el tipo y nivel de ruido en los datos.
#Si vamos con class noise, los sistemas MCS y las versiones OVO muestran mejoras significativas en precisión y robustez.
# attribute noise, los MCS funcionan mejor con ruido gaussiano menos disruptivo que con ruido uniforme (más disruptivo).
#Las versiones OVO tienden a ser más precisas y consistentes frente a todo tipo de ruido.
#La robustez de un MCS depende de los clasificadores individuales: si estos son robustos, el sistema completo también lo será.
#El uso de OVO puede mejorar tanto la precisión como la homogeneidad de los resultados, reduciendo el impacto de los datos atípicos en el desempeño global.
#El manejo de datos ruidosos es esencial para mantener la calidad y confiabilidad de los modelos de minería de datos y asi aplicar técnicas como MCS y OVO permite mitigar los efectos del ruido, asegurando modelos más precisos, estables y consistentes, incluso en entornos con datos imperfectos o corruptos se sabe que la selección adecuada de métodos depende del tipo y nivel de ruido, así como de la robustez de los clasificadores individuales.