1. Descripción del Caso de Estudio

Se analiza el dataset Taxi_Kal, compuesto por 399 vehículos de taxi, con el objetivo de clasificar si un vehículo presenta Fallas o está Funcionando correctamente, a partir de variables como tiempo del vehículo, consumo mensual, uso medio diario, proveedor local, zona de recorrido y tecnología del motor.


2. Técnica de Clasificación: K-Nearest Neighbors (KNN)

Se utilizó el algoritmo K-Nearest Neighbors (KNN) con k = 5, un método de aprendizaje supervisado basado en similitud.

¿Cómo funciona?

  • Para clasificar un vehículo nuevo, busca los 5 vecinos más cercanos en el espacio de variables.
  • Asigna la clase más frecuente entre esos 5 vecinos (votación por mayoría).
  • No construye un modelo explícito: memoriza los datos de entrenamiento y decide en base a proximidad.

Configuración del modelo:

Parámetro Valor
Algoritmo K-Nearest Neighbors
K (vecinos) 5
División de datos 70% entrenamiento / 30% prueba
Observaciones entrenamiento 279
Observaciones prueba 120
Variable objetivo Output2 (Fallas / Funcionando)

3. Matriz de Confusión

Predicho: Fallas Predicho: Funcionando
Real: Fallas 10 (TP) 16 (FN)
Real: Funcionando 10 (FP) 84 (TN)

Interpretación:

  • TP = 10 → Fallas correctamente detectadas
  • TN = 84 → Funcionando correctamente clasificados
  • FP = 10 → Falsas alarmas
  • FN = 16 → Fallas NO detectadas (los más críticos)

4. Indicadores de Precisión

4.1 Exactitud (Accuracy) = 78.33%

\[Accuracy = \frac{TP + TN}{TP + TN + FP + FN} = \frac{10 + 84}{120} = 0.7833\]

Interpretación: El modelo clasifica correctamente el 78.33% de los vehículos. De cada 10 taxis evaluados, acierta en aproximadamente 8. Sin embargo, el desbalance de clases (307 Funcionando vs 92 Fallas) puede inflar este valor.


4.2 Sensibilidad (Recall) = 38.46%

\[Recall = \frac{TP}{TP + FN} = \frac{10}{10 + 16} = 0.3846\]

Interpretación: El modelo detecta solo el 38.46% de los vehículos con fallas reales. De cada 10 taxis con fallas, solo alerta en 4 y deja pasar 6 sin detectar. Esto es crítico en el contexto de mantenimiento de taxis.


5. Conclusión

Indicador Valor Evaluación
Exactitud (Accuracy) 78.33% Aceptable
Precisión (Precision) 50.00% Moderada
Sensibilidad (Recall) 38.46% Baja
F1-Score 43.48% Moderada

El modelo KNN con k=5 presenta exactitud global aceptable pero un recall muy bajo para detectar fallas. Se recomienda aplicar balanceo de clases (SMOTE), probar distintos valores de k, o evaluar algoritmos como Random Forest o SVM.