Clasificación de Vehículos Taxi con KNN

1. Descripción del Caso de Estudio

Se analiza el dataset Taxi_Kal, compuesto por 399 vehículos de taxi, con el objetivo de clasificar si un vehículo presenta Fallas o está Funcionando correctamente, a partir de variables como tiempo del vehículo, consumo mensual, uso medio diario, proveedor local, zona de recorrido y tecnología del motor.

2. Técnica de Clasificación: K-Nearest Neighbors (KNN)

Se utilizó el algoritmo K-Nearest Neighbors (KNN) con k = 5, un método de aprendizaje supervisado basado en similitud.

¿Cómo funciona?

Para clasificar un vehículo nuevo, busca los 5 vecinos más cercanos en el espacio de variables.
Asigna la clase más frecuente entre esos 5 vecinos (votación por mayoría).
No construye un modelo explícito: memoriza los datos de entrenamiento y decide en base a proximidad.

Configuración del modelo:

Parámetro	Valor
Algoritmo	K-Nearest Neighbors
K (vecinos)	5
División de datos	70% entrenamiento / 30% prueba
Observaciones entrenamiento	279
Observaciones prueba	120
Variable objetivo	Output2 (Fallas / Funcionando)

3. Matriz de Confusión

	Predicho: Fallas	Predicho: Funcionando
Real: Fallas	10 (TP)	16 (FN)
Real: Funcionando	10 (FP)	84 (TN)

Interpretación:

TP = 10 → Fallas correctamente detectadas
TN = 84 → Funcionando correctamente clasificados
FP = 10 → Falsas alarmas
FN = 16 → Fallas NO detectadas (los más críticos)

4. Indicadores de Precisión

4.1 Exactitud (Accuracy) = 78.33%

\[Accuracy = \frac{TP + TN}{TP + TN + FP + FN} = \frac{10 + 84}{120} = 0.7833\]

Interpretación: El modelo clasifica correctamente el 78.33% de los vehículos. De cada 10 taxis evaluados, acierta en aproximadamente 8. Sin embargo, el desbalance de clases (307 Funcionando vs 92 Fallas) puede inflar este valor.

4.2 Sensibilidad (Recall) = 38.46%

\[Recall = \frac{TP}{TP + FN} = \frac{10}{10 + 16} = 0.3846\]

Interpretación: El modelo detecta solo el 38.46% de los vehículos con fallas reales. De cada 10 taxis con fallas, solo alerta en 4 y deja pasar 6 sin detectar. Esto es crítico en el contexto de mantenimiento de taxis.

5. Conclusión

Indicador	Valor	Evaluación
Exactitud (Accuracy)	78.33%	Aceptable
Precisión (Precision)	50.00%	Moderada
Sensibilidad (Recall)	38.46%	Baja
F1-Score	43.48%	Moderada

El modelo KNN con k=5 presenta exactitud global aceptable pero un recall muy bajo para detectar fallas. Se recomienda aplicar balanceo de clases (SMOTE), probar distintos valores de k, o evaluar algoritmos como Random Forest o SVM.