La matriz de confusión es una herramienta fundamental para evaluar el rendimiento de un modelo de clasificación, como la regresión logística. Proporciona una representación visual de las predicciones realizadas por el modelo en comparación con los valores reales, lo que permite calcular métricas clave para medir su precisión y efectividad [[4]].
La matriz de confusión es una tabla que organiza los resultados de las predicciones en cuatro categorías principales:
Por ejemplo, si estamos utilizando un modelo de regresión logística
para predecir si un correo electrónico es spam (1
) o no
spam (0
), la matriz de confusión podría verse así:
Predicho Spam (1) | Predicho No Spam (0) | |
---|---|---|
Real Spam (1) | Verdaderos Positivos (VP) | Falsos Negativos (FN) |
Real No Spam (0) | Falsos Positivos (FP) | Verdaderos Negativos (VN) |
Esta tabla permite identificar cuántas predicciones fueron correctas y cuántas incorrectas, lo que facilita la evaluación del modelo [[2]].
A partir de los valores de VP, VN, FP y FN, se pueden calcular varias métricas importantes para evaluar el rendimiento del modelo:
Supongamos que hemos entrenado un modelo de regresión logística para
predecir si un cliente comprará un producto (1
) o no
(0
). Después de evaluar el modelo, obtenemos la siguiente
matriz de confusión:
Predicho Compra (1) | Predicho No Compra (0) | |
---|---|---|
Real Compra (1) | 80 (VP) | 20 (FN) |
Real No Compra (0) | 10 (FP) | 90 (VN) |
Exactitud (Accuracy): \[ \text{Accuracy} = \frac{80 + 90}{80 + 90 + 10 + 20} = \frac{170}{200} = 0.85 \, (85\%) \]
Precisión (Precision): \[ \text{Precision} = \frac{80}{80 + 10} = \frac{80}{90} \approx 0.89 \, (89\%) \]
Sensibilidad (Recall): \[ \text{Recall} = \frac{80}{80 + 20} = \frac{80}{100} = 0.80 \, (80\%) \]
Especificidad (Specificity): \[ \text{Specificity} = \frac{90}{90 + 10} = \frac{90}{100} = 0.90 \, (90\%) \]
Puntuación F1 (F1-Score): \[ \text{F1-Score} = 2 \cdot \frac{0.89 \cdot 0.80}{0.89 + 0.80} \approx 0.84 \]
La matriz de confusión es una herramienta esencial para evaluar modelos de clasificación como la regresión logística. A través de ella, podemos calcular métricas como exactitud, precisión, sensibilidad, especificidad y puntuación F1, que nos ayudan a entender cómo el modelo maneja tanto los casos positivos como los negativos. Estas métricas son fundamentales para decidir si el modelo es adecuado para el problema en cuestión [[4]].