Description du problème

On va examiner ici un problème de classification binaire de type “mismatch”, basé sur la mesure d’une quantité physique appartenant à un ensemble discret de valeurs. Par exemple, la détection de mismatch basé sur la mesure de l’addition d’un semi-fini, addition devant appartenir à un ensemble discret de valeurs déterminées telles que \({1, 1.25, 1.50,\dots,3.75}\). Nous allons distinguer des caractéristiques propres au test de classification des probabilités de déterminer correctement un “mismatch” ou un “non mismatch” et verrons l’importance de la prévalence, i.e. de la proportion de mismatch dans la production. Pour cela, nous allons tout d’abord définir les notions de sensibilité et de spécificité, propres au test, et les valeurs prédictives positive et négative qui se lient via la prévalence. Nous allons ensuite établir un modèle simple pour évaluer ces valeurs sur base de la variance du test, du seuil choisi et de la prévalence de mismatch. Enfin, nous illusterons avec des exemples chiffrés une situation plausible et donnerons des indications pour faciliter le choix du seuil.

Definitions de base

\[ \pi = \frac P {N+P} \]

Notions de sensibilité et spécificité

\[ se = \frac {TP} {TP+FN} \]

\[ sp = \frac {TN} {TN+FP} \]

Ces deux valeurs sont liées aux performances du test. Comme nous allons le voir, elles sont liés à la capacité du test à éviter des erreurs détection.

Erreurs de type 1 et 2

xxx

Valeurs prédictives positive et négative

\[ PPV = \frac {TP} {TP + FP} \]

\[ NPV = \frac {TN} {TN + FN} \]

Les valeurs prédictives sont des probabilités. Elles dépendent non seulement des performances du test mais aussi de la prévalence de positifs dans la production. Elles réprésentent les ratios à optimiser. En général, on veut optimiser le pourcentage de verres rejetés qui correspondent réellement à des mismatchs et le pourcentage de verres non rejetés qui ne correspondent pas à des mismatchs.

Exemple

Sur cet exemple, on voit qu’avec un sensibilité de 67% et une spécificité de 91%, on peut avoir un PPV de 17% seulement. Cela est du à la faible prévalence et à la grande majorité de cas négatif. Etant donné que 9% de ces négatifs sont mal classés, il y beaucoup de faux positif, ce qui affecte fort le PPV.

Lien entre valeurs prédictives, sensibilité et spécificité

On peut utiliser le théorème de Baye pour relier les valeurs propres au test, i.e. la sensibilité et la spécificité, aux probabilité de bien réaliser les détections et non détections, et ce via la prévalence :

\[ PPV = \frac{se \cdot \pi}{se \cdot \pi + (1-sp)(1-\pi)} \]

\[ NPV = \frac{sp \cdot (1-\pi)}{sp \cdot (1-\pi) + (1-se)\cdot \pi} \]

Remarque

On voit qu’à faible prévalence, le PPV peut très vit plonger si la spécificité n’est pas très proche de 1. Nous allons voir qu’il y a un compromis naturel entre spécificité et sensibilité et allons modéliser leur calcul dans le cadre du problème posé.