Essentiels de la théorie des probabilités
La théorie des probabilités est une branche des mathématiques qui étudie les phénomènes aléatoires et les modèles d’incertitude. Elle vise à quantifier la probabilité d’événements particuliers dans un espace probabiliste. Cette théorie fournit un cadre formel pour comprendre et analyser les processus aléatoires, les jeux de hasard et d’autres situations où l’issue est incertaine. Dans le domaine de l’intelligence artificielle, la théorie des probabilités joue un rôle crucial, en particulier dans les approches basées sur la statistique et l’apprentissage automatique. Elle offre à l’IA un langage mathématique puissant pour modéliser l’incertitude, estimer des paramètres inconnus et prendre des décisions rationnelles dans des situations où l’information est incomplète. Cela permet aux algorithmes d’IA de gérer efficacement l’ambiguïté et de s’appuyer sur des probabilités pour prendre des décisions, un aspect essentiel dans de nombreux domaines d’application. Supposons que l’on cherche à déterminer si un courriel est un pourriel tout en tenant compte de l’incertitude liée à cette classification. Pour ce faire, notre modèle (« base de connaissances ») repose sur une distribution conjointe des probabilités de variables aléatoires.
Soit le tableau suivant :
Inconnu = vrai | Inconnu = faux | |||
---|---|---|---|---|
Sensible = vrai | Sensible = faux | Sensible = vrai | Sensible = faux | |
Pourriel = vrai | 0.108 | 0.012 | 0.072 | 0.008 |
Pourriel = faux | 0.016 | 0.064 | 0.144 | 0.576 |
- Pourriel : le courriel est identifé comme un pourriel par l’utilisateur
- Inconnu : l’adresse de l’expéditeur n’est pas connue du destinataire
- Sensible : le courriel contient un mot sensible
Il y a 3 variables aléatoires (Pourriel, Inconnu, et Sensible). Le tableau montre les probabilités pour chaque combinaison vrai/faux (la distribution conjointe des trois variables aléatoires).
La probabilité qu’un courriel soit
- sans mots sensibles,
- venant d’un destinataire inconnu,
- et classé comme du pourriel
est de \(0.012\).
\[ \begin{align*} P(Pourriel = vrai, Inconnu = vrai, Sensible = faux) = 0.012\\ \end{align*} \]
Notre base de connaissances ne décrit pas les relations causes-effets – ce n’est que des observations. Par contre, de telles statistiques peuvent être exploités. Par exemple, il est possible de créer un classifieur de pourriel automatique qui, malgré l’incertitude, catégorisera un nouveau courriel. Pour ce faire, il faut d’abbord se familiariser avec la théorie des probabilités.
Distribution de probabilités
Une pièce juste
Une distribution de probabilité est une fonction mathématique qui décrit l’ensemble des probabilités associées aux différentes valeurs qu’une variable aléatoire peut prendre. Elle spécifie les probabilités individuelles de chaque résultat possible d’une expérience aléatoire ou d’un processus stochastique.
Soit une pièce juste à deux côtés qui est lancé. Le côté visible est ensuite observé. La variable aléatoire \(X_1 = x\) représente la pièce, où \(x\) peut être \(pile\) ou \(face\). \[ P(X_1 = x_1) \begin{cases} P(X_1=face) = 0.5\\[5pt] P(X_1=pile) = 0.5 \end{cases} \]
Une distribution de probabilités peut aussi être exprimée avec un graphe :
La somme des probabilité de toutes les possibilités doit donner 1. Dit autrement, \(X_1\) doit être dans un état possible, après l’expérience.
Une pièce biaisée
Soit une pièce biaisée. La variable aléatoire \(X_2\) le résultat d’un lancé de cette pièce. Elle a 70% de chance d’être face.
\[ P(X_2 = x_2) \begin{cases} P(X_2=face) = 0.7\\[5pt] P(X_2=pile) = 0.3 \end{cases} \]
Une pièce juste et une biaisé
Soit les deux évènements \(X_1\) et \(X_2\) décrit précèdemment. Nous lanceons les deux pièces en même temps et observons \(\mathbf{X}_3\). La distribution de probabilités conjointe de \(\mathbf{X}_3\) est :
\[ P(\mathbf{X}_3 = (x_1, x_2)) = P(X_1 = x_1, X_2 = x_2) \begin{cases} P(X_1=face, X_2 = face) = 0.35\\[5pt] P(X_1=face, X_2 = pile) = 0.15\\[5pt] P(X_1=pile, X_2 = face) = 0.35\\[5pt] P(X_1=pile, X_2 = pile) = 0.15 \end{cases} \]
La distribution de probabilités avec tous les variables aléatoires (ici \(X_1\) et \(X_2\)) est une distribution de probabilité conjointe, c’est-à-dire l’ensemble des probabilités pour chaque états possibles \((X_1 = x_1, X_2 = x_2)\).
Deux dés 6 justes
Soit deux dés juste à six côtés. \(X_1\) est le résultat de lancer le premier dé. \(X_2\) est le résultat du deuxième dé.
\[X_1 = x_1,\ x_1 \in \{1,2,3,4,5,6\}\\ X_2 = x_2,\ x_2 \in \{1,2,3,4,5,6\}\]
La probabilité pour chaque valeur possible de \(x_1\) et de \(x_2\) est \(\frac{1}{6}\). La distribution de probabilité conjointes est donc la suivante :
Un dé juste et un biaisé
Supposons que le premier dé est maintenant biaisé. Sa distribution de probabilité est :Une distribution de probabilité normale
Les variables aléatoires peuvent aussi être continues, au lieu de discrètes. Leur distribution est souvent donnée par une fonction de densité de probabilité (PDF: probability density function). La fonction normale \(\mathcal{N}(\mu, \sigma)\) est courante comme fonction de densité.
Soit \(P(X_1 = x_1)\) une distribution de probabilité normale pour une expérience quelconque. La distribution normale à une moyenne \(\mu = 0.5\) et une variance \(\sigma = 1.2\). Aussi, \(P(X_2 = x_2)\) est une distribution de probabilité normale pour une autre expérience indépendante.
La distribution conjointe est la suivante :
Pourriel
Inconnu = vrai | Inconnu = faux | |||
---|---|---|---|---|
Sensible = vrai | Sensible = faux | Sensible = vrai | Sensible = faux | |
Pourriel = vrai | 0.108 | 0.012 | 0.072 | 0.008 |
Pourriel = faux | 0.016 | 0.064 | 0.144 | 0.576 |
Trouvons des distributions à partir de ce tableau de distribution conjointe. Soit les variables aléatoires \(Pourriel = p\), \(Inconnu = i\), \(Sensible = s\). \(\{p, i, s\} \subseteq \{vrai, faux\}\).
Distributions :
\(P(Pourriel = p)\) \[\begin{cases} P(Pourriel = vrai) = 0.108 + 0.012 + 0.072 + 0.008 = 0.200\\[10pt] P(Pourriel = faux) = 0.016 + 0.064 + 0.144 + 0.576 = 0.800 \end{cases}\]
\(P(Pourriel = p, Inconnu = i)\) \[\begin{cases} P(Pourriel = vrai, Inconnu = vrai) = 0.108 + 0.012 = 0.120\\[5pt] P(Pourriel = vrai, Inconnu = faux) = 0.072 + 0.008 = 0.080\\[10pt] P(Pourriel = faux, Inconnu = vrai) = 0.016 + 0.064 = 0.080\\[5pt] P(Pourriel = faux, Inconnu = faux) = 0.144 + 0.576 = 0.720\\[5pt] \end{cases}\]
\(P(Pourriel = p, Inconnu = i, Sensible = s)\) \[ \begin{cases} P(Pourriel = vrai, Inconnu = vrai, Sensible = vrai) = 0.108\\[5pt] P(Pourriel = vrai, Inconnu = vrai, Sensible = faux) = 0.012 \\[5pt] P(Pourriel = vrai, Inconnu = faux, Sensible = vrai) = 0.072\\[5pt] P(Pourriel = vrai, Inconnu = faux, Sensible = faux) = 0.008 \\[10pt] P(Pourriel = faux, Inconnu = vrai, Sensible = vrai) = 0.016\\[5pt] P(Pourriel = faux, Inconnu = vrai, Sensible = faux) = 0.064 \\[5pt] P(Pourriel = faux, Inconnu = faux, Sensible = vrai) = 0.144\\[5pt] P(Pourriel = faux, Inconnu = faux, Sensible = faux) = 0.576 \\[5pt] \end{cases}\]
Notez que la somme des probabilités pour chaque distribution est toujours 1.
Probabilité conjointe
Inconnu = vrai | Inconnu = faux | |||
---|---|---|---|---|
Sensible = vrai | Sensible = faux | Sensible = vrai | Sensible = faux | |
Pourriel = vrai | 0.108 | 0.012 | 0.072 | 0.008 |
Pourriel = faux | 0.016 | 0.064 | 0.144 | 0.576 |
Une assignation spécifique pour toutes les variables aléatoires est une probabilité conjointe.
Par exemple, soit les deux probabilités conjointes suivantes :
- \(P(Pourriel=vrai, Inconnu = vrai, Sensible=vrai) = 0.108\)
- \(P(Pourriel=vrai, Inconnu = faux, Sensible=faux) = 0.008\)
Probabilité marginale
Une assignation spécifique sur un sous-ensemble des variables aléatoires est une probabilité marginale. Dans une distribution conjointe, comme celle du pourriel, nous avons des probabilités conjointes. Nous pouvons tout de même calculer des probabilités marginales.
Pour des variables discrètes : \[ P(\mathbf{Y} = \mathbf{y}) = \sum_{\mathbf{z}} P(\mathbf{Y} = \mathbf{y}, \mathbf{Z} = \mathbf{z}) \]
Pour des variables continues : \[ P(\mathbf{Y} = \mathbf{y}) = \int P(\mathbf{Y} = \mathbf{y}, \mathbf{Z} = \mathbf{z}) \, d\mathbf{z} \]
Pour alléger le texte, simplifions \(vrai\) et \(faux\) à \(1\) et \(0\). Simplifions aussi le nom des variables aléatoires.
Par exemple : \[ \begin{align*} P(Po = 1, In = 1) &= P(Po = 1, In = 1, \underline{Se = 1}) + P(Po = 1, In = 1, \underline{Se = 0})\\ &= \sum_{x \in \{0, 1\}} P(Po = 1, In = 1, \underline{Se = x})\\ &= 0.012 + 0.108 = 0.120 \end{align*} \]
Une autre manière de le voir est que \(P(Po = 1, In = 1)\) est vrai que \(Se = 0\) ou \(Se = 1\).
Un autre exemple :
\[ \begin{align*} P(Po = 1) &= \sum_{x \in \{0, 1\}}\sum_{y \in \{0, 1\}} P(Po = 1, \underline{In = x}, \underline{Se = y})\\ &= P(Po = 1, In = 0) + P(Po = 1, In = 1)\\ &= \sum_{y \in \{0, 1\}} P(Po = 1, In = 0, \underline{Se = y}) + P(Po = 1, In = 1)\\ &= 0.008 + 0.072 + 0.012 + 0.108 = 0.2 \end{align*} \]
Probabilité d’un événement arbitraire
Pourquoi \(P(Po = 1\ ou\ In = 0) = 1 - P(Po = 0, In = 1)\) ?
\(1\) est la probabilité totale de l’ensemble des probabilité de la distribution conjointe. La probabilité marginale \(P(Po = 0, In = 1)\) est un sous-ensemble des probabilités conjointes \(\rightarrow \sum_{z \in \{0,1\}}P(Po = 0, In = 1, Se = z)\).
\[ \begin{align*} \sum_{x \in \{0,1\}} \sum_{y \in \{0,1\}}\sum_{z \in \{0,1\}}P(Po = x, In = y, Se = z) = 1\\[10pt] = \begin{array}{s} \quad P(Po = 0, In = 0, Se = 0) \\ + \, P(Po = 0, In = 0, Se = 1) \\ + \, P(Po = 0, In = 1, Se = 0) \\ + \, P(Po = 0, In = 1, Se = 1) \\ + \, P(Po = 1, In = 0, Se = 0) \\ + \, P(Po = 1, In = 0, Se = 1) \\ + \, P(Po = 1, In = 1, Se = 0) \\ + \, P(Po = 1, In = 1, Se = 1) \\ \end{array}\\[10pt] = P(Po = 1\ ou\ In = 0) + P(Po = 0, In = 1)\\ \end{align*} \]
Après nous isolons \(P(Po = 1\ ou\ In = 0)\) pour obtenir \[P(Po = 1\ ou\ In = 0) = 1 - P(Po = 0, In = 1)\] —
Sinon, pourquoi \(P(Po = 1) + P(In = 0) - P(Po = 1, In = 0)\) ? \[P(Po = 1) = \sum_{y \in \{0,1\}}\sum_{z \in \{0,1\}} P(Po = 1, In = y, Se = z)\\ P(In = 0) = \sum_{x \in \{0,1\}}\sum_{z \in \{0,1\}} P(Po = x, In = 0, Se = z)\]
Il faut soustraire \(P(Po = 1, In = 0)\) pour ne pas compter \(P(Po = 1, In = 0, Se = 0)\) et \(P(Po = 1, In = 0, Se = 1)\) deux fois !
Probabilité conditionnelle
La probabilité conditionnelle est la probabilité d’une variable aléatoire à condition d’une autre.
\[P(X = x | Y = y)\]
Elle peut être formulée comme « la probabilité que \(X = x\), sachant qu’\(Y = y\) ».
Par exemple, nous avons deux dés justes. Le résultat de lancer le premier dé est \(X_1\) et le deuxième est \(X_2\). \[ X_1 = x_1,\ x_1 \in \{1,2,3,4,5,6\}\\ X_2 = x_2,\ x_2 \in \{1,2,3,4,5,6\} \]
Nous savons que la distribution de probabilité \(P(X_1 = x_1)\) est \(\frac{1}{6}\) pour tous les états possibles. Nous savons aussi que \(P(X_2 = x_2)\) est la même.
\[\forall x_1,\ P(X_1 = x_1) = \frac{1}{6}\\ \forall x_2,\ P(X_2 = x_2) = \frac{1}{6}\]
La premier dé est lancé. Il tombe sur un \(6\). Ensuite, le deuxième dé est lancé. Quelle est la probabilité que le deuxième dé tombe sur un \(3\) ?
\[P(X_2 = 3 | X_1 = 6) = ?\]
Indépendance des variables aléatoires
Nous savons que \(P(X_2 = 3) = \frac{1}{6}\). Est-ce que cette probabilité change, sachant que le premier dé à retourné \(6\) ? En d’autres mots, est-ce que la valeur de \(X_1\) influence la distribution de probabilité \(P(X_2 = x_2)\) ?
L’espace d’échantillonnage pour le lancer de deux dés à six faces est de 36 résultats possibles (6 faces sur le premier dé multipliées par 6 faces sur le deuxième dé).
Lancer un premier dé n’influence pas le lancer d’autres dés. Quand les variables sont indépendantes, nous obtenons le suivant :
\[P(X_2 = x_2 | X_1 = x_1) = P(X_2 = x_2)\]
Peu importe la valeur observée de \(X_1\), la distribution \(P(X_2 = x_2)\) ne change pas.
Notez que la probabilité conditionnelle n’est pas équivalente à la probabilité conjointe des événements :
\[P(X_2 = 3 | X_1 = 6) \neq P(X_2 = 3, X_1 = 6)\\ \frac{1}{6} \neq \frac{1}{36}\]
Déterminer l’indépendance des variables aléatoires
Pour le cas des dés, l’indépendance est intuitivement évidente. Par contre, ceci n’est habituellement pas le cas. Par exemple, il n’est pas évident si le nom d’une personne influence ses chance d’obtenir un emploi à l’Université de Sherbrooke.
\[P(engager = vrai | nom = Robert)\ vs.\ P(engager = vrai | nom = Kim)\]
Si les variables \(engager\) et \(nom\) sont indépendantes, les deux probabilités conditionnelles ci-dessus devront être égales. \[P(engager = vrai | nom = \{Robert\ ou\ Kim\}) = P(engager = vrai)\]
Calculer la probabilité conditionnelle
\[P(X = x | Y = y) = \frac{P(X = x, Y = y)}{P(Y = y)}\]
Intuition Cette formulation n’est pas toujours intuitive. La régle du produit exprime la même équation en isolant la probabilité conjointe \(P(X = x, Y = y)\)
\[P(X = x, Y = y) = P(X = x | Y = y)P(Y = y)\]
Cette expression dit : « la probabilité d’avoir \(X = x\) et \(Y = y\) est égale à la probabilité que \(X = x\) à condition que \(Y = y\) fois la probabilité que \(Y = y\) arrive ».
Nous voyons que la probabilité conjointe et la probabilité conditionnelle ne sont pas équivalente. La probabilité conditionnelle seule ne donne pas la probabilité que \(Y = y\) arrive ; elle fait juste donner la probabilité pour \(X = x\) tenant pour acquis que \(Y = y\) est arrivé.
Sinon, le diagramme suivant montre que la probabilité conditionnelle \(P(X = x | Y = y)\) est le ratio de \(P(X = x, Y = y)\) occupé dans \(P(Y = y)\):
Exemple 1
Supposons que vous avez un jeu de 52 cartes à jouer et vous tirez une carte du paquet. Définissons les événements suivants :
- Événement X : La carte est rouge
- Événement Y : La carte est une figure (valet, dame ou roi)
Maintenant, vous souhaitez trouver la probabilité conditionnelle de tirer une carte rouge sachant que vous avez tiré une carte face, notée \(P(X = vrai | Y = vrai)\).
La probabilité de tirer une carte rouge est \(P(X = vrai) = \frac{26}{52} = \frac{1}{2}\) car la moitié du paquet est rouge.
La probabilité de tirer une figure est \(P(Y = vrai) = \frac{12}{52} = \frac{3}{13}\) car il y a trois figures dans chaque signe.
La probabilité conjointe de tirer une carte qui est rouge et une figure est \(P(X = vrai, Y = vrai) = \frac{1}{2} \times \frac{3}{13} = \frac{3}{26}\).
Maintenant, la probabilité conditionnelle de tirer une carte rouge sachant qu’elle est une figure :
\[ \begin{align*} P(X = vrai | Y = vrai) &= \frac{P(X = vrai, Y = vrai)}{P(Y = vrai)}\\ &= \frac{\frac{3}{26}}{\frac{3}{13}} = \frac{3}{26} \times \frac{13}{3} = \frac{39}{78} = 0.5 \end{align*} \]
Intuitivement, ceci est sensé. La moitié des cartes sont rouges, donc la moitié des figures sont aussi rouge. Aussi, \(X\) et \(Y\) sont indépendantes. Tirer une figure n’influence pas les chances qu’elle soit rouge ou noire. \[P(X = vrai | Y = vrai) = P(X = vrai) = 0.5\]
Exemple 2
\[P(Pourriel = faux | Inconnu = vrai) \neq P(Pourriel = faux)\\ 0.4 \neq 0.8\]
La valeur de la variable \(Pourriel\) est dépendante/influencée par la valeur d’\(Inconnu\).
Distribution conditionnelle
Inconnu = vrai | Inconnu = faux | |||
---|---|---|---|---|
Sensible = vrai | Sensible = faux | Sensible = vrai | Sensible = faux | |
Pourriel = vrai | 0.108 | 0.012 | 0.072 | 0.008 |
Pourriel = faux | 0.016 | 0.064 | 0.144 | 0.576 |
La distribution conditionnelle est l’ensemble de toutes les probabilités conditionnelles pour une variable aléatoire.
Exemple 1
\[ P(Po = p | In = 0)\\[10pt] = \begin{cases} P(Po = 0 | In = 0)\\[5pt] P(Po = 1 | In = 0)\\[5pt] \end{cases}\\ = \begin{cases} \frac{P(Po = 0, In = 0)}{P(In = 0)} = \frac{\sum_{s} P(Po = 0, I = 0, S = s)}{\sum_{p} \sum_{s} P(I = 0, Po = p, S = s)} = \frac{P(Po = 0, I = 0, S = 0) + P(Po = 0, I = 0, S = 1)}{\sum_{p} \sum_{s} P(I = 0, Po = p, S = s)} \\[5pt] \frac{P(Po = 1, In = 0)}{P(In = 0)} = \frac{\sum_{s} P(Po = 1, I = 0, S = s)}{\sum_{p} \sum_{s} P(I = 0, Po = p, S = s)} = \frac{P(Po = 1, I = 0, S = 0) + P(Po = 1, I = 0, S = 1)}{\sum_{p} \sum_{s} P(I = 0, Po = p, S = s)} \end{cases} \]
Soit \[ \alpha_{In = 0} = \sum_{p} \sum_{s} P(I = 0, Po = p, S = s)\\[10pt] \begin{cases} \alpha_{In = 0}[P(Po = 0, In = 0, Se = 0) + P(Po = 0, In = 0, Se = 1)] = 0.900\\[5pt] \alpha_{In = 0}[P(Po = 1, In = 0, Se = 0) + P(Po = 1, In = 0, Se = 1)] = 0.100\\[5pt] \end{cases} \]
La somme des probabilités de la distributions marginale égale \(1\), comme toutes distributions de probabilités.
Le coefficient \(\alpha_{n=0}\) vient des dénominateurs communs. Une distribution conditionnelle peut être vue comme une distribution normalisée afin de satisfaire les conditions de sommation à 1.
Exemple 2
\[ P(Po = p | In = i)\\[10pt] = \begin{cases} P(Po = 0 | In = 0)\\[5pt] P(Po = 1 | In = 0)\\[15pt] P(Po = 0 | In = 1)\\[5pt] P(Po = 1 | In = 1)\\[5pt] \end{cases}\\ = \begin{cases} \frac{P(Po = 0, In = 0)}{P(In = 0)} = 0.900\\[5pt] \frac{P(Po = 1, In = 0)}{P(In = 0)} = 0.100\\[15pt] \frac{P(Po = 0, In = 1)}{P(In = 1)} = \frac{\sum_{s} P(Po = 0, I = 1, S = s)}{\sum_{p} \sum_{s} P(I = 1, Po = p, S = s)} = \frac{P(Po = 0, I = 1, S = 0) + P(Po = 0, I = 1, S = 1)}{\sum_{p} \sum_{s} P(I = 1, Po = p, S = s)} \\[5pt] \frac{P(Po = 1, In = 1)}{P(In = 1)} = \frac{\sum_{s} P(Po = 1, I = 1, S = s)}{\sum_{p} \sum_{s} P(I = 1, Po = p, S = s)} = \frac{P(Po = 1, I = 1, S = 0) + P(Po = 1, I = 1, S = 1)}{\sum_{p} \sum_{s} P(I = 1, Po = p, S = s)} \end{cases} \] \[ \alpha_{In=1} = \sum_{p} \sum_{s} P(I = 1, Po = p, S = s)\\[10pt] \begin{cases} \alpha_{In=1}[P(Po = 0, In = 0, Se = 0) + P(Po = 0, In = 0, Se = 1)] = 0.400\\[5pt] \alpha_{In=1}[P(Po = 1, In = 1, Se = 0) + P(Po = 1, In = 1, Se = 1)] = 0.600\\[5pt] \end{cases} \]
Règle de chaînage
Souvenons-nous que \(P(X = x, Y = y) = P(X = x | Y = y)P(Y = y)\)
La règle du produit dit aussi que \[ P(X = x, Y = y) = P(Y = y | X = x)P(X = x)\\[5pt] \text{car } P(X = x, Y = y) = P(Y = y, X = x)\]
La probabilité conjointe pour \(3\) variables aléatoires \(X_1\), \(X_2\) et \(X_3\) peut être exprimée \[ \begin{align*} P(X_1 = x_1, X_2 = x_2, X_3 = x_3) &= \color{red}{P(X_3 = x_3 | X_1 = x_1, X_2 = x_2 )}P(X_1 = x_1, X_2 = x_2)\\ &= \color{red}{P(X_3 = x_3 | X_1 = x_1, X_2 = x_2)}\color{green}{P(X_2 = x_2 | X_1 = x_1)}\color{blue}{P(X_1 = x_1)} \end{align*} \]
La probabilité conjointe pour \(4\) variables aléatoires \(X_1\), \(X_2\), \(X_3\), et \(X_4\) : \[ \begin{align*} &P(X_1 = x_1, X_2 = x_2, X_3 = x_3, X_4 = x_4)\\ &= \color{red}{P(X_4 = x_4 | X_1 = x_1, X_2 = x_2, X_3 = x_3 )}P(X_1 = x_1, X_2 = x_2, X_3 = x_3)\\ &= \color{red}{P(X_4 = x_4 | X_1 = x_1, X_2 = x_2, X_3 = x_3)}\color{green}{P(X_3 = x_3 | X_1 = x_1, X_2 = x_2 )}P(X_1 = x_1, X_2 = x_2)\\ &= \color{red}{P(X_4 = x_4 | X_1 = x_1, X_2 = x_2, X_3 = x_3)}\color{green}{P(X_3 = x_3 | X_1 = x_1, X_2 = x_2 )}\color{blue}{P(X_2 = x_1| X_1 = x_1)}\color{purple}{(X_1 = x_1)} \end{align*} \]
La probabilité conjointe pour \(5\) variables aléatoires : \[ \begin{align*} &P(X_1, X_2 , X_3, X_4, X_5)\\ &= P(X_5 | X_1, X_2, X_3, X_4 )P(X_1, X_2, X_3, X_4)\\ &= \color{red}{P(X_5 | X_1, X_2, X_3, X_4 )}\color{green}{P(X_4| X_1, X_2, X_3)}\color{blue}{P(X_3| X_1, X_2)}\color{purple}{P(X_2 | X_1)}\color{darkorange}{P(X_1)}\\ \end{align*} \]
La probabilité conjointe pour \(n\) variables aléatoires : \[ \begin{align*} P(X_1, \dots, X_n) &= P(X_n | X_1, ..., X_{n-1})P(X_1, ..., X_{n-1})\\ &= P(X_n | X_1, ..., X_{n-1})P(X_{n-1} | X_1, ..., X_{n-2})P(X_{n-1}, ..., X_{n-2})\\ &= \dots\\ &= \prod_{i=1}^{n}P(X_i | X_i, \dots X_{i-1}) \end{align*} \]
Règle de Bayes
\[ \begin{align*} P(X = x, Y = y) &= P(X = x | Y = y)P(Y = y)\\ &= P(Y = y | X = x)P(X = x) \end{align*} \] \[ \begin{align*} P(X = x | Y = y)P(Y = y) &= P(Y = y | X = x)P(X = x) \end{align*} \] \[ P(Y = y | X = x) = \frac{P(X = x | Y = y)P(Y = y)}{P(X = x)} \]
Ceci permet de calculer \(P(Y = y | X = x)\) à partir de \(P(X = x | Y = y)\), \(P(Y = y)\) et \(P(X = x)\).
C’est pratique lorsque nous avons des bons estimers pour les trois probabilités et il faut calculer \(P(Y = y | X = x)\).
La règle de Bayes est \[P(cause | effet) = \frac{P(effet | cause)P(cause)}{P(effet)}\]
Nous pouvons calculer une diagnostique \(P(cause | effet)\) (quelle est la probabilité d’une cause sachant que nous avions observer des effets ?) selon une relation causale \(P(effet | cause)\).
Par exemple, un médecin connait \(P(symptômes | maladie)\) (il connait les symptômes venant d’une maladie) et il veut faire un diagnostique \(P(maladie | symptômes)\).
Il sait que la méningite cause les patients d’avoir un effet de maux au cou. Il sait que cela arrive 70% du temps. Le médecin sait aussi qu’un patient sur 50_000 a la méningite. Il sait aussi que la probabilité que n’importe quel patient aie des maux de cou est 1%.
Soit \(s\) l’évènement où le patient aie des maux de cou et \(m\) l’évènement où le patient a la méningite. \[P(s|m) = 0.7\\ P(m) = \frac{1}{50\ 000}\\ P(s) = 0.01 \]
Nous pouvons calculer la probabilité \(P(m | s)\) (probabilité que le patient aie la méningite sachant qu’il a mal au cou) : \[ P(m|s) = \frac{0.7\times 1/50\ 000}{0.01} = 0.0014 \]
On s’attend donc que 0.14% des patients avec des maux de cou ont la méningite. Malgré que 70% des gens souffrant de la méningite ont mal au cou, la probabilité d’avoir mal au cou (peu importe la cause) est considérablement plus élevé que la probabilité d’avoir la méningite.
Une autre manière de le voir : Le nombre de cas où on a mal au cou et la méningite est très petite à comparer de toutes les raisons possibles pourquoi on a mal au coup. Il ne faut pas diagnostiquer une méningite parce-que vous mal dormi au camping !
Indépendance conditionnelle
Soit les variables \(X\) et \(Y\). Elles sont independantes si et seulement si
\[ P(X | Y) = P(X)\\ P(Y | X) = P(Y)\\ P(X, Y) = P(X)P(Y) \]
L’indépendance entre les variables permet de réduire la taille de la distribution de probabilités et rendre les inférences plus efficaces. Dans l’exemple précédent, on n’a qu’à stocker en mémoire \(P(Pluie = vrai) = 0.3\) et \(P(Pourriel = vrai) = 0.1\), plutôt que la table au complet.
L’indépendance totale est puissante mais rare…
Dans le cas des pourriels, si nous savons déjà que le courriel est un pourriel, notre croyance (probabilité) qu’il contienne un mot sensible ne dépend plus du fait que l’expéditeur soit inconnu ou non.
\[P(Se = s | In = i, Po = 1) = P(Se = s | Po = 1)\]
De même : \[P(In = i | Se = s, Po = 1) = P(I = i | Po = 1)\]
Exprimé autrement, \[ P(Po = 1 | Se = s, In = i) = P(P = 1 | Se = s)\\ P(Po = 1 | In = i, Se = s) = P(P = 1 | In = i)\\[20pt] P(Po = p| In = i, Se = e) = P(Po = p| In = i)P(Po = p| Se = s) \]
La probabilité qu’un message soit du pourriel est dépendante de la présence de mots sensibles et si le destinateur est inconnu. Par contre, la probabilité qu’un message contienne un mot sensible n’est pas influncée par le destinateur. Pareillement, si le destinateur est connu ou non ne dépend pas de la présence d’un mot sensible.
Les effets sont conditionnellement indépendantes, même si la cause n’est pas indépendante.
Lorsque c’est le cas, nous pouvons simplifier le calcul d’une probabilité conjointe.
Supposons que nous avons 4 variables aléatoires. La distribution conjointe est : \[ \begin{cases} P(X_1 = 0, X_2 = 0, X_3 = 0, X_4 = 0)\\[5pt] P(X_1 = 0, X_2 = 0, X_3 = 1, X_4 = 0)\\[5pt] P(X_1 = 0, X_2 = 1, X_3 = 0, X_4 = 0)\\[5pt] P(X_1 = 0, X_2 = 1, X_3 = 1, X_4 = 0)\\[5pt] P(X_1 = 1, X_2 = 0, X_3 = 0, X_4 = 0)\\[5pt] P(X_1 = 1, X_2 = 0, X_3 = 1, X_4 = 0)\\[5pt] P(X_1 = 1, X_2 = 1, X_3 = 0, X_4 = 0)\\[5pt] P(X_1 = 1, X_2 = 1, X_3 = 1, X_4 = 0)\\[10pt] P(X_1 = 0, X_2 = 0, X_3 = 0, X_4 = 1)\\[5pt] P(X_1 = 0, X_2 = 0, X_3 = 1, X_4 = 1)\\[5pt] P(X_1 = 0, X_2 = 1, X_3 = 0, X_4 = 1)\\[5pt] P(X_1 = 0, X_2 = 1, X_3 = 1, X_4 = 1)\\[5pt] P(X_1 = 1, X_2 = 0, X_3 = 0, X_4 = 1)\\[5pt] P(X_1 = 1, X_2 = 0, X_3 = 1, X_4 = 1)\\[5pt] P(X_1 = 1, X_2 = 1, X_3 = 0, X_4 = 1)\\[5pt] P(X_1 = 1, X_2 = 1, X_3 = 1, X_4 = 1)\\[5pt] \end{cases}\\ \]
\[ \begin{align*} P(X_1, X_2, X_3, X_4) &= P(X_4 | X_1, X_2, X_3) P(X_1, X_2, X_3) \\ &= P(X_4 | X_1, X_2, X_3) P(X_3 | X_1, X_2) P(X_1, X_2)\\ &= P(X_4 | X_1, X_2, X_3) P(X_3 | X_1, X_2) P(X_2 | X_1) P(X_1)\\ \end{align*} \]
Si \(X_1\) est la cause et \(X_{\{2,3,4\}}\) sont des effets conditionnellement indépendante, nous pouvons simplifier le tout : \[ \begin{align*} P(X_1, X_2, X_3, X_4) &= P(X_4 | X_1, X_2, X_3) P(X_1, X_2, X_3) \\ &= P(X_4 | X_1, X_2, X_3) P(X_3 | X_1, X_2) P(X_1, X_2)\\ &= \color{blue}{P(X_4 | X_1) P(X_3 | X_1) P(X_2 | X_1) P(X_1)}\\ \end{align*} \]
\[ \begin{cases} \alpha [P(X_4 = 0, X_1 = 0) + P(X_4 = 0, X_1 = 1)]\\[5pt] \alpha [P(X_4 = 1, X_1 = 0) + P(X_4 = 1, X_1 = 1)]\\[5pt] \alpha [P(X_3 = 0, X_1 = 0) + P(X_3 = 0, X_1 = 1)]\\[5pt] \alpha [P(X_3 = 1, X_1 = 0) + P(X_3 = 1, X_1 = 1)]\\[5pt] \alpha [P(X_2 = 0, X_1 = 0) + P(X_2 = 0, X_1 = 1)]\\[5pt] \alpha [P(X_2 = 1, X_1 = 0) + P(X_2 = 1, X_1 = 1)]\\[5pt] \alpha = P(X_1) \end{cases}\\ \]
Au lieu d’avoir besoin d’une table avec 16 probabilités, nous pouvons nous en sortir avec seulement 7. Au lieu d’être \(O(2^n)\), la complexité devient \(O(n)\).
En bref
<>