C’est quoi les Bayes ?
Je vais partir ici d’un exemple classique pour présenter (et réviser) quelques concepts de base de l’approche bayésienne en statistique. L’exemple en question sera celui d’un test médical permettant de déterminer si une personne est atteinte ou non d’une pathologie.
Testons
Imaginons donc que nous disposons d’un test avec les caractéristiques suivantes :
- sa sensibilité est de 95%, c’est-à-dire que si la personne testée est malade, le résultat du test est positif dans 95% des cas.
- sa spécificité est de 90%, c’est-à-dire que si la personne testée n’est pas malade, le résultat du test est négatif dans 90% des cas.
On notera que ce sont des valeurs déjà très élevées, donc un test plutôt “fiable”.
On se pose la question suivante : si je prends quelqu’un parfaitement au hasard dans la rue, que je lui fais passer le test et que celui-ci est positif, quelle est la probabilité que la personne soit malade ?
Intuitivement et spontanément on pourrait être tenté de répondre “95%” mais ça n’est pas la bonne réponse. En effet, 95% c’est la probabilité que le test est positif quand la personne est malade, or nous cherchons l’inverse : la probabilité que la personne est malade quand le test est positif, ce qui n’est pas du tout la même chose.
Calculons
Pour répondre à notre question, nous allons décomposer le problème. La personne que nous avons choisie au hasard peut-être dans deux états différents : malade ou non. Ensuite, pour chacun de ces deux états, le résultat du test peut-être soit positif, soit négatif, ce qui donne donc au final quatre issues possibles. On peut représenter tout ça graphiquement par un arbre :
On peut compléter notre arbre en rajoutant les probabilités liées au résultat du test. On sait par exemple que si une personne est malade, la probabilité d’un test positif est de 95% et celle d’un test négatif de 5% :
De la même manière, on peut compléter les probabilités de résultat du test si la personne n’est pas malade :
Pour calculer les probabilités des quatre issues possibles il nous manque une information indispensable : la probabilité qu’une personne prise au hasard soit malade ou non. Pour cette probabilité on va utiliser le taux d’incidence de la maladie, c’est-à-dire le pourcentage de la population a priori malade. Par exemple, si on s’intéresse à une pathologie qui touche en moyenne une personne sur 100, ce taux d’incidence et donc la probabilité d’être malade sera de 1%, soit 0,01.
On peut donc à nouveau compléter notre arbre :
Maintenant, imaginons que nous faisons passer un test à 10 000 personnes prises au hasard. On complète notre arbre et on indique le nombre d’individus qui se retrouvent dans chaque situation :
On peut dès lors calculer le nombre total de personnes ayant eu un test positif :
\(990 + 95 = 1085\)
Parmi ces 1085 personnes, combien sont réellement malades ? 95. La probabilité d’être malade quand on a eu un résultat de test positif est donc :
\(\frac{95}{1085} = 8.75\,\%\)
On est très loin de nos 95%1 !
Théorème de Bayes
En créant nos arbres et en calculant les différentes probabilités, on a en fait utilisé le théorème de Bayes qui s’énonce ainsi :
\[P(A/B) = \frac{P(B/A) \times P(A)}{P(B)}\]
où \(P(A)\) est la probabilité de l’évenement \(A\), et \(P(A/B)\) la probabilité de l’événement \(B\) sachant que l’événement \(A\) s’est réalisé. Dans notre exemple, \(A\) correspond à “la personne est malade”, tandis que \(B\) correspond à “le test est positif”. On peut donc l’écrire :
\[P(\text{personne malade} / \text{test positif}) = \frac{P(\text{test positif} / \text{personne malade}) \times P(\text{personne malade})}{P(\text{test positif})}\]
Qu’on peut réécrire :
\[P(\text{personne malade} / \text{test positif}) = \frac{P(\text{test positif} / \text{personne malade}) }{P(\text{test positif})} \times P(\text{personne malade})\]
Dans cette équation, on peut remarque que \(P(\text{personne malade})\) est la probabilité que la personne soit malade avant qu’elle passe le test. On appelle cette probabilité la probabilité a priori. De la même manière, \(P(\text{personne malade} / \text{test positif})\) est la probabilité que la personne soit malade une fois qu’on connaît le résultat du test. On appelle cette probabilité la probabilité a posteriori.
On peut donc considérer que le résultat du test apporte une information nouvelle qui permet de mettre à jour la probabilité a priori d’être malade pour en déduire une nouvelle probabilité “actualisée” :
De l’importance des a priori
Cette approche permet de mettre en évidence qu’on doit absolument tenir compte de la probabilité a priori pour interpréter le test, et pas seulement de ses caractéristiques propres comme la sensibilité ou la spécificité. Le test n’est pas à lui seul une information suffisante pour tirer des conclusions : on a besoin d’informations supplémentaires.
On a vu que si on appliquait le test à une personne au hasard, avec un taux d’incidence de 1%, on passait d’une probabilité d’être malade de 1% à une probabilité d’être malade de 8,75%. Imaginons maintenant qu’on fait passer le test à une personne qui présente des symptômes de la maladie. On sait d’expérience que les personnes présentant ces symptômes n’ont plus une probabilité d’être malade de 1%, mais de 30%. On a ainsi changé notre probabilité a priori :
Imaginons à nouveau qu’on reproduit cette expérience sur 10 000 personnes présentant les mêmes symptômes :
La probabilité d’être malade avec un résultat de test positif est donc cette fois :
\[\frac{2850}{2850 + 700} = 80,3\,\%\]
On a donc réalisé la “mise à jour” de probabilité suivante :
Mettre à jour son postérieur
On a vu qu’en testant une personne au hasard, la probabilité qu’elle soit malade était de 8,75%. Que se passe-t-il si on lui fait passer un deuxième test qui lui aussi est positif ?
Dans ce cas, 8,75% qui était la probabilité a posteriori du premier test devient la probabilité a priori du second. C’est cette probabilité qu’on va cette fois mettre à jour à l’aide du résultat du deuxième test :
Si on reproduit auprès de 10 000 personnes :
La probabilité a posteriori d’être malade après un deuxième test positif devient donc :
\[\frac{831,3}{831,3 + 912,5} = 47,7\,\%\]
En enchaînant deux tests on a donc actualisé deux fois la probabilité d’être malade en apportant deux fois de nouvelles informations (les résultats des tests) :
Concluons
En guise de conclusion, quelques points à retenir concernant l’approche bayésienne (dans son expression la plus simple) :
- en statistique bayésienne, on a besoin de connaître les probabilités a priori. Cela peut sembler contre intuitif, mais c’est en fait souvent indispensable, comme on l’a vu dans l’exemple présenté ici.
- on utilise l’information apportée par un événement ou par une observation pour actualiser cette probabilité a priori.
- cette “mise à jour” permet de déterminer une probabilité a posteriori qui tient compte de l’information apportée par l’événement.
Dans l’exemple présenté ici on a utilisé une probabilité “ponctuelle” (la probabilité d’être malade), mais les méthodes bayésiennes peuvent aussi s’utiliser notamment pour mettre à jour des distributions de probabilité.
Notes
Cet argument est souvent utilisé en défaveur du dépistage systématique de maladies dont l’incidence est peu élevée, car un dépistage de ce type peut générer un grand nombre de “faux positifs” (personnes détectées positives mais n’étant en réalité pas malades).↩︎