Ainsi il va être possible de tirer parti de connaissances préalables pour enrichir l’utilisation de données expérimentales.
Cela est indispensable dans le cas où les données expérimentales :
- Sont peu ou très peu nombreuses (situation fréquente en développement de nouveaux produits/services par exemple ou lorsque la collecte de données a un coût élevé)
- Elles représentent incomplètement le phénomène étudié
- Elles sont insuffisamment fiables
Il y a même des cas ou l’approche expérimentale est impossible et seule le connaissance a priori va nous permettre de prendre une décision: vais-je gagner au loto ? vais-je « attraper » le covid ? Va-t-il pleuvoir demain (information disponible à priori grâce à l’expertise de Météo France) ?
Sans entrer dans le détail des calculs nous allons traiter un exemple simple pour montrer l’intérêt de la démarche.
Dans une approche classique (dite « fréquentiste ») seule les données seront utilisées alors dans l’approche bayésienne on va pouvoir utiliser aussi les connaissances a priori ( opinion d’experts, études diverses faites antérieurement sur le sujet,…).
L’exemple
Dans une petite élection locale un candidat souhaite savoir s’il a des chances d’être élu.
Il décide de faire un sondage auprès de ses électeurs potentiels mais son budget très limité ne lui permet pas de bénéficier des services d’un institut de sondage.
Il décide donc de faire le sondage avec les moyens du bord (conseillé toutefois par un statisticien pour éviter tout biais d’échantillonnage et pour la méthodologie : administration et analyse).
Il ne peut matériellement interroger plus de 100 personnes.
Avec un nombre aussi faible la précision de l’estimation sera mauvaise.
Avec 100 on a une précision de +/- 10% (loi binomiale).
Il faut au moins 400 réponses pour espérer une précision meilleure que +/-5%.
Voir tableau ci-dessous :
Precision (d) | Estimated Sample Size |
---|---|
1% | 9999 |
2% | 2500 |
3% | 1112 |
4% | 625 |
5% | 400 |
6% | 278 |
7% | 205 |
8% | 157 |
9% | 124 |
10% | 100 |
15% | 45 |
20% | 25 |
25% | 16 |
Le sondage donne finalement un résultat de 49 opinions favorables . Ce qui fait une proportion de 49%+/-10% soit une fourchette de 39% - 59%
Encourageant mais Impossible donc de savoir avec certitude s’il sera élu (c’est possible mais incertain)
Le statisticien lui conseille l’approche bayésienne pour tenter d’améliorer l’estimation.
Il fait le point sur la situation et consulte un expert politologue de ses amis.
Le résultat est que plusieurs éléments méritent d’être pris en compte :
- Il est le seul candidat à être originaire de sa ville et il est conseiller municipal chargé des sports
- Il est aussi président du club de foot qui fonctionne bien et a une gestion saine
- Il a un solide réseau d’amis dont certains sont influents et le soutiennent ouvertement
- Ses adversaires principaux sont plus marqués politiquement dans des parties extrêmes
- Par contre un élément moins favorable est la multiplicité des candidatures propre à morceler l’électorat
Fort de ces informations l’expert lui assure que ses chances d’être élu sont bien réelles. Il est même capable d’affirmer qu’une estimation raisonnable serait certainement supérieure à 50% mais compte tenu du contexte ne pourrait dépasser 60%.
Cette fourchette de 50%-60% peut être utilisée pour l’inférence en statistiques bayésiennes.
Les calculs donnent maintenant une fourchette de 49%-58% avec une probabilité de dépasser les fameux 50% (d’être élu donc) de plus de 97 chances sur 100 (0.974).
Le candidat a finalement été élu avec 56.5% des voix
Les statistiques bayésiennes : une approche dynamique
Un point important est l’acquisition progressive de connaissance associé aux approches bayésienne
Et la mise à jour de nos perceptions a priori
En effet si notre candidat avait réalisé une deuxième enquête celle-ci serait alors intégrée dans le processus bayésien et viendrait « enrichir » sa connaissance et mettre à jour ses chances.
De la même façon l’impact d’un évènement essentiel pouvant modifier le comportement des électeurs pourrait aussi être intégré a priori (grâce à l’expert) pour évaluer la probabilité de gagner l’élection si l’évènement est positif, ou de la perdre s’il s’agit d’un évènement négatif.
Laisser un commentaire