L’une des situations les plus célèbres qui relève du calcul des probabilités est donnée par le lancer d'un dé, supposé non truqué. On représente cette situation par l’ensemble Ω = {1, 2, 3, 4, 5, 6} des différentes issues possibles de l’expérience. Pour calculer la probabilité d’obtenir un nombre pair, par exemple, on commence par déterminer le nombre d’éléments pairs de Ω (il y en a 3), puis on le divise par le nombre total d’éléments de Ω (ici 6). Le quotient 3/6, qui se simplifie en 1/2, correspond à la probabilité cherchée.
Les premiers travaux en théorie des probabilités ont suivi cette voie de pur dénombrement, qui est toutefois vite apparue comme trop réductrice. Il arrive en effet que le dé soit déséquilibré (ou truqué, suppose-t-on parfois…), c’est-à-dire que son centre de masse ne soit pas confondu avec le centre du cube, ou que ses faces ne soient pas tout à fait identiques. Dans ce cas, les éléments de Ω n’ont pas tous les mêmes chances de sortir. Pour englober ce cas, et plus généralement ceux où les différentes issues possibles d’une expérience aléatoire n’ont pas les mêmes chances de se produire, il faut aller plus loin.
Une idée pour cela consiste à affecter à chaque élément ω de Ω une valeur P(ω) qui correspond à la probabilité que ω soit le résultat du lancer. Si, par exemple, le dé tombe deux fois plus souvent sur 6 que sur les autres faces (qui, elles, gardent les mêmes chances de tomber les unes que les autres), alors on aura :
P(1) = P(2) = P(3) = P(4) = P(5) = 1/7 et P(6) = 2/7.
En effet, par hypothèse, les probabilités de 1 à 5 sont toutes égales à une même valeur p, et la probabilité de 6 est égale à 2p. La valeur de p s’obtient alors à l’aide d’une hypothèse complémentaire : les probabilités s’ajoutent, tout comme dans notre premier exemple la probabilité de l’ensemble {2, 4, 6} des nombres pairs s’obtenait en ajoutant les probabilités des nombres 2, 4 et 6. Puisque la probabilité de Ω tout entier doit être égale à 1 (c’est-à-dire qu’il y a 100 % de chances que le dé donne un résultat entre 1 et 6), on a
1 = P(Ω)
= P({1, 2, 3, 4, 5, 6})
= P(1) + P(2) + P(3) + P(4) + P(5) + P(6)
= p + p + p + p + p + 2p = 7p,
et donc p = 1/7, qui est le résultat annoncé.
L’additivité des probabilités
Comme on le voit, nous ne sommes pas restés cantonnés longtemps aux probabilités de chacune des faces pour travailler. En effet, nous avons eu besoin de donner un sens plus étendu à la fonction P, pour l’appliquer non aux éléments de Ω mais aux parties de Ω. En outre, nous avons fait usage d’une propriété d’additivité : si A et B sont deux parties de Ω sans élément commun, alors P (A ⋃ B ) = P (A ) + P (B ).
Lorsque Ω a un nombre fini d’éléments, on peut souvent estimer que ce qui précède suffit. Le problème, c’est que les probabilités débordent vite. Songeons que même dans une expérience aussi simple que compter le nombre de lancers nécessaires d’un dé avant d’obtenir 6, l’ensemble des issues possibles doit déjà contenir tous les entiers naturels ! Or comme on le sait, dès que l’infini s’en mêle, les paradoxes surviennent. En voici un. On tire un nombre réel aléatoirement entre 0 et 1 (par exemple en marquant au hasard un point sur un segment de longueur 1), en supposant que toutes les zones de même longueur de l’intervalle [0 ; 1] ont les mêmes chances de contenir le point aléatoirement tiré. La probabilité que le nombre soit entre a et b est donc égale à la longueur de l’intervalle [a ; b] (plus exactement au rapport entre la longueur de [a ; b] et la longueur de Ω = [0 ; 1], cette dernière étant égale à 1).
Pour toutes valeurs a et b telles que 0 ≤ a ≤ b ≤ 1 on a donc : P ([a ; b]) = b – a.
Et voici le paradoxe : la probabilité d’atteindre n’importe quelle valeur a étant égale à 0 (elle se calcule par la formule P ([a ; a]) = a – a), la somme des probabilités de toutes les valeurs de l’intervalle [0 ; 1] doit être nulle elle aussi.
Sauf que, bien sûr, P ([0 ; 1]) = 1 – 0 = 1 !
La solution à ce genre de paradoxes a été formalisée par le mathématicien russe Andreï Kolmogorov au début des années trente du XXe siècle. L’idée centrale consiste à restreindre l’additivité des probabilités au cas dénombrable : si (An )n ≥ 1 est une suite de parties de Ω deux à deux disjointes, alors, oui, la probabilité de leur réunion est bien la somme des probabilités des An. Mais on ne se donne pas le droit de sommer davantage. Ça tombe bien : l’ensemble des points de [0 ; 1] n’est pas dénombrable (c’est-à-dire qu’on ne peut pas former une suite (xn)n≥1 qui en contienne la totalité des éléments), ce qui fait disparaître notre paradoxe qui repose sur une additivité portant sur un ensemble non dénombrable. Obtenu par Cantor au XIXe siècle, le fait qu’il existe des infinis de « tailles » différentes constitue donc un pilier nécessaire à la théorie des probabilités.
Andreï Nikolaïevitch Kolmogorov (1903-1987).
En plus de l’additivité dénombrable, un autre point à considérer concerne les parties de Ω auxquelles on peut appliquer la fonction P. Pour des raisons diverses qui vont de considérations fort abstraites sur la théorie des ensembles (notamment l’axiome du choix) à des limitations très concrètes sur le type d’ensembles sur lequel on peut envisager de travailler, il est nécessaire de se doter d’un ensemble de parties de Ω, appelées événements, qui sont celles dont il y a du sens à vouloir calculer la probabilité. Parfois, comme c’est en général le cas lorsque Ω est un ensemble fini, n’importe quelle partie de Ω constitue un événement, ce qui dispense en pratique d’en parler. Mais dans d’autres situations, seules certaines parties de Ω peuvent être retenues, selon des modalités qui font écho aux propriétés requises pour la fonction P.
Espaces probabilisés
C’est après avoir établi ces règles sur Ω, et P que, enfin, peut surgir la définition moderne d’espace probabilisé. En seulement quelques lignes, celle-ci offre un cadre qui permet de travailler sur le hasard d’une façon entièrement axiomatisée. Grâce à Kolmogorov, la théorie des probabilités est ainsi devenue un domaine d’une parfaite cohérence, dont la rigueur n’a plus rien à envier à n’importe quelle autre branche des mathématiques.
Définition complète d’un espace probabilisé
Un espace probabilisé est un triplet (Ω, , P ), où :
• Ω (l’ensemble des événements élémentaires) est un ensemble quelconque.
• (la tribu des événements) est un ensemble de parties de Ω (les événements) disposant des propriétés suivantes :
- Ω est un événement (c’est-à-dire que Ω ∈ ) ;
- si A est un événement alors son complémentaire Ac aussi (en particulier, puisque Ω ∈ , on a automatiquement que ∅ ∈ ) ;
- si (An )n ≥ 1 est une suite d’événements alors leur réunion aussi.
• P (la fonction probabilité) est une application de à valeur dans [0, 1] telle que :
- P(Ω) = 1 ;
- pour tout événement A, P(Ac) = 1 – P(A) (et donc P(∅) = 0) ;
- (additivité dénombrable) si (An)n≥1 est une suite d’événements deux-à-deux disjoints, alors