Abonnez-vous

En probabilités : l’inégalité de Bienaymé-Tchebychev


Daniel Justen

Résumer un ensemble d’observations au moyen de quelques nombres clefs est essentiel. Mais dans quelle mesure ces nombres nous renseignent-ils sur les fréquences de certains intervalles ? L’inégalité de Bienaymé-Tchebychev est là pour apporter une première réponse quantitative.

L’étude de nombreux phénomènes se traduit souvent par la récolte de valeurs numériques représentant les mesures objectives d’une série d’éléments caractérisant les phénomènes en question. Intéressons-nous ici au cas simplifié dans lequel un seul élément est mesuré sur un certain nombre, n, d’unités statistiques (objets susceptibles de fournir une mesure). Cette situation donne naissance à la suite numérique x1, x2 xn correspondant aux n mesures. Les exemples de ce cas de figure sont courants dans les applications. On cherche alors à résumer « le mieux possible » cet ensemble de nombres, en introduisant d’une part une valeur centrale et, d’autre part, une mesure de dispersion. Depuis les travaux de Carl Friedrich Gauss (1777‒1855), on choisit souvent comme valeur centrale la moyenne arithmétique et, comme mesure de dispersion, la variance. Le premier de ces paramètres minimise la somme des carrés des écarts entre les mesures effectuées et tout nombre constant, le second ventile cet écart total minimum sur le nombre d’observations.

 

 

Moyenne et variance

 

Si l’on note m la moyenne et s2 la variance, on peut écrire, par définition :

 

La variance n’a pas la même unité de mesure que la variable étudiée (si m est en mètres, s2 est en mètres carrés ; si m s’exprime en euros, s2 s’exprime en « euros carrés », etc.). Pour retrouver l’unité initiale, on introduit l’écart-type s, défini comme la racine carrée (positive) de la variance.

Que nous apportent les deux paramètres moyenne et écart-type sur la proportion d’observations appartenant à différents intervalles centrés en la moyenne et de longueurs proportionnelles à l’écart-type ? C’est à cette question que répond l’inégalité découverte par le mathématicien français Jules Bienaymé en 1853 et démontrée par le mathématicien russe Pafnouti Lvovitch Tchebychev (1821‒1894) quelques années plus tard. Voyons quel fut leur raisonnement.

 

 

 

Bienaymé, un mathématicien à redécouvrir

 

Le mathématicien et statisticien français Jules Bienaymé connut une carrière chaotique pour des raisons politiques, passant de l’École polytechnique à l’école militaire de Saint-Cyr, avant d’enseigner à la Sorbonne, après un passage à l’administration des finances. Outre la fameuse égalité qui porte son nom, il proposa des compléments sur la méthode des moindres carrés, sur le théorème central limite et d’importants résultats en actuariat vie. Étudiant les processus d’extinction, il établit que la probabilité q d’extinction d’un nom de famille dépendait du nombre moyen d’enfants mâles issus d’un même parent mâle, qu’il note m. Si m ≤ 1, il montre que = 1. Pour > 1, il vérifie que < 1. Bref : encore et toujours des inégalités !

 

 

 

Soit k un nombre réel positif. Intéressons-nous à l’intervalle [m ‒ ks ; m + ks]. Certaines observations peuvent être extérieures à cet intervalle. Bien évidemment, quel que soit k, le nombre de ces observations sera forcément inférieur ou égal à n, le nombre total de mesures. Limitons alors la somme des carrés d’écarts aux observations extérieures, c’est-à-dire pour lesquelles on a |xi ‒ m| > ks.

Comme on supprime de ce fait un certain nombre de termes dans la somme calculant la variance, on en tire :

 

Soit a (k) le nombre de termes de la nouvelle somme, quantifiant le nombre d’observations extérieures à l’intervalle considéré. Chacun des termes de la somme partielle est, par construction, supérieur à k2 s2. La dernière somme calculée peut ainsi être majorée :

Le paramètre qui nous intéresse est précisément la proportion de termes extérieurs à l’intervalle de départ, c’est-à-dire a(k)/n. En considérant uniquement le premier et le dernier élément de nos inégalités successives, on trouve :

Par complémentarité, on obtient évidemment une borne inférieure pour la fréquence (notée f ) correspondant à l’intervalle qui nous intéresse, à savoir :

f ([m ks ; m + ks]) ≥ 1 – 1/k2.

On constate que cette inégalité n’apporte d’information que pour des valeurs de k strictement supérieures à 1. Observons également qu’aucune hypothèse n’est formulée pour son obtention, quant à la répartition des observations. Ce résultat est donc totalement général.

 


Le rapport avec la loi des grands nombres

 

Les lois faibles des grands nombres (en particulier le théorème central limite) expriment la convergence en loi (de probabilité) des sommes de variables indépendantes. Pour être rigoureux, elles établissent que toute variable « somme » d’un « grand » nombre de variables indépendantes converge (dans un certain sens) après réduction (voir encadré) vers une distribution normale centrée et réduite (c’est-à-dire de moyenne 0 et d’écart-type 1). Précisons qu’il s’agit de la convergence des fonctions de répartition des variables vers la fonction de répartition de la loi normale (0, 1), et non de la convergence des variables en elles-mêmes. Mais cela nous suffit pour être à même de calculer des probabilités.

 

 

Réduction de variables

 

Soit une série statistique de mesures effectuées sur un échantillon d’unités bien choisies (variable X), à savoir x1, x2 xn. On calcule les moyenne et variance de cette série selon les formules exprimées dans le texte. La variable réduite s’obtient en remplaçant ces mesures par leurs écarts relatifs à la moyenne, en unités d’écart-type. La variable réduite Xréd est donc :

La moyenne de Xréd est alors nulle (on l’a construite pour ça !), son écart-type et sa variance valent 1 (par construction également). Les variables réduites n’ont pas d’unité de mesure.

 

 

 

Des conclusions moins puissantes

 

Sous l’hypothèse de normalité, en notant m la moyenne et s l’écart-type (et en prenant
k  = 1,96), la probabilité d’observer des valeurs appartenant à l’intervalle
[m ‒ 1,96s ; m + 1,96s] est très exactement de 95 %.

Dans les cas pratiques, on se contente souvent de choisir k = 2.

L’inégalité de Bienaymé‒Tchebychev livre quant à elle un résultat nettement moins satisfaisant :

f ([m ‒ 2s ; m + 2s]) ≥ 1 – 1/4 = 0,75.

Pour simplifier, dans le cas de mesures d’éléments très élaborées, qui peuvent être considérées comme des sommes, on fait souvent l’hypothèse de normalité.

 

 

 


références

Les statistiques et leur décodage. Bibliothèque Tangente 34, 2009.
Les applications de la statistique. Hors-série 86 de Tangente, 2023.