Bernoulli | |
---|---|
Paramètres | ![]() ![]() |
Support |
![]() |
Densité de probabilité (fonction de masse) |
![]() |
Fonction de répartition | ![]() |
Espérance |
![]() |
Médiane (centre) | non disponible |
Mode |
![]() |
Variance |
![]() |
Asymétrie (statistique) |
![]() |
Kurtosis (non-normalisé) |
![]() |
Entropie |
![]() |
Fonction génératrice des moments |
![]() |
Fonction caractéristique |
![]() |
modifier |
En mathématiques, la distribution de Bernoulli ou loi de Bernoulli, du nom du mathématicien suisse Jacques Bernoulli, est une distribution discrète de probabilité, qui prend la valeur 1 avec la probabilité p et 0 avec la probabilité
L'espérance mathématique d'une variable aléatoire de Bernoulli vaut p et la variance vaut p(1-p).
Le kurtosis tend vers l'infini pour des valeurs hautes et basses de p, mais pour
Une variable aléatoire suivant la loi de Bernoulli est appelée variable de Bernoulli.
La loi de Bernoulli est la loi de la variable aléatoire qui code le résultat d'une épreuve de Bernoulli de la manière suivante : 1 pour "succès", 0 pour "échec", ou quel que soit le nom qu'on donne aux deux issues d'une épreuve de Bernoulli.
Plus généralement, toute application mesurable à valeur dans {0,1} est une variable de Bernoulli. Autrement dit, toute fonction indicatrice mesurable suit la loi de Bernoulli.
Réciproquement, pour toute variable de Bernoulli X définie sur (Ω,A,P), on peut trouver un ensemble mesurable B tel que X et la fonction indicatrice de B soient presque sûrement égaux : toute variable de Bernoulli est presque sûrement égale à une fonction indicatrice.
Écrire une variable aléatoire N, comptant un nombre d'évènements dans une situation donnée, comme la somme d'une famille de variables de Bernoulli, permet souvent de calculer simplement l'espérance de N, comme étant la somme des paramètres de ces variables de Bernoulli:
On utilise le fait que, pour une variable de Bernoulli, le paramètre p est à la fois l'espérance et la probabilité de la valeur 1 :
Cette méthode simplifie aussi le calcul de la variance de N, dans certains cas. On trouvera ci-dessous quelques exemples, parmi les plus représentatifs, de cette méthode de comptage très répandue.
On effectue une série de n tirages au hasard dans une population. On pose la même question à chacun des n individus tirés au hasard. Le but est d'estimer la proportion p d'individus de la population totale qui auraient répondu "oui" (si on leur avait posé la question) à l'aide du nombre N d'individus qui ont effectivement répondu "oui" parmi les n individus interrogés. On remarque que N peut s'écrire
où X1 , X2 , ... , Xn sont définies par
i.e. Xk vaut 1 ou 0 selon que la réponse du k-ème individu est "oui" ou "non". Étant une fonction indicatrice, Xk est donc une variable de Bernoulli. Son paramètre est "la probabilité de répondre "oui"", à savoir la proportion de "oui" dans la population totale, c'est-à-dire p. On a donc
D'où l'idée, proposée par Bernoulli dans son ouvrage fondateur "Ars Conjectandi", d'estimer cette proportion p a priori inconnue à l'aide de la proportion N/n de "ouis" dans l'échantillon, qui est, elle, connue. Dans le but de déterminer la précision de cette estimation, Bernoulli a proposé dans le même ouvrage les premières inégalités de concentration (pour la loi binomiale). Une approche plus simple (mais produisant des inégalités de concentration plus grossières) que celle de Bernoulli, serait de calculer la variance de N, dans l'idée d'appliquer l'inégalité de Bienaymé-Tchebychev. A ce stade, il est nécessaire de préciser
Dans les deux cas considérés ci-dessus, la loi de N est connue explicitement. Cependant, le calcul de l'espérance de N utilisant la décomposition de N en somme de variables de Bernoulli, présenté ci-dessus, est plus simple que le calcul de l'espérance de N utilisant le théorème de transfert :
La même remarque vaut pour le calcul de la variance.
En statistiques, la fonction de répartition empirique associée à un n-échantillon est la fonction de répartition de la loi de probabilité qui attribue la probabilité 1/n à chacun des n nombres de cet échantillon.
Soit
Pour un x fixé, la variable
Pour divers sens du mot « convergence », la fonction de répartition empirique converge vers la fonction de répartition F des
ce qui démontre la convergence de Fn (x) vers F(x), dans L2 .
Le temps de séjour (ou nombre de passages) d'une chaîne de Markov
L'état
où
lequel paramètre
On jette m boules au hasard dans n boites, expérience probabiliste dont un évènement élémentaire ω est une application de
où X1 , X2 , ... , Xn sont définies par
i.e. Xk vaut 1 ou 0 selon que la k-ème boite est vide ou pas. Étant une fonction indicatrice d'évènement, Xk est donc une variable de Bernoulli. Son paramètre est "la probabilité d'être vide", i.e. la probabilité que chacune des m boules ait évité la boîte n°k. Chacune des m boules ayant une probabilité 1/n de tomber dans la boîte n°k, et les allocations des m boules étant indépendantes, on obtient
puis
Grace à cette décomposition en somme de variables de Bernoulli, on peut obtenir une inégalité de concentration précise pour N, en appliquant l'inégalité d'Azuma. Cette inégalité de concentration permet de justifier une méthode statistique de comptage approximatif basée sur la statistique N, et pouvant servir, par exemple, à déceler une attaque de virus informatique.
Remarque : La loi de probabilité de N s'exprime explicitement en terme des nombres de Stirling de seconde espèce, mais les expressions obtenues sont peu propices au calcul numérique, d'où la nécessité d'une approximation via l'inégalité d'Azuma.
On jette n boules numérotées au hasard dans n boites numérotées, chacune de ces boites contenant au plus une boule, expérience probabiliste dont un évènement élémentaire
où X1 , X2 , ... , Xn sont définies par
i.e. Xk vaut 1 ou 0 selon que la k-ème boite contient la k-ème boule ou pas. Étant une fonction indicatrice d'évènement, Xk est donc une variable de Bernoulli. Son paramètre est 1/n . On obtient que
En suivant une démarche analogue à celle suivie pour un , on trouve que
Le principe d'inclusion-exclusion permet de calculer exactement la loi de N, et de constater que cette loi converge, lorsque n tend vers l'infini, vers la loi de Poisson de paramètre 1. Cet exemple est représentatif : en général, la loi de Poisson de paramètre
On considère un texte ω=ω1ω2ω3 ... ωm constitué de m caractères d'imprimerie tous tirés au hasard, avec remise, d'un sac contenant exactement une fois chaque caractère d'imprimerie. On note
où X1 , X2 , ... , Xm-r+1 sont définies par
i.e. Xk vaut 1 ou 0 suivant que la suite a apparait dans le texte ω, juste après le k-1-ème caractère de ce texte ω, ou pas. Étant une fonction indicatrice d'évènement, Xkest donc une variable de Bernoulli. Son paramètre est
Ainsi
L'intuition est alors qu'il faut un texte ω de longueur au moins m=nr pour que l'évènement
Le paradoxe du singe dactylographe, popularisé par Émile Borel, exploite les propriétés de N lorsque la longueur r de la séquence de caractères a est très grande. Dans l'exemple donné par Émile Borel, la séquence a est un texte classique de la littérature française, par exemple le texte intégral de "La Comédie humaine".
L'analyse statistique des suites de caractères tirés au hasard indépendamment, ou tirés au hasard suivant des modèles plus sophistiqués, a de nombreuses applications, comme l'analyse des performances de différentes méthodes de compression de données, ou encore l'étude du génome, et est à l'origine de la formalisation, par Andreï Markov, de la notion de chaîne de Markov.
Définition — Dans une suite u=(uk)1≤k≤n, il y a record vers le bas (resp. vers le haut) au rang k si uk est strictement plus petit (resp. strictement plus grand) que chaque terme ui tel que i
Exemple. Les records vers le bas de la suite ω ci-dessous sont en gras et soulignés :
Soit B(k) (resp. H(k)) l'évènement "il y a record vers le bas (resp. vers le haut) au rang k". Autrement dit, B(k) est l'ensemble des permutations ω de
En vertu des propriétés statistiques du code de Lehmer, ces variables de Bernoulli ont pour paramètres respectifs 1/k :
Ainsi
où Hn désigne le n-ème nombre harmonique. Comme, toujours en vertu des propriétés statistiques du code de Lehmer, les variables de Bernoulli concernées sont indépendantes, on a également
où Hn(2) est le nombre harmonique défini par
et converge vers ζ(2), i.e. vers π2/6.
La correspondance fondamentale de Foata permet de montrer que les deux applications suivantes :
sont deux variables aléatoires ayant même loi de probabilité. Cette loi de probabilité s'exprime en terme des nombres de Stirling de première espèce, notés
ce qui donne une formule exacte, mais peu explicite, pour
En revanche, l'écriture de Nb comme somme de variables de Bernoulli permet d'appliquer à Nb le théorème central limite. Ainsi, on constate que le nombre de cycles d'une permutation tirée au hasard, comme son nombre de records, sont très concentrés autour leur espérance, qui vaut approximativement ln n. Plus précisément :
pour a=3,3.
L'algorithme de tri rapide, également appelé Quicksort, est un des algorithmes les plus utilisés pour ranger, dans l'ordre croissant, une liste désordonnée x= (x1 , x2 , x3 , ... , xn ) de n articles, à l'aide d'un petit nombre de comparaisons deux à deux. En effet Quicksort est réputé à la fois simple et efficace. Quicksort se déroule de la manière suivante :
Une implémentation concrète de cet algorithme abstrait est décrite par Don Knuth dans The art of computer programming.
La performance de Quicksort, dans le pire des cas (pire des cas qui correspond à une liste déjà bien rangée, dans l'ordre croissant ou décroissant), est de l'ordre de n2 comparaisons deux à deux. Pour cette raison, une liste constituée de concaténations de listes bien rangées (configuration fréquente en pratique) coûtera cher à ranger, en nombre de comparaisons effectuées. Le remède souvent adopté pour pallier cette faiblesse de Quicksort est de désordonner artificiellement la liste avant de la traiter : on note ω=(ω(1), ω(2), ω(3), ... , ω(n)) les rangs respectifs des éléments (x1 , x2 , x3 , ... , xn ) de la liste désordonnée au préalable, une fois que ces éléments sont rangés en une liste croissante (y1 < y2 < y3 < ... < yn ), de sorte que xi =yω(i) . On suppose donc que la liste a été prétraitée de sorte que ω soit une permutation tirée au hasard avec équiprobabilité parmi les n! permutations possibles. On note N(ω) le nombre de comparaisons effectuées par l'algorithme. Alors
où A(i,j) est l'évènement "yi et yj sont comparés une fois au cours de l'algorithme". En découle une analyse élémentaire du coût moyen de Quicksort, plus simple que la méthode classique utilisant une formule de récurrence et un calcul de fonction génératrice.
Proposition — On a
et
Il y a deux possibilités :
La répartition des j-i+1 éléments de la liste L dans la liste x est aléatoire uniforme, donc la probabilité qu'un élément particulier z de la liste L apparaisse le premier dans la liste x est 1/(j-i+1). Ainsi
et
où Hn désigne le n-ème nombre harmonique. La 4ème égalité provient du changement de variables
Ainsi la randomisation de la liste fournie en entrée permet de diminuer le coût de l'algorithme, de n2 à 2n ln(n). Une analyse plus poussée permet de démontrer que N est très concentré autour de sa moyenne 2n ln(n). Plus précisément, la variance de N est asymptotiquement (7-(2π2/3)) n2. Notons que le coût (coût moyen ou coût dans le pire des cas) de n'importe quel algorithme de tri utilisant des comparaisons 2 à 2 est minoré par ln(n!)/ln(2) qui, d'après la formule de Stirling, vaut approximativement 1,4... n ln(n).