L’inégalité d'Azuma, parfois appelée inégalité d'Azuma-Hoeffding, est une inégalité de concentration concernant les martingales dont les accroissements sont bornés. C'est une généralisation de l'inégalité de Hoeffding, une inégalité de concentration ne concernant, elle, que les sommes de variables aléatoires indépendantes et bornées.
Un des énoncés les plus courants est
Notons que le choix
Le principe de Maurey a été énoncé pour la première fois par Maurey dans une note au Compte rendus de l'Académie des Sciences en 1979, et découvert plus tard, semble-t-il indépendamment, par Harry Kesten, en théorie de la percolation. Il est d'usage fréquent en théorie des graphes aléatoires, dans l'analyse des algorithmes randomisés, et en théorie de la percolation. Il est parfois appelé method of bounded differences ou MOBD.
Soit deux ensembles A et B et soit
Définition — Une application
Autrement dit, si les deux applications coincident à l'intérieur de
Théorème — On suppose
On considère la filtration filtration
Pour
Ainsi
Comme les
Ainsi
Mais les deux triplets
Par conséquent
Dans cet exemple, l'intérêt d'une inégalité de concentration précise est de justifier une méthode statistique de comptage approximatif pouvant servir, par exemple, à déceler une attaque de virus informatique.
On jette m boules au hasard dans n boites, expérience probabiliste dont un évènement élémentaire
Pour le choix
Une inégalité plus précise est obtenue en appliquant la de l'inégalité d'Azuma.
Il s'agit d'estimer le nombre m d'utilisateurs différents, identifiés, à un noeud du réseau, par l'entête du paquet de données qu'ils envoient. L'idée est qu'une attaque de virus ne se traduit pas par une augmentation décelable du volume du trafic (le gros du volume étant fourni, par exemple, par des téléchargements de fichiers, lesquels sont scindés en nombreux paquets qui ont tous la même entête, caractérisant le même utilisateur), mais par une augmentation drastique du nombre d'utilisateurs différents, à cause d'un envoi massif et concerté de mails (tous de petit volume, comparés à des téléchargements).
Chaque fois qu'un paquet de données est reçu à un noeud du réseau, l'utilisateur b émetteur du paquet est reconnu à l'aide de l'entête
On reçoit un grand nombre (P) de paquets en un laps de temps très court. On dispose seulement de n cases mémoires et on veut compter le nombre m d'utilisateurs différents émetteurs de ces paquets. Par manque de place mémoire, il est impossible de stocker au fur et à mesure les entêtes des paquets déjà reçus, et par manque de temps il serait impossible de tester si une nouvelle entête reçue fait partie de la liste des entêtes déjà récoltées. Un calcul exact de m est donc impossible. On se donne alors n cases, numérotées de 1 à n, considérées comme libres, ou bien occupées. Au départ toutes les cases sont considérées comme libres. A chaque paquet reçu, l'entête correspondante est hachée, produisant un nombre U aléatoire uniforme sur [0,1], et la case n°
Ainsi l'état de l'ensemble des n cases après réception des P paquets ne dépend pas du volume P du trafic, mais uniquement de la suite des m entêtes hashées
est assez précise pour permettre de reconstituer le ratio r=m/n, et, partant de là, le nombre m d'utilisateurs différents, inconnu jusque là, en fonction de X et de n, qui sont connus : on choisit comme approximation de r le nombre