L’analyse des données est un sous domaine des statistiques qui se préoccupe de la description de données conjointes. On cherche par ces méthodes à donner les liens pouvant exister entre les différentes données et à en tirer une information statistique (La statistique est à la fois une science formelle, une méthode et une technique. Elle...) qui permet de décrire de façon plus succincte les principales informations contenues dans ces données (Dans les technologies de l'information (TI), une donnée est une description élémentaire, souvent...). On peut également chercher à classer les données en différents sous groupes plus homogènes: un exemple d'utilisation d'un tel classement serait celui de la reconnaissance automatique (L'automatique fait partie des sciences de l'ingénieur. Cette discipline traite de la...) des pourriels.
Un type d'analyse des données (L’analyse des données est un sous domaine des statistiques qui se préoccupe de la...), ou, plus précisément ici, de data profiling, serait l'analyse simultanée de l’âge, du sexe (Le mot sexe désigne souvent l'appareil reproducteur, ou l’acte sexuel et la...) et de la catégorie socioprofessionnelle des joueurs de golf; la bibliométrie fait également largement appel à l'analyse de la publication des revues scientifiques afin de calculer, par exemple, leur « facteur d'impact ».
Dans l'acception française, la terminologie analyse des données désigne un sous-ensemble (En mathématiques, un ensemble A est un sous-ensemble ou une partie d’un ensemble B, ou...) de ce qui est appelé plus généralement la statistique (Une statistique est, au premier abord, un nombre calculé à propos d'un échantillon....) multivariée. Elle comprend principalement :
Ces méthodes permettent notamment de manipuler et de synthétiser l’information provenant de tableaux de données de grande taille.
Pour cela, il est très important de bien estimer les corrélations entre les variables que l’on étudie. On a alors souvent recours à la matrice des corrélations (ou la matrice de variance-covariance) entre les variables.
Les pères de l’analyse des données sont :
De nombreux logiciels permettent d'effectuer de l'analyse des données directe ou indirecte.