Analyse des données - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

L’analyse des données est un sous domaine des statistiques qui se préoccupe de la description de données conjointes. On cherche par ces méthodes à donner les liens pouvant exister entre les différentes données et à en tirer une information statistique (La statistique est à la fois une science formelle, une méthode et une technique. Elle...) qui permet de décrire de façon plus succincte les principales informations contenues dans ces données (Dans les technologies de l'information (TI), une donnée est une description élémentaire, souvent...). On peut également chercher à classer les données en différents sous groupes plus homogènes: un exemple d'utilisation d'un tel classement serait celui de la reconnaissance automatique (L'automatique fait partie des sciences de l'ingénieur. Cette discipline traite de la...) des pourriels.

Un type d'analyse des données (L’analyse des données est un sous domaine des statistiques qui se préoccupe de la...), ou, plus précisément ici, de data profiling, serait l'analyse simultanée de l’âge, du sexe (Le mot sexe désigne souvent l'appareil reproducteur, ou l’acte sexuel et la...) et de la catégorie socioprofessionnelle des joueurs de golf; la bibliométrie fait également largement appel à l'analyse de la publication des revues scientifiques afin de calculer, par exemple, leur « facteur d'impact ».

Dans l'acception française, la terminologie analyse des données désigne un sous-ensemble (En mathématiques, un ensemble A est un sous-ensemble ou une partie d’un ensemble B, ou...) de ce qui est appelé plus généralement la statistique (Une statistique est, au premier abord, un nombre calculé à propos d'un échantillon....) multivariée. Elle comprend principalement :

  • L’analyse en composantes principales (ACP), utilisée pour des données quantitatives.
  • L’analyse factorielle (En mathématiques, la factorielle d'un entier naturel n, notée n!, ce qui se lit soit...) discriminante (AFD) ou analyse discriminante (L’analyse factorielle discriminante ou analyse discriminante est une technique statistique...) qui permet d’identifier des groupes homogènes au sein de la population du point (Graphie) de vue (La vue est le sens qui permet d'observer et d'analyser l'environnement par la réception et...) des variables étudiées,
  • L'analyse factorielle des correspondances (L'analyse factorielle des correspondances, en abrégée AFC, est une méthode...) (AFC), utilisée pour des données qualitatives (tableau d’association).
  • La classification automatique.
  • L’analyse en composantes indépendantes (ACI).
  • L'iconographie des corrélations (En analyse des données, l'iconographie des corrélations est une méthode qui consiste...), pour des données qualitatives et quantitatives.

Ces méthodes permettent notamment de manipuler et de synthétiser l’information provenant de tableaux de données de grande taille.

Pour cela, il est très important de bien estimer les corrélations entre les variables que l’on étudie. On a alors souvent recours à la matrice des corrélations (ou la matrice de variance-covariance) entre les variables.

Les pères de l’analyse des données sont :

  • Jean-Paul Benzécri
  • John Tukey (John Wilder Tukey (16 juin 1915 - 26 juillet 2000) est l'un des plus importants...) (sous le terme de Exploratory Data Analysis, ou EDA)
  • Chikio Hayashi (sous le terme de Data Sciences)

De nombreux logiciels permettent d'effectuer de l'analyse des données directe ou indirecte.

Page générée en 0.006 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales | Partenaire: HD-Numérique
Version anglaise | Version allemande | Version espagnole | Version portugaise