Exploration de données - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

Logiciels

Le Datamining n'existerait pas sans l'informatique. L'offre est présente sous la forme de logiciels bien entendu, mais aussi quelques plateformes sont proposées. De nombreux logiciels sont présents dans la sphère des logiciels commerciaux, mais il en existe aussi dans celle des logiciels libres. Il n'y a pas de meilleurs logiciels que d'autres tout dépend de ce qu'on veut en faire.Les logiciels commerciaux sont plus destinés aux entreprises, tandis que les logiciels libres sont destinés plus particulièrement aux étudiants et à ceux qui veulent expérimenter des techniques nouvelles. En 2009 les outils les plus utilisés sont, dans l'ordre, SPSS, RapidMiner, SAS, Excel, R, KXEN, Weka, Matlab, Knime,Microsoft Sql Server, Oracle DM, Statistica,......Voilà une présentation très succinte de quelques-uns de ces logiciels:

KXEN Analytic Framework™

KXEN Analytic Framework™ est un logiciel commercial de DataMining édité par la société KXEN basée en Californie et fondée en 1998. Les modules de KXEN Analytic Framework™ permettent la prédiction, la segmentation, les associations (panier de la ménagère), la prévision à l'aide de KPIs, le texte Mining et l'analyse des réseaux sociaux.

KNIME

Le logo de Knime..

KNIME(prononcer NAÏM) - (Konstanz Information Miner) - est un logiciel libre édité par le Nycomed Chair for Bioinformatics and Information Mining, qui est une chaire de l'université de Constance (Konstanz). Il intègre tous les modules d'analyse de Weka (voir ci-dessous) et permet de créer des scripts en langage R (voir ci-dessous). Comme tous les logiciels libres KNIME est facilement extensible.

Logiciel R

Le logo de R..

R est un language et un environnement pour effectuer des calculs statistiques et créer leurs graphiques. C'est un projet GNU qui est semblable au langage S et à son environnement créé aux Laboratoires Bell (anciennement AT&T, maintenant Lucent Technologies) par John Chambers et ses collègues. R peut être considéré comme une autre mise en oeuvre de S. Il y a quelques différences importantes, mais beaucoup de code écrit pour S s'exécute inchangé sous R. R fournit un large éventail de de techniques statistiques et graphiques (modélisation linéaire et non linéaire, tests statistiques classiques, analyse des séries chronologiques, classification, clustering, ...), et peut être fortement étendu. Le langage S est souvent le véhicule de choix pour la recherche en matière de méthodologie statistique, et R fournit une voie open source à la participation à cette activité. Un des atouts de R est la facilité avec laquelle des graphiques bien conçus de qualité digne de publications peuvent être produits, y compris des symboles mathématiques et des formules si besoin est. Un grand soin a été accordé à la prise en charge des options par défaut pour les choix mineurs dans la conception des graphiques, mais l'utilisateur conserve le contrôle complet de ces options. R est disponible comme logiciel libre sous les termes de la « Free Software Foundation's GNU General Public License » sous la forme de code source. Il se compile et s'execute sous une grande variété de plates-formes UNIX et de systèmes similaires (y compris FreeBSD et Linux), Windows et MacOS.

Microsoft Sql Server

Microsoft™ propose une solution de data mining limitée, déduite de son offre Business intelligence, soit en utilisant les outils de développement associés à SSAS™ (pour les développeurs), soit en utilisant l'Add-in Data mining proposé pour EXCEL™ 2007 ou Powerpivot™ pour les Statisticiens.

Orange

Orange est un logiciel libre créé à l'université de Ljubljana, Slovenie. Ce logiciel est doté d'une interface Homme-Machine extrêmement conviviale. Il est développé en C++ et Python. Chaque algorithme se présente sous la forme de Widget pouvant avoir une entrée et une sortie; ils sont agencés dans un canvas.

RapidMiner

RapidMiner est un logiciel libre, distribué par la société Rapid-I, basée à Dortmund, Allemagne. RapidMiner est un logiciel intégrant la Business Intelligence (ETL, OLAP, Reporting,..) et le Data Mining (SVM, ACP, arbres de décision, réseaux neuronaux..).

SAS

SAS® Enterprise Miner™ est un outil commercial de data mining édité par la société SAS Institute Inc(Statistical Analysis System), société créée en 1976 à Raleigh, Caroline du Nord, USA. SAS® Enterprise Miner™ est un logiciel offrant toutes les facettes du Data Mining dont le process est facilité par son interface Homme-Machine (GUI) bien conçue.

SPSS

Le logo SPSS..

SPSS™ (Statistical Package for the Social Sciences) est un logiciel Statistiques, édité par la filiale d'IBM™ du même nom, qui se décompose en plusieurs modules dont SPSS Modeler (Data mining), SPSS Amos ( Modèle d'équation structurelle), Predictive Analytics (Analyse prédictive)....

Statistica Data Miner

STATISTICA Data Miner™, de la société Statsoft, Inc, est un logiciel commercial de data mining intégrant des techniques statistiques et de réseaux de neurones avancées.

Tanagra

Tanagra est un logiciel libre de Data Mining développé sous la direction de Ricco Rakotomalala du laboratoire ERIC de l'université Lumière Lyon 2. Tanagra permet d'effectuer les traitements d'analyses factorielles (ACP, AFC,ACM, régression PLS ), de clustering (avec l'algorithme des k-means et l'algorithme hiérarchique ascendant), de classification . Tanagra permet aussi d'importer des fichiers au format weka.

Weka

Le logo Weka.

Weka(Waikato Environment for Knowledge Analysis) est un logiciel libre de data mining, créé par l'université de Waikato, Nouvelle-Zélande. Le Weka est un oiseau endémique de la Nouvelle-Zélande. Weka est une collection d'algorithmes d'apprentissage automatique créés pour effectuer des tâches d'exploration de données (data mining). Les algorithmes peuvent soit être appliqués directement à un ensemble de données soit appelé de votre propre code Java. Weka contient des outils pour les pré-traitements des données, la classification, la régression, le clustering, les règles d'association, et la visualisation. Il est également bien adapté au développement de nouveaux schémas pour l'apprentissage automatique. C'est un logiciel open source publié sous la Licence Publique Générale GNU.

Page générée en 0.139 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales
Version anglaise | Version allemande | Version espagnole | Version portugaise