|
-
Nouveau site pour Sipina - 19-05-2015
Le site Sipina a été transféré à cette adresse : http://sipina-arbres-de-decision.blogspot.fr/
-
Sipina - Version 3.12 - 19-05-2014
Le transfert entre le tableur Excel et Sipina a été fiabilisé sur les bases de taille modérée (sur les grandes bases, plusieurs centaines de milliers d?observations, mieux vaut toujours passer par l?importation directe de fichier au format texte .TXT)....
-
Multithreading pour l'analyse discriminante linéaire - 30-10-2013
Outre les arbres de décision qui restent quand même son véritable terrain de prédilection, le logiciel SIPINA intègre d?autres méthodes supervisées. Certes, les mêmes sont disponibles dans Tanagra (qui ? lui - ne propose pas les arbres graphiques interactifs),...
-
Sipina - Version 3.11 - 30-05-2013
Une nouvelle version multithread de l?analyse discriminante linéaire est ajoutée dans Sipina 3.11. Par rapport à la précédente, elle présente le double avantage (1) de pouvoir utiliser tous les ressources disponibles sur les machines à processeurs multi-c?urs...
-
Sipina - Version 3.10 - 23-05-2013
L?analyse discriminante linéaire a été améliorée. Toutes les opérations sont réalisées en une seule passe sur les données. Une version multithreadée de l?analyse discriminante linéaire a été ajoutée. Elle améliore la rapidité d?exécution en répartissant...
-
Sipina - Version 3.9 - 22-03-2012
L'add-on « SipinaLibrary.oxt » a été rajouté à la distribution. A partir d'un menu additionnel intégrée au tableur CALC, il permet de lancer directement le logiciel SIPINA sur une sélection de données. L'add-on fonctionne pour les suites bureautiques...
-
Sipina - Version 3.8 - 18-01-2012
Les logiciels (SIPINA RESEARCH, REGRESS et ASSOCATION RULE SOFTWARE) associés à la distribution SIPINA ont été mis à jour avec plusieurs améliorations. SIPINA.XLA. La macro complémentaire fonctionne indifféremment les versions 32 et 64 bits d?Excel (testée...
-
Arbres de décision sur les "très" grandes bases (suite) - 30-12-2011
Triturer des très grands fichiers était de fantasme ultime du data miner a-t-on coutume de dire. Etant passé récemment à un système 64 bits (mieux vaut tard que jamais), je me propose d?étudier le comportement des outils spécifiquement dédiés à ce système,...
-
Arbres de décision sur les grandes bases (suite) - 13-12-2011
S?endormir sur ses lauriers est impossible en informatique. Tout évolue très vite : matériel, système, logiciel. C?est un de ses principaux attraits d?ailleurs. La vérité d?aujourd?hui n?est pas celle d?hier, elle sera peut être différente demain, il...
-
Le logiciel REGRESS dans la distribution SIPINA - 18-05-2011
Peu de personnes le savent. En réalité, plusieurs logiciels sont installés lorsque l'on récupère et que l'on exécute le SETUP de SIPINA (cf. LIENS - Télécharger SIPINA). Je n'en parle pas beaucoup parce que les autres techniques proposées (Régression...
-
Dessin "smart" de l'arbre dans la version 3.6 - 16-03-2011
Un étudiant est venu me voir un jour pour me dire que le dessin de l'arbre de Sipina n'était pas très " smart " par rapport à certains logiciels commerciaux, dont on voit des copies d'écran dans des ouvrages bien connus. Il trouvait ça dommage parce que...
-
Multithreading pour les arbres de décision - 02-12-2010
Une grande partie des PC modernes sont équipés de processeurs multi-c?urs. Dans les faits, l'ordinateur fonctionne comme s'il disposait de plusieurs processeurs. Certains d'ailleurs, les gros serveurs notamment, en disposent effectivement. Les logiciels...
-
Déploiement de modèles avec PMML - 29-09-2010
Le déploiement des modèles est une étape importante du processus Data Mining. Dans le cadre de l'apprentissage supervisé, il s'agit de réaliser des prédictions en appliquant les modèles sur des observations non étiquetées. Nous avons décrit à maintes...
-
Add-in Sipina pour Excel 2007 et 2010 - 27-08-2010
La macro complémentaire sipina.xla participe largement à la diffusion du logiciel Sipina. Dans un environnement qui lui est familier, le tableur, l'utilisateur peut manipuler / transformer / recoder les données à sa guise avant de les envoyer vers le...
-
Sipina - Présentation de l'ancienne version 2.5 - 19-05-2010
En travaillant sur la traduction du tutoriel décrivant l'implémentation des graphes d'induction à l'aide de la version 2.5 de SIPINA, je suis tombé sur un ancien document de présentation de la dite version. Le texte est assez ancien. Il est directement...
-
Arbres de décision interactifs avec SPAD - 07-03-2010
Dans ce didacticiel, nous montrons la mise en ?uvre des Arbres de Décision Interactifs (IDT - Interactive Decision Tree) de SPAD 7.0 sur un jeu de données constitué d'un classeur Excel décomposé en 3 feuilles : (1) on doit construire un arbre de décision...
-
Discrétisation - Comparaison de logiciels - 26-02-2010
La discrétisation consiste à découper une variable quantitative en intervalles. Il s'agit d'une opération de recodage. De quantitative, la variable est transformée en qualitative ordinale. Nous devons répondre à deux questions pour mener à bien l'opération...
-
Induction de règles prédictives - 29-11-2009
L?induction de règles tient une place privilégiée dans le Data Mining. En effet, elle fournit un modèle prédictif facilement interprétable, on sait lire sans connaissances statistiques préalables un modèle de prédiction de type « Si condition Alors Conclusion...
-
Sipina - Traitement des très grands fichiers - 21-10-2009
Triturer les très grands fichiers est le fantasme ultime du data miner. On veut pouvoir traiter de très grandes bases dans l'espoir d'y déceler des informations cachées. Malheureusement, rares sont les logiciels libres qui peuvent les appréhender. Tout...
-
Sipina - L'échantillonnage dans les arbres - 18-10-2009
Lors de l?induction d?un arbre de décision, l?algorithme doit détecter la meilleure variable de segmentation pour chaque n?ud que l?on souhaite partitionner. L?opération peut prendre du temps si le nombre d?observations est très élevé. Ceci d?autant plus...
-
Sipina - Traitement des données manquantes - 14-10-2009
L?appréhension des données manquantes est un problème difficile. La gestion informatique en elle-même ne pose pas de problème, il suffit de signaler la valeur manquante par un code spécifique. En revanche, son traitement avant ou durant l?analyse des...
-
Stratégie "wrapper" pour la sélection de variables - 20-05-2009
La sélection de variables est un aspect essentiel de l?apprentissage supervisé. Nous devons déterminer les variables pertinentes pour la prédiction des valeurs de la variable à prédire, pour différentes raisons : un modèle plus simple sera plus facile...
-
Sipina - Formats de fichiers - 21-02-2009
L?accès aux données est la première étape du processus Data Mining. Lorsque nous souhaitons initier un traitement à l?aide d?un logiciel quelconque, la première question que nous nous posons est systématiquement « comment dois-je procéder pour importer...
-
Sipina sous Linux - 21-01-2009
Je suis dans la période où je (re)découvre Linux. J'avais étudié récemment la possibilité de travailler avec Tanagra sous Linux via Wine, simplement, sans contorsions compliquées. Nous montrons dans ce document qu'il est possible de faire de même avec...
-
Traitement de gros volumes - Sipina et les autres - 12-10-2008
Dans ce document, nous comparons les performances de SIPINA avec celles de plusieurs implémentations libres lors du traitement d?un fichier de taille relativement importante, avec 500.000 observations et 22 variables. Nous avons utilisé la méthode C4.5...