Академический Документы
Профессиональный Документы
Культура Документы
Cette tude a t conduite en utilisant diffrentes sources et en exploitant des rsultats obtenus sur le terrain partir de tests mens en parallle avec Web
Site Watcher et KB Crawl. Cette grille a t labore en tentant d'tre le plus exhaustif possible, en tenant compte des grilles existantes. Les prsentations des
rubriques des diffrentes grilles existantes dans la littrature et des contenus sont trs variables. Cette grille suit un plan logique d'analyse, de droulement de
prise en main et d'utilisation potentiel.
Sources utilises:
Grille d'valuation des produits du groupe de travail veille automatise du rseau ARPIST (compte-rendu de runion en novembre 2006) et du
groupe MRCT (Mission des Ressources et Comptences Technologiques ): http://www.arpist.cnrs.fr/rubrique.php3?id_rubrique=7
Le site du
Secrtariat Gnral de la dfense Nationale <http://www.sgdn.gouv.fr/> dont dpend la Mission du Haut Responsable en Charge de
l'Intelligence Economique (HRIE) <http://www.intelligence-economique.gouv.fr/> dite 2 brochures: le Guide d'aide la formulation de besoin ,
28/04/2006, n 102/SGDN/IE: http://www.intelligence-economique.gouv.fr/IMG/pdf/Grille_d_aide_a_la_formulation_du_besoin.pdf et le Guide d'aide
l'valuation des outils de TAI , 28/04/2006, n 103/SGDN/IE: http://www.intelligence-economique.gouv.fr/IMG/pdf/evaluation_des_outils_de_TAI.pdf
Le tutorial de formation ECRIN Pratique et valuation des mthodes et outils avancs de traitement de l'information pour la veille et l'intelligence
conomique 30 mai au 1er juin 2007.
Quel apport des professionnels de lIST dans le dispositif de veille d'un organisme de recherche? - Annexe
Corinne BRACHET-DUCOS Mmoire INTD/CNAM, Cycle Suprieur Octobre 2007
Plan de la grille:
Identit du produit
Spcifications techniques
Fonctionnalits de surveillance et collecte : gestion des sources Fonctionnalits par nature des sources surveilles
Fonctionnalits de traitement et analyse : Prsentation, validation et enrichissement des rsultats de collecte Catgorisation et clustering (outils
de lisibilit) Indexation Recherche - Analyse Extraction et restructuration
Fonctionnalits de diffusion : Prparation de la diffusion - Gnrateur de rapports Envoi de rsultat par email Portail Travail collaboratif
Quel apport des professionnels de lIST dans le dispositif de veille d'un organisme de recherche? - Annexe
Corinne BRACHET-DUCOS Mmoire INTD/CNAM, Cycle Suprieur Octobre 2007
Type d'abonnement
Monoposte ou multiposte
Quel apport des professionnels de lIST dans le dispositif de veille d'un organisme de recherche? - Annexe
Corinne BRACHET-DUCOS Mmoire INTD/CNAM, Cycle Suprieur Octobre 2007
Spcifications techniques
Architecture client serveur : solution hberge ou installe.
Systme d'exploitation Plateforme utilisable
Monoposte, multiposte
Configuration requise
Interface utilisateur : choix et personnalisation de la prsentation et du mode de diffusion. Prsence dun raccourci sous forme de barre doutils. Ergonomie
dutilisation.
Interface administrateur
Scurit des droits d'accs : personnalisation des droits daccs et de modification en fonction des diffrents utilisateurs (administrateur, veilleurs, simple lecteur),
gestion en fonction dun login, dun annuaire LDAP, des adresses IP ou autre Requtes scurises et anonymes.
Antivirus (compatibilit)
Possibilits de dveloppements ultrieurs (paramtrage, extension)
Archivage et sauvegarde : dans un systme de gestion de bases de donnes, sur un disque dur externe, rythme des sauvegardes, limites de la taille et du nombre des
documents sauvegards.
Evaluation globale (ergonomie d'utilisation)
Procdure d'installation (assiste, avec informaticien, seul)
Paramtrage administrateur (facile, modr 1 , difficile 2 )
Paramtrage utilisateur (facile, modr, difficile)
Utilisation finale (facile, modre, difficile)
Interface homme/machine (personnalisation : couleurs, police)
1
2
Fonctionnalits gnrales
Compatibilit :
Types de documents traits : structur (rfrences bibliographiques), non structur, format particulier (statistiques sur donnes structures, taille ventuelle noms de
variable)
Formats des documents traits : XML, RSS, RDF, TXT, HTML, PDF, Microsoft Office (DOC, PPT, XLS), PHP, ASP, PS, OWL, Streaming, Flash, JSP (Noter que les 3
premiers sont incontournables)
Formats des protocoles supports : POP3, NNTP
Sources surveilles : sites et pages Web, bases de donnes internes et externes (dont brevets), SGBD, Forums, Newsgroup, Mailing list, blogs, contenu multimdia
(sons, images, paroles), informations diverses (document interne, cartes, schmas), fils RSS, serveurs de priodiques, agrgateurs de presse, moteurs de
recherches
Web invisible : accs aux pages non indexes et ressources (emplacements non standards comme ports autres que 80)
Gestion et uniformisation de tous les encodings en XML (impossibilit de surveiller certaines informations dans d'autres langues)
Paramtrage des recherches :
Formulation des requtes:
- Taille de la requte (<5mots jusqu' >10 mots ou plus), taille du nombre de caractres
- Utilisation d'oprateurs : proximit, boolen, troncature, parenthses, expression exacte, recherche floue, wildcards, multi-index, recherche par similarit,
approchanteA spcifier pour le mode recherche/collecte et pour la recherche dans le stockage
- Modalit de recherche (crawling) : dans un corpus, sur texte intgral, multicritre (champs)
Fdration d'une mme requte sur diffrentes sources (pages web, news, sites, blogs) Recherche multichamps - Ddoublonnage
Requtes multilingues (dont langues non occidentales)
Sauvegarde des requtes (historique) Dure de stockage
Exploration automatique de liens successifs avec test de pertinence
Contournement de balises anti-robot
Ajouter de nouveau moteur de recherches Recherche dans des bases de donnes, avec accs particuliers (payants ou autoriss)
Paramtrage des dates :
Gestion des dates de modification (outil avanc: en fonction de la modification relle du contenu du fichier, outil basique: suivant metatags, date du fichier ou du
serveur http)
Quel apport des professionnels de lIST dans le dispositif de veille d'un organisme de recherche? - Annexe
Corinne BRACHET-DUCOS Mmoire INTD/CNAM, Cycle Suprieur Octobre 2007
Quel apport des professionnels de lIST dans le dispositif de veille d'un organisme de recherche? - Annexe
Corinne BRACHET-DUCOS Mmoire INTD/CNAM, Cycle Suprieur Octobre 2007
Quel apport des professionnels de lIST dans le dispositif de veille d'un organisme de recherche? - Annexe
Corinne BRACHET-DUCOS Mmoire INTD/CNAM, Cycle Suprieur Octobre 2007
Quel apport des professionnels de lIST dans le dispositif de veille d'un organisme de recherche? - Annexe
Corinne BRACHET-DUCOS Mmoire INTD/CNAM, Cycle Suprieur Octobre 2007
Paramtrable en fonction des profils utilisateurs, des types de bases, mmorisation des profils
Proposition de stratgie de recherche (aide l'utilisateur)
Analyse :
Possibilit dannoter des informations de veille par un groupe dutilisateur identifi et autoris
Possibilit d'associer un forum une information [Digimind]
Analyse cartographique des informations : ditions de liens de causalit, contradiction, autres relations, visualisation graphique (importance fiabilit), sauvegarde
Gestion de dictionnaires, de plan de classement
Modules d'analyse statistique (outil avanc : bibliomtrie) :
Comptage d'occurrence et cooccurrence (intra champ), d'occurrence (inter champ) pour les rfrences bibliographiques.
Comptage d'occurrence ou cooccurrence en texte intgral.
(Indiquer si le calcul d'hapax est fait (occurrence sur un auteur-pays-organisme isol), si la pondration et le paramtrage des frquences sont possibles)
Modules d'analyse linguistique (outil avanc : TAL, traitement automatique des langues, text mining, data mining) :
- Analyse morpho-lexicale : toknisation (frontires des constituants : mots simples, composs), tagging (catgorie : verbe, nom, adj. pour chaque mot),
lemmatisation (forme canonique dans le dictionnaire)
- Analyse syntaxique : chunking (frontires majeures des constituants: groupe nominal, verbe), tagging fonctionnel (fonctions grammaticales affectes),
parsing (arbre de structure de la phrase complte)
- Analyse smantique : sens de chaque mot, WSD (word sense disambiguation), structuration logique (arguments de chaque prdicat et rle smantique : agent, but,
lieu)
- Analyse du texte : rsolution des anaphores (antcdents des pronoms, ellipses, rfrences), structure rhtorique dtermine (commentaires, explications,
causalits), structure thmatique dtermine (sujet trait dans le texte)
- Analyse du corpus : dtermination de la nature du document (article de presse, technique, scientifique, texte rglementaire, brochure commerciale), structure
thmatique (sujet trait par le corpus)
Reprsentation et visualisation des rsultats avec des outils avancs :
Cartographie (temporelle, thmatique, des rseaux, des connaissances, liens de causalit, de contradiction), analyse du discours, temps de calcul
Statistique : analyse de tendance, critres d'valuation (apprciation du bruit et du silence), croisement et corrlation des donnes (hommes, organisation, brevets)
Extraction et structuration :
Extraction partir de donnes valides ou non en utilisant un moteur de recherche multicritre [Digimind]. Choix des critres de recherche pour lextraction.
Reprage :
-
de la structure logique du document (squences comme le titre, un rsum, une introduction, une conclusion)
10
d'attributs et de faits (fonctions, rle, rattachement hirarchique d'une personne, chiffre d'affaires d'une socit)
Quel apport des professionnels de lIST dans le dispositif de veille d'un organisme de recherche? - Annexe
Corinne BRACHET-DUCOS Mmoire INTD/CNAM, Cycle Suprieur Octobre 2007
11
Quel apport des professionnels de lIST dans le dispositif de veille d'un organisme de recherche? - Annexe
Corinne BRACHET-DUCOS Mmoire INTD/CNAM, Cycle Suprieur Octobre 2007
12
Tableau comparatif simplifi de quelques logiciels utiliss dans les organismes de recherche
tudis dans le cadre de ce mmoire
Logiciels de veille utiliss dans les diffrents organismes tudis
Description
KB Intelligence
Google
Iscope
http://www.kbcrawl.net
http://www.google.fr/alerts
http://www.iscope.fr/
Editeur
Site Web
Copernic
http://www.copernic.com/f
r/
Nom du logiciel
Version
Etat avancement
Type d'outil
Copernic Tracker
1.1
Commercialis
Agent de recherche et
de surveillance
KB Crawl
3.0
Commercialis
Agent d'alerte
Version d'valuation
Langue interface
Prix
Franais
Gratuit
Organismes de
recherche utilisateurs
INRA
CEMAGREF
INRA
Installation
Monoposte
(tlchargement web)
Aucune
Oui
Oui
Oui
Google Alert
Disponible
Alertes via google
Commercialis
Recherche, collecte,
restitution d'une information
personnalise.
SPSS
http://www.spss.com/fr/prod
uits_solutions/Data_Text_Mi
ning/Lexiquest_Mine.htm
Lexi Quest Mine
Commercialis
Logiciel d'analyse (Textmining)
Aignes
http://www.aignes.com
Web Site Watcher
4.33
Commercialis
Multilingue
INIST CNRS
CEMAGREF - ADEME
Application client/serveur
accs via un navigateur
Monoposte
Moteur intgr
Oui
Moteur intgr
Oui
Architecture requise
Moteur de recherche
Sites Web surveills
Forums surveills
Bases de donnes
surveilles
Blogs surveills
Nb pages crawlables
Apparition
modifications
Recherche/rsultats
Oui
Oui
Infini
Oui
> 50 000 / jour
Oui
Grande masse
d'informations (1 million par
jour)
Oui
Oui
Oui
Grandes masses
d'informations et sources
varies
Surbrillance
Requte par oprateurs
boolens, parenthses,
guillemets
Surbrillance
Recherche par mots cls,
filtres, cibles
Traitement linguistique:
partir du Web, de
librairies, de fichiers .doc,
pdf, txt, html et d'Email,
tablissement d'un corpus
de donnes, puis
traduction en concepts.
Diffusion de la veille
Interne (application)
Par courriel flux RSS
Sur portail
Push - pull automatis
Oui
Oui (KB mail)
Rapports de veille
(SMTP, MAPI ou
Microsoft exchange)
Outils de personnalisation
complmentaires.
Profil, alerte
Alertes
Oui
Modules avancs
Visualisation
Cration d'analyse et
synthse
Informations
complmentaires:
Module complmentaire:
graphe, arbre.
Rsum avec Copernic
Summarize
Classement automatique,
clustering .
Oui
Oui
Reprsentation graphique
et dynamique par liste de
concepts. Courbes de
tendance.
3 algorithmes adapts
diffrents usages: veille,
KM Analyse de: brevets
(fusion text mining et data
mining avec Clementine),
publications scientifiques
(signaux faibles), moteurs
de recherche
Outil labor: navigation
rapide, signaux faibles