Historique et enjeux actuels
Pour chacun d’entre nous moteur de recherche est synonyme de recherche d’informations sur Internet, donc synonyme de Google, Yahoo, Altavista, MSN... Toutefois, bien avant la généralisation du réseau Internet, quelques éditeurs commercialisaient des logiciels de recherche de documents. Pendant longtemps, et parfois encore, la bataille se gagnait sur le terrain technologique voire scientifique.
Les moteurs de recherche offrent différents modes d’accès à l’information grâce à des fonctionnalités variées antagonistes et complémentaires. Parmi lesquelles on peut distinguer la recherche en texte intégral, la recherche "plein texte", et la recherche à partir d'un thesaurus (un ensemble structuré de termes choisis pour leur capacité à faciliter la description d'un domaine et à harmoniser la communication et le traitement de l'information à son sujet). Les deux premières s'opposent à la dernière et se basent sur un mode d’indexation automatique quasi-aveugle des chaînes de caractères, capable de procéder à l’indexation de tous les mots d’un document. La recherche à partir d’un thesaurus quant à elle, utilise un langage artificiel pour accéder aux documents, guidé par une ontologie légère (un ensemble structuré de concepts permettant de donner un sens aux informations). Il est ainsi possible de représenter tout le document par une sélection rigoureuse de mots clés. Le principal inconvénient de cette méthode est la lourdeur de l’indexation manuelle des documents par domaine. C’est pourquoi de nombreux thesaurus ont été créés dans différents domaines dont l’objectif est de proposer un vocabulaire contrôlé pour l’indexation afin de faciliter la formulation d’une requête par un documentaliste.
Une des grandes bataille fut menée dès les années 1980 : la bataille du « texte intégral » (full text : c’est-à-dire la recherche sur le contenu du texte). Il s’agissait de remplacer toute une génération de bases documentaires. Ces dernières utilisaient l’indexation des documents, comme par exemple la pose par un documentaliste d’index généralement issus d’un thésaurus. La recherche dans ces bases documentaires n’était donc pas à la portée de n’importe qui. Il fallait connaître le thésaurus, le langage de requête et donc les documents. Le « texte intégral » fut la première étape de vulgarisation des moteurs de recherche. L’idée était « d’indexer » tous les mots du documents et non plus uniquement les « mot-clés » du documents extraits par un documentaliste. Les difficultés commençaient : pour passer à une échelle industrielle il fallait régler les problèmes de performance en termes de temps et d’espace.
D’autres difficultés liées à la richesse du langage sont apparues : on les a appelées « bruit » et « silence » (precision et recall). Le débat s’est donc déplacé sur un plan quasiment idéologique : faut-il une approche vectorielle, un fichier inverse, des analyseurs linguistiques, une analyse syntaxique automatique (Automatic syntactic analysis)... il semble que la bataille technologique se soit arrêtée lorsque le leader mondial du bayesien a racheté le leader mondial de la sémantique il y a quelques mois.
L’enjeu se déplace maintenant également au niveau du système d’information. En effet, l’accès à l’information d’Entreprise et la recherche documentaire doivent apporter une vision globale, prendre en compte toutes les sources d’information de l’Entreprise : bases de données, bases de contenus, portails, messagerie, etc. Il faut par conséquent accéder à ces sources d’informations (fouille de texte / Textmining) et gérer les droits d’accès de toutes ces sources. Il faut également prendre en compte les métiers de l’entreprise, les rôles des collaborateurs…
Conduite d’un projet de recherche d’informations
La conduite d’un projet de gestion de contenu ou de gestion des connaissances (Knowledge Management) suit les principes de la conduite de projet informatiques. Certains points sont cependant accentués. - Une équipe équilibrée
La maîtrise d’ouvrage est généralement assurée par l’équipe documentation de l’Entreprise. Il peut s’avérer pertinent d’y adjoindre une autre entité fonctionnelle (la DRH par exemple) afin de diversifier la vision de la solution à mettre en œuvre. Cette diversité de points de vue permet également de résoudre les divergences avec la maîtrise d’œuvre.
- Un prototype
Avant le choix définitif pour tel ou tel éditeur, un prototype sur des documents de l’entreprise peut être demandé pour chaque technologie. Ceci permettra également de valider l’adhésion de la maîtrise d’ouvrage.
|
Nombre de pages : 52 Nombre de critères technologiques : 150 Format : PDF - 523 Ko
Le téléchargement du guide Corporate Search est gratuit. Sommaire et page de téléchargement
Contribuer ?Vous maîtrisez un sujet, vous souhaitez faire partager une expérience récente, vous souhaiter compléter un point dans un document… Vous êtes les bienvenus pour participer à l’évolution des documents publiés. |