Feuille de route

Licence Creative Commons

Le contenu de ce site est diffusé sous licence Creative Commons Paternité-
Pas d'utilisation commerciale Canada

A2 - L'organisation et le traitement de l'information

La quantité phénoménale et sans cesse croissante d'informations disponibles, en science comme dans tous les domaines, rend très ardu le repérage de l'information pertinente sur un sujet. Quatre principaux procédés d'organisation ou de traitement de l'information sont employés pour faciliter cette tâche.

a)

Le classement de l'information

Des organismes se chargent de classer les documents dans des hiérarchies de catégories, allant du général au particulier, qui permettent d'en cerner le sujet. Les bibliothèques le font depuis fort longtemps, à l'aide de classifications standard; les cotes des ouvrages correspondent à ces catégories.

La même chose est faite dans Internet, quoique de façon moins systématique. On y retrouve des listes hiérarchiques, appelées annuaires ou répertoires (exemples), où les sites sont classés et commentés plus ou moins en détail. Ces listes peuvent être très générales, comme celles qui sont associées aux moteurs de recherche, ou spécifiques à un domaine. Notons que les annuaires généraux possèdent souvent une section Science, qui elle-même se subdivise selon les disciplines scientifiques.

b)

Les mots-clés

Les descripteurs et les mots-clés sont des outils puissants pour repérer des documents traitant d'un sujet. Il existe deux types de mots-clés.

-

Les bibliothèques et banques de données bibliographiques associent à chaque document qu'ils traitent une série de mots-clés préétablis, appelés descripteurs ou identifieurs, provenant de listes (thesaurus) établies par des professionnels de la documentation. Les moteurs de recherche des banques de données bibliographiques permettent de faire des recherches à l'aide de ces mots-clés.

-

Les auteurs des documents sont souvent invités à fournir les mots-clés de leur choix. Dans les revues scientifiques, ils apparaissent au-dessous du résumé de l'article.

Par ailleurs, les documents en ligne, qu'il s'agisse de pages web (format HTML) ou de fichiers Word ou PDF, peuvent contenir des mots-clés, définis par leur auteur, qui ne sont pas visibles quand la page est affichée à l'écran. Mais comme rien ne vient contrôler le type d'information que les auteurs y inscrivent (quand ils le font), la plupart des moteurs de recherche ignorent ces mots-clés.

Cependant, certains moteurs de recherche dans Internet sont en mesure d'identifier avec un bon taux de succès les titres des documents, et permettent la recherche dans ceux-ci. Or, selon la pratique établie dans le mode scientifique (c'est beaucoup moins vrai en sciences sociales), le titre doit décrire très précisément le sujet traité. Ainsi, les mots du titre peuvent jouer en quelque sorte le rôle de mots-clés.

c)

Les métadonnées et le web sémantique

Les métadonnées sont des « données sur d'autres données ». En ce sens, les mots-clés et les autres informations contenues dans les fiches ou les champs des bases de données bibliographiques sont des métadonnées. En règle générale cependant, le terme est associé aux informations décrivant des documents ou ressources numériques, notamment ceux qui sont accessibles dans Internet.

Ces dernières années, des efforts considérables ont été consacrés pour définir des modèles, normes, standards et langages capables de décrire avec précision les caractéristiques des documents et permettant à des outils informatiques de reconnaître et traiter ces descriptions.

Certaines de ces caractéristiques sont générales : informations de nature documentaire (auteur, date de création, taille, mots-clés, etc.), informatique (format, matériels et logiciels requis, etc.) ou administrative (titularité du droit d'auteur, droits d'utilisation, coût de consultation, etc.). D'autres sont spécifiques à des domaines, comme l'ordre d'enseignement visé, la durée, le type et le niveau d'interactivité pour les documents ou ressources d'apprentissage. Idéalement, ces informations sont encodées dans les documents eux-mêmes à l'aide du langage XML.

Un des buts ultimes de ces efforts est d'arriver à créer le « web sémantique » (Berners-Lee, Hendler et Lassila, 2001), aussi qualifié de Web 3.0, dans lequel les documents contiendraient non seulement des ensembles de mots (ou de données), mais aussi des informations qui en traduisent la nature et, jusqu'à un certain point, le sens, permettant de retrouver plus facilement les documents répondant à nos questions et nos besoins.

Au moment d'écrire ces lignes, les travaux sont encore en cours sur plusieurs fronts :

-

celui des standards et modèles généraux tels OWL (Web ontology language) et RDF (Resource description format), qui permettent de décrire les éléments contenus dans un document et les relations existant entre ces éléments avec ceux d'autres documents;

-

celui des ensembles de métadonnées, généraux (tel le Dublin Core, qui regroupe à peu près les mêmes informations que les champs des bases de données bibliographiques) ou spécifiques à des domaines particuliers (IEEE-LOM pour l'enseignement en ligne, Biological Metadata Standard pour la biologie, etc.).

Malgré l'ampleur de ces efforts, de nombreuses questions restent à régler, dont celle de savoir si les auteurs de documents vont accepter d'y associer des métadonnées, compte tenu du travail requis, et celle de la validation de ces métadonnées. Il est donc trop tôt pour prédire quand (ou même si) le web sémantique deviendra réalité. Shadbolt, Berners-Lee et Hall (2006) prévoyaient que c'est dans le domaine scientifique que risquait de se réaliser en premier ce potentiel; quelques années plus tard, les mêmes auteurs (O'Hara, Berners-Lee, Hall et Shadbolt, 2010) faisaient tout au plus état de quelques projets entrepris en ce sens.

d)

Les résumés

Les articles scientifiques comportent toujours un bref résumé (environ 100 à 200 mots), généralement préparé par les auteurs et parfois traduit dans d'autres langues que celle de l'article.

Les moteurs de recherche des bases de données bibliographiques permettent d'étendre la recherche au contenu des résumés, ce qui est nécessaire quand la recherche dans les titres et les mots-clés ne fournit pas suffisamment de résultats.

Ce procédé peut sembler a priori plus efficace que la recherche dans le texte intégral des articles, car on peut supposer que la présence d'un ou de quelques mots dans un résumé qui en compte une centaine est plus significative que leur présence dans un texte de plusieurs milliers de mots. Cependant, les algorithmes de classement (ranking) des résultats de recherche dans Internet, qui n'ont pas accès aux résumés (ceux-ci étant d'ailleurs souvent inexistants), tendent à réduire cette différence.

  

[ début ]