|
|
A2 - L'organisation et le
traitement de l'information
La quantité phénoménale
et sans cesse croissante d'informations disponibles, en
science comme dans tous les domaines, rend très ardu
le repérage de l'information pertinente sur un sujet.
Quatre principaux procédés d'organisation ou
de traitement de l'information sont employés pour
faciliter cette tâche.
|
a)
|
Le classement de l'information
|
Des organismes se chargent de classer les
documents dans des hiérarchies de catégories,
allant du général au particulier, qui
permettent d'en cerner le sujet. Les bibliothèques le
font depuis fort longtemps, à l'aide de
classifications standard; les cotes des ouvrages
correspondent à ces catégories.
La même chose est faite dans Internet,
quoique de façon moins systématique. On y
retrouve des listes hiérarchiques, appelées
annuaires ou répertoires (exemples),
où les sites sont classés et commentés
plus ou moins en détail. Ces listes peuvent
être très générales, comme celles
qui sont associées aux moteurs de recherche, ou
spécifiques à un domaine. Notons que les
annuaires généraux possèdent souvent
une section Science, qui elle-même se subdivise
selon les disciplines scientifiques.
|
b)
|
Les mots-clés
|
Les descripteurs et les mots-clés sont
des outils puissants pour repérer des documents
traitant d'un sujet. Il existe deux types de
mots-clés.
|
-
|
Les bibliothèques et banques de
données bibliographiques associent à chaque
document qu'ils traitent une série de
mots-clés préétablis, appelés
descripteurs ou identifieurs, provenant de
listes (thesaurus) établies par des
professionnels de la documentation. Les moteurs de recherche
des banques de données bibliographiques permettent de
faire des recherches à l'aide de ces
mots-clés.
|
-
|
Les auteurs des documents sont souvent
invités à fournir les mots-clés de leur
choix. Dans les revues scientifiques, ils apparaissent
au-dessous du résumé de l'article.
|
Par ailleurs, les documents en ligne, qu'il
s'agisse de pages web (format HTML) ou de fichiers Word ou
PDF, peuvent contenir des mots-clés, définis
par leur auteur, qui ne sont pas visibles quand la page est
affichée à l'écran. Mais comme rien ne
vient contrôler le type d'information que les auteurs
y inscrivent (quand ils le font), la plupart des moteurs de
recherche ignorent ces mots-clés.
|
Cependant, certains moteurs de recherche dans
Internet sont en mesure d'identifier avec un bon taux de
succès les titres des documents, et permettent la
recherche dans ceux-ci. Or, selon la pratique établie
dans le mode scientifique (c'est beaucoup moins vrai en
sciences sociales), le titre doit décrire très
précisément le sujet traité. Ainsi, les
mots du titre peuvent jouer en quelque sorte le rôle
de mots-clés.
|
c)
|
Les métadonnées et le web
sémantique
|
Les métadonnées sont des
« données sur d'autres
données ». En ce sens, les mots-clés
et les autres informations contenues dans les fiches ou les
champs des bases de données bibliographiques sont des
métadonnées. En règle
générale cependant, le terme est
associé aux informations décrivant des
documents ou ressources numériques, notamment ceux
qui sont accessibles dans Internet.
Ces dernières années, des
efforts considérables ont été
consacrés pour définir des modèles,
normes, standards et langages capables de décrire
avec précision les caractéristiques des
documents et permettant à des outils informatiques de
reconnaître et traiter ces descriptions.
Certaines de ces caractéristiques sont
générales : informations de nature
documentaire (auteur, date de création, taille,
mots-clés, etc.), informatique (format,
matériels et logiciels requis, etc.) ou
administrative (titularité du droit d'auteur, droits
d'utilisation, coût de consultation, etc.). D'autres
sont spécifiques à des domaines, comme l'ordre
d'enseignement visé, la durée, le type et le
niveau d'interactivité pour les documents ou
ressources d'apprentissage. Idéalement, ces
informations sont encodées dans les documents
eux-mêmes à l'aide du langage XML.
Un des buts ultimes de ces efforts est
d'arriver à créer le « web
sémantique » (Berners-Lee,
Hendler et Lassila, 2001), aussi qualifié de Web
3.0, dans lequel les documents contiendraient non seulement
des ensembles de mots (ou de données), mais aussi des
informations qui en traduisent la nature et, jusqu'à
un certain point, le sens, permettant de retrouver plus
facilement les documents répondant à nos
questions et nos besoins.
Au moment d'écrire ces lignes, les
travaux sont encore en cours sur plusieurs fronts :
|
-
|
celui des standards et modèles
généraux tels OWL (Web ontology
language) et RDF (Resource description format),
qui permettent de décrire les éléments
contenus dans un document et les relations existant entre
ces éléments avec ceux d'autres documents;
|
-
|
celui des ensembles de
métadonnées, généraux (tel le
Dublin Core, qui regroupe à peu près
les mêmes informations que les champs des bases de
données bibliographiques) ou spécifiques
à des domaines particuliers (IEEE-LOM pour
l'enseignement en ligne, Biological Metadata Standard
pour la biologie, etc.).
|
Malgré l'ampleur de ces efforts, de
nombreuses questions restent à régler, dont
celle de savoir si les auteurs de documents vont accepter
d'y associer des métadonnées, compte tenu du
travail requis, et celle de la validation de ces
métadonnées. Il est donc trop tôt pour
prédire quand (ou même si) le web
sémantique deviendra réalité. Shadbolt,
Berners-Lee et Hall (2006) prévoyaient que c'est
dans le domaine scientifique que risquait de se
réaliser en premier ce potentiel; quelques
années plus tard, les mêmes auteurs (O'Hara,
Berners-Lee, Hall et Shadbolt, 2010) faisaient tout au
plus état de quelques projets entrepris en ce
sens.
|
d)
|
Les résumés
|
Les articles scientifiques comportent
toujours un bref résumé (environ 100 à
200 mots), généralement
préparé par les auteurs et parfois traduit
dans d'autres langues que celle de l'article.
|
Les moteurs de recherche des bases de
données bibliographiques permettent d'étendre
la recherche au contenu des résumés, ce qui
est nécessaire quand la recherche dans les titres et
les mots-clés ne fournit pas suffisamment de
résultats.
|
Ce procédé peut sembler a
priori plus efficace que la recherche dans le texte
intégral des articles, car on peut supposer que la
présence d'un ou de quelques mots dans un
résumé qui en compte une centaine est plus
significative que leur présence dans un texte de
plusieurs milliers de mots. Cependant, les algorithmes de
classement (ranking) des résultats de
recherche dans Internet, qui n'ont pas accès aux
résumés (ceux-ci étant d'ailleurs
souvent inexistants), tendent à réduire cette
différence.
|
|
|