Feuille de route

Licence Creative Commons

Le contenu de ce site est diffusé sous licence Creative Commons Paternité-
Pas d'utilisation commerciale Canada

A5 - La recherche par mots-clés

Sommaire

1.

Mots-clés et requête de recherche

2.

La spécificité

3.

L'exhaustivité

4.

Exemple de requête de recherche

  

[ sommaire ]

[ suivant ]

1.

Mots-clés et requête de recherche

Bien que la recherche en langage naturel, c'est-à-dire par des questions formulées comme si on les posait à un humain, ait fait l'objet de recherches et de quelques applications, la recherche par mots-clés demeure la plus efficace. Pour une recherche à caractère général, ces mots-clés proviendront de la description de la situation qui a suscité la recherche, ou d'une question détaillée à laquelle elle doit répondre. Pour une recherche plus spécialisée, les mots-clés seront repérés dans les titres ou les résumés des textes consultés sur le sujet.

Dans une banque de données bibliographiques, la recherche peut être effectuée de manière indépendante dans les divers champs indexés par la banque dont, principalement : auteur(s), titre, descripteurs / identifieurs et résumé. Dans Internet, par contre, la recherche se fera en général dans le texte intégral des documents. Certains moteurs de recherche dans Internet, dont notamment les moteurs de recherche spécialisés comme Google Scholar et Microsoft Academic Search, permettent d'effectuer la recherche dans les titres et les noms d'auteurs. Il convient toutefois de demeurer prudent, car ces informations ne sont pas aussi fiables que celles que l'on retrouve dans les banques de données bibliographiques.

Quel que soit le choix effectué à cet égard (recherche dans le titre, le résumé, le texte intégral), on soumet au moteur de recherche une requête comportant un certain nombre de mots et indiquant que l'on recherche les documents (ou leurs titres ou résumés) qui comprennent soit :

-

au moins un de ces mots;

-

tous ces mots, dans n'importe quel ordre;

-

une suite de mots (phrase) reproduisant exactement le texte de la requête;

soit une combinaison de ces possibilités, par exemple la présence simultanée d'un mot, d'une phrase et d'au moins un parmi trois autres mots.

Dans ce dernier cas, on parle de recherche booléenne, du nom de George Boole (1815-1864), mathématicien anglais, inventeur de la logique mathématique.

Chaque moteur de recherche possède sa syntaxe et ses règles permettant de soumettre des combinaisons de mots. Il convient d'en consulter les instructions, appelées aide (help) ou conseils (search tips) avant de l'utiliser.

La construction d'une requête de recherche par mots-clés tentera de concilier deux objectifs complémentaires : la spécificité et l'exhaustivité. Ces objectifs visent à minimiser les deux problèmes fondamentaux de la recherche d'information : le silence, c'est-à-dire le non-repérage de documents pertinents, et le bruit, soit le repérage de documents qui satisfont les critères de la requête mais qui s'avèrent peu ou non pertinents.

Notons que si la recherche d'une plus grande spécificité est toujours souhaitable, car la présence d'une grande proportion de résultats non pertinents est toujours nuisible, l'objectif d'exhaustivité n'est pas toujours important. En effet, pour une recherche à caractère général, il n'est pas nécessaire de repérer tous les bons documents traitant du sujet; leur lecture risquerait de toute façon de devenir rapidement répétitive. Il suffit simplement d'en repérer quelques-uns de grande qualité. De même, pour la recherche d'une information précise, l'important est de repérer un document crédible qui la fournit, et peut-être un ou deux autres pour contre-vérification, en cas de doute.

  

[ sommaire ]

[ précédent ]

[ suivant ]

2.

La spécificité

La spécificité, ou minimisation du bruit, est obtenue en exigeant la présence simultanée, dans les documents repérés, de plusieurs termes (ou groupes de termes) désignant des notions différentes; cela peut également se faire en excluant certains termes ou, comme on l'a mentionné, en limitant la recherche à des éléments plus significatifs du document : titre, résumé ou mots-clés.

On requiert la présence simultanée de plusieurs termes en employant le ET (ou son équivalent, souvent AND) entre ces termes pour. Le signe + précédant un terme joue le même rôle : il signifie que le terme doit être présent.

Lorsque la recherche est effectuée dans le texte intégral des documents (recherche dans Internet), ou dans une moindre mesure quand elle est restreinte aux résumés (recherche dans une banque de donnée), la présence de tous les mots peut ne plus vouloir dire grand chose, dans la mesure où ceux-ci peuvent se retrouver très éloignés les uns des autres, ou encore se retrouver dans un passage du texte qui s'écarte du sujet principal.

Certains moteurs, surtout ceux des banques de données bibliographiques, permettent d'exiger que des termes soient adjacents (avec la préposition ADJ) ou voisins (préposition NEAR). Certains permettent même de préciser le nombre maximal de mots les séparant (NEAR*5 pourra signifier « séparés d'au plus cinq mots »).

En l'absence de cette possibilité, le recours à des phrases (appelées « expressions exactes » dans la recherche avancée de Google) est une option intéressante. Les phrases sont également essentielles pour les expressions consacrées, telles « réseau local », « mode de vibration » ou « effet de serre ». Dans la plupart des moteurs de recherche, les phrases peuvent être saisies dans l'interface de recherche simple en mettant les suites de mots entre guillemets.

Cependant, cette différence sur le plan de la spécificité s'estompe en pratique quand on considère que seuls les premiers résultats seront effectivement consultés. En effet, les algorithmes de classement (ranking) des documents repérés par les moteurs de recherche dans Internet feront généralement apparaître en premier les documents où les termes de la requête sont proches les uns des autres. Ainsi, lors d'un test avec un même moteur de recherche, la requête réseau ET local a repéré plus de 100 000 documents, contre moins de 9 000 pour la phrase "réseau local", mais les quelques dizaines de sites classés en premier étaient à peu près les mêmes avec les deux requêtes.

On peut dire ainsi que le classement des résultats aide à réduire le bruit, les documents non pertinents étant en principe relégués au bas de la liste. Cependant, ces algorithmes (dont les détails ne sont pas révélés par les gestionnaires des moteurs de recherche) sont loin d'être parfaits, et l'expérience révèle que s'il semble effectivement que le taux de documents non pertinents diminue, le silence, lui, reste un problème. En effet, des documents plus pertinents que les tout premiers apparaissent parfois loin dans la liste des premières centaines de résultats.

En conséquence, lorsque, malgré une requête de recherche exigeant la présence de plusieurs mots, le nombre de documents repérés demeure énorme et que le bruit demeure important, on peut accroître radicalement la spécificité (mais, du coup, augmenter le silence) en limitant la recherche aux titres des documents. Cette option, autrefois l'apanage des banques de données bibliographiques, est maintenant disponible dans les moteurs spécialisés Google Scholar et Microsoft Academic Search. Malheureusement ces moteurs ne peuvent chercher dans les résumés, ce qui pourrait constituer un compromis entre les extrêmes que sont la recherche dans le texte complet et la recherche limitée au titre.

Une autre stratégie à envisager pour réduire le bruit est l'exclusion des documents contenant un terme donné, ce qui peut empêcher une recherche de s'étendre à des domaines connexes partageant des mots-clés communs. Cette exclusion est indiquée en plaçant SAUF (ou son équivalent, souvent NOT, ANDNOT ou le signe « - ») devant les mots à exclure.

Cette option est cependant à utiliser avec la plus grande prudence, et devrait être réservée à la recherche dans les titres, mots-clés ou résumés. En effet, avec la recherche dans le texte intégral des documents, on pourrait ainsi rejeter des documents pertinents, par exemple des textes contenant une section traitant directement du sujet qui nous intéresse et une autre section (ou encore une section de la page qui n'a rien à voir avec le texte principal) où le mot que l'on exclut apparaît, portant sur un autre sujet.

  

[ sommaire ]

[ précédent ]

[ suivant ]

3.

L'exhaustivité

Pour favoriser une plus grande exhaustivité ou, en d'autres termes, minimiser le silence, il faut chercher dans l'ensemble - la base - qui contient le plus grand nombre de documents susceptibles d'être pertinents.

Les banques de données bibliographiques tentent généralement de couvrir l'ensemble des publications pertinentes pour un domaine; il suffira donc de choisir une des banques reconnues dans le domaine. Les sites des bibliothèques offrent souvent des listes commentées de bases de données, pour chaque domaine, accessibles aux membres de l'établissement, tant dans les locaux de leurs bibliothèque qu'en ligne.

Pour la recherche dans Internet, il suffira de choisir un ou, de préférence, deux moteurs de recherche qui indexent un grand nombre de sites.

Ensuite, lorsqu'on effectue une recherche donnée, on s'assurera, pour chaque terme significatif repéré lors de la consultation des articles de base, que l'on considère aussi les variantes de ce terme et les termes (synonymes ou autres) désignant la même notion. Deux stratégies peuvent être mises à contribution.
  

-

D'une part, on inclura dans la requête diverses formes grammaticales d'un même terme : nom, verbe et adjectif; singulier et pluriel; masculin et féminin (en français).

Les outils de recherche des banques de données offrent habituellement une possibilité intéressante à cet égard : l'ajout d'un caractère appelé joker (wildcard) (souvent l'astérisque, parfois le point d'interrogation). Placé dans un mot ou à la fin de celui-ci, ce caractère remplace un ou plusieurs caractères quelconques. Lorsque le procédé est employé au milieu du mot, on parle de masque, alors qu'à la fin ou, plus rarement, au début, on parle de troncature.

Par exemple, si le joker (*) peut remplacer un nombre quelconque de caractères, le terme « mesur* » comprend toutes les mots suivants : mesure, mesures, mesurable, ainsi que toutes les formes du verbe mesurer. Il faut toutefois veiller à ne pas élargir ainsi la recherche à des termes trop généraux, voire de sens complètement différent. Par exemple, « physic* » recouvre (en anglais) physics, physicist et physicists, mais aussi physical, beaucoup plus général, et physician (médecin), qui a un tout autre sens.

Attention! Le joker est accepté par Google, mais employé seul entre deux mots, pour en remplacer un ou plusieurs (et non des caractères dans un mot).
  

-

D'autre part, on inclura les synonymes d'un même terme (comme ammoniac et NH3, ou puma, couguar et lion de montagne) ou les formes associées à un même concept mais dérivées de racines différentes (comme coeur et cardiaque, frequency et spectral), ou encore les équivalents d'un terme dans plusieurs langues (comme tigre, tiger et panthera tigris).

On emploie le OU (ou son équivalent, souvent OR) entre ces mots pour indiquer qu'il suffit qu'un seul d'entre eux soit présent pour qu'un document soit retenu.
  

Notons que la fonction de recherche simple des moteurs de recherche dans Internet considère que les mots simplement juxtaposés sont séparés, selon les moteurs, soit par des ET (le plus souvent), soit par des OU, sans que cela ne soit nécessairement précisé dans la page où l'on entre la requête. Il est donc important de consulter l'aide en ligne pour bien connaître l'interprétation que fera le moteur de la requête qui lui sera soumise; l'utilisation de la recherche avancée facilite les choses à cet égard.

Par ailleurs, la plupart des moteurs de recherche dans Internet ne cherchent que les mots exacts soumis. Google fait figure d'exception à ce titre, mais comme il est difficile de savoir quelles variantes seront incluses dans la recherche, il est préférable d'inclure explicitement ces variantes dans la requête. On peut alors employer l'outil Mot à mot offert par ce moteur, qui élimine l'ajout de variantes et synonymes aux mots de la requête. Cet outil est disponible dans la marge de gauche de la page de résultats, rubrique Tous les résultats - Plus d'outils.

Quelques moteurs permettent le recours aux jokers, alors que certains, comme Google, fonctionnent comme si chaque mot entré dans le champ de recherche, à moins d'indication contraire, se terminait par un joker. Si les jokers ne sont pas disponibles, on procédera de la même façon qu'avec les synonymes, en incluant explicitement diverses formes grammaticales séparées par OU, ou encore en effectuant des recherches successives avec des formes différentes.

  

[ sommaire ]

[ précédent ]

4.

Exemple de requête de recherche

Supposons que l'on veut chercher des documents portant sur le sujet suivant : l'effet de la fonte prévue des glaces polaires sur le climat du nord de l'Europe.

Il s'agit d'un sujet assez général; c'est donc une recherche que ferait normalement une personne qui veut se familiariser avec le sujet et non, par exemple, un étudiant qui débuterait une recherche, portant nécessairement sur un sujet beaucoup plus pointu, et qui voudrait connaître tout ce qui s'est publié en rapport avec ce sujet. La recherche dans Internet avec un moteur général est donc ici une stratégie pertinente.

Ici, les termes importants sont : fonte, glaces, polaires, climat, Europe et Nord; si on enlève un de ces mots, on change le sujet de manière plus ou moins importante. Par exemple, si on enlève « polaire », on englobe la fonte des glaciers du Nord de l'Europe. Cependant, « Nord » n'est sans doute pas nécessaire, car l'association glaces-pôles-Europe risque plus de se rapporter au nord de l'Europe qu'à la Méditerranée! Pour assurer la spécificité de la requête, la présence des termes fonte, glaces, polaires, climat et Europe sera donc suffisante.

De leur côté, les termes effet et prévue n'apportent rien de significatif.

Il faut ensuite se demander si le même sujet pourrait être décrit par d'autres formes de ces mots ou d'autres mots (des synonymes, par exemple). Ainsi, des documents pourraient faire état des glaces de la région du Pôle plutôt que des glaces polaires, ou encore de la banquise plutôt que de la glace; songeons également que « polaire » et « glace » peuvent être au singulier ou au pluriel. La requête sera donc plus exhaustive si l'on inclut ces synonymes ou formes alternatives.

Une requête de recherche qui tiendrait compte de tous ces éléments pourrait donc se lire :

climat ET Europe ET fonte ET (glace OU glaces OU banquise) ET (pole OU polaire OU polaires)

De fait, cette requête, lancée dans Google en décembre 2011, avec les OU et les ET adaptés à la syntaxe du moteur :

climat Europe fonte (glace OR glaces OR banquise) (pole OR polaire OR polaires)

a permis de repérer environ 120 000 documents, dont les premiers semblaient à peu près tous pertinents, du moins à première vue. Notons toutefois que les trois premiers résultats étaient des articles de Wikipédia, qui figurent presque toujours en tête des résultats dans Google, quels que soient leur qualité ou leur état d'avancement (voir texte A7).

      

[ sommaire ]