Glossaire

A B C D E F G H I L M N O P R S T U V W

 Analyse linguistique : Analyse d’un texte selon les méthodes de la linguistique. L’analyse linguistique peut être assistée par ordinateur.

 Analyse syntaxique : Traitement des données vérifiant qu’elles se conforment aux règles d’une syntaxe donnée et analysant la structure de ces données selon cette syntaxe. L’analyse syntaxique ne traite pas le sens de l’information, mais seulement sa syntaxe. Les parseurs XML font de l’analyse syntaxique.

 Analyse sémantique : Traitement de l’information de façon à lui ajouter une composante sémantique (le « sens »). Par exemple, un compilateur Java doit traiter la syntaxe Java (voir analyse syntaxique) puis donner un sens aux termes rencontrés (tels que class, extends, etc.).

 Arbre de suffixes : Structure de données informatiques permettant de faire des recherches dans un document. Le tableau de suffixes peut occuper un espace beaucoup plus grand que le texte original, mais les recherches sont très rapides (temps constant).

  Artificial intelligence  : Voir Intelligence artificielle.

 Automate : Type de programme informatique simple. C’est une machine à traiter de l’information qui se caractérise par différents états et un système de transition d’états qui absorbe soit des caractères, soit des entités syntaxiques d’ordre supérieur (variable, entier, flottant, etc.) (Wikipédia)

 Automate fini : Un automate fini (on dit parfois machine à états finis), en anglais finite state automaton ou finite state machine (FSA, FSM), est une machine abstraite utilisée en théorie de la calculabilité et dans l’étude des langages formels. Un automate est constitué d’états et de transitions. Son comportement est dirigé par un mot fourni en entrée : l’automate passe d’état en état, suivant les transitions, à la lecture de chaque lettre de l’entrée. Un automate fini possède un nombre fini d’états distincts : il ne dispose donc que d’une mémoire bornée. Un automate fini forme naturellement un graphe orienté étiqueté, dont les états sont les sommets et les transitions les arêtes étiquetées. (Wikipédia)

  Autonomy architecture : L’autonomy architecture est un terme propre à la NASA. Il fait référence à des robots capables d’effectuer des tâches complexes, comme de piloter un hélicoptère sur Mars, de manière autonome.

 Bande passante : Quantité d’informations que peut véhiculer un canal de communication.

 Base de données : Ensemble structuré d’éléments d’information, généralement agencés sous forme de tables, où les données sont organisées selon certains critères en vue de permettre leur exploitation. (Le grand dictionnaire terminologique, Office québécois de la langue française (désormais nommé OQLF))

 Base de données relationnelle : Base de données structurée suivant les principes de l’algèbre relationnelle. La théorie des bases de données relationnelles est due à Edgar Frank Codd. Elle est mise en œuvre au moyen d’un Système de Gestion de Bases de Données Relationnelles (SGBDR). (Wikipédia)

 Blogue : Site web contenant des billets (ou « articles ») organisés de façon séquentielle.

 Booléen : Qualifie une opération conforme aux règles de l’algèbre de BOOLE, dans laquelle les opérandes et le résultat prennent chacun l’une ou l’autre de deux valeurs distinctes (vrai ou faux). (Le grand dictionnaire terminologique, OQLF)

  Character encoding : Voir Codage de caractères. (Traduction de l’OQLF, dans Le grand dictionnaire terminologique)

 Codage de caractères (character encoding) : Transcription d’informations dans un code donné (exemples : coder les lettres de l’alphabet, coder les instructions. (Le grand dictionnaire terminologique, OQLF)

 Contrôle de pertinence (relevance feedback) : Voir la définition de Relevance, (sous Information retrieval) sur Wikipédia en anglais.

 Corpus : Ensemble limité des éléments (énoncés) sur lesquels se base l’étude d’un phénomène. (Le grand dictionnaire terminologique, OQLF)

  Cross-validation : Voir Contre-validation.

 Document pertinent : Document qui répond à une requête formulée.

 Dublin Core : Schéma de métadonnées générique qui permet de décrire une ressource numérique ou physique et d’établir des relations avec d’autres ressources. Il comprend 15 éléments de description formels (titre, auteur, éditeur), intellectuels (sujet, description, langue, etc.) et relatifs à la propriété intellectuelle. (Wikipédia)

 Exploration ou forage de texte : Technique de recherche et d’analyse de données qui permet de dénicher des tendances ou des corrélations cachées parmi des masses de données, ou encore de détecter des informations stratégiques ou de découvrir de nouvelles connaissances en s’appuyant sur des méthodes de traitement statistique. (Le grand dictionnaire terminologique, OQLF)

 Expression rationnelle : Voir Expression régulière.

 Expression régulière : Motif constitué d’une chaîne de caractères spécifiant des conditions à remplir lors d’une recherche effectuée dans un éditeur de texte, et qui correspond à la chaîne recherchée. (Le grand dictionnaire terminologique, OQLF ; sous Expression rationnelle), (Voir aussi Wikipedia.)

 Fréquence d’un terme : Nombre de fois où un terme apparaît dans un texte (abrégé $tf$) ; certains auteurs divisent cette fréquence par la longueur du texte (en nombre de mots).

 Fréquence inverse dans les documents (Inverse Document Frequency) : La fréquence inverse d’un terme, $\log \vert D \vert / df$ où $\vert D \vert$, est le nombre total de documents et $df$, le nombre de documents où le terme apparaît.

  Geographic information system : Voir Système d’information géographique.

 Gigaoctet (Go) : Unité de mesure correspondant à 1 000 000 000 ou à 1 073 741 824 octets. (Le grand dictionnaire terminologique, OQLF)

 Grep : Outil qui permet de faire des recherches complexes dans des textes.

 Gutenberg (source de données non structurées) : Le Projet Gutenberg (PG) fut lancé par Michael Hart en 1971 afin de constituer une bibliothèque de versions électroniques libres (parfois appelés e-texts) de livres physiquement existants. Les textes fournis sont essentiellement du domaine public, soit parce qu’ils n’ont jamais été sous copyright, soit parce que leur copyright a expiré. On y trouve également quelques textes sous copyright rendus disponibles par le projet Gutenberg avec la permission de l’auteur. Le projet fut nommé d’après l’imprimeur allemand du XVe siècle Johannes Gutenberg qui déclencha la révolution de la presse à imprimer à caractère mobile. En février 2006, le projet Gutenberg annonce posséder plus de 18 000 livres dans sa collection. (Wikipédia)

 Hansard : Corpus bilingue (français-anglais) rassemblant les débats de la Chambre des communes du Parlement canadien, souvent utilisé pour tester des modèles de traduction statistiques.

 Hiérarchie de Chomsky : Manière de classifier les langages décrits par les grammaires selon le degré de sophistication nécessaire pour les traiter.

 HITS : Algorithme de recherche d’informations utilisé par IBM. La valeur des pages dépend des mots-clés de la requête de l’utilisateur.

 Hyperlien : Connexion activable à la demande sur le [w]eb, reliant des données textuelles ayant une relation de complémentarité les unes avec les autres, et ce, où qu’elles se trouvent dans Internet. (Le grand dictionnaire terminologique, OQLF)

 ID3 : Nom des métadonnées pouvant être insérées dans un fichier audio, comme MP3. Ces métadonnées permettent d’obtenir des informations sur le contenu du fichier comme le titre, le nom de l’interprète, ou encore la date de sortie. (Wikipédia)

 Index : Liste ordonnée de mots ou de termes. Dans le cadre de ce cours, un index sera une liste de mots apparaissant dans un texte ou dans un corpus.

 Indexation probabiliste : Utilisation de probabilités dans les choix faits lors de l’indexation d’un document.

 Index inversé (Inverted Index) : Index qui, pour un mot donné, donne directement la liste des documents où il apparaît, et ce, très rapidement. Il peut aussi donner la position du mot dans le texte.

 Indexer : Attribuer à un document un indice de classification ou une liste de descripteurs représentant sous une forme codifiée le contenu informatif du document et permettant de le retrouver au cours d’une recherche ultérieure.
(Le grand dictionnaire terminologique, OQLF)

 Information structurée : Type d’information que l’on trouve dans les bases de données informatiques et dans les langages informatiques. On reconnaît l’information structurée au fait qu’elle est disposée de façon à être traitée automatiquement et efficacement par un logiciel, mais pas nécessairement par un humain.

 Information non structurée : Type d’information qui constitue en quelque sorte le contraire de l’information structurée, c’est-à-dire qu’elle ne peut pas être comprise par une machine, comme des documents textuels (une lettre par exemple).

 Information semi-structurée : Type d’information qui contient des éléments structurés et des éléments non structurés, comme le courriel par exemple.

  Information overload : Voir Surcharge d’information.

  Information retrieval : Voir Recherche d’information.

 Intelligence artificielle : Souvent abrégée avec le sigle IA, elle est définie par l’un de ses créateurs, Marvin Lee Minsky, comme « la construction de programmes informatiques qui s’adonnent à des tâches qui sont, pour l’instant, accomplies de façon plus satisfaisante par des êtres humains, car elles demandent des processus mentaux de haut niveau tels que : l’apprentissage perceptuel, l’organisation de la mémoire et le raisonnement critique ». (Wikipédia)

 Interface multimodale : Type d’interface qui utilise plusieurs « modes » : par exemple la voix, l’image et les entrées au clavier.

 Internet : Réseau informatique mondial constitué d’un ensemble de réseaux nationaux, régionaux et privés, qui sont reliés par le protocole de communication TCP-IP. (Le grand dictionnaire terminologique, OQLF)

 Intranet : Réseau informatique privé, à l’intérieur d’une organisation, qui utilise les protocoles de communication et les technologies du réseau Internet. (Le grand dictionnaire terminologique, OQLF)

  Inverse Document Frequency : Voir Inverse de la fréquence des documents.

 Inverse de la fréquence des documents (Inverse Document Frequency) : si $df(t)$ est le nombre de documents contenant le terme $t$, alors l’inverse de la fréquence des documents est donné par $-\log_2 \frac{df(t)}{D}$ où $D$ est le nombre total de documents dans le corpus.

  Inverted Index : Voir Index inversé.

 Latence : La latence (temps d’attente) est le résultat de la somme du temps d’accès et du taux de transfert multiplié par la quantité d’informations à lire.

  Latent Semantic Indexing : Technique utilisée dans le traitement de la langue naturelle, en particulier dans l’analyse vectorielle. (Wikipédia)

 Lissage : Technique permettant de modifier la probabilité 0 des n-grammes n’apparaissant pas dans un corpus. Il existe différentes techniques de lissage, par exemple le lissage de Laplace, le lissage Goog-Turing, le lissage backoff, le lissage Dirichlet, etc.

 Liste : Chaîne d’éléments qu’on peut diviser en séquences et dans laquelle on peut ajouter de nouveaux éléments à n’importe quel endroit.

 Loi de Moore : Loi énoncée par Moore, en 1980, selon laquelle le nombre de transistors des microprocesseurs sur une puce de silicium double tous les deux ans. Même s’il ne s’agit pas d’une vraie loi physique, cette prédiction s’est révélée incroyablement exacte. Entre 1971 et 2001, la densité des transistors a doublé chaque 1,96 année. En conséquence, les machines électroniques sont devenues de moins en moins coûteuses et de plus en plus puissantes. (Wikipédia)

 Loi de Zipf : On nomme Loi de Zipf une observation empirique sur la fréquence des mots dans un texte. (Wikipédia)

 Lucene : Engin de recherche open source développé en Java par Doug Cutting. (Pour plus de détails, voir la page Lucene de Wikipédia en anglais.)

 Machine de Turing : Modèle abstrait de fonctionnement d’un ordinateur et de sa mémoire, créé par Alan Turing en vue de donner une définition précise au concept d’algorithme ou « procédure mécanique ». (Wikipédia)

 Matrice : En informatique, une matrice est un tableau à deux dimensions ayant m rangées et n colonnes.

 Métadonnée : Donnée qui renseigne sur la nature de certaines autres données et qui permet ainsi leur utilisation pertinente. (Le grand dictionnaire terminologique, OQLF)

 Métalangage : Le XML est un « métalangage » permettant d’échanger de l’information, principalement sur le web. On dit que c’est un « métalangage » parce qu’il permet de créer de nouveaux langages pour l’échange d’informations, mais qu’il ne constitue pas un langage en soi. On dit donc que le XML est « extensible » (peut être étendu) et que c’est un métalangage : les deux affirmations ont le même sens et notent la capacité du XML à s’adapter à des besoins différents.

 Modèles classiques de recherche d’informations : Modèles booléen, vectoriel, probabiliste, flou (Vector Space Model, Modèles booléen, vectoriel, probabiliste, logique).

 Modèle de langue : Modèle dont l’objectif est de capter les régularités linguistiques par une ou plusieurs fonctions probabilistes.

 Moteur de recherche : Programme qui indexe le contenu de différentes ressources Internet, plus particulièrement de sites web, et qui permet, à l’aide d’un navigateur web, de rechercher de l’information selon différents paramètres, en se servant de mots-clés, ou par des requêtes en texte libre, et d’avoir accès à l’information ainsi trouvée. (Le grand dictionnaire terminologique, OQLF)

 MP3 : Abréviation de MPEG-1/2 Audio Layer 3, la spécification sonore du standard MPEG-1, du Moving Picture Experts Group (MPEG). C’est un algorithme de compression capable de réduire drastiquement la quantité de données nécessaire pour restituer de l’audio, mais qui, pour l’auditeur, ressemble à une reproduction du son original non compressé, c’est-à-dire avec perte significative mais acceptable de qualité sonore pour l’oreille humaine. (Wikipédia)

 Multimédia : Technologie de l’information permettant l’utilisation simultanée de plusieurs types de données numériques (textuelles, visuelles et sonores) à l’intérieur d’une même application ou d’un même support, et cela, en y intégrant l’interactivité apportée par l’informatique. (Le grand dictionnaire terminologique, OQLF)

 Nanoseconde (ns) : La millième partie d’une millionième de seconde ($10^-9$ seconde). (Le grand dictionnaire terminologique, OQLF)

 n-gramme : Liste de n caractères consécutifs. Par exemple, un bigramme est un 2-gramme : 2 caractères apparaissant de façon consécutive dans un texte forment un bigramme de caractères. Un trigramme est un 3-gramme et ainsi de suite. Exemple : dans la phrase « Lucie a un chat », les 3-grammes de lettres sont luc, uci, cie, iea, eau, aun, unc, nch, cha, hat.

 Nombre réel : Nombre pouvant être représenté, dans une numération à base fixe, par un numéral fini ou infini. (Le grand dictionnaire terminologique, OQLF)

 Nombre complexe : Nombre pouvant être représenté par une paire ordonnée de nombres réels et pouvant être exprimé sous la forme a + bi, où a et b sont les nombres réels et i au carré = -1. (Le grand dictionnaire terminologique, OQLF)

 Numérisation : Conversion d’informations analogiques (son, image, texte) en valeurs numériques correspondantes, manipulables par ordinateur. (Le grand dictionnaire terminologique, OQLF)

 Octet : Groupe de 8 bits représentant un caractère (une lettre, un chiffre ou un symbole).

 PageRank : Algorithme de recherche de Google qui permet de déterminer le positionnement d’une page web par rapport à d’autres.

 Penn-Treebank : Corpus anglais-américain largement utilisé pour procéder à un étiquetage syntaxique.

 Pile : Unité de stockage où on empile (ou dépile) des éléments l’un par dessus l’autre, de telle manière qu’on ne puisse voir que le dessus de la pile.

 Précision : Proportion de documents pertinents parmi ceux trouvés : un outil qui donnerait à l’utilisateur tous les documents disponibles aurait une très basse précision ; un outil qui ne donnerait qu’un seul document, mais un document pertinent, aurait une précision de 1.

 Rappel : Nombre de documents pertinents trouvés divisé par le nombre de documents pertinents disponibles ; un outil qui donnerait à l’utilisateur tous les documents disponibles aurait un rappel de 1 ; un outil qui ne donnerait qu’un seul document, mais un document pertinent, pourrait avoir un rappel très faible (presque 0).

 RDF : Resource Description Framework (RDF) est un modèle de graphes pour décrire les (méta-)données et permettre un certain traitement automatique des métadonnées. Une des syntaxes (sérialisation) de ce langage est RDF/XML. Il s’agit d’un dialecte XML développé par le consortium W3C. (Wikipédia)

 Recherche d’informations : Ensemble des opérations, méthodes et procédures ayant pour effet d’extraire, de données rangées en mémoire, les informations concernant un sujet donné. (Le grand dictionnaire terminologique, OQLF)

 Regex : Abréviation anglaise (regular expression) parfois utilisée pour désigner le terme expression régulière (voir ce mot).

  Relevance feedback : Voir Contrôle de pertinence (traduction donnée par l’OQLF dans Le grand dictionnaire terminologique), autre traduction trouvée : rétroaction de pertinence, définition de Relevance (Information retrieval) sur Wikipédia en anglais.

 Scalaire : Grandeur caractérisée par un nombre seul. (Le grand dictionnaire terminologique, OQLF)

 Schéma SQL : Description des informations contenues dans une base de données SQL telle que SQL Server, MySQL ou PostgreSQL. Rappelons qu’une base de données SQL est une base de données relationnelle utilisant le Structured Query Language.

  Similarity Measures in Information Retrieval : Voir Récupération d’informations par mesures de similarité (méthodes « Bayes Naïf », méthodes du plus proche voisin, techniques d’évaluation).

  Stemming : Voir Troncature.

 Surdose d’information : Flot d’information tellement important que l’état cognitif et émotionnel d’un individu le rend incapable de traiter l’information.

 Système d’information : Système constitué des ressources humaines (le personnel), des ressources matérielles (l’équipement) et des procédures permettant d’acquérir, de stocker, de traiter et de diffuser les éléments d’information pertinents au fonctionnement d’une entreprise ou d’une organisation. (Le grand dictionnaire terminologique, OQLF)

 Système d’information géographique : Système informatique permettant, à partir de diverses sources,
de rassembler et d’organiser, de gérer,
d’analyser et de combiner, d’élaborer et de présenter
des informations localisées géographiquement,
contribuant notamment à la gestion de l’espace.
(Société française de photogrammétrie et télédétection, 1989)

 Tableau de suffixes : Ensemble de structures de données informatiques permettant de faire des recherches dans un document. Sans compression, le tableau de suffixe occupe un espace comparable au texte original. Il permet des recherches en temps $O(\log n)$ et en temps $O(n)$ (au moyen d’algorithmes très efficaces).

 Taux de transfert : Vitesse à laquelle on peut lire les données en séquence : dans un disque rigide, cette vitesse correspond un peu à la vitesse de l’aiguille au-dessus du disque magnétique.

 Taxonomie : Construction d’un plan de classification de concepts utilisant des classes disjointes de concepts agrégés. (Le grand dictionnaire terminologique, OQLF)

 Temps d’accès : Délai moyen à partir duquel on peut trouver et commencer à lire une section de mémoire. On exprime souvent ce délai en millisecondes (ms) ou en nanosecondes (ns) : dans un disque rigide, cette vitesse est fonction de la vitesse à laquelle on peut placer l’aiguille à la bonne position au-dessus du disque magnétique.

 Téraoctet : Un téraoctet est 1024 gigaoctets, donc 5 millions de téraoctets fait 64 millions de disques de 80 gigaoctets ou 8 milliards de CD-ROM !

  Term Frequency : Voir Fréquence d’un terme.

  Text mining : Voir Exploration de texte.

 Thésaurus : Sorte de dictionnaire hiérarchisé, avec un vocabulaire normalisé sur la base de termes génériques et de termes spécifiques à un domaine. Il ne fournit qu’accessoirement des définitions, des relations entre les termes, leur choix l’emportant sur les significations. (Wikipédia)

 Troncature : (stemming). Signe qui remplace une ou plusieurs lettres d’un mot. En général, elle [la troncature] est représentée par l’astérisque (*). (Service de Recherche Documentaire DSI)

 URI (Uniform Resource Identifier) : Adresse fictive qui identifie une ressource Internet. Un URI contient un protocole (http, mailto, ftp, etc.), un domaine comme « fichiers.com » et un chemin comme « /mesfichiers/index.html ».

 Validation croisée (cross-validation) : La validation croisée consiste à découper les données disponibles en sous-ensembles et à en utiliser une partie pour faire la prédiction et l’autre partie, pour valider l’algorithme.

 Vecteur : Dans une représentation graphique, segment tracé dans une certaine direction, depuis un point de départ jusqu’à un point d’arrivée (Le grand dictionnaire terminologique, OQLF). En informatique, un vecteur est un tableau à une dimension.

 Web : Le World Wide Web (ou le web, la Toile, WWW ou encore W3), littéralement la « toile (d’araignée) mondiale », est un système hypertexte public fonctionnant sur Internet et qui permet de consulter, avec un navigateur web, des pages web mises en ligne dans des sites web. L’image de la toile vient des hyperliens qui lient les pages web entre elles. (Wikipédia)

 Web sémantique : Extension du World Wide Web permettant de publier, de consulter et, tout particulièrement, d’automatiser le traitement de connaissances précisément formalisées. (Wikipédia)

 Wikipedia : Wikipedia est une encyclopédie en ligne gratuite écrite par des bénévoles en plus de 100 langues différentes et contenant entre 1 et 2 millions d’articles.