Travail noté sur la recherche d’informations

Consignes du travail noté 3

Vous devez rédiger un court rapport (en format « pdf », « Word », « RTF », « OpenDocument » ou « texte »).

Les archives RAR ne sont jamais acceptées.
Le travail est sur 20 points [1]. Il faut prévoir environ 6 heures pour faire ce travail.

Question 1 (2 points)

Expliquez la différence entre $P(rel|D_i)$ et $P(D_i|rel)$. À la lumière
du Probability Ranking Principle, laquelle des deux probabilités présente un intérêt ?

Voici un ensemble de documents contenant le mot chat ainsi que des probabilités conditionnelles correspondantes :

Document	$P(D_i\|rel)$	$P(D_i\|nrel)$
D1	0.2	0.5
D2	0.5	0.1
D3	0.2	0.3
D4	0.1	0.1

Pour le document D1 uniquement, calculez $\log \frac{P(D_i|rel)}{P(D_i|nrel)}$, $P(rel|D_i)/P(nrel|D_i)$ et $P(rel|D_i)$ en supposant que $P(rel)=0.4$. Calculez le logarithme en base 2, mais expliquez le
rôle que joue la base du logarithme dans le contexte du Probability Ranking Principle.

Indice. Il y a une formule dans l’article en ligne sur les modèles probabilistes qui est très utile pour ce problème. Assurez-vous de tout lire. Calculez $P(rel|D_i)$ après avoir calculé $P(rel|D_i)/P(nrel|D_i)$.

Question 2 (2 points)

Voici un ensemble de documents :

D1= "Lucie a un crayon"

D2= "La maison est rouge"

D3= "Le crayon rouge est dans la maison rouge"

D4= "Le policier rouge est en congé avec ses souliers rouges"

D5= "Après son départ de la maison, le policier est parti sur son vélo rouge"

Pour chaque mot apparaissant dans les documents, calculez le facteur idf.

Question 3 (1 point)

Pour un utilisateur donné, on considère que seuls les documents D2 et D3 sont pertinents étant donné la requête « maison rouge » [2].

Calculez le rappel et la précision pour les requêtes suivantes :

modèle booléen : « maison ET rouge » ;

modèle booléen : « maison OU rouge » ;

Question 4 (2 points)

Un même document D a été introduit x fois, par erreur, dans un ensemble de documents indexés par le modèle vectoriel tf.idf. En supposant que x>1, Commentez l’effet de cette erreur ? Est-ce que le document en question a plus ou moins de chance de se retrouver parmi les résultats d’une recherche par mots-clefs lorsque x est grand ?

Question 5 (2 points)

Dans le modèle vectoriel tf.idf, quelle est la meilleure stratégie pour retrouver un document précis par une recherche par mots-clefs :

– Choisir, comme mots-clefs, les mots les plus fréquents du document recherché ;
– Choisir, comme mots-clefs, les mots les plus fréquents du document recherché, mais qui sont aussi fréquents dans l’ensemble des documents ;
– Choisir, comme mots-clefs, les mots les plus fréquents du document recherché, mais qui sont aussi peu fréquents dans l’ensemble des documents.

Commentez.

Question 6 (1 point)

Dans un modèle vectoriel, comment définiriez-vous la proximité entre deux documents ? Proposez une mesure qui tienne compte de la fréquence des termes et de la fréquence inverse des termes, et qui ne favorise par les documents plus longs.

Question 7 (1 point)

La précision et le rappel sont des mesures très communes en recherche d’informations. Précisez les limites de ces mesures dans un contexte distribué comme le web.

Question 8 (2 points)

Les modèles vectoriels ne tiennent pas compte, en général, des caractéristiques propres à la langue, comme la synonymie. Expliquez comment le Latent Semantic Indexing peut être une solution à ce type de problème et contribuer ainsi à améliorer la qualité des résultats.

Question 9 (1 point)

Afin d’économiser de l’espace de stockage, le concepteur d’un système d’informations à modèle booléen décide de ne stocker que les 4 premières lettres de chaque mot (comme forme de troncature). Précisez l’effet que cela aura sur la précision et le rappel.

Question 10 (2 points)

À quoi sert un index inversé ? Construisez un index inversé pour les documents suivants :

– D1= "La vie est belle."
– D2= "Bonjour le monde."
– D3= "Le monde et la vie."

Calculez le tableau de suffixes, sans structure auxiliaire, de la chaîne "La vie est belle zzz Bonjour le monde zzz Le monde et la vie" : utilisez les suffixes de mots et non de caractères. Indice : votre tableau devrait avoir moins de 20 éléments.

Comparez la recherche de mots par tableau de suffixes et par index inversé : quel est l’avantage de l’index inversé ?

Question 11 (1 point)

On a vu qu’on peut traiter la polysémie et autres problèmes associés à l’utilisation des termes en recherche d’information par les thésaurus. On peut aussi traiter les mêmes problèmes avec des méthodes probabilistes ou statistiques (notamment avec les modèles vectoriels). Déterminez une force et une faiblesse de l’approche par thésaurus par rapport aux méthodes statistiques.

Question 12 (2 points)

Il n’y a que deux types d’animaux domestiques : les chats et les chiens. Je n’ai vu que deux chats dans ma vie et aucun chien. Par vraisemblance maximale d’abord, puis par lissage de Laplace, dites respectivement quelle est la probabilité que le prochain animal domestique que je rencontre soit un chien ?

Question 13 (1 point)

En vous appuyant sur la matière présentée dans ce cours, quels sont les différents types d’interfaces pour la recherche d’informations ? Quels sont leurs avantages et inconvénients respectifs ? Relevez au moins un inconvénient (ou limite) et un avantage pour chaque type d’interface.

Les travaux du cours INF 6460 ne sont pas sous une licence Creative Commons.

[1] Il compte pour 10% de la note globale du cours.

[2] On ne dit pas s’il faut utiliser la troncature, parce que c’est sans objet ici.

Semaine 8

Travail noté sur la recherche d’informations