Semaine 7 / Autoévaluation

Autoévaluation

Question 1

Que signifie $\log \frac{P(D_i|rel)}{P(D_i|nrel)}$ et quelle est sa relation avec le Probability Ranking Principle ?

Question 2

Fixons $P(t|rel)=0.025$ pour tous les termes, et $P(t|nrel)=\frac{df(t)}{\vert V \vert}$ où $df(t)$ est le nombre de documents contenant le terme $t$ et $\vert V \vert$ est le nombre de documents ; alors calculez la valeur de statut de recherche ($\log \frac{P(D_i|rel)}{P(D_i|nrel)}$) pour le corpus suivant :

D1= « La vie est belle »

D2= « Belle est la vie »

(La casse n’est pas significative.)

Étant donné une requête, lequel des deux documents sera offert en premier à l’utilisateur selon le Probability Ranking Principle ?

Question 3

Même question qu’en 2, mais avec le corpus suivant :

D1= « La vie est belle »

D2= « Belle, belle est la vie »

(Encore une fois, la casse doit être ignorée.)

Question 4

Même question qu’en 2, mais avec le corpus :

D1= « La vie »

D2= « Belle est la vie »

Question 5

Supposons qu’avec le corpus de la question précédente, l’utilisateur indique que le document D1 est pertinent. Calculez
$P(\textrm{la}|rel) $, $P(\textrm{vie}|rel) $, $P(\textrm{belle}|rel) $, $P(\textrm{est}|rel)$, $P(\textrm{la}|nrel) $, $P(\textrm{vie}|nrel) $, $P(\textrm{belle}|nrel)$, et $P(\textrm{est}|nrel)$.
Quelle sera alors la valeur de $\log \frac{P(D_i|rel)}{P(D_i|nrel)}$ pour le premier document ?

Question 6

Quels mots doit-on indexer parmi cette liste et pourquoi ? Le tableau donne
le nombre d’occurrences d’un mot dans chaque document.

Document Mot 1 Mot 2 Mot 3
D1 0 3 2
D2 1 3 3
D3 50 4 5
D4 0 4 10
D5 0 3 7

Question 7

Étant donné le texte « La vie est une vie sans vie. », à partir d’un modèle de la langue par unigrammes, quelle est la probabilité de l’expression « sans vie » ? Utilisez la vraisemblance maximale.

Question 8

Soit le texte « La vie est une vie sans vie. », calculez la probabilité des unigrammes présents dans le texte par vraisemblance maximale, par lissage de Laplace et par lissage de Good-Turing. Supposez qu’il y a 5 000 mots dans la langue française (ce qui est faux !).

Question 9

Quelle sont les valeurs maximales et minimales de $\log \frac{P(rel|D_i)}{P(nrel|D_i)}$ ?

Question 10

J’ai douze poissons dans mon aquarium. Aujourd’hui, je ne vois que le poisson rouge. Par lissage Good-Turing, quelle est la probabilité que la prochaine fois que je vais entrer chez moi, le premier poisson que je vois soit autre chose que mon poisson rouge ?

Question 11

Vrai ou faux : $P(D_i|rel)+P(D_i|nrel)=1$.

Question 12

Si $P(rel)=0.5$, prouvez que $P(D_i|rel)+P(D_i|nrel)=\frac{P(D_i|nrel)}{P(nrel| D_i)}$.

Question 13

En utilisant des mots comme unité de base, quels sont les suffixes de la phrase « Jean aime les pommes » ?

Question 14

Dans un site Web, je vend 5 produits. Aujourd’hui, j’ai fait 1 vente pour les produts A, B et C, 2 ventes pour le produit D et aucune vente pour le produit E. Quel est la fréquence de Good-Turing de mes ventes ?