Semaine 3 / Travail noté sur l’information non structurée

Travail noté sur l’information non structurée

Attention ! Le cours comprend quelques consignes simples pour la remise des travaux. Si vous choisissez de ne pas en tenir compte, il est possible que vous deviez subir des délais supplémentaires.

Petit rappel

Il est possible que vous éprouviez le besoin de revoir le texte sur les probabilités avant de faire ce travail. N’hésitez pas à le relire au besoin.

Consignes du travail noté 1

Vous devez rédiger un court rapport (en format « pdf », « Word », « RTF », « OpenDocument » ou « texte »).

Les archives RAR ne sont jamais acceptées.

Le travail est sur 10 points [1]. Comptez environ 7 heures pour faire le travail si vous avez bien fait les lectures de cette semaine et de la semaine précédente ainsi que les activités d’autoévaluation.

Quand est-ce que je dois remettre le travail ?

On vous invite à remettre le travail à la fin de la troisième semaine du cours. Si vous n’avez pas reçu les informations nécessaires pour savoir à quoi correspond la troisième semaine de cours pour vous, ou que les informations n’étaient pas assez précises, vous pouvez obtenir plus de renseignements auprès de l’Université, mais non auprès de la personne qui vous encadre car celle-ci ne gère pas les inscriptions.

Question 1 (2 points)

Choisissez les sites web des gouvernements de 35 pays différents dont au moins un en Asie et un en Afrique, incluant le site du gouvernement du Canada (http://www.canada.ca/), celui de la France (http://www.gouvernement.fr/) et de la Grande-Bretagne (https://www.gov.uk/). Dans le cas des pays qui n’ont pas de site web officiel, vous pouvez opter pour le site web de la présidence du pays, ou l’équivalent.

En faisant afficher la source d’une page choisie (au moyen d’un clic droit de souris), vérifiez si on utilise, dans les sites, une norme RDF telle que Dublin Core ou Open Graph (indice : cherchez des lignes commençant par « <meta name="DC » ou « <meta name="dcterms » [2]). Par la suite, dressez une liste des pays choisis, indiquez le site web visité correspondant et dites si oui ou non, on a utilisé une norme RDF. Présentez les résultats sous la forme d’un tableau.

Faites ensuite le tour de tous les sites utilisant une norme RDF et déterminez quels sont les « verbes » ou « prédicats » employés. Pour chaque « verbe », dites combien de sites de gouvernement l’utilisent. Triez les « verbes » dans l’ordre inverse de leur fréquence. Est-ce une distribution de Zipf ? Expliquez votre point de vue.

Question 2 (1 point)

Soit un document comprenant 5 caractères distincts (A, B, C, D, et E). La fréquence des caractères obéit à une loi de Zipf et il y a 137 caractères dans le document.

Sans compression, la plupart du temps, un logiciel utilisera au moins 8 bits par caractère pour stocker le document (soit 137 fois 8 ou 1096 bits), mais on peut aussi n’utiliser que 3 bits par caractères (A=100, B=010,C=001,D=110,E=101) pour un coût de stockage de 411 bits.

Quelle est la quantité d’information contenue dans le texte ? Combien de bits sont requis, dans le meilleur des cas pour stocker le document (selon la théorie de Shannon) ? Quel est le taux de compression maximal (ratio non compressé sur compressé) par rapport à un stockage utilisant 411 bits ?

Indice. Vous devez utiliser le fait que $\sum_{i=1}^5 1/i=137/60$.

Question 3 (1 point)

Supposons qu’une société produise des ordinateurs destinés à traiter des données géophysiques pour une grande société minière. À cause des progrès technologiques, le traitement des données se fait de plus en plus rapidement, le nombre d’octets lus par seconde double chaque année, c’est-à-dire qu’il suit une courbe exponentielle $M 2^t$ où $t$ est le nombre d’années depuis l’an 2000 et $M=1024$. On suppose que le microprocesseur peut traiter les données au moins aussi rapidement qu’elles sont lues. Le temps d’accès aux données est, quant à lui, une constante de $K=0.01$ seconde. Le patron de la société a promis aux clients et investisseurs que la latence serait réduite de moitié de l’an 2000 à l’an 2010, même si la quantité de données à traiter double tous les quatre ans. Heureusement, en tant qu’ingénieur responsable du projet, vous pouvez concevoir vous-même les tests de latence. Dans le cadre de ces essais, le logiciel de la société doit traiter des blocs de données dont la taille double tous les quatre ans (suivant une courbe $A 2^{t/4}$). Vous êtes libre de fixer le paramètre $A$ déterminant la taille des blocs de données. Si la latence doit être réduite de moitié entre les années 2000 et 2010, quelles sont les valeurs permises pour $A$ ?

Indice : Le temps d’accès à un bloc est de $K$ secondes, alors que le temps de lecture d’un bloc est de $\frac{A 2^{t/4} }{M 2^t} $. La latence totale est la somme du temps d’accès et du temps de lecture.

Question 4 (1 point)

Dites combien d’attributs, d’appels d’entités et d’éléments compte le document XML suivant :

<?xml version="1.0" encoding="ISO-8859-1"?>
<rss version="1.0">
<item>
<title text="R &amp; D en perte de vitesse />
</item>
</rss>

Est-ce qu’il s’agit d’un document XML bien formé ?

Indice : Il ne faut pas compter la déclaration XML dans les éléments et attributs.

Question 5 (1 point)

Le cédérom Gutenberg contient à la fois de l’information structurée et de l’information non structurée. L’information structurée disponible dans chaque document est assez bien représentée par ce qu’on trouve dans le fichier « master_list.csv » que vous pouvez ouvrir avec un éditeur de texte comme Bloc-notes (Notepad, en anglais). Trouvez la ligne qui correspond au fichier « 8swan11.txt » et comptez le nombre d’octets sur la ligne. Trouvez le fichier « 8swan11.txt » sur le cédérom, puis voyez le nombre d’octets qu’il occupe. En supposant que le fichier « 8swan11.txt » comporte essentiellement de l’information non structurée alors que la ligne en question dans le fichier « master_list.csv » est structurée, quel est le ratio « information structurée »/ information non structurée » ? Refaites l’expérience avec 3 autres documents choisis au hasard et présentez vos résultats dans un tableau. Expliquez ce que ce type de ratio implique comme difficulté pour les bibliothèques numériques ? Sous quel format se trouve l’essentiel des informations ?

Question 6 (2 point)

Étant donné une boutique qui vend 10 articles dont le nombre de ventes suit une loi de Zipf, quelle est la fraction des ventes qui correspond aux 8 articles les moins populaires ? Expliquez votre démarche.

Question 7 (2 point)

Un des objectifs de ce cours est de pouvoir décrire le rôle que joue l’information non structurée dans une organisation. De plus en plus d’organisations utilisent les wikis ou autres outils de gestion de contenu à des fins de gestion des connaissances. Nous souhaitons donc que vous soyez familier avec l’édition collaborative de documents.

Accédez à Wikipédia, créez un compte ou connectez-vous si vous avez déjà un compte Wikipédia [3], puis améliorez le contenu d’un article de votre choix. Citez l’article que vous avez amélioré [4] et décrivez en quoi consiste votre « amélioration ». Il vous est aussi permis de créer un nouvel article. Par ailleurs, la modification faite peut être aussi petite que vous le voulez (la correction d’une coquille est suffisante).

Indice : Wikipédia traite d’un grand nombre de sujets allant des jeux vidéos au jardinage. Faites quelques recherches et vous trouverez sans mal un article qui vous intéresse particulièrement ou encore, un article faible ou incomplet qui aurait intérêt à être amélioré.

Rappel : Les archives RAR ne sont jamais acceptées lors de la remise des travaux.


Les travaux du cours INF 6460 ne sont pas sous une licence Creative Commons.


[1Il compte pour 5 % de la note totale du cours.

[2Voir par exemple la spécification RFC2731.

[3Voir l’hyperlien situé généralement en haut à droite de la page Wikipédia.

[4Voir l’hyperlien « Citer cet article » chez Wikipédia pour des suggestions de forme de citation.