Etude expérimentale de la structure d'un hypertexte créé par morceaux à partir des relations documents-concepts (2)

Introduction

Le but est de construire un hypertexte avec une densité des concepts non égales. Pour cela les matrices D et R sont construites par blocs.

L'hypothèse est que cet hypertexte va "quasi" se décomposer en 2 parties.

Premier exemple à distribution non uniforme

D et R sont construits à l'aide des blocs suivants:

D11: 500 Ui, 2 concepts pris parmi 300 D12: 500 Ui, 3 concepts pris parmi 300 D13: 500 Ui, 5 concepts pris parmi 300
D21: 500 Ui, 5 concepts pris parmi 300 D22: 500 Ui, 3 concepts pris parmi 300 D23: 500 Ui, 2 concepts pris parmi 300
R11: 500 Ui, 3 concepts pris parmi 300 R12: 500 Ui, 7 concepts pris parmi 300 R13: 500 Ui, 10 concepts pris parmi 300
R21: 500 Ui, 10 concepts pris parmi 300 R22: 500 Ui, 7 concepts pris parmi 300 R23: 500 Ui, 3 concepts pris parmi 300

L' hypertexte généré contient 1000 documents et 900 concepts avec le maximum de descripteurs et de référents par document pris au hasard selon une distribution uniforme par tranche de 300 concepts.

Le graphe orienté contient 55057 arêtes.

Les figures 1 et 2 donnent les distributions du nombre de liens sur et à partir des Ui.

fig 1. Distribution du nombre de liens sur les Ui

fig 2. Distribution du nombre de liens à partir des Ui

Le graphe non orienté associé est constitué d'une seule composante connexe. La deuxième valeur propre de 20.7 montre une connectivité élevée. En cherchant la décomposition en 2 quasi-composantes, on ne retrouve pas les deux familles d'Ui introduites (de 1 à 500 et de 500 à 1000).

Le CORE est constitué de 996 Ui.

Deuxième exemple à distribution non uniforme

D et R sont construits à l'aide des blocs suivants:

D11: 500 Ui, 0 concepts pris parmi 300 D12: 500 Ui, 2 concepts pris parmi 300 D13: 500 Ui, 5 concepts pris parmi 300
D21: 500 Ui, 5 concepts pris parmi 300 D22: 500 Ui, 2 concepts pris parmi 300 D23: 500 Ui, 0 concepts pris parmi 300
R11: 500 Ui, 0 concepts pris parmi 300 R12: 500 Ui, 3 concepts pris parmi 300 R13: 500 Ui, 10 concepts pris parmi 300
R21: 500 Ui, 10 concepts pris parmi 300 R22: 500 Ui, 3 concepts pris parmi 300 R23: 500 Ui, 0 concepts pris parmi 300

L' hypertexte généré contient également 1000 documents et 900 concepts.

La structure observée n'est pas très différente de celle précédente. Le CORE est constitué de 920 éléments.

Dans ce cas nous avons observé les ensembles K3(u) [2]. On a par exemple: #K3(u39) = 917 (maximum) ce qui donne à cette unité d'information (u39) le caractère d'un véritable hub. Autre valeur exemplaire: #K3(u508) = 127 (minimum non nul). La distribution de #K3(u) est donnée par la figure 3.

fig 3. Distribution de #K3(u)

Le graphe induit sur les unités d'information a encore été analysé en utilisant la technique introduite dans le document Structure d'un hypertexte sous forme matricielle. La figure 4 introduit une coupure de valeur 0.12. Pour la figure 5 la coupure est à 0.01.

¨

fig 4. Représentation des Ui de l'hypertexte: hptxt1000-900c. Valeur de coupure 0.12

fig 5. Représentation des Ui de l'hypertexte: hptxt1000-900c. Valeur de coupure 0.01

Conclusion

Dans le premier cas, l'hypothèse n'est pas vérifiée. L'hypertexte obtenu ressemble fortement à un hypertexte obtenu avec une répartition uniforme des concepts. Vraisemblablement, la diminution du nombre maximal de concepts sur certains documents a été compensée par le fait qu'une répartition globale était assurée et que la probabilité d'absence de descripteur et/ou référent a été de ce fait diminuée. Cela a conduit à construire un deuxième exemple avec une attribution plus marquée de certains concepts à certaines unités d'information avec un résultat toutefois comparable. Il apparaît donc, sauf dans ces cas très artificiels, les hypertextes obtenus par ce procédé sont relativement "connectés". Ce qui rejoint les remarques concernant la densité que l'on peut trouver dans [3] qui se réfèrent aux travaux de Erdös et Renyi.

Notes

(c) A. Favre & L.-O. Pochon, IRDP, 2004