structure hptxt 2

Introduction

Dans ce document, il est rendu compte de la structure du graphe associé à des hypertextes construits à partir des deux relations "descripteur" et "référents" [1]. Les manipulations effectuées sont décrites selon la syntaxe de Matlab. Des documents complémentaires sont disponibles dans l'archive simu2-htxt.zip.

Pour comparaison, on signale la procédure de construction par degré attirance (ou par agrégation) décrite dans [3] qui produit des graphes "scale free" (graphe de nature fractale) avec une distribution des liens suivant une loi puissance (de type x^-n n fixe) [4], procédé qui rend compte de la façon dont le web se construit.

Dans ce document, on commence par faire quelques hypothèses théoriques suivies de simulations et de recherche de structure selon les procédés décrits dans [5].

Hypothèses

L'hypothèse principale est que le nombre de descripteurs et les descripteurs eux-mêmes sont attribués au hasard (de façon uniforme) à l'intérieur de chaque unité d'information. Et qu'il en va de même pour les référents. A ce procédé répond donc un graphe "isotrope". C'est-à-dire que la probabilité qu'un lien existe entre deux sommets x et y est une constante.

Cette propriété d'isotropie entraîne que la répartition des Ui en fonction du nombre de liens "rentrants" ou "sortants" suit une loi binomiale (annexe 1).

Il est évident que le paramètre de ces distributions va dépendre de la densité des descripteurs et référents pour chaque Ui. Par contre, la façon dont cette densité intervient est plus difficile à estimer. L'annexe 2 en propose une estimation.

On peut également prévoir que ces hypertextes vont possèder un assez haut degré de connectivité.

Il est également prévisible que des quasi-composantes connexes vont faire leur apparition si la distribution des concepts dans les unités d'informations ne se fait plus de façon de façon uniforme (c'est-à-dire si certains concepts ont des liens privilégiés avec certaines Ui). L'influence de cette distribution sur la connectivité de l'hypertexte est également difficile à prévoir. Une étude expérimentale est faire à ce propos dans un autres documents.

Les exemples à distribution uniforme

Trois exemples sont traités qui suivent la même procédure. Il varient par le nombre total de concepts et le nombre maximum de descripteurs / référents par Ui. Les manipulations pour décrire la structure sont décrite dans [5].

Exemple 1000 - 100 (10, 20)

Le premier hypertexte généré contient 1000 documents et 100 concepts avec au maximum 10 descripteurs et 20 référents par document. Le nombre de descripteurs et de référents associes à une Ui est pris au hasard selon une distribution uniforme.

Concrètement la matrice des descripteurs D et celle des référents sont créées par:

D = new_docXmot(1000,100,10)

R = new_docXmot(1000,100,20)

La matrice du graphe est donnée par : G = R*D'. Puis le graphe est rendu univalué (G = G&G).

Dans le cas particulier, le graphe obtenu a 1000 sommets et 361014 arêtes. Les figures 3 et 4 montrent la distribution des liens "sur" et "à partir de" (techniquement rendu par hist(sum(G,1)) et hist(sum(G,2)).

fig 3. Distribution du nombre de liens sur les Ui

fig 4. Distribution du nombre de liens à partir des Ui

L'annexe 1 montre que ces distributions suivent une loi binomiale. L'annexe 2 en estime les paramètres.

Connexité du graphe non orienté

On symétrise et univalue G (Gx = G+G', puis par Gx&Gx).

En cherchant la multiplicité de la valeur propre 0 du laplacien combinatoire (diag(sum(Gx,2)) - Gx) on obtient le nombre de composantes connexes. En l'occurence ce nombre est 2. L'examen du vecteur propre correspondant montre qu'un des composantes se réduit à une unité d'information (u994).

La première valeur propre non nulle est 40 ce qui est l'indice d'une connectivité élevée pour les 999 sommets restants (il faut ôter au moins 40 sommets pour décomposer le graphe en deux composantes).

Autorités et hubs

La recherche des valeurs propres de GG1 = G*G' donne comme valeur maximum 201130. Le vecteur associé à cette valeur maximum (dans ss1.txt) a (environ) 40 composantes nulles (puits). Les autres composantes varient entre 0.0031824 et 0.047603. Sans vraiment mettre en évidence des hubs, ce qui correspond bien à la figure 4.

Le même travail avec G1G = G'*G conduit à un vecteur propre associé (dans s1s.txt) avec 69 valeurs nulles (sources). Les autres composantes varient entre 0.0066216 et 0.049631.

Structure papillon

Le but est de chercher le CORE de l'hypertexte construit. La procédure est la suivante:

recherche de la fermeture transitive GB =G * (I-G/(||G||+1))^(-1);
univaluation: GB = GB & GB;
recherche pour chaque Ui du nombre d'unités (t(i)) qui peuvent être atteintes et qui peuvent l'atteindre. t(i) = sum(GB(i,:)&GB(:,i))

Le maximum obtenu est 960, donc t(i) = 960 pour 960 Ui [7]. Les 40 Ui restantes ne génèrent qu'un CORE trivial (réduit à elle-même). De façon détaillée:

4 Ui ne peuvent attendre aucune Ui (autre qu'elle-même)
Les autres peuvent en atteindre 963 ou 962
37 Ui ne peuvent être atteintes (sauf par elle-même)
Les autres peuvent être atteintes de 996 autres (ou parfois 995 ou 997)
L'Ui 994 est isolée

Remarques

On constate aisément que les hypothèses sont vérifiées. Toutefois, il est à remarquer que un nombres important d'Ui ont plus de 500 liens entrants ou sortants. A noter également, la grande connectivité du graphe et le CORE constitué de 96% des Ui.

Exemple 1000 - 1000 (10-20)

Le deuxième exemple traité va contenir 1000 documents et 1000 concepts avec au maximum 10 descripteurs et 20 référents par document. L'hypertexte est obtenu selon la même procédure que précéendemment. Le graphe associé contient 1000 sommets et 44768 arêtes

Les distributions des descripteurs et référents sont donnés dans les figures 5 et 6.

fig 5. Distribution du nombre de liens sur des Ui

fig 6. Distribution du nombre de liens à partir des Ui

Connexité du graphe non orienté

Selon la même procédure que précédemment, on symétrise et univalue G (Gx = G+G', puis par Gx&Gx).

La multiplicité de la valeur propre 0 du laplacien combinatoire est 6 ce qui donne le nombre de composante connexe. L'examen des vecteurs (dans v6.txt) propres correspondants montre que 5 des composantes se réduisent à une unité d'information (493, 666, 667, 710, 813).

La première valeur propre non nulle est 1,98 ce qui est l'indice d'une connectivité basse. Pour des études ultérieures, le vecteur propre correspondant à cette valeur propre se trouve dans vp7.txt.

Autorités et hubs

La reherche des valeurs propres de GG1 = G*G' donne comme valeur maximum 39993. Le vecteur associé a cette valeur maximum (dans ss2.txt) a 104 composantes nulles (puits). Les autres composantes varient entre 0.00073357 et 0.066356. Sans vraiment mettre en évidence des hubs, ce qui correspond bien à la figure x.

Le même travail avec G1G = G'*G conduit à un vecteur propre associé (dans s2s.txt) avec 97 valeurs nulles (sources). Les autres composantes varient entre 0.00073082 (721) et 0.076622 (904).

Structure papillon

Le but est de chercher le CORE de l'hypertexte construit. La procédure est la même que précédemment.

Le maximum obtenu est 933, donc t(i) = 933 pour 933. Les 67 Ui restantes n'ont qu'un CORE trivial associé. De façon détaillée:

17 Ui ne peuvent attendre aucune Ui (autre qu'elle-même)
54 Ui ne peuvent être atteintes (sauf par elle-même)
5 Ui sont isolées

Remarque

Par rapport au cas précédent on note la forte diminution du maximum de liens entrants/sortants (moins de 10 Ui ont plus de 100 de ces liens). La connectivité a également fortement diminué mais le CORE est encore constitué de 93% des Ui.

Exemple 1000 - 1000 (5, 10)

Le dernier exemple traité va également contenir 1000 documents et 1000 concepts avec au maximum 5 descripteurs et 10 référents par document. L'hypertexte est obtenu selon la même procédure que précédemment. Le graphe associé contient 1000 sommets et 11682 arêtes

Les distributions des descripteurs et référents sont donnés dans les figures 7 et 8.

fig 7. Distribution du nombre de liens sur des Ui

fig 8. Distribution du nombre de liens à partir des Ui

Connexité du graphe non orienté

Selon la même procédure que précédemment, on symétrise et univalue G (Gx = G+G', puis par Gx&Gx).

La multiplicité de la valeur propre 0 du laplacien combinatoire est 21 ce qui donne le nombre de composante connexe. L'examen des vecteurs (dans v21.txt) propres correspondants montre que 20 des composantes se réduisent à une unité d'information.

La première valeur propre non nulle est 0.967 ce qui est l'indice d'une connectivité basse. Pour des études ultérieures, le vecteur propre correspondant à cette valeur propre se trouve dans vp22.txt.

Autorités et hubs

La reherche des valeurs propres de GG1 = G*G' donne comme valeur maximum 332. Le vecteur associé a cette valeur maximum des composantes variant entre 0 et 0.0868.

Structure papillon

Le but est de chercher le CORE de l'hypertexte construit. La procédure est la même que précédemment et fourni un CORE de 772 éléments.

Remarque

La diminution de la connectivité est à nouveau compréhensible. Même le CORE n'est plus constitué que de 77% des Ui. Toutefois, on notera que les composantes connexes sont outre la plus grande, constituée d'une seule Ui.

Conclusion

L'expérimentation correspond aux projections théoriques. La construction à partir des descripteurs et des référents conduisent à des structures simples. Les graphes sont relativement bien connectés.

Notes

Valeur de alpha

Par le fait que les liens sont univalués, on peut calculer = 1-' où ' est la probabilit� que les concepts descripteur de la cibles soient diff�rents des r�f�rents de la source.

Pour effectuer ce calcul, décompte les liens en s�rie par le nombre de descripteurs de l'Ui cible. En appelant P(i) la probabilité d'avoir des concepts différents (de 0 à k) de i concepts donnés (variant de 0 à m) on a:

0 descripteur

Ce cas se présente avec la probabilité 1/(k+1). La probabilité de trouver une source avec référents diff�rents est 1 :

1 descripteur

Ce cas se présente avec la probabilité 1/(k+1), il y a k cas possibles, chacun avec la probabilit� 1/k.

La probabilité de trouver une source avec des référents diff�rents vaut probabilit� de prendre de 0 � m concepts parmi c, diff�rents de celui du descripteur :

2 descripteurs

Ce cas se présente avec la probabilité 1/(k+1), il y a cas possibles, chacun avec la probabilit� 1/.

La probabilité de trouver une source avec des référents diff�rents vaut probabilit� de prendre de 1 � m concepts parmi c, diff�rents des deux descripteurs :

k descripteurs

Ce cas se présente avec la probabilité 1/(k+1), il y a cas possibles, chacun avec la probabilit� 1/.

La probabilité de trouver une source avec des référents diff�rents vaut probabilit� de prendre de 1 � m concepts parmi c, diff�rents des k descripteurs :

En sommant le tout, on a:

On trouve pour valeurs de ' resp. 0.648, 0.952, 0.988 pour les trois simulations. Donc vaut respectivement 0.352, 0.048, 0.018 ce qui conduit � des moyennes (n) de resp. 352, 48 et 18 ce qui correspond aux valeurs obtenus expérimentalement.