Typage et classification des unités d'information de UTOPIA

Présentation

Ce document présente une classification des unités d'information de UTOPIA selon une méthode ad hoc.

Les unités d'informations

Le document possède 213 unités d'informations. Leurs descripteurs et référents ont été regroupés en 7 classes

  1. Les mots-clés (MC);
  2. Les champs (conceptuels) (CH);
  3. Les auteurs (AU);
  4. Les citations (CIT);
  5. Les notes (NOT);
  6. Les documents généraux (ibliographie) (DOC);
  7. Les outils (tables des matières) (OUT);

Les unités peuvent être indexées à partir des ces nouveaux concepts:

i pi Descripteur Référent
MC CH AU CIT NOT DOC OUT MC CH AU CIT NOT DOC OUT
1 1             1     1     1 1
2 1             1   1         1
3 12 1   1         1     1   1  
4 1     1                   1  
5 3 1   1         1         1  
6 10 1   1         1     1 1 1  
7 1 1   1         1       1 1  
8 100       1                    
9 51 1     1       1            
10 12         1                  
11 1         1     1            
12 1           1       1   1    
13 4           1       1     1  
14 1           1       1   1 1  
15 2           1       1        
16 1           1                
17 11 1 1           1            

Les valeurs de pi donnent le nombre d'unités d'information présentant le profil considéré.

Pour deux unités d'information: Ui > Uj si les référents de i sont compris dans ceux de j et les descripteurs de j sont compris dans ceux de i.

Pour trouver les types d'unités d'information, on peut imaginer un algoritme ad hoc:

  1. Considérer les profils de poids élevés qui servent de référence.
  2. En cas d'inclusion, en cas de distance faible, assimiler le profil de poids élevés à celui faible (lorsque un poids est inférieur à un certain pourcentage de l'autre).
  3. En cas de distance très faible, assimiler le profil de poids élevés à celui faible (lorsque un poids est inférieur à un certain pourcentage de l'autre).
  4. Eliminer les unités d'informations dont le profil est rare (pi = 1).

Le tableau suivant résume l'ensemble des inclusions observées. Y figurent également le poids des unités d'informations et leur distance (nombre de cases différentes). La liste ne contient que les couples d'unités d'information dont la distance est inférieur ou égale à 2 (la distance maximale observée est 8). C'est sur sa base que l'algorithme précédent peut être appliqué.

Ui inclusion Uj distance pi pj
5 > 3 1 3 12
5   4 2 3 1
6 < 3 1 10 12
6 < 5 2 10 3
7   3 2 1 12
7 < 5 1 1 3
7 > 6 1 1 10
9   8 2 51 100
10   8 2 12 100
11 < 10 1 1 12
13   12 2 4 1
14 < 12 1 1 1
14 < 13 1 1 4
15 > 12 1 2 1
15 > 13 1 2 4
15 > 14 2 2 1
16   8 2 1 100
16   10 2 1 12
16 > 12 2 1 1
16 > 13 2 1 4
16 > 14 3 1 1
16 > 15 1 1 2
17   9 2 11 51

Il conduit aux types suivants:

Type 8: les citations (pi = 100).

Type 9: les citations avec mots-clés (pi = 51).

Type 10: les notes (s'agrègent 11) (pi = 13).

Type 17: les champs (pi = 11).

Type 13: les documents (s'agrègent 12, 14, 15, 16) (pi = 8).

Type 3: Les articles (s'agrègent 4, 5) (pi = 16).

Type 6: Les articles avec note et citation (s'agrègent 7) (pi = 11).

On a: 3>6.

Unités d'informations non classables (un seul exemplaire, non agrégeable): 1, 2.

Pour conclure

Un futur travail sera d'évaluer les outils de "reconstructability analysis".


(c) A. Favre, VisioSoft S.A. & L.-O. Pochon, IRDP, 2003