Analyse de similitude
Visualiser les associations entre mots sous forme de graphe de cooccurrences.
L'analyse de similitude représente le corpus comme un réseau de mots reliés par leurs cooccurrences. Elle répond à :
Quels mots s'associent fréquemment, et comment s'organise la structure du vocabulaire ?
L'intuition
Si deux mots apparaissent souvent dans les mêmes segments, ils sont « similaires » au sens de l'usage. En reliant tous ces mots, on obtient un graphe : les nœuds sont les mots, les liens leur force d'association.
Construction du graphe
-
Cooccurrences — on compte, pour chaque paire de mots, le nombre de segments (UCE) où ils apparaissent ensemble.
-
Graphe pondéré — chaque mot devient un nœud ; chaque cooccurrence une arête dont l'épaisseur reflète la force du lien.
-
Filtrage (arbre maximal) — un graphe complet serait illisible. On conserve l'arbre couvrant maximum : la structure qui relie tous les mots en gardant uniquement les liens les plus forts.
-
Communautés — un algorithme détecte des groupes de mots fortement interconnectés (les communautés thématiques), distingués par couleur.
Lire le graphe
| Élément visuel | Signification |
|---|---|
| Taille du nœud | Fréquence du mot |
| Épaisseur du lien | Force de la cooccurrence |
| Couleur | Communauté (groupe de mots associés) |
| Centralité | Un mot très connecté est un pivot du discours |
Mots-pivots et ramifications
Les mots centraux (nombreux liens) organisent le discours. Les ramifications qui en partent révèlent les thèmes associés. On lit ainsi l'architecture du vocabulaire.
Différence avec la CHD
- La CHD sépare le corpus en classes disjointes (chaque segment appartient à une classe).
- La similitude montre un réseau continu d'associations, sans cloisonnement.
Les deux sont complémentaires : la CHD typologise, la similitude cartographie les liens.
Paramètres dans POSAC
- Nombre de formes : combien de mots afficher (les plus fréquents).
- Cooccurrence minimale : seuil en dessous duquel un lien est ignoré (réduit le bruit).
Un graphe trop dense devient illisible. Si le réseau est confus, réduisez le nombre de formes ou augmentez le seuil de cooccurrence pour ne garder que les associations robustes.