CHD — Méthode Reinert
La Classification Hiérarchique Descendante pour découvrir les mondes lexicaux d'un corpus.
La Classification Hiérarchique Descendante (CHD), ou méthode Reinert, est le cœur de l'analyse textuelle structurale. Elle répond à :
Quels sont les grands thèmes qui structurent mon corpus, sans que je les définisse à l'avance ?
C'est une méthode exploratoire et non supervisée : elle découvre les classes thématiques (les « mondes lexicaux ») par elle-même.
L'intuition
Des mots qui apparaissent souvent ensemble dans les mêmes fragments de texte relèvent probablement d'un même thème. La CHD regroupe les segments selon ces co-occurrences, faisant émerger des classes au vocabulaire homogène.
Dans un corpus sur l'IA en éducation, la CHD pourrait dégager :
- une classe « usages pédagogiques » (élève, apprentissage, cours, exercice…)
- une classe « craintes éthiques » (risque, données, dépendance, contrôle…)
- une classe « aspects techniques » (algorithme, outil, plateforme, machine…)
Les étapes (méthode Reinert)
-
Segmentation — le corpus est découpé en UCE (Unités de Contexte Élémentaires), des fragments d'environ 40 mots.
-
Matrice — on construit un tableau croisant les UCE (lignes) et les formes pleines (colonnes) : présence/absence de chaque mot dans chaque segment.
-
Classification — par bipartitions successives, l'algorithme sépare les UCE en classes maximisant les contrastes de vocabulaire.
-
Caractérisation — pour chaque classe, un test du χ² (chi-deux) mesure quels mots la caractérisent le plus.
Lire les résultats
Le dendrogramme
Un arbre montre comment les classes se sont formées et se rattachent les unes aux autres. Les classes qui se séparent tôt (en haut) sont les plus opposées.
Les classes
Chaque classe est décrite par :
- son poids (% des segments du corpus) ;
- ses mots caractéristiques, classés par valeur du χ² ;
- des segments représentatifs (UCE typiques) qui donnent à lire la classe.
Le χ² comme indice de caractérisation
Plus le χ² d'un mot est élevé dans une classe, plus ce mot y est sur-représenté par rapport au reste du corpus. C'est lui qui « signe » le monde lexical.
Paramètres dans POSAC
- Nombre de classes (2 à 8) : combien de mondes lexicaux rechercher.
- Taille des UCE : longueur des segments (~40 mots par défaut).
Combien de classes choisir ?
Il n'y a pas de « bon » nombre absolu. Commencez avec 3 ou 4 classes, examinez leur cohérence, puis ajustez. Une classe interprétable et stable vaut mieux qu'un grand nombre de classes floues.
Précautions d'interprétation
- La CHD propose une structure ; c'est le chercheur qui nomme et interprète les classes (l'IA de POSAC peut suggérer des labels, à valider).
- Un corpus trop petit ne génère pas assez de segments → réduisez le nombre de classes.
- Les classes ne sont pas des « vérités » mais des régularités statistiques à confronter au contenu réel des segments.