Spécificités lexicales
Identifier les mots caractéristiques d'un sous-corpus avec le test hypergéométrique de Lafon.
L'analyse des spécificités répond à une question centrale en SHS :
Quels mots caractérisent le discours d'un groupe par rapport aux autres ?
Par exemple : les enseignants du primaire emploient-ils un vocabulaire différent de ceux du supérieur ?
Le principe
On divise le corpus en groupes selon une variable de contexte (niveau, genre, ancienneté…). Pour chaque mot, on compare sa fréquence observée dans un groupe à sa fréquence attendue si le vocabulaire était réparti au hasard.
- Mot sur-représenté dans un groupe → il le caractérise (spécificité positive)
- Mot sous-représenté → il en est absent de façon notable (spécificité négative)
Le modèle statistique : la loi hypergéométrique
POSAC utilise le test hypergéométrique de Pierre Lafon (1980), la méthode de référence en lexicométrie française.
L'idée : on imagine tirer au hasard, dans l'ensemble du corpus, autant de mots qu'en contient le groupe. Quelle est la probabilité d'observer au moins (ou au plus) la fréquence réellement constatée ?
Paramètres du modèle pour une forme dans un groupe :
- M = nombre total d'occurrences du corpus (population)
- n = fréquence globale de la forme (succès dans la population)
- N = nombre d'occurrences du groupe (taille de l'échantillon)
- k = fréquence de la forme dans le groupe (succès observés)
Lire le score de spécificité
Le résultat est un indice signé :
| Score | Interprétation |
|---|---|
| > +2 | Sur-représentation significative (seuil ~1 %) |
| entre −2 et +2 | Non significatif |
| < −2 | Sous-représentation significative |
Plus la valeur absolue est élevée, plus la spécificité est marquée. Le score correspond à −log₁₀(p) affecté du signe de sur/sous-représentation.
Pourquoi pas un simple comptage ?
Un mot peut être plus fréquent dans un groupe simplement parce que ce groupe contient plus de texte. Le test hypergéométrique neutralise cet effet de taille en raisonnant en probabilités.
Conditions d'utilisation
Il faut au moins deux groupes
Les spécificités comparent des groupes entre eux. Si votre variable n'a qu'une seule valeur (tous les documents identiques), aucune spécificité ne peut émerger. Choisissez une variable qui distingue réellement vos textes.
- Chaque groupe doit contenir assez de texte pour que les fréquences soient stables.
- Les mots trop rares (fréquence < 3) sont écartés pour éviter le bruit.
Visualisation
POSAC affiche, pour chaque groupe, un diagramme en barres divergentes : les mots sur-représentés s'étendent vers la droite (bleu), les sous-représentés vers la gauche (rouge). On lit ainsi en un coup d'œil le profil lexical de chaque groupe.