Spécificités lexicales

Identifier les mots caractéristiques d'un sous-corpus avec le test hypergéométrique de Lafon.

L'analyse des spécificités répond à une question centrale en SHS :

Quels mots caractérisent le discours d'un groupe par rapport aux autres ?

Par exemple : les enseignants du primaire emploient-ils un vocabulaire différent de ceux du supérieur ?

Le principe

On divise le corpus en groupes selon une variable de contexte (niveau, genre, ancienneté…). Pour chaque mot, on compare sa fréquence observée dans un groupe à sa fréquence attendue si le vocabulaire était réparti au hasard.

Mot sur-représenté dans un groupe → il le caractérise (spécificité positive)
Mot sous-représenté → il en est absent de façon notable (spécificité négative)

Le modèle statistique : la loi hypergéométrique

POSAC utilise le test hypergéométrique de Pierre Lafon (1980), la méthode de référence en lexicométrie française.

L'idée : on imagine tirer au hasard, dans l'ensemble du corpus, autant de mots qu'en contient le groupe. Quelle est la probabilité d'observer au moins (ou au plus) la fréquence réellement constatée ?

Paramètres du modèle pour une forme dans un groupe :

M = nombre total d'occurrences du corpus (population)
n = fréquence globale de la forme (succès dans la population)
N = nombre d'occurrences du groupe (taille de l'échantillon)
k = fréquence de la forme dans le groupe (succès observés)

Lire le score de spécificité

Le résultat est un indice signé :

Score	Interprétation
> +2	Sur-représentation significative (seuil ~1 %)
entre −2 et +2	Non significatif
< −2	Sous-représentation significative

Plus la valeur absolue est élevée, plus la spécificité est marquée. Le score correspond à −log₁₀(p) affecté du signe de sur/sous-représentation.

Pourquoi pas un simple comptage ?

Un mot peut être plus fréquent dans un groupe simplement parce que ce groupe contient plus de texte. Le test hypergéométrique neutralise cet effet de taille en raisonnant en probabilités.

Conditions d'utilisation

Il faut au moins deux groupes

Les spécificités comparent des groupes entre eux. Si votre variable n'a qu'une seule valeur (tous les documents identiques), aucune spécificité ne peut émerger. Choisissez une variable qui distingue réellement vos textes.

Chaque groupe doit contenir assez de texte pour que les fréquences soient stables.
Les mots trop rares (fréquence < 3) sont écartés pour éviter le bruit.

Visualisation

POSAC affiche, pour chaque groupe, un diagramme en barres divergentes : les mots sur-représentés s'étendent vers la droite (bleu), les sous-représentés vers la gauche (rouge). On lit ainsi en un coup d'œil le profil lexical de chaque groupe.