Concepts clés

Les notions fondamentales de la lexicométrie — forme, lemme, occurrence, hapax, segment.

Avant d'analyser un corpus, il faut maîtriser quelques notions de base. Elles reviennent dans toutes les méthodes.

Du texte aux unités de comptage

Un texte est une suite de caractères. Pour le compter, on le découpe en unités :

Token (jeton)

La plus petite unité, obtenue par tokenisation : chaque mot, nombre ou ponctuation devient un token.

« Les élèves apprennent. » → Les · élèves · apprennent · .

Forme (ou occurrence)

Une forme est un mot tel qu'il apparaît dans le texte. Le nombre total de formes = le nombre d'occurrences.

Dans « le chat et le chien », il y a 5 occurrences mais seulement 4 formes distinctes (le apparaît deux fois).

Lemme

Le lemme est la forme canonique d'un mot (entrée du dictionnaire). La lemmatisation regroupe les variations :

Formes	Lemme
mange, manges, mangeait, mangé	manger
élève, élèves	élève
beau, belle, beaux	beau

La lemmatisation est cruciale : sans elle, « apprendre », « apprend », « apprennent » seraient comptés séparément, diluant la fréquence réelle du concept.

Formes pleines vs mots-outils

Formes pleines (ou lexicales) : noms, verbes, adjectifs, adverbes. Elles portent le sens → ce sont elles qu'on analyse.
Mots-outils (ou grammaticaux / stop words) : articles, prépositions, conjonctions (le, de, et, que…). Très fréquents mais peu informatifs → on les exclut généralement.

Mesures de richesse

Hapax

Un hapax (hapax legomenon) est une forme qui n'apparaît qu'une seule fois dans le corpus. Un fort taux d'hapax signale un vocabulaire varié.

Richesse lexicale / TTR

Le Type-Token Ratio (TTR) = nombre de formes distinctes ÷ nombre d'occurrences.

TTR proche de 1 → vocabulaire très varié (textes courts ou très riches)
TTR faible → beaucoup de répétitions (vocabulaire restreint)

Le TTR dépend de la longueur du texte : plus un texte est long, plus le TTR baisse mécaniquement. Comparez donc des textes de taille comparable.

La loi de Zipf

Dans (presque) tout corpus, la fréquence d'un mot est inversement proportionnelle à son rang. Le mot le plus fréquent apparaît ~2× plus que le 2ᵉ, ~3× plus que le 3ᵉ…

Tracée en échelle logarithmique, cette distribution forme une droite caractéristique. Une courbe de Zipf « normale » confirme que votre corpus se comporte comme un texte naturel.

Pour certaines analyses (CHD, similitude), le corpus est redécoupé en Unités de Contexte Élémentaires (UCE) : des fragments de taille homogène (~40 mots), respectant les frontières de phrases. L'UCE devient l'unité statistique de base.