Concepts clés
Les notions fondamentales de la lexicométrie — forme, lemme, occurrence, hapax, segment.
Avant d'analyser un corpus, il faut maîtriser quelques notions de base. Elles reviennent dans toutes les méthodes.
Du texte aux unités de comptage
Un texte est une suite de caractères. Pour le compter, on le découpe en unités :
Token (jeton)
La plus petite unité, obtenue par tokenisation : chaque mot, nombre ou ponctuation devient un token.
« Les élèves apprennent. » →
Les·élèves·apprennent·.
Forme (ou occurrence)
Une forme est un mot tel qu'il apparaît dans le texte. Le nombre total de formes = le nombre d'occurrences.
Dans « le chat et le chien », il y a 5 occurrences mais seulement 4 formes distinctes (
leapparaît deux fois).
Lemme
Le lemme est la forme canonique d'un mot (entrée du dictionnaire). La lemmatisation regroupe les variations :
| Formes | Lemme |
|---|---|
| mange, manges, mangeait, mangé | manger |
| élève, élèves | élève |
| beau, belle, beaux | beau |
La lemmatisation est cruciale : sans elle, « apprendre », « apprend », « apprennent » seraient comptés séparément, diluant la fréquence réelle du concept.
Formes pleines vs mots-outils
- Formes pleines (ou lexicales) : noms, verbes, adjectifs, adverbes. Elles portent le sens → ce sont elles qu'on analyse.
- Mots-outils (ou grammaticaux / stop words) : articles, prépositions, conjonctions (
le,de,et,que…). Très fréquents mais peu informatifs → on les exclut généralement.
Mesures de richesse
Hapax
Un hapax (hapax legomenon) est une forme qui n'apparaît qu'une seule fois dans le corpus. Un fort taux d'hapax signale un vocabulaire varié.
Richesse lexicale / TTR
Le Type-Token Ratio (TTR) = nombre de formes distinctes ÷ nombre d'occurrences.
- TTR proche de 1 → vocabulaire très varié (textes courts ou très riches)
- TTR faible → beaucoup de répétitions (vocabulaire restreint)
Le TTR dépend de la longueur du texte : plus un texte est long, plus le TTR baisse mécaniquement. Comparez donc des textes de taille comparable.
La loi de Zipf
Dans (presque) tout corpus, la fréquence d'un mot est inversement proportionnelle à son rang. Le mot le plus fréquent apparaît ~2× plus que le 2ᵉ, ~3× plus que le 3ᵉ…
Tracée en échelle logarithmique, cette distribution forme une droite caractéristique. Une courbe de Zipf « normale » confirme que votre corpus se comporte comme un texte naturel.
Le segment (UCE)
Pour certaines analyses (CHD, similitude), le corpus est redécoupé en Unités de Contexte Élémentaires (UCE) : des fragments de taille homogène (~40 mots), respectant les frontières de phrases. L'UCE devient l'unité statistique de base.