Lexicométrie
Statistiques descriptives, fréquences, hapax, richesse lexicale et nuage de mots.
La lexicométrie (ou statistique textuelle) est le point de départ de toute analyse. Elle dresse le portrait quantitatif du corpus : combien de mots, lesquels, à quelle fréquence.
À quoi ça sert ?
- Obtenir une vue d'ensemble avant les analyses avancées
- Repérer les termes dominants du discours
- Évaluer la qualité et la richesse du corpus
- Identifier des stop words supplémentaires à exclure
Les statistiques générales
| Indicateur | Définition | Ce qu'il révèle |
|---|---|---|
| Occurrences | Nombre total de mots | Volume du corpus |
| Formes | Mots distincts | Diversité du vocabulaire |
| Lemmes | Lemmes distincts | Diversité conceptuelle |
| Hapax | Formes apparaissant 1 seule fois | Originalité lexicale |
| Richesse lexicale | Ratio formes pleines uniques / total | Densité du vocabulaire |
| TTR | Formes / occurrences | Variété (sensible à la longueur) |
Le tableau et le graphique des fréquences
POSAC affiche les formes les plus fréquentes sous deux vues complémentaires :
- un tableau triable (forme, fréquence absolue, fréquence relative en ‰) ;
- un graphique en barres des termes dominants.
Fréquence relative
La fréquence relative (pour mille) permet de comparer des corpus de tailles différentes. Un mot apparaissant 50 fois dans un corpus de 5 000 mots (10 ‰) est plus saillant que le même mot 50 fois dans 50 000 mots (1 ‰).
Le nuage de mots
Le nuage de mots est une représentation visuelle où la taille de chaque mot est proportionnelle à sa fréquence. Il offre une saisie immédiate des thèmes saillants.
Le nuage de mots est séduisant mais limité : il ne montre ni les relations entre mots, ni les contextes, ni les oppositions. Utilisez-le comme une porte d'entrée, jamais comme une analyse en soi.
La courbe de Zipf
POSAC trace la distribution rang/fréquence en échelle log-log. Une droite confirme que le corpus se comporte comme un texte naturel. Une distribution aberrante peut signaler un problème (corpus trop petit, doublons, bruit).
Comment interpréter ?
- Les mots les plus fréquents dessinent le thème central — mais attention aux évidences (dans un corpus sur l'école, « école » sera dominant sans surprise).
- Les hapax peuvent révéler des formulations singulières ou des erreurs de transcription.
- Comparez : c'est en confrontant les fréquences entre sous-corpus (via les spécificités) que l'analyse devient vraiment parlante.