POSAC · Documentation

Lexicométrie

Statistiques descriptives, fréquences, hapax, richesse lexicale et nuage de mots.

La lexicométrie (ou statistique textuelle) est le point de départ de toute analyse. Elle dresse le portrait quantitatif du corpus : combien de mots, lesquels, à quelle fréquence.

À quoi ça sert ?

  • Obtenir une vue d'ensemble avant les analyses avancées
  • Repérer les termes dominants du discours
  • Évaluer la qualité et la richesse du corpus
  • Identifier des stop words supplémentaires à exclure

Les statistiques générales

IndicateurDéfinitionCe qu'il révèle
OccurrencesNombre total de motsVolume du corpus
FormesMots distinctsDiversité du vocabulaire
LemmesLemmes distinctsDiversité conceptuelle
HapaxFormes apparaissant 1 seule foisOriginalité lexicale
Richesse lexicaleRatio formes pleines uniques / totalDensité du vocabulaire
TTRFormes / occurrencesVariété (sensible à la longueur)

Le tableau et le graphique des fréquences

POSAC affiche les formes les plus fréquentes sous deux vues complémentaires :

  • un tableau triable (forme, fréquence absolue, fréquence relative en ‰) ;
  • un graphique en barres des termes dominants.

Fréquence relative

La fréquence relative (pour mille) permet de comparer des corpus de tailles différentes. Un mot apparaissant 50 fois dans un corpus de 5 000 mots (10 ‰) est plus saillant que le même mot 50 fois dans 50 000 mots (1 ‰).

Le nuage de mots

Le nuage de mots est une représentation visuelle où la taille de chaque mot est proportionnelle à sa fréquence. Il offre une saisie immédiate des thèmes saillants.

Le nuage de mots est séduisant mais limité : il ne montre ni les relations entre mots, ni les contextes, ni les oppositions. Utilisez-le comme une porte d'entrée, jamais comme une analyse en soi.

La courbe de Zipf

POSAC trace la distribution rang/fréquence en échelle log-log. Une droite confirme que le corpus se comporte comme un texte naturel. Une distribution aberrante peut signaler un problème (corpus trop petit, doublons, bruit).

Comment interpréter ?

  1. Les mots les plus fréquents dessinent le thème central — mais attention aux évidences (dans un corpus sur l'école, « école » sera dominant sans surprise).
  2. Les hapax peuvent révéler des formulations singulières ou des erreurs de transcription.
  3. Comparez : c'est en confrontant les fréquences entre sous-corpus (via les spécificités) que l'analyse devient vraiment parlante.

On this page