Glossaire

AFC — Analyse Factorielle des Correspondances. Méthode de projection des données dans un plan factoriel pour visualiser proximités et oppositions.

CHD — Classification Hiérarchique Descendante (méthode Reinert). Regroupement non supervisé des segments en classes thématiques par bipartitions successives.

Chi² (χ²) — Test statistique mesurant l'écart entre fréquences observées et attendues. En CHD, il quantifie la caractérisation d'un mot pour une classe.

Cooccurrence — Apparition simultanée de deux mots dans une même unité de contexte. Base de l'analyse de similitude.

Corpus — Ensemble structuré de textes constituant la matière de l'analyse.

Forme — Mot tel qu'il apparaît dans le texte (graphie). Synonyme : occurrence (pour le décompte).

Hapax — Forme n'apparaissant qu'une seule fois dans le corpus.

Inertie — En AFC, part de la variation totale expliquée par un axe factoriel. Exprimée en pourcentage.

KWIC — Key Word In Context. Affichage d'un terme entouré de son contexte gauche et droit (concordancier).

Lemmatisation — Réduction des formes à leur lemme (forme canonique). « mangeait » → « manger ».

Lemme — Forme canonique d'un mot, entrée de dictionnaire.

Lexicométrie — Statistique appliquée au vocabulaire d'un corpus textuel.

Monde lexical — Classe thématique dégagée par la CHD ; ensemble de mots co-occurrents formant un univers de sens.

Occurrence — Chaque apparition d'une forme. Le total des occurrences = la taille du corpus en mots.

POS tagging — Part-Of-Speech tagging. Étiquetage de la catégorie grammaticale de chaque mot.

Richesse lexicale — Mesure de la diversité du vocabulaire (rapport entre vocabulaire unique et total).

Spécificité — Caractère sur- ou sous-représenté d'un mot dans un sous-corpus, mesuré par le test hypergéométrique de Lafon.

Stop words (mots vides) — Mots grammaticaux très fréquents et peu informatifs, exclus de l'analyse.

Token — Unité minimale issue de la tokenisation (mot, nombre, ponctuation).

TTR — Type-Token Ratio. Rapport formes distinctes / occurrences ; indice de variété lexicale.

UCE — Unité de Contexte Élémentaire. Segment de texte (~40 mots) servant d'unité statistique en CHD et similitude.

Zipf (loi de) — Régularité statistique : la fréquence d'un mot est inversement proportionnelle à son rang.