Glossaire
Définitions des termes techniques de l'analyse de corpus.
AFC — Analyse Factorielle des Correspondances. Méthode de projection des données dans un plan factoriel pour visualiser proximités et oppositions.
CHD — Classification Hiérarchique Descendante (méthode Reinert). Regroupement non supervisé des segments en classes thématiques par bipartitions successives.
Chi² (χ²) — Test statistique mesurant l'écart entre fréquences observées et attendues. En CHD, il quantifie la caractérisation d'un mot pour une classe.
Cooccurrence — Apparition simultanée de deux mots dans une même unité de contexte. Base de l'analyse de similitude.
Corpus — Ensemble structuré de textes constituant la matière de l'analyse.
Forme — Mot tel qu'il apparaît dans le texte (graphie). Synonyme : occurrence (pour le décompte).
Hapax — Forme n'apparaissant qu'une seule fois dans le corpus.
Inertie — En AFC, part de la variation totale expliquée par un axe factoriel. Exprimée en pourcentage.
KWIC — Key Word In Context. Affichage d'un terme entouré de son contexte gauche et droit (concordancier).
Lemmatisation — Réduction des formes à leur lemme (forme canonique). « mangeait » → « manger ».
Lemme — Forme canonique d'un mot, entrée de dictionnaire.
Lexicométrie — Statistique appliquée au vocabulaire d'un corpus textuel.
Monde lexical — Classe thématique dégagée par la CHD ; ensemble de mots co-occurrents formant un univers de sens.
Occurrence — Chaque apparition d'une forme. Le total des occurrences = la taille du corpus en mots.
POS tagging — Part-Of-Speech tagging. Étiquetage de la catégorie grammaticale de chaque mot.
Richesse lexicale — Mesure de la diversité du vocabulaire (rapport entre vocabulaire unique et total).
Spécificité — Caractère sur- ou sous-représenté d'un mot dans un sous-corpus, mesuré par le test hypergéométrique de Lafon.
Stop words (mots vides) — Mots grammaticaux très fréquents et peu informatifs, exclus de l'analyse.
Token — Unité minimale issue de la tokenisation (mot, nombre, ponctuation).
TTR — Type-Token Ratio. Rapport formes distinctes / occurrences ; indice de variété lexicale.
UCE — Unité de Contexte Élémentaire. Segment de texte (~40 mots) servant d'unité statistique en CHD et similitude.
Zipf (loi de) — Régularité statistique : la fréquence d'un mot est inversement proportionnelle à son rang.