POSAC · Documentation

Glossaire

Définitions des termes techniques de l'analyse de corpus.

AFCAnalyse Factorielle des Correspondances. Méthode de projection des données dans un plan factoriel pour visualiser proximités et oppositions.

CHDClassification Hiérarchique Descendante (méthode Reinert). Regroupement non supervisé des segments en classes thématiques par bipartitions successives.

Chi² (χ²) — Test statistique mesurant l'écart entre fréquences observées et attendues. En CHD, il quantifie la caractérisation d'un mot pour une classe.

Cooccurrence — Apparition simultanée de deux mots dans une même unité de contexte. Base de l'analyse de similitude.

Corpus — Ensemble structuré de textes constituant la matière de l'analyse.

Forme — Mot tel qu'il apparaît dans le texte (graphie). Synonyme : occurrence (pour le décompte).

Hapax — Forme n'apparaissant qu'une seule fois dans le corpus.

Inertie — En AFC, part de la variation totale expliquée par un axe factoriel. Exprimée en pourcentage.

KWICKey Word In Context. Affichage d'un terme entouré de son contexte gauche et droit (concordancier).

Lemmatisation — Réduction des formes à leur lemme (forme canonique). « mangeait » → « manger ».

Lemme — Forme canonique d'un mot, entrée de dictionnaire.

Lexicométrie — Statistique appliquée au vocabulaire d'un corpus textuel.

Monde lexical — Classe thématique dégagée par la CHD ; ensemble de mots co-occurrents formant un univers de sens.

Occurrence — Chaque apparition d'une forme. Le total des occurrences = la taille du corpus en mots.

POS taggingPart-Of-Speech tagging. Étiquetage de la catégorie grammaticale de chaque mot.

Richesse lexicale — Mesure de la diversité du vocabulaire (rapport entre vocabulaire unique et total).

Spécificité — Caractère sur- ou sous-représenté d'un mot dans un sous-corpus, mesuré par le test hypergéométrique de Lafon.

Stop words (mots vides) — Mots grammaticaux très fréquents et peu informatifs, exclus de l'analyse.

Token — Unité minimale issue de la tokenisation (mot, nombre, ponctuation).

TTRType-Token Ratio. Rapport formes distinctes / occurrences ; indice de variété lexicale.

UCEUnité de Contexte Élémentaire. Segment de texte (~40 mots) servant d'unité statistique en CHD et similitude.

Zipf (loi de) — Régularité statistique : la fréquence d'un mot est inversement proportionnelle à son rang.