Le prétraitement

Nettoyage, tokenisation, lemmatisation et gestion des stop words avant l'analyse.

Aucune analyse fiable sans prétraitement. C'est l'étape qui transforme un texte brut en données exploitables. Des choix faits ici influencent tous les résultats suivants.

Les étapes du pipeline

1. Nettoyage

Suppression des caractères parasites, normalisation des encodages (UTF-8), correction des espaces insécables et de la ponctuation typographique.

2. Tokenisation

Découpage du texte en tokens (voir Concepts clés). POSAC utilise spaCy, qui gère finement les contractions françaises (l'élève, aujourd'hui).

3. Étiquetage morphosyntaxique (POS tagging)

Chaque token reçoit sa catégorie grammaticale : nom, verbe, adjectif, adverbe, déterminant… Cela permet de filtrer les formes pleines.

4. Lemmatisation

Réduction de chaque forme à son lemme, en tenant compte du contexte grammatical.

La gestion des stop words

Les stop words (mots vides) sont exclus de l'analyse.

Liste standard : POSAC charge automatiquement ~700 mots vides français via spaCy (le, de, et, être, avoir…).
Liste personnalisée : vous ajoutez des termes propres à votre corpus.

Stop words pour les entretiens oraux

Les transcriptions d'entretiens regorgent de tics de langage : « ben », « euh », « voilà », « du coup », « en fait ». Les ajouter à votre stop-list affine considérablement les analyses lexicales.

Certaines unités de sens sont composées de plusieurs mots : intelligence artificielle, vis-à-vis, aujourd'hui, point de vue. Sans traitement, elles seraient cassées en plusieurs formes, diluant leur sens.

POSAC applique automatiquement un dictionnaire d'expressions qui les regroupe en une forme unique :

« intelligence artificielle » → intelligence_artificielle « vis-à-vis » → vis_à_vis

Le dictionnaire est appliqué à toutes les analyses sauf le concordancier (qui doit chercher le terme exact tel qu'il est tapé). Une forme composée comme intelligence_artificielle apparaîtra ainsi comme un seul mot dans les fréquences, la CHD ou la similitude.

Les clés d'analyse

Toutes les catégories grammaticales ne se valent pas pour l'analyse. POSAC distingue trois états par catégorie (les clés d'analyse) :

Actif — la catégorie participe aux analyses (noms, verbes, adjectifs, adverbes par défaut).
Supplémentaire — la catégorie est ignorée des analyses mais reste dans le texte (déterminants, prépositions, pronoms…).
Éliminé — totalement retiré (ponctuation, symboles).

Dans l'onglet Lexicométrie, vous pouvez activer ou désactiver chaque catégorie grammaticale pour affiner ce qui compte comme « forme pleine ».

Désactiver les verbes ou adjectifs change radicalement les résultats : à n'utiliser que si votre problématique le justifie (ex. analyse centrée sur les seuls substantifs).

Pourquoi ces choix comptent

Deux chercheurs analysant le même corpus avec des prétraitements différents obtiendront des résultats différents. Pour la reproductibilité scientifique, documentez toujours :

la liste de stop words utilisée ;
les catégories grammaticales retenues (formes pleines uniquement ?) ;
la langue et le modèle de lemmatisation.

Ni trop, ni trop peu

Exclure trop de mots appauvrit l'analyse ; en exclure trop peu la noie dans le bruit. Le bon prétraitement se règle de façon itérative, en observant les résultats.