Abstract
Pourquoi cherchons-nous à analyser des textes ? Le plus souvent parce que nous espérons qu’ils nous permettront d’accéder aux représentations qui circulent à propos d’un certain phénomène que nous nous donnons à comprendre. On postule donc simultanément que le phénomène en question, non seulement s’exprime bien dans le discours, mais en plus qu’il s’y exprime au moins aussi bien que dans d’autres indicateurs possibles. Comme le précisent Jenny et Glady (2006), « les discours (au sens large) sont des pratiques sociales parmi d’autres, produites au sein d’un dispositif structuré d’instances de pratiques socio-discursives ou lieux d’où ça parle et où ça agit ». L’analyse de données textuelles nous conduit alors, dans le cadre d’enquêtes ou d’archives, à nous demander pourquoi, dans l’univers des mots – et des catégories de mots – possibles, ce sont ceux-là qui ont été choisis et quelles relations ils entretiennent entre eux et avec leurs conditions de production.
Le mot constitue, en effet, le produit de l’interaction du locuteur, de l’auditeur et du contexte. Les discours doivent obéir aux règles usuelles de conversation et d’interaction et respecter les normes sociales générales. Mais les mots traduisent également des appartenances. Le simple fait d’utiliser tel ou tel mot permet de s’identifier et d’être identifié comme membre et génère des réactions identitaires. Les collectifs imprègnent de leur marque leurs productions verbales pour faciliter les interactions ou, au contraire, générer des conflits, mais dans tous les cas pour stabiliser un système. On ne fera que mentionner ici la façon dont Victor Klemperer étudiait la Lingua Tertii Imperii en relevant les mots caractéristiques de la rhétorique nazie à mesure qu'ils apparaissent dans les discours officiels, les documents administratifs, les affiches, les blagues populaires… « Le mot se présente comme une arène en réduction où s’entrecroisent et luttent les accents sociaux à orientation contradictoire » (Volochinov, 1929).
Ainsi, lorsque l’on additionne les influences individuelles, groupales et situationnelles, on est bien obligé de conclure que les choix de mots ne se font pas de façon aussi spontanée que l’on voudrait bien, parfois, le penser et que certains mots ont, selon les contextes, une probabilité d’occurrence plus forte que d’autres. Ce qui nous conduit à envisager l’approche statistique.
Avant-hier
En France, Jean-Paul Benzécri est à l’origine de l’essor de « l’analyse des données », et plus particulièrement de l’analyse factorielle des correspondances, imaginée, selon l’auteur lui-même, pour l’étude des langues (Benzécri, 1981 : 327). Parallèlement, l’étude de la littérature classique amenait Charles Muller à s’engager dans la voie des probabilités : distances et connexion lexicales (voir Brunet, 2009). Cette double filiation, statistique et linguistique, constitue toujours la base du développement logiciel de l’analyse des discours. 1
C’est dans les années 1970 qu’apparaissent les premières applications en sciences humaines et sociales, notamment en histoire politique avec Antoine Prost (1974). En 1975 paraît « Des tracts en mai 68 - Mesures de vocabulaire et de contenu » : deux équipes, l’une de l’ENS Saint-Cloud, l’autre du département des sciences psychologiques, sociologiques, ethnologiques et pédagogiques de l’université de Lyon 2, se sont réunies pour analyser 175 tracts (plus de 60 000 occurrences). Ainsi, les produits de la statistique textuelle et de la linguistique statistique vont-ils pénétrer les Sciences humaines et sociales, notamment appliqués à des corpus politiques, et entraînant également d’autres types de questionnements :
Au départ, nous avions une juxtaposition d’émetteurs (groupes) et d’émis (catégories) sur laquelle aucun discours ne pouvait être tenu ; à l’issue de l’analyse, nous avons obtenu des produits qui sont formés ; le dégagement des axes et l’interprétation des facteurs qui leur correspondent peuvent être comparés au tracé de voies qui permettent de s’orienter dans un donné touffu et, par suite, illisible : le tracé des axes permet de créer des pôles qui fonctionnent comme des points cardinaux pour les émetteurs et pour les émis. (Demonet et al., 1975 : 476-77).
Hier
Qu’on l’appelle analyse (statistique) des données textuelles, lexicométrie, textométrie, logométrie…cette approche regroupe « toute une série de méthodes qui permettent d’opérer des réorganisations formelles de la séquence textuelle et des analyses statistiques portant sur le vocabulaire à partir d’une segmentation » (Salem, 1986). Les questions que l’on se donne sont donc les suivantes : « quels sont les textes les plus semblables en ce qui concerne le vocabulaire et la fréquence des formes utilisées ? Quelles sont les formes qui caractérisent chaque texte, par leur présence ou leur absence ? » (Lebart et Salem, 1994: 135). Les méthodes auxquelles on va recourir permettent donc une compression bienvenue des données multidimensionnelles, au prix assumé d’une perte d’information.
Parmi ces méthodes, l’analyse des correspondances est sans doute la première à s’être imposée. Elle repose sur le principe selon lequel les relations entre variables d’un tableau multidimensionnel créent de la redondance, laquelle peut être exploitée pour réduire les données à quelques facteurs exprimant l’essentiel de ces relations. On doit notamment à Philippe Cibois des articles et ouvrages de référence sur les principes et l’application de l’AFC en sciences humaines et sociales (1983; 1984) et, dans le BMS, n°26, une application à une enquête sur la réforme de l’orthographe (Cibois, 1990).
Mais le BMS témoigne également de l’importance d’une autre méthode originale, la Classification Descendante Hiérarchique, développée par Max Reinert dans le logiciel Alceste (1983), et qui a fait l’objet de deux articles de son auteur dans les numéros 13 (1987) et 26 (1990) sur des applications à des corpus littéraires : les poésies d’Arthur Rimbaud et Aurélia de Gérard de Nerval. Ce numéro 13 du BMS, qui publie également deux autres articles sur l’analyse du discours, un de Pierre Achard et un de Karl van Meter, initie de nombreuses applications d’Alceste sur des corpus variés (entretiens semi-directifs, questions ouvertes dans un panel électoral, récits de vie, conversations, données bibliographiques…).
D’autres logiciels seront bientôt mobilisés pour traiter des problématiques sociologiques : Calliope, Prospéro, Trideux, plus rarement Hyperbase, Tropes, et plus récemment Iramuteq. Il s’agit de déterminer ce que ces logiciels permettent de montrer, les résultats qu’ils fournissent, les interprétations auxquelles on aboutit…
A la suite d’une synthèse remarquable et remarquée des méthodes et pratiques formalisées d’analyse de contenu et de discours dans la recherche sociologique française contemporaine, par Jacques Jenny en 1997 (n°54), le début des années 2000 verra apparaître des articles comparatifs et synthétiques (par Régine Scelles, Harald Klein ou Didier Demazière, par exemple). Mais on aborde également les liens avec d’autres méthodes d’analyses de contenu, souvent qualifiées de « qualitatives » (notamment les Computer Assisted Qualitative Data Analysis Systems ou CAQDAS : Nigel G. Fielding et Raymond M. Lee-voir n°57, 1997). La question est souvent de savoir si l’objectivation explicative s’oppose à une compréhension intersubjective.
Aujourd’hui
L’utilisation de logiciels de textométrie, notamment Alceste, fournit toujours des publications régulières sur des corpus variés. Des comptes rendus de séminaires, tables rondes et écoles thématiques consacrées à l’analyse textuelle montrent la place que ces méthodes prennent dans le paysage méthodologique des sciences sociales. Mais c’est à partir de 2005 que ces méthodes et logiciels commencent à s’appliquer à des corpus de congrès, 2 notamment de l’Association Française de Sociologie ou AFS (articles de Mathilde de Saint Léger, Karl M. van Meter, Gérard Boudesseul, Didier Torny et Patrick Trabal). Le numéro 100 du BMS (2008) comportera ainsi trois bilans reposant sur des analyses automatiques des publications au BMS. Du statut de méthode possible pour l’intervention sociologique, la textométrie passe ainsi à celui d’outil réflexif sur la discipline elle-même et permet au sociologue de proposer une cartographie de son champ, de ses pratiques et de ses évolutions.
Logiquement, des questionnements émergent sur le statut de l’analyse de corpus textuels dans la recherche en sociologie, son caractère interdisciplinaire et, au-delà de l’usage d’un outil, ses conséquences théoriques. Et on note également des articles plus méthodologiques, qui questionnent l’outil et ses conditions d’applications – notamment sur la préparation et le codage du corpus (Monique Dalud-Vincent et collaborateurs), la normalisation et la lemmatisation (Gaël de Peretti), le statut des auxiliaires modaux (Roel Popping) – mais proposent également des innovations comme les rafales et épisodes (Mathieu Brugidou et Pierre Le Quéau) ou les Types généralisés (Emmanuel Marty et collaborateurs).
Demain ?
L’évolution des outils d’aide à la saisie numérique (scanners à reconnaissance optique des caractères, reconnaissance vocale…), mais également l’accès à des bases de données toujours plus riches, notamment sur l’Internet, amènent à constituer des corpus de plus en plus grands. En quarante ans, des 60 000 occurrences des « tracts de mai 68 » on est passé, par exemple, aux 238 000 000 d’occurrences du « Cablegate ». 3 Les outils doivent permettre de les analyser et dans des temps raisonnables. Mais, sans aller jusqu’à de telles extrémités, des événements exceptionnels, tant par leurs enjeux que par leur retentissement, sont apparus sous la forme de débats et consultations de citoyens. L’Internet est évidemment un acteur majeur de cette innovation et on y a vu apparaître des forums de discussion plus ou moins spontanés. Ces événements, notamment lorsqu’ils se déroulent sur la Toile, peuvent impliquer une telle masse textuelle que les analyses « classiques » sont rendues impossibles. Les explorations textométriques permettent de porter un regard d’expert sur ces questions qui mobilisent un grand nombre de commentateurs et de médias d’information.
On obtient ainsi rapidement des résultats qui décrivent des tendances généralement assez solides pour constituer des produits médiatiques acceptables et même honnêtes, tout en demandant à être affinés pour devenir des produits académiques respectables. Lorsqu’il ne s’agit pas de précéder l’événement (tendance notable actuellement), le temps de la science doit pouvoir se calquer sur le temps des médias. L’expertise lexicométrique doit donc pouvoir suivre l’événement, l’éclairer et, dans le meilleur des cas, participer au débat public en y introduisant nos préoccupations épistémologiques.
Et dans ces entreprises scientifiques et citoyennes, le logiciel open source aura certainement un rôle à jouer : des réseaux se constituent déjà autour de pôles universitaires pour produire des outils collaboratifs performants et librement accessibles. 4 L’accès libre aux procédés permet, non seulement aux développeurs de comprendre les outils et de collaborer pour les faire évoluer, mais aussi et surtout d’être au plus près des demandes des utilisateurs en fonction de leurs corpus et de leurs hypothèses. Le BMS n’en a sans doute pas fini avec l’exploration textométrique !

Graphe de similitude du corpus « AD dans le BMS » (Iramuteq).
