Vous êtes ici : Accueil > Archives (1993-20... > Complexité syntaxiqu... > Constatation et indu...

Constatation et induction face aux corpus diachroniques : le problème du n+1 texte1

frPublié en ligne le 29 novembre 2017

Par Mario BARRA JOVER

Résumé

Cet article propose une discussion sur le type d'information fournie par un corpus et sur les hypothèses permises par cette information. Le domaine de réflexion a été réduit aux corpus diachroniques représentant des états de langue pour lesquels il n'existe plus de locuteur compétent. Ce point de vue permet de comprendre les limites que l'impossibilité de construire des exemples ad hoc impose à la démarche inductive ainsi que de comprendre que la recherche sur corpus, lorsque ce corpus représente un état de langue moderne, ne se passe pas d'exemples ad hoc (ne serait-ce que de façon implicite). Deux types de problèmes sont abordés : la difficulté pour prédire ce qui peut arriver dans un texte qui ne fait pas partie du corpus (n+1 texte) et la difficulté pour établir des rapports de cause à effet. La situation retenue comme exemple a été celle où une innovation syntaxique non triviale est expliquée à partir d'autres évolutions triviales. Le fait qu'une hypothèse soit conceptuellement acceptable n'implique pas qu'elle soit démontrée empiriquement. Pour procéder à une démonstration, il faut concevoir des expériences objectivables et reproductibles pouvant falsifier l'hypothèse. La méthode proposée envisage le corpus comme une somme d'idiolectes. Chaque idiolecte est le terrain pour un test du type « si A, alors B » et seule la cumulation de résultats favorables autorise à garder provisoirement une hypothèse.

1L’objectif de cet article est d’ordre épistémologique et concerne le type d’information que l’on peut tirer d’un corpus donné. La nature même du corpus, c’est-à-dire qu’il soit artisanal ou informatisé, n’entre pas dans la discussion car le problème visé ne se voit pas affecté par les progrès techniques. La précision ne pouvant pas être vue comme un élément qualitatif, l’atout principal d’un corpus informatisé reste d’ordre quantitatif (beaucoup de matériel consultable en très peu de temps). On pourrait, à la limite, considérer comme apport qualitatif la versatilité d’un corpus informatisé. Un corpus travaillé de façon artisanale implique un laborieux dépouillement sélectif des textes. Une fois que le dépouillement a été mené à terme, on a limité les informations accessibles, dans la mesure où ne reste accessible que ce que l’on a voulu retenir. Si l’on a fait une erreur dans la sélection des données pertinentes, les conséquences sur le résultat final peuvent être qualitatives car le coût en temps d’une révision est tellement élevé que peu de gens sont prêts à le payer. En revanche, un corpus informatisé est un point de départ potentiellement exploitable dans toutes les directions et le problème de l’erreur dans la sélection ne se pose pas. Mais, lorsqu’il s’agit de s’interroger sur le genre d’hypothèses que le matériel disponible peut étayer, les différences entre les deux types de corpus disparaissent.

2J’aimerais poser le problème dans les termes suivants : est-il possible, lorsque la seule source de renseignements est un corpus, de dépasser le niveau de la constatation et d’aller vers le niveau des hypothèses inductives testables ? Telles que je vois les choses, ce problème ne se pose que dans les cas où l’objet d’étude est une langue morte ou un état de langue ancien (mais ce point demande à être développé).

3Ma réponse à la question sera optimiste. Je crois, en effet, possible de formuler en diachronie des hypothèses inductives testables, donc falsifiables. Mais ceci implique de véritables changements d’ordre épistémologique qui touchent aux fondations mêmes des théories syntaxiques à l’œuvre.

4Dans 1, on abordera les problèmes inhérents à la recherche sur corpus. Pour ce faire, je partirai de l’idée que le clivage entre données réelles et données artificielles ne correspond pas aux faits, le véritable clivage étant dans la possibilité ou l’impossibilité d’accès aux inductions et à la testabilité. Dans 2, je formulerai le problème du n+1 texte, problème qui se pose à toute étude diachronique et qui ne peut pas être surmonté par l’accroissement de la base empirique. Dans 3, on passe aux solutions envisagées, solutions s’appuyant sur la mise en place d’une sorte de protocole d’expérimentation. Dans 4, je donne un exemple précis où la démarche proposée est appliquée à l’évolution de la subordination en espagnol.

1. UN FAUX PROBLÈME QUI EN CACHE UN VRAI

5La discussion sur ce qui est une donnée légitime pour un linguiste vient de loin puisqu’elle est liée à l’essor des grammaires formelles. Cependant, plusieurs facteurs ont contribué à la faire rebondir dans les dernières années. D’abord, le déplacement du centre d’intérêt, dès les années 80, vers tout ce qui concerne l’acte d’énonciation (notamment la branche des interactions verbales). Puis, le développement des études sur la langue parlée. Enfin, l’élaboration de corpus informatisés de plus en plus performants et couvrant tout l’éventail diastratique et diachronique. Ces trois facteurs ont amené bon nombre de linguistes à émettre des critiques plus ou moins sévères contre les exemples dits « artificiels » et la branche de la linguistique, la syntaxe formelle, qui étaie ses hypothèses à partir de ceux-ci. En évoquant dans l’ordre les trois facteurs mentionnés, on pourrait dire qu’un exemple inventé a) n’est pas interprétable parce que manque la contextualisation qui seule pourrait en faire un vrai énoncé2 ; b) ne comporte aucune garantie lorsqu’il est jugé agrammatical, parce que la vraie production orale peut échapper à nos attentes3 ; c) est gratuit parce que les linguistes ont à présent à leur disposition un matériel « réel » inépuisable censé les dispenser des efforts d’imagination4.

6Ces critiques ne sont pas dépourvues de sens, mais elles pêchent par optimisme. Elles visent juste dans la mesure où le travail avec des exemples « de laboratoire » n’a pas été accompagné du développement des protocoles d’expérimentation universellement reconnus. On peut compter, parmi les rares ouvrages consacrés à cet aspect, le livre de Cowart (1997), mais son approche statistique brûle l’étape de la conception des expériences. Or, l’on sait que le véritable obstacle posé par les jugements de grammaticalité sur des exemples construits de toutes pièces réside avant tout dans la perplexité d’un informateur confronté à une série d’exemples5.

7On peut toujours dire que la linguistique n’est pas une science expérimentale6, mais aucune science ne l’est ex natura. Une science devient expérimentale lorsque les chercheurs réussissent à concevoir des expériences objectives et reproductibles7. Admettons que ce n’est pas encore le cas de la linguistique formelle et qu’il existe un certain laxisme dans l’évaluation de la grammaticalité des énoncés. Admettons même que l’acceptation ou refus des jugements de grammaticalité émis par un auteur donné relève du degré d’implication (voire de complicité) du lecteur, au lieu de découler de la valeur accordée par consensus à un protocole d’expérimentation. Reconnaissons que la linguistique formelle a beaucoup à faire sur ce terrain et qu’il serait ridicule de se cacher le problème.

8Mais les critiques ne visent pas juste lorsqu’elles font croire que, sans exemples artificiels, le travail gardera les mêmes possibilités inductives (ou abductives, si l’on veut) tout en ajoutant un surplus d’objectivité. D’emblée, il faut dire que l’opposition exemple artificiel / exemple réel manque de sens. L’exemple d’une langue X produit par un linguiste locuteur natif de cette même langue est bien réel. Preuve en est qu’aucun linguiste sérieux n’ose proposer d’exemple (ni grammatical ni agrammatical) d’une langue autre que la sienne sans l’avis d’un locuteur natif. Pour trouver une opposition pertinente il vaut mieux parler d’exemples existant indépendamment de la recherche pour laquelle ils deviennent données, et d’exemples n’existant qu’en fonction de cette recherche. Ici le terme « réel » ne fait que nous encombrer car il risque de nous imposer des exigences impossibles à satisfaire.

9Posons donc les choses en termes d’exemples indépendants et d’exemples ad hoc et demandons-nous s’il existe la possibilité de ne travailler qu’avec des exemples indépendants. En cas de réponse affirmative, demandons-nous quelles en sont les conséquences. Je vais avancer les réponses suivantes : on ne se borne aux exemples indépendants que lorsqu’on ne peut pas faire autrement et les conséquences sur les résultats obtenus sont lourdes. Plus précisément, on se borne aux exemples indépendants lorsque l’objet d’étude est un état de langue pour lequel il n’existe pas de locuteur compétent. Dans tous les autres cas, même si la langue étudiée n’est pas celle du chercheur, on fera appel à des connaissances (propres ou d’autrui) qui ne sont pas directement fournies par la collection d’exemples indépendants.

10Et ceci vient du fait que l’on va suivre une démarche inductive ou abductive guidée par une supposition, à savoir, que les exemples qu’on observe ne sont qu’un petit échantillon de ce qu’on veut décrire et que, par rapport à cet échantillon, il y a des choses qui n’apparaissent pas mais qui sont possibles et d’autres qui sont impossibles. Sans cette supposition, personne ne pourrait avancer des hypothèses sur le fonctionnement d’une langue. Tout au plus, pourrait-on fournir des taxinomies uniquement valables pour un domaine fermé.

11La meilleure façon de vérifier le bien-fondé de cette affirmation est de se tourner vers les travaux diachroniques, les seuls à subir inévitablement la contrainte des exemples indépendants. Tous ceux qui se sont attaqués à ce type de recherche savent que l’absence totale d’intuition (propre ou d’autrui) empêche de déclarer possible ou impossible ce qui n’est pas attesté. Autrement dit, puisqu’on est tout à fait incapable de produire un énoncé dans cette langue, on est aussi incapable d’avancer la moindre hypothèse sur ce qui n’était pas possible8. Et l’on peut dire d’une chose qu’elle est possible si on l’a sélectionnée comme donnée dans un dépouillement. En effet, parmi les frustrations qui accablent le diachronicien, la pire est de constater qu’après lecture de quelques milliers de pages, on ne peut dire qu’une construction existe que si l’on a pris le soin d’en relever des exemples. C’est pourquoi on fait souvent appel à l’état de langue moderne, pour lequel on est compétent, ce qui est source de bon nombre d’erreurs.

12Ainsi, je partirai de l’idée que l’induction est possible dans la mesure où l’on mobilise toujours des intuitions n’étant pas directement reliables aux exemples indépendants. Ce qui revient à dire qu’on ouvre la porte aux exemples ad hoc même si l’on se garde de les proposer comme preuve de quoi que ce soit. Seules les études diachroniques sont contraintes aux exemples indépendants comme source unique et cela ne va pas sans problème.

2. LE PROBLÈME DU N+1 TEXTE

13Examinons de près les conditions dans lesquelles se déroule la recherche en diachronie. Comme je l’ai déjà indiqué, la particularité n’est pas dans le fait que les données soient fournies par des corpus, mais dans le fait que le processus d’induction soit bloqué par l’absence de locuteurs compétents. Ainsi, le chercheur se trouve face à un ensemble de textes qui doivent l’amener à la description d’un système ou d’un aspect de ce système. Afin de ne pas rester dans un degré d’abstraction inutilement élevé, je vais proposer une situation précise : celle, assez courante, où l’on étudie l’apparition d’une innovation syntaxique. Un exemple en pourrait être l’évolution de la phrase négative sans quantifieurs du français, qui va du type ne + V  au type ne + V + pas / mie / point et, finalement, au type (ne) + V + pas. Dans ce type de situation, on compte sur deux repères chronologiques obtenus normalement grâce à l’idéalisation de deux coupures dans la ligne du temps : une période « moderne » où l’innovation s’est imposée (avec disparition, le cas échéant, de l’ancienne construction corrélée) et une période « ancienne » où l’innovation n’est pas attestée. Je parle d’idéalisation parce qu’il est extrêmement rare de trouver ces deux périodes à l’état pur9. L’objectif de la recherche peut être plus ou moins ambitieux. Il peut ne viser que la datation des premières attestations et l’extension progressive de l’innovation. Mais il peut aussi viser l’explication de l’innovation à partir d’une transformation du système. Bien que ces deux objectifs puissent être atteints séparément, il est souhaitable que l’explication soit étayée par une base empirique10.

14Pour s’attaquer au travail, qu’il soit simplement descriptif ou qu’il soit aussi explicatif, il faut d’emblée tenir compte du fait que le corpus, de par sa nature, est déjà une source de bruits, et ceci pour les raisons suivantes :

15a) Les datations sont souvent floues. Pis, nous avons normalement affaire à des copies postdatées. Seuls certains documents légaux (actes de donation, par exemple) sont datés avec précision et conservés à coup sûr dans la première version.

16b) Nous n’avons que des sources écrites ne pouvant pas être confrontées à une compétence active capable de juger de l’implantation générale d’une construction. Autrement dit, on ne peut savoir si une construction donnée est exclusive de la tradition écrite ou si elle est le reflet de la langue parlée. Ce problème est, par exemple, accablant en ce qui concerne l’étude de la chute du ne en français.

17c) Les différentes copies d’un texte représentent autant d’occasions de l’altérer. Lorsque l’on conserve des copies chronologiquement décalées, leur collation peut fournir des données utiles, mais il est fréquent qu’un texte ne soit disponible que dans une copie exécutée un ou deux siècles après la composition originale. D’ailleurs, il ne faut pas oublier que nous travaillons normalement avec la « dernière » copie moderne et que ces éditions ne sont pas dépourvues d’erreurs11.

18C’est pourquoi les auteurs des travaux diachroniques agissent avec une extrême prudence. Le ton habituel est celui de la constatation. On va souvent se servir de formules du type : « on peut trouver dans les textes consultés ceci ou cela » ou « les textes n’attestent que ceci ou cela ». On va difficilement changer un « je n’ai pas trouvé » par un « ça n’existe pas ». Une façon de faire face à cette limitation est d’élargir autant que possible la base documentaire afin de compenser statistiquement les difficultés. La situation idéale serait, par conséquent, celle où tous les documents existants sont pris comme base empirique. Or, on peut parler de tous les documents connus mais jamais de tous les documents existants. Et c’est ici que nous trouvons le problème du n+1 texte, problème qui se pose en diachronie dans tous les cas de figure et qu’on pourrait énoncer de la façon suivante : une conclusion obtenue à partir d’un ensemble de n textes ne garantit jamais de prédictions sur ce qui peut arriver dans un n+1 texte.

19La portée de ce problème est cruciale lorsqu’il s’agit d’émettre des jugements sur la possibilité ou l’impossibilité d’une construction non attestée dans un ensemble de n textes. D’ailleurs, elle implique qu’une conception humienne de l’induction, fondée sur les régularités observées et non sur des liens causaux (c’est-à-dire, sur des prédictions faites grâce au rapport de cause à effet) est loin d’être évidente. L’induction semble possible lorsqu’il existe des connaissances d’arrière-plan permettant l’élaboration d’hypothèses stimulées par les données observées. Dans le cas de la linguistique, ces connaissances d’arrière-plan sont concentrées dans la compétence, c’est-à-dire dans l’intériorisation non consciente de la grammaire d’une langue12.

20Il y a lieu de se demander si le problème du n+1 texte est vraiment important. Il ne l’est pas, évidemment, lorsque l’on accepte de se limiter à la constatation d’un phénomène sur un domaine fermé. En revanche, il l’est lorsque l’on se place au niveau de l’hypothèse, que ce soit parce que l’on aspire à saisir les propriétés d’une série non exhaustivement parcourue ou parce que l’on veut expliquer. L’explication efficace d’une innovation syntaxique doit s’appuyer sur l’idée qu’elle ne tombe pas du ciel13. Elle est avant tout le résultat de l’apparition et de l’extension de nouvelles propriétés la rendant possible. Or, si une innovation dépend d’autres propriétés du système, il va de soi qu’il faudra trouver des corrélations. Autrement dit, une innovation peut apparaître lorsque certaines conditions sont remplies. Pour établir ce type de corrélations, le problème du n+1 texte devient un obstacle sérieux. Voyons pourquoi avec l’aide d’un exemple schématique ; nous aurons plus tard l’occasion d’examiner un exemple concret emprunté à l’espagnol. Imaginons que la construction B est une innovation. Et imaginons que je postule que B peut apparaître parce qu’une condition A, d’explication triviale (dont on trouve des exemples et qui semble conceptuellement acceptable comme facteur déterminant), est remplie. Un exemple peut aider à comprendre ce que j’entends par « explication triviale ». En espagnol le résultat du verbe latin HABERE (haber) est devenu le seul auxiliaire possible pour les temps composés, que le verbe soit transitif ou intransitif. Ceci n’a pas d’explication triviale. En revanche, si l’on postule que cette innovation est due au fait que le verbe haber a été remplacé par tener pour exprimer la possession et qu’il a donc perdu son poids lexical, on a affaire à un changement trivial comme condition, à savoir, l’extension des emplois d’une entrée lexicale au détriment d’une autre. Un autre problème (et c’est justement celui qui nous occupe) est de savoir si l’explication, bien que conceptuellement acceptable, est démontrable.

21Pour étayer empiriquement mon affirmation, je compte sur n textes correspondant à la période où l’innovation ne s’est pas encore répandue mais où il est possible d’en trouver les premières attestations.

22Un relevé des données pourrait logiquement donner quatre résultats différents (tous d’ailleurs sujets à caution compte tenu des problèmes de datation et de transmission évoqués plus haut) :

231) Je ne trouve ni des exemples de A ni des exemples de B.

242) Je trouve quelques exemples de A et n’en trouve aucun de B.

253) Je ne trouve pas d’exemples de A mais j’en trouve quelques-uns de B.

264) Je trouve quelques exemples de A et de B.

27Il est facile de constater qu’aucune des quatre possibilités ne va vraiment nous renseigner sur le bien-fondé de notre hypothèse. La possibilité 1 semble nous conforter, mais un n+1 texte peut contenir un exemple de B. 2 ne veut rien dire, ni en faveur ni contre l’hypothèse. 3 semble infirmer l’hypothèse, mais un n+1 texte peut toujours fournir un exemple de A. Seule 4 peut être prise pour une confirmation, mais ceci ne va pas de soi. Bien que le problème du n+1 texte n’intervienne pas directement, on se heurte à un autre problème. En effet, on a trouvé des exemples de A et de B mais on manque d’éléments de contraste permettant de garantir l’existence d’un lien causal entre eux.

28En réalité, on a toujours affaire à la même situation : une hypothèse peut être conceptuellement acceptable sans que l’on puisse trouver le moyen de la tester empiriquement. Les données, qu’elles soient apparemment favorables ou apparemment défavorables, ne peuvent pas jouer un rôle décisif, ce qui revient à dire qu’on ne peut jamais parler de démonstration. Il s’agit à présent de voir si l’on peut imaginer un moyen de rendre l’emploi du terme « démonstration » légitime.

3. LE CORPUS COMME TERRAIN D’EXPÉRIMENTATION

29Dans la section précédente nous avons pu cibler trois problèmes concernant les travaux diachroniques :

30a) Le bruit inhérent à la nature des sources documentaires.

31b) Le n+1 texte.

32c) Les difficultés pour garantir les liens causaux.

33Nous allons voir qu’il n’est pas impossible de les contourner, et même qu’il est possible de supprimer les deux derniers et de faire jouer au bruit un rôle positif. La façon de procéder est extrêmement simple mais les implications conceptuelles qui en découlent sont loin d’être banales.

34Il va falloir admettre quelques présupposés à propos de la syntaxe, du changement syntaxique et de la nature des hypothèses qu’on peut avancer :

351) Les configurations syntaxiques n’existent pas en tant qu’ensemble de règles indépendantes des entrées lexicales. Elles sont plutôt le résultat des propriétés des entrées lexicales14.

362) Les innovations syntaxiques apparaissent lorsque les entrées lexicales d’un paradigme donné changent des propriétés. Ceci veut dire que la diffusion d’une innovation emprunte les mêmes voies que les autres innovations lexicales, à savoir, l’accroissement progressif du nombre de locuteurs qui intériorisent les nouvelles propriétés d’une entrée lexicale donnée.

373) L’implication entre une condition A et une innovation B ne peut être vérifiée qu’au niveau idiolectal, c’est-à-dire, pour un locuteur donné.

38La justification de ces présupposés est possible mais elle nous écarterait par trop de notre objectif principal. Je ne demande au lecteur que d’observer les changements méthodologiques qui en découlent et de juger les bénéfices qu’on peut en tirer.

39Première conséquence, un corpus, lorsqu’il est travaillé comme une masse indifférenciée de données, n’a guère d’utilité. Ce sont les différents locuteurs qui vont nous intéresser. Il faudra, dans ce cas, choisir des ouvrages relativement longs dont l’unicité de l’auteur soit plus ou moins sûre. C’est le seul moyen d’avoir un accès hypothétique à une grammaire interne. Les corpus constitués avec des fragments courts d’auteurs différents15 doivent être écartés. Au lieu de reléguer la discontinuité de tout corpus au statut de facteur contingent, nous regardons cette discontinuité comme l’élément essentiel, puisque chaque texte devient le terrain d’un test sur un idiolecte. On procède alors par cumulation de résultats positifs, négatifs ou indifférents. On peut même s’accorder une marge d’erreur statistiquement négligeable, mais on peut aussi être tout à fait rigide.

40Reprenons notre problème d’extension d’une innovation. Je postule que l’innovation B dépend de l’apparition d’une condition A d’explication triviale. Je suppose qu’un locuteur donné qui a acquis les entrées lexicales concernées avec la caractéristique A pourrait éventuellement mais pas obligatoirement utiliser B. Par exemple, en espagnol médiéval, si un locuteur donné utilise systématiquement tener pour exprimer la possession, il pourrait utiliser haber comme auxiliaire pour le passé de tous les verbes. Ce qui devient impossible, c’est qu’un locuteur utilise B sans remplir la condition A. Imaginons à présent que notre ensemble de n textes, plus ou moins situés dans la période d’apparition de l’innovation, est composé d’une vingtaine de textes, appartenant à des auteurs différents. Au lieu des quatre résultats que nous avons vus dans la section précédente, nous en avons six :

411) Je ne trouve ni A ni B dans aucun texte

422) Je ne trouve que A dans certains textes

433) Je ne trouve que B dans certains textes

444) Je trouve A dans certains textes et B dans d’autres, ils ne coïncident pas nécessairement.

455) Je trouve A dans certains textes et B dans une partie de ces mêmes textes.

466) Je trouve A et B dans les mêmes textes

47Face à ces résultats, je me borne à me demander s’ils sont favorables ou s’ils infirment mon hypothèse, puisqu’ils sont tous interprétables. Dans le premier et le deuxième cas l’hypothèse n’est ni confirmée ni infirmée. Dans le troisième et le quatrième cas, elle est directement refusée. Dans le cinquième et le sixième cas, elle est provisoirement confirmée. En réalité, je procède d’une façon très simple : l’hypothèse n’est jamais définitivement corroborée. Bien au contraire, elle risque à chaque test d’être refusée. Si j’élargis mon corpus, je ne fais qu’ajouter des tests qui risquent de la rejeter. Plus elle tient, plus on aura des garanties qu’elle est vraisemblable (je ne dis jamais qu’elle est vraie parce qu’aucune hypothèse ne peut jamais être déclarée vraie).

48Ainsi, face au relevé massif d’exemples, on a le moyen de soumettre des hypothèses à des épreuves qui peuvent être passées avec succès ou non et qui peuvent être reproduites dans les mêmes conditions par d’autres chercheurs. Lorsqu’elles ne passent pas les épreuves, on est obligé de les rejeter, fussent-elles conceptuellement vraisemblables. Lorsqu’elles passent les épreuves, elles sont provisoirement acceptables. On suit, de cette façon, une démarche qui coincide avec celle des sciences expérimentales.

49Mais il y a plus. Les sources de bruit sont un argument favorable. Si, en dépit des risques d’erreur dans la transcription ou de la modernisation hétérogène de la copie, on obtient des résultats favorables, les hypothèses en sortent renforcées. Les imprécisions quant à la datation deviennent, quant à elles, négligeables, étant donné que je bâtis ma démonstration par cumulation de textes et non sur une ligne chronologique qui en traverse plusieurs. Puisque le changement est étudié au niveau idiolectal, peu importe s’il y a un décalage entre les dates16.

50Le seul problème nouveau qui peut se poser est d’ordre probabiliste : un auteur peut utiliser B parce qu’il possède A. Pourtant, sur le texte consulté il n’a écrit que des exemples de B tout simplement parce que, par un malheureux hasard, l’occasion d’écrire un exemple de A ne s’est pas présentée. Cet obstacle peut, à mon avis, être de nouveau mis au profit de la démonstration, puisque tout résultat positif acquiert davantage de valeur informative. Au chercheur de décider s’il est souhaitable de s’octroyer une marge d’erreur en accord avec les critères statistiques pour contrecarrer ce problème.

51Le plus important c’est que le problème du n+1 texte devient une question quantitative indépendante du problème de l’induction. Bien sûr, un n+1 texte peut toujours rejeter l’hypothèse, mais on a pu déjà avancer quelques résultats clairs qui ne peuvent pas être changés. Le problème du lien causal est, lui aussi, surmonté, puisque la nature même du test le garantit. En peu de mots, ce qui en tant que masse n’est qu’un échantillon ridiculement petit de la production langagière d’une époque (et tout corpus, si grand soit-il, l’est), devient un terrain où une hypothèse est soumise une vingtaine de fois à un test à grand contenu informatif.

4. UN EXEMPLE D’APPLICATION DE LA MÉTHODE : LES INNOVATIONS DANS LES MÉCANISMES DE SUBORDINATION DE L’ESPAGNOL

52Tout ce qui précède risquerait d’être perçu comme un exercice spéculatif bien peu utile s’il n’était pas accompagné d’un exemple concret. Heureusement, c’est un travail diachronique sur corpus qui est à l’origine de ces remarques. Dans Barra-Jover (à paraître) j’ai essayé d’expliquer l’apparition et l’extension du mécanisme de subordination constitué à partir d’un adverbe et d’une préposition suivis d’une proposition introduite par que (proposition-que, dorénavant). Ce type de construction avait été traité par Herman (1963) qui en donnait une explication analogique. En latin tardif, la réduction de certaines corrélations comme pro eo quod ou post eo quod à des formes proquod et postquod, avec un remplacement ultérieur du quod par que, avait produit un modèle permettant, par extension analogique, l’apparition de nouvelles constructions Adv + que ou Prép + que. Je n’ai pas trouvé cette explication satisfaisante. S’il s’agissait d’un modèle extensible par simple analogie, on pourrait trouver n’importe quelle préposition ou n’importe quel adverbe suivis de la proposition-que, et ceci dans n’importe quelle langue romane et à n’importe quelle période. Or les choses ne se passent pas de cette façon. L’analyse des données présente assez de restrictions à la formation de ces groupes pour que l’on se demande s’il n’y a pas d’autres facteurs jouant un rôle décisif dans leur apparition. J’en donnerai deux exemples clairs. La construction avec sin que (« sans que ») ne semble être attestable qu’à partir du XVe siècle. Celle avec siempre que (« chaque fois que ») ne l’est qu’à partir du XVIe. Il y a lieu de se poser une question telle que : si sin et siempre existent depuis les premiers textes et si Prép + que et Adv + que sont des modèles productifs, pourquoi n’en trouve-t-on pas d’exemple avant ? Bien entendu, on ne saurait affirmer de façon catégorique qu’il n’existe pas d’exemple antérieur, mais on doit retenir cette donnée comme piste à suivre et appliquer ensuite la méthode qui supprime le problème du n+1 texte.

53Je suis parti de l’idée que l’explication analogique était superficielle. En suivant les présupposés déjà énoncés sur le changement syntaxique, j’ai postulé que l’explication de l’absence d’attestations devait venir des propriétés des prépositions et des adverbes. Autrement dit, pour étudier l’origine de sin que, il fallait étudier le fonctionnement de sin dans d’autres contextes. Une première analyse des données m’a permis de formuler des hypothèses assez précises. Pour les adverbes, j’ai avancé l’idée qu’un adverbe pouvait régir une proposition-que lorsqu’il avait des emplois liés17. Pour les prépositions, l’idée était qu’une préposition pouvait régir une proposition-que lorsqu’elle pouvait régir un syntagme nominal défini dont le nom désignait un référent comportant une dimension temporelle, comme, par exemple, chute (par opposition, par exemple, à voiture qui n’a que des dimensions spatiales).

54Ces hypothèses étaient conceptuellement soutenables, mais elles posaient un vrai problème dans la mesure où elles étaient conçues à partir de mon intuition moderne. En effet, elles avaient une portée synchronique testable à partir de jugements de grammaticalité bien tranchés. En revanche, il n’était pas aisé de savoir si elles avaient une lecture diachronique. J’avais donc affaire à une situation comme celle qui a été posée comme exemple abstrait dans la section 3. Une innovation B (l’apparition de sin que, par exemple), dépendait de l’extension d’une ou deux conditions A d’explication triviale. Le problème était dans la démonstration, compte tenu du manque de compétence pour la langue ancienne (comment savoir si pour un auteur du XIIIe sin que était impossible ?) et du problème du n+1 texte.

55Pour faire face à cet obstacle, j’ai procédé de la façon déjà expliquée. J’ai constitué un corpus allant du XIIIe siècle au XIXe siècle. Je n’ai pris que des textes ou des fragments assez longs (100 pages minimum pour la prose et 2000 vers minimum pour la poésie), chacun d’un seul auteur (à l’identité connue ou ignorée, peu importe). Chaque texte a été le lieu d’application des tests suivants :

56a) Si un texte contient au moins un exemple de la préposition X suivie de la proposition-que, alors ce texte doit contenir des exemples de la préposition X suivie d’un syntagme nominal défini dont le nom désigne un référent à dimension temporelle.

57b) Si un texte contient au moins un exemple d’un adverbe X suivi de la proposition-que, alors ce texte doit contenir des exemples où cet adverbe X présente un emploi lié.

58On peut constater que les implications vont dans une seule direction. C’est-à-dire que le fait de remplir la condition n’implique pas que l’unité Xque apparaisse. Seulement qu’elle pourrait le faire.

59J’ai aussi considéré que les risques que comporte cette démarche étaient en réalité des atouts en cas d’obtention de résultats positifs. Il serait trop long d’en donner ici tout le détail mais il est possible d’en donner les lignes principales à l’aide de quelques exemples.

60Pour les cas des prépositions ou des adverbes apparaissant avec proposition-que depuis les premiers textes (du début du XIIIe siècle), par exemple, porque (« parce que ») ou después que (« après que »), tous les textes où ils sont attestés présentent des exemples de por suivi d’un syntagme nominal défini dont le nom comporte une dimension temporelle (SDéfT, dorénavant) ainsi que des exemples de después en emploi lié.

61Pour les cas où les premiers textes ne présentent pas d’exemples avec proposition-que et où les premiers exemples arrivent au cours du XIIIe siècle (desde que, « dès que »), du XIVe siècle (para que, « pour que »), du XVe siècle (sin que) ou du XVIe siècle (siempre que), les résultats ont été assez clairs. Pour desde, on trouve dans trois textes de la deuxième moitié du XIIIe siècle quelques exemples de desde + SDéfT. Parmi eux, un seul contient un exemple de desde que. Au XIVe siècle, deux textes offrent des exemples de desde + SDéfT mais pas d’exemple de desde que. Au XVe siècle, sur cinq textes présentant des exemples de desde + SDéfT, deux contiennent des occurrences de desde que. A partir du XVIe, les deux constructionsapparaissent dans la plupart des textes. Pour para, on ne trouve pas, au début, des textes avec para + SDéfT. Ensuite, deux textes de la deuxième moitié du XIIIe siècle vont présenter des exemples de para + SDéfT. Au début du XIVe siècle, deux textes contenant des exemples de para que contiennent aussi des exemples de para + SDéfT. D’autres textes qui suivent n’ont d’exemples ni de l’un ni de l’autre. Au XVe siècle tous les textes contiennent des exemples de l’un et de l’autre. Pour sin, la situation est très proche mais avec un siècle de décalage. Les premiers et rares exemples de sin + SDéfT arrivent au milieu du XIV e siècle. Le seul texte de la fin du XIVe qui contient un exemple de sin que en a deux de sin + SDéf. Puis, au XVe siècle, on trouve plus régulièrement sin que et sin + SDéf dans le même texte. Il apparaît un contre-exemple : un texte de la deuxième moitié du XVe contient sin que sans exemple de sin + SDéf. Pour siempre, on n’a pas un seul exemple d’emploi lié entre le XIIIe et le XVe siècle. Les premiers exemples de siempre que apparaissent dans deux textes du XVIe siècle. Dans ces mêmes textes il y a des emplois liés très clairs de siempre.

62Ces données semblent prouver le bien-fondé des hypothèses, puisque, dans tous les textes (à une exception près) présentant un ou plusieurs exemples d’adverbe ou d’une préposition X suivis de la proposition-que, cet adverbe ou cette préposition remplissent la condition attendue.

63Ce qui me semble important c’est que le corpus utilisé ne comportait que 31 textes. C’est un échantillon qui n’a aucun pouvoir représentatif si on le prend de façon massive. Or, utilisé de façon discontinue, il permet une bonne corroboration (toujours provisoire, bien entendu), en dépit des risques d’intervention du hasard (qui peuvent d’ailleurs absorber le seul contre-exemple trouvé, compte tenu de sa datation). De plus, n’importe qui peut refaire l’expérience avec d’autres textes et, peut-être, falsifier ces résultats. C’est ce risque qui donne aux hypothèses leur richesse informative.

5. CONCLUSION

64Mon but principal a été de suggérer un moyen de contourner les difficultés inhérentes à la syntaxe diachronique. Pour cibler convenablement le problème, il a fallu commencer par une discussion sur l’exploitation des corpus, conçus comme une collection d’exemples indépendants de la recherche menée. J’ai essayé de justifier l’affirmation selon laquelle, lorsqu’il y a un accès quelconque à une compétence active, on travaille toujours avec des exemples ad hoc, ne serait-ce que de façon implicite. En l’absence de compétence active, comme c’est le cas pour les études diachroniques, on est contraint de bâtir des hypothèses à partir des seuls exemples indépendants, ce qui entraîne des problèmes d’induction (notamment, les problèmes du n+1 texte et du lien causal). C’est pourquoi il est nécessaire de concevoir des stratégies d’expérimentation rendant représentatif ce qui n’est qu’un petit échantillon de la production langagière d’une époque. La proposition faite prône la conception du corpus comme une somme d’idiolectes qui doivent servir à tester une hypothèse indépendamment les uns des autres.

65Il va sans dire que la méthode proposée demande un effort dans la formulation des hypothèses. Elles doivent être ancrées dans des propriétés lexicales et doivent chercher les liens causaux entre évolutions triviales et évolutions non triviales.

66Je crois que ce type de formulation a toujours figuré parmi les aspirations de la linguistique diachronique, mais la plupart des hypothèses ainsi conçues, bien qu’elles soient conceptuellement acceptables, ont rarement été démontrées empiriquement. Il s’agit donc de se frayer un chemin vers la démonstration non strictement argumentative.

Bibliographie

ARIZA, M.
1996, « Reflexiones sobre la evolución del sistema consonántico en los Siglos de Oro », dans Alonso González, A., Castro, L., Gutiérrez, B., Pascual, J. A. (éds) (1996), Actas del III Congreso Internacional de Historia de la Lengua Española, vol. 1, Madrid, Arco Libros, p. 43-80.

BARRA-JOVER, M.
1998, « La evolución sintáctica y el estado de lengua de un texto : un enfoque léxico », communication présentée au colloque Contribución de la lingüística a la fijación del estado de lengua de un texto medieval (Cadix, Novembre 1998), à paraître dans les Cahiers de linguistique hispanique médiévale.
-- (à paraître), Propiedades léxicas y evolución sintáctica. El desarrollo de los mecanismos de subordinación en español.

BAILEY, CH-J.N.
1992, Variation in the data : can linguistics ever become a science ?, Orchid Land Publications.

BERGOUNIOUX, G. et al.
1992, « Actualité de l’enquête et des études sur l’oral », Langue française, 93, p. 94-119.

CHOMSKY, N.
1995, The minimalist program, Cambridge, Mass., MIT.

COWART, W.
1997, Experimental Syntax. Applying Objective Methods to Sentence Judgements, Thousand Oaks-London-New Delhi, SAGE Publications.

CULIOLI, A.
1983, « Pourquoi le français parlé est-il si peu étudié ? », Recherches sur le français parlé, 5.

HERMAN, J.
1963, La formation du système roman des conjonctions de subordination, Berlin, Akad. Verlag.

KERBRAT-ORECCHIONI, C.
1995, Les interactions verbales, tome 1, Paris, Armand Colin.

MARTÍ, M.
1998, En torno a la cientificidad de la lingüística: aspectos diacrónicos y sincrónicos, Universidad de Alcalá, Servicio de Publicaciones.

RAMÓN Y CAJAL, S.
1954, Recuerdos de mi vida, Madrid, Aguilar.

Notes

1  Je remercie Jean Chuquet et Paul Wass pour l’intérêt porté à la première version de ce travail et pour toutes leurs suggestions visant à rendre plus claires les idées avancées. Je remercie aussi les membres du Cerlip dont les remarques et objections faites au cours de l’exposé qui a précédé la version écrite m’ont aidé à nuancer quelques affirmations.

2  Cette critique a une longue portée, puisqu’elle vise la légitimité même de la syntaxe formelle en mettant en question sa pertinence comme reflet du langage (cf., notamment, Kerbrat-Orecchioni (1995, 37 et sq.).

3  Il s’agit du problème formulé par Culioli (1983) lorsqu’il parle de « l’attesté non attestable ». Ceci n’empêche que, pour certains chercheurs en langue orale, l’objet d’étude d’une grammaire formelle comme la grammaire générative est aussi la langue orale (cf., notamment, l’intervention de P. Encrevé dans Bergounioux et al. 1992, 106). La prise en compte de toute variation attestée peut, d’ailleurs, amener à une mise en question des fondations de la linguistique en tant que science, comme c’est le cas de Bailey (1992).

4  De plus, il ne s’agit pas que des corpus. A présent un « méta-moteur » de recherche comme copernic (www.copernic.com) cherche dans toutes les pages web existantes n’importe quelle séquence.

5  Un collègue s’est permis, à juste titre, une comparaison fort révélatrice entre l’informateur et le dégustateur de vins qui au bout de trois verres trouve tous les vins pareils.

6  Pour une synthèse de cette discussion, cf. Martí (1998).

7  Voici un exemple du passé qui frappe nos conceptions actuelles : à la fin du XIXe siècle des chercheurs trouvaient ridicules et inutiles les efforts pour étudier la cellule de façon expérimentale (cf. Ramón y Cajal, 1954).

8  On peut, bien entendu, affirmer qu’il y a certaines choses impossibles, mais trop loin des limites qui rendent une affirmation intéressante.

9  D’ailleurs, les périodes sont souvent démarquées au préalable par une tradition qui peut être à l’origine d’une homogénéisation injustifiée. Cf., à ce propos, Barra-Jover (1998).

10  Ce n’est pas, malheureusement, toujours le cas et il y a des explications qui ne suivent qu’une démarche déductive reléguant les données à un rôle qui ne saurait dépasser la simple illustration. Il va de soi que les remarques qui suivent ne sont pas pertinentes pour ce type de travaux.

11  Il y a eu des erreurs remarquables à cause de mauvaises transcriptions, par exemple, dans le domaine de la phonologie diachronique de l’espagnol. On peut voir, à ce propos, l’article de Ariza (1996) où plusieurs idées avancées par quelques auteurs sont invalidées par la simple raison qu’elles sont le produit d’une mauvaise lecture des manuscrits.

12  Il est toujours possible qu’il existe des connaissances d’arrière-plan relevant des connaissances théoriques, mais elles doivent être accompagnées d’une certaine compétence.

13  Les explications qui ont recours à des forces extérieures comme l’analogie, la tendance à l’analyse, l’économie, etc., ne sont pas, à mes yeux, informatives, puisqu’elles ne permettent pas d’expliquer pourquoi une innovation arrive dans une langue et non dans une autre ni pourquoi l’innovation arrive à un moment précis et non à un autre.

14  Ce point reprend l’une des idées maîtresses du programme minimaliste de la grammaire générative (cf. Chomsky, 1995, chap. 4). Cependant, l’idée était déjà avancée par d’autres approches comme celles de Guillaume, Culioli ou de certaines grammaires d’unification.

15  Je pense, par exemple,  aux travaux diachroniques puisant leurs données dans des recueils de documents légaux qui ne dépassent pas deux pages.

16  D’ailleurs, je crois avoir prouvé dans Barra-Jover (1998 et à paraître) que le caractère lexical du changement syntaxique peut faire qu’un auteur utilise une innovation que des auteurs ultérieurs n’ont pas encore acquise.

17  Le terme « lié » désigne des emplois anaphoriques, cataphoriques ou exophoriques. Par exemple, en français, l’adverbe avant  est lié dans une phrase comme tu auras ton dessert mais avant tu dois finir ton assiette.

Pour citer cet article

Mario BARRA JOVER (2017). "Constatation et induction face aux corpus diachroniques : le problème du n+1 texte". Cahiers Forell - Formes et Représentations en Linguistique et Littérature - Archives (1993-2001) | Complexité syntaxique et sémantique.

[En ligne] Publié en ligne le 29 novembre 2017.

URL : http://09.edel.univ-poitiers.fr/lescahiersforell/index.php?id=463

Consulté le 22/09/2019.

A propos des auteurs


Complexité syntaxique et sémantique - études de corpus - n°14

Ce volume des Cahiers Forell est l’aboutissement du travail d’une équipe (ou « Opération » de l’EA 1226), le Cercle de Recherches Linguistiques de Poitiers, étalé sur plus d’un an. Ce travail  repose sur la confrontation de données langagières diverses (langues différentes, variation, traductions) et leur analyse linguistique à la lumière d'une pluralité d'approches théoriques. C’est un travail collectif: chaque contribution a fait l’objet d’un exposé, d’une discussion et de relectures au sein du groupe. La question de l’utilisation d’un corpus dans l’analyse linguistique n’est pas nouvelle: il faut savoir comment on le traite, quel type de corpus on utilise, quels sont les cas où l’on ne peut échapper au corpus collecté à partir de l’écrit faute de locuteurs, quelles précautions prendre pour éviter qu’il ne devienne une simple collection de beaux spécimens. Les contributions proposées dans ce volume peuvent se fonder sur une forme de corpus préexistant : par exemple des corpus informatisés tels que le LOB, le Brown, le COLT ou le British National Corpus, sur l’anglais, ou bien ceux réalisés par deux chercheurs sur les variétés canadiennes de français, ou encore, dans le cadre d’études lexicales, les entrées du dictionnaire. Il peut s’agirau contraire de corpus collectés pour une recherche déterminée : corpus réuni à des fins sociologiques, extraits de lectures personnelles ou enquêtes réalisées « sur le terrain » pour le français ou l’anglais. Les travaux présentés ici ne sont qu’une « coupe » synchronique dans la vie d’un groupe de recherches. La part d’exploitation et de constitution des corpus ainsi que celle du traitement informatique des textes s’affirmeront plus que jamais dans les activités de l’équipe aux côtés de la réflexion théorique: c’est pourquoi ce recueil constitue à la fois un bilan de parcours mais aussi préfigure certaines des orientations de recherche à venir.



Contacts

Les Cahiers FoReLL
Revue La Licorne

Université de Poitiers
Maison des Sciences de l'Homme et de la Société
Bâtiment A5
5, rue Théodore Lefebvre
86000 Poitiers - France

lalicorne@mshs.univ-poitiers.fr

Abonnez-vous

Recevez en temps réel les dernières mises à jour de notre site en vous abonnant à un ou à plusieurs de nos flux RSS :

Informations légales

ISSN électronique :

Dernière mise à jour : 18 octobre 2018

Crédits & Mentions légales

Edité avec Lodel.

Administration du site (accès réservé)