Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par...

198
Institut des sciences du langage et de la communication TRAVAUX NEUCHÂTELOIS DE LINGUISTIQUE 2015 | N o 63 Etienne Morel & Alexander Guryev (Eds) Perspectives linguistiques sur les écrits électroniques: des textos aux conversations WhatsApp

Transcript of Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par...

Page 1: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Institut des sciences du langage et de la

communication

T R A V A U X N E U C H Â T E L O I S D E L I N G U I S T I Q U E

2015 | No 63

Etienne Morel & Alexander Guryev (Eds)

Perspectives linguistiques sur les écrits électroniques: des textos aux conversations WhatsApp

Page 2: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront
Page 3: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Travaux neuchâtelois de linguistique N° 63, 2015 • ISSN 1010-1705

Table des matières

Etienne MOREL & Alexander GURYEV

Avant-propos ------------------------------------------------------------------------- 1-13

Josie BERNICOT, Alain BERT-ERBOUL, Antonine GOUMI & Olga VOLCKAERT-LEGRIER

Analyse d'un corpus longitudinal de SMS produits par de jeunes adolescents ------------------------------------------ 15-29

Marc BONHOMME

La problématique des genres de discours dans la communication sur Internet ------------------------------------------------- 31-47

John C. PAOLILLO

Computer-Mediated Communication: What a Quantitative Linguistic Approach Should Do ------------------------------ 49-69

Cédric LOPEZ, Mathieu ROCHE & Rachel PANCKHURST

Classification des items inconnus de 88milSMS: aide à l'identification automatique de la créativité scripturale --------------------------------------------------------------------------- 71-86

Katharina KÖNIG

Dialogkonstitution und Sequenzmuster in der SMS- und WhatsApp-Kommunikation -------------------------------------- 87-107

Karina FRICK, Anne-Danièle GAZIN & Charlotte MEISNER

Präpositionale Ellipsen im Schweizer SMS-Korpus – kontrastiv: Schweizerdeutsch, Französisch und Italienisch ------------------------------------------------- 109-127

Alexander GURYEV & François DELAFONTAINE

La variabilité formelle des questions dans les écrits SMS ----------------------------------------------------------------------- 129-152

Aurélia ROBERT-TISSOT

Registre et moyen de communication: interdépendance ou indépendance? ------------------------------------- 153-169

Page 4: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

IV

Claudia CATHOMAS, Nicola FERRETTI, Claudia BUCHER & Etienne MOREL

Same same but different: Code-Switching in Schweizer SMS – ein Vergleich zwischen vier Sprachen ------------------------------------------------------------------------- 171-189

Adresses des auteurs --------------------------------------------------------------- 191-192

Comité de lecture -------------------------------------------------------------------------- 193

Page 5: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

TRANEL (Travaux neuchâtelois de linguistique)

La revue TRANEL fonctionne sur le principe de la révision par les pairs. Les propositions de

numéros thématiques qui sont soumises au coordinateur sont d'abord évaluées de manière

globale par le comité scientifique. Si un projet est accepté, chaque contribution est transmise

pour relecture à deux spécialistes indépendants, qui peuvent demander des amendements.

La revue se réserve le droit de refuser la publication d'un article qui, même après révision,

serait jugé de qualité scientifique insuffisante par les experts.

Responsables de la revue Evelyne Pochon-Berger email: [email protected]

Comité scientifique de la revue Marie-José Béguelin, Simona Pekarek Doehler, Louis de Saussure, Geneviève de Weck,

Marion Fossard, Corinne Rossari, Federica Diémoz, Martin Hilpert, Martin Luginbuehl et

Juan Pedro Sánchez Méndez (Université de Neuchâtel)

Secrétariat de rédaction Florence Waelchli, Revue Tranel, Institut des sciences du langage et de la communication,

Université de Neuchâtel, Rue Pierre-à-Mazel 7, CH-2000 Neuchâtel

Les anciens numéros sont également en accès libre (archive ouverte / open access) dans la

bibliothèque numérique suisse romande Rero doc. Voir rubrique "Revues":

http://doc.rero.ch/collection/JOURNAL?In=fr

© Institut des sciences du langage et de la communication, Université de Neuchâtel, 2015 Tous droits réservés ISSN 1010-1705

Page 6: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Travaux neuchâtelois de linguistique, 2015, 63, 1-13

A la mémoire de Josie Bernicot

Avant-propos

Etienne MOREL & Alexander GURYEV Institut des sciences du langage et de la communication, Université de Neuchâtel

Loin de représenter un phénomène marginal de la vie sociale, la communication réalisée par le biais d'écrits électroniques fait désormais partie intégrante de nos manières d'interagir dans la vie de tous les jours. Les chiffres sont particulièrement impressionnants dans le cas des textos, forme de communication dont traite la majorité des contributions à cette édition de TRANEL. En Suisse uniquement, point de focalisation d'un projet de recherche interuniversitaire auquel fait écho ce numéro 1 , 6,5 milliards de messages SMS ont été envoyés au cours de l'année 20122, et 114 millions rien que le soir du réveillon 2011/20123.

Bien que son utilisation soit en baisse depuis 2012 (4,2 milliards de SMS envoyés en 2013), le texto de type SMS (angl. Short Message Service) continue à être utilisé et coexiste aujourd'hui avec ses formes épigones telles que WhatsApp, imessage, Viber ou même avec des variantes plus hybrides telles que l'application mobile de Facebook, le service de messagerie par Skype ou le courriel envoyé et reçu par téléphone portable. Le développement continu des technologies – avec l'émergence des smartphones4, l'accessibilité ininterrompue à Internet qu'ils permettent et les diverses applications de messageries qu'ils offrent – semble avoir encore amplifié l'importance des écrits électroniques. En janvier 2015, la messagerie instantanée WhatsApp comptait quelque 700 millions d'utilisateurs de par le monde et permettait la transmission de 30 milliards de messages – et ce chaque jour5.

Si la communication par texto voit le jour dans les années 1990, il faut attendre le début des années 2000 pour voir émerger des études scientifiques à ce sujet. Au vu du faisceau de particularités formelles qui semble la 1 Projet FNS 136230 (01.10.2011–30.09.2015): "SMS communication in Switzerland: Facets of

linguistic variation in a multilingual country". Le projet est dirigé par la prof. Elisabeth Stark, Université de Zurich.

2 Chiffre de l'office fédéral de la communication (OFCOM): http://www.bakom.admin.ch/ statistiken/04099/04518/04555/index.html?lang=fr (21.4.2015)

3 https://www.xavierstuder.com/2012/01/03/nouvel-an-116-millions-de-messages-envoyes-en-suisse/ (8.4.2015)

4 Alternativement, on peut parler de téléphone intelligent, terme utilisé au Québec (recommandation officielle de l'Office québécois de la langue française, 2010).

5 http://www.handelsblatt.com/unternehmen/it-medien/facebook-tochter-whatsapp-30-milliarden-nachrichten-am-tag/11195330.html (8.4.2015)

Page 7: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

2 Avant-propos

caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront présentées dans la suite de cet ouvrage. Il s'agit de recherches d'orientation (1) sociolinguistique, (2) interactionnelle et (3) formelle (grammaticale et graphématique).

Un premier volet de la recherche sur la communication par texto s'inscrit dans une perspective sociolinguistique et se sert de données sociodémographiques pour interpréter des comportements spécifiques, liés à des groupes d'utilisateurs précis. Ainsi, la recherche s'est p.ex. intéressée aux différences de pratiques selon l'âge des participants (Kasesniemi 2003; Ling 2005; Spagnolli & Gamberini 2007) ou encore selon leur sexe (Bieswanger 2010; Kasesniemi 2003; Ling 2005; Höflich & Gebhardt 2005; Schmidt & Androutsopoulos 2004). Il apparaît notamment que les jeunes femmes écrivent plus souvent des textos, qu'elles écrivent des textos plus longs et qu'elles se servent de structures syntaxiques plus complexes que les hommes du même âge (Ling 2005; Höflich & Gebhardt 2005; Schmidt & Androutsopoulos 2004). Elles seraient aussi plus enclines à produire des messages contenant des formes linguistiques innovantes (Ling 2005) alors que les jeunes hommes auraient pour priorité d'écrire vite et souvent sur des sujets d'ordre plus pratique qu'émotionnel (Kasesniemi 2003).

Un autre type d'analyse sociolinguistique se concentre sur l'étude de patterns spécifiques à divers contextes socioculturels et caractéristiques de différentes zones linguistiques, notamment à l'échelle de différents pays. Les linguistes qui ont travaillé dans cette perspective suggèrent ainsi l'existence de normes locales, par exemple en ce qui concerne la longueur moyenne des messages (Cougnon & François 2011; Spagnolli & Gamberini 2007), le registre de langue (Haggan 2007) ou le cercle de destinataires, intime vs. professionnel (Rivière & Licoppe 2005)7.

D'autres études sociolinguistiques ont pris comme point de départ les pratiques plurilingues qui apparaissent de façon récurrente dans ce type de communication: la plupart de ces recherches décrivent les pratiques d'individus qui recourent massivement à deux ou plusieurs langues dans leurs pratiques communicationnelles quotidiennes, orales et écrites, et ce dans des contextes culturels multilingues où l'anglais (ou le français dans le cas du Sénégal) est l'une des langues co-présentes (Bautista 2004; Carrier & Benitez 2010; Chiluwa 2008; Deumert & Oscar Masinyana 2008; Vold Lexander 2011). D'autres études explorent le rôle de l'anglais comme lingua franca dans la communication par texto (Haggan 2007; Al-Khatib & Sabbah 2008). Tous ces travaux décrivent des contextes où les alternances codiques apparaissent

6 Thurlow & Poff (2013) proposent une vue d'ensemble dont nous nous inspirons ici

partiellement; nous nous permettons de la compléter là où cela est pertinent pour notre propos (v.aussi Cougnon 2015; Cougnon & Fairon 2014 et König & Bahlo 2014).

7 V. aussi Günthner & Kriese (2012) qui comparent, dans une perspective de l'analyse conversationnelle cette fois, les patterns interactionnels entre les textos allemands et chinois.

Page 8: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Etienne Morel & Alexander Guryev 3

sous de formes relativement complexes. Ce n'est que plus récemment que les recherches entamées dans le cadre du projet sms4science.org ont permis de rendre compte de pratiques de scripteurs déployant des formes moins étendues d'alternance codique (se limitant à des insertions et à des alternations minimales, hautement routinisées et transparentes), notamment en Belgique et en Suisse (Bucher 2015; Cougnon 2011; Morel & al. 2014; v. aussi Cathomas & al. ce volume; pour des approches plus interactionnelles v. Pekarek Doehler 2011; Morel & Pekarek Doehler 2013).

Il faut noter que si la recherche sur la communication par texto concerne des communautés très variées, les travaux sur le contexte spécifiquement Suisse sont encore rares8. Les travaux existants se focalisent surtout sur le contexte suisse germanophone et s'intéressent à l'utilisation du dialecte alémanique par les jeunes scripteurs de SMS (Spycher 2004; Braun 2005). D'autres recherches comparent les pratiques de jeunes scripteurs d'un type de texte à l'autre, contrastant notamment les pratiques entre SMS et courriel (Frehner 2008) ou celles entre SMS et d'autres types de texte de la communication écrite privée (Dürscheid & al. 2010). Pour ce qui est du domaine suisse non-germanophone, la recherche sur la communication par texto reste un terrain largement inexploré jusqu'en 2011. Ce n'est qu'avec l'initiation du projet interuniversitaire sms4science.ch que la recherche sur la communication par texto réalisée en différentes langues nationales de Suisse, outre le suisse allemand, est entamée. Voir notamment les travaux de Béguelin (2012), Pekarek Doehler (2011), Morel & Pekarek Doehler (2013), Schwitter & al. (2012), Stark (2011) pour le français, Moretti & Stähli (2011) pour l'italien et Grünert (2011) pour le romanche.

Parmi les approches linguistiques de la communication par texto, nous citerons également les recherches qui portent sur les caractéristiques interactionnelles de ce type de communication. Les travaux qui s'inscrivent dans cette perspective ont p.ex. cherché à comprendre en quoi la communication par texto était différente de l'interaction orale en face à face, notamment du fait de son mode de réalisation écrit et de son régime temporel asynchrone (Schmidt & Androutsopoulos 2004; Marcoccia 2004; Moise 2007, 2008; Spagnolli & Gamberini 2007; Rettie 2005; Tagg 2012). Un certain nombre de chercheurs a également examiné la machinerie interactionnelle de la communication par texto. Ils ont notamment identifié certains schémas communicationnels routinisés et attestent de l'existence d'attentes normatives précises (p.ex. sur le temps de réponse), bien que sensibles à la variation d'une culture (et langue) à l'autre (Androutsopoulos 2002; Günthner 2011, 2012; Günthner & Kriese 2012; Hutchby & Tanna 2008; Imo 2012; Laursen 2005; Rettie 2009; Spagnolli & Gamberini 2007). Il faut noter ici que les études sur la communication par texto qui s'inscrivent dans une perspective 8 Les travaux portant sur le contexte Suisse ne sont d'ailleurs pas encore mentionnés par

Thurlow & Poff (2013).

Page 9: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

4 Avant-propos

interactionnelle sont encore relativement rares; les travaux qui pourront être menés sur différents corpus WhatsApp récemment collectés s'annoncent prometteurs à cet égard9.

En plus des approches sociolinguistique et interactionnelle, nous citerons enfin les travaux qui s'intéressent aux aspects formels de la communication par texto, que ce soit en lien avec les phénomènes de la variation graphématique (Anis 2007; Béguelin 2012; Fairon & al. 2006; Panckhurst 2009; Reinkemeyer 2013) ou avec ceux de la variation morphosyntaxique (Dürscheid 2011; Hård af Segerstad 2005; Labeau 2014; Ledegen & al. 2011; Stark 2011, 2014a, 2014b).

A ce propos, il convient en particulier de remarquer que ce sont ces aspects graphiques et grammaticaux de la communication par texto qui ont de loin le plus mobilisé l'attention des chercheurs, mais surtout des médias et des puristes; pour ces derniers notamment, "le langage SMS" menacerait la maîtrise de l'orthographe et de la grammaire, notamment auprès des jeunes. Dans l'opinion commune, le texto est souvent associé à l'utilisation excessive de toutes sortes d'abréviations et de formes agrammaticales. Cependant, plusieurs études menées sur un grand nombre de SMS dans différentes langues ont montré que ces préjugés sont très souvent sans fondement10. Ainsi, contrairement aux idées reçues, les scripteurs préfèrent employer en majorité les formes orthographiques non-abrégées (Thurlow & Brown 2003; Ling 2005; Bieswanger 2007; Cougnon & François 2010).

Concernant les faits de la variation morphosyntaxique, là encore, plusieurs études montrent que, contrairement à ce que l'on pourrait croire, les ressources langagières déployées dans les SMS ne sont pas assimilables à celles de l'oral spontané (Labeau 2014; Guryev 2013). La communication par texto se caractérise par une situation d'interaction particulière, bien distincte de l'interaction orale en face à face, notamment en raison de la séparation spatiale et temporelle des interlocuteurs qu'elle implique généralement. Le destinataire ne pouvant pas accéder à l'élaboration des énoncés produits par le scripteur en temps réel, il a été suggéré que cela pourrait avoir un impact sur le choix des formes grammaticales par les participants11. Comparé à l'oral spontané, le texto semble en effet plus propice à l'usage de formes dites

9 Un large corpus de 140'000 messages de type WhatsApp a été collecté en juin 2014 par les

universités de Berne, Zurich et Neuchâtel (v. http://www.whatsup-switzerland.ch/); pour un projet similaire en Allemagne v. http://www.whatsup-deutschland.de/. Notons par ailleurs qu'un corpus romand d'environ 4'200 messages a été collecté par Schwitter & al. (2012). V. aussi König, ce volume.

10 Voir par exemple Krummes & al. 2014 pour la synthèse des "mythes" à propos de la communication par SMS.

11 Dans le cas d'échanges par messagerie instantanée en anglais, Tagliamonte & Denis (2008) a montré que les locuteurs avaient tendance à déployer une diversité de formes linguistiques, parmi lesquelles, en plus de formes clairement familières, certaines qui sont caractéristiques du registre formel ou écrit.

Page 10: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Etienne Morel & Alexander Guryev 5

"soutenues" et témoigne par là d'une remarquable variabilité dans l'emploi de formes grammaticales (Labeau 2014; Guryev & Delafontaine ce volume).

D'autres études portant sur les phénomènes de variation grammaticale se sont davantage intéressées aux contraintes d'ordre linguistique et mettent en avant le poids de facteurs morphosyntaxiques dans le choix de différents procédés grammaticaux. Dans ce type de recherche, on s'est notamment intéressé à des phénomènes aussi variés que la réalisation de la négation (Stark 2014a), les constructions clivées (Stark 2014b) ou encore l'omission du sujet (Hård af Segerstad 2005; v. aussi Robert-Tissot 2015 ce volume).

La brève revue de littérature proposée ici atteste de la diversité des perspectives adoptées dans l'approche des phénomènes linguistiques de la communication par texto. Plutôt que de considérer ces perspectives comme mutuellement exclusives ou contradictoires, il paraît au contraire profitable de mettre en relation ces différentes approches afin d'offrir une vision plus complète de la communication par texto.

Les démarches entreprises lors de la publication de ce numéro du TRANEL vont dans le même sens. L'objectif premier de cette édition est en effet de contribuer à l'avancement des études sur les nouvelles formes de communication écrite en illustrant les avantages que revêt le croisement de différentes perspectives linguistiques. Cette publication reflète notamment en grande partie les réflexions initiées dans le cadre d'un module de formation doctorale de la Conférence Universitaire de Suisse Occidentale (CUSO) qui s'est tenu du 31 mars au 2 avril 2014 à Neuchâtel et qui portait sur les approches linguistiques de la CMO (Communication Médiée par Ordinateur). Sur la base des interrogations des doctorants travaillant sur la communication par texto, l'objectif du module de formation était d'ouvrir plus largement la discussion sur les méthodes à adopter dans l'analyse des nouvelles formes de communication écrite.

Lors de cette école doctorale, les contributions des intervenants ont permis de mettre en perspective les défis méthodologiques propres à l'analyse des écrits électroniques tout en proposant les résultats de recherches illustrant les enjeux linguistiques, socio-identitaires et éducatifs de ce type de communication.

Comme l'école doctorale qui l'a motivée, cette publication s'inscrit dans une approche résolument pluridisciplinaire des écrits électroniques et comprend des contributions qui relèvent de méthodes d'analyse linguistique variées. Celles-ci se rassemblent autour de cinq axes:

1. Traitement statistique et informatique des données écrites électroniques

2. Problèmes des écrits électroniques en tant que genre textuel 3. Aspects variationnels dans la graphie et la morphosyntaxe des

textos

Page 11: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

6 Avant-propos

4. Phénomènes de contact linguistique et d'alternance codique 5. Organisation séquentielle des messages dialogués

Comme nous l'avons évoqué plus haut, l'un des principaux enjeux des approches linguistiques des écrits électroniques a trait à l'idée, largement répandue, selon laquelle ce type de pratique nuirait à la maîtrise de l'orthographe traditionnelle, notamment chez les jeunes. La communication par texto est en effet souvent (et trop hâtivement) associée à un déclin des compétences orthographiques; les recherches menées depuis plusieurs années par Josie Bernicot et collaborateurs contribuent à apaiser ces craintes et montrent que la pratique du SMS n'influence pas l'aptitude des adolescents à pratiquer une orthographe correcte quand cela est exigé (Bernicot & al. 2014a, 2014b; Bernicot 2013). Dans l'article qu'ils proposent dans ce numéro, Josie Bernicot, Alain Bert-Erboul, Antonine Goumi et Olga Volckaert-Legrier perpétuent ce travail qui permet de déconstruire les préjugés formulés à l'égard de la communication par texto. Ils suggèrent notamment que le recours aux particularités graphiques et interactionnelles de la communication par texto n'entretient pas de rapport de contradiction avec une bonne maîtrise de l'orthographe traditionnelle; le déploiement de 'textismes' relèverait de fait d'une compétence spécifique que les jeunes acquièrent. Sur la base d'un corpus longitudinal, composé de 4'524 messages rédigés par de jeunes collégiens (11-12 ans), les auteurs montrent que certaines spécificités de l'écrit informel propre à la communication par SMS (trucages graphiques, absence d'ouverture et de clôture du message) augmentent avec la pratique d'écriture. De façon intéressante, les jeunes adolescents, à la base novices en ce qui concerne la pratique des SMS, acquièrent les spécificités orthographiques et interactionnelles de ce type de communication au travers des échanges avec leurs pairs.

Une autre problématique fondamentale que l'on rencontre dans l'approche des nouvelles formes de communication écrite concerne la catégorisation de ces différentes conditions (SMS, WhatsApp, site, blog, etc.) en termes de généricité: que constitue un genre (textuel ou discursif) spécifique et par quels faisceaux de critères les genres peuvent-ils être distingués les uns des autres? Dans sa contribution, Marc Bonhomme s'intéresse aux critères, dans l'ensemble hautement flexibles, qui permettent d'aborder les genres discursifs sur Internet. Il discute différentes approches – structurales, contrastives et génétiques – qui permettent d'évaluer à la fois la nature innovante des genres numériques et leur intégration à des catégories existantes. A partir de l'analyse de trois sites web politiques suisses, l'auteur vérifie le statut générique de cette forme discursive et atteste notamment d'une généricité plus malléable et plus composite que celle généralement décrite dans le cas des genres prénumériques.

Au vu de la taille des corpus numériques sur lesquels reposent les analyses linguistiques, la question des méthodes quantitatives à appliquer semble

Page 12: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Etienne Morel & Alexander Guryev 7

centrale. C'est précisément de cette dimension méthodologique que John Paolillo traite dans son article. L'auteur aborde cinq approches quantitatives de données linguistiques, discute les limites de chacune d'entre elles et propose un ensemble de principes à respecter lorsqu'une perspective quantitative est adoptée. Cette contribution représente une aide essentielle pour tous les linguistes qui privilégient ce type d'analyse dans leurs travaux sur les nouvelles formes de communication écrite.

En amont des questions d'analyses statistiques, le traitement de larges corpus d'écrits électroniques soulève une autre question méthodologique, à savoir celle de son traitement partiellement automatique. Deux principaux défis peuvent être identifiés: a) la taille conséquente de tels corpus et b) les problèmes de reconnaissance et de classification de phénomènes relevant de la variation graphématique. Dans leur article, Cédric Lopez, Mathieu Roche et Rachel Panckhurst présentent une procédure permettant d'extraire et de classer automatiquement les items inconnus présents dans leur vaste corpus de SMS12. Les auteurs montrent comment les messages SMS sont d'abord classifiés selon cinq langues européennes et de quelle façon, par la suite, les items originaux sont répertoriés dans les messages français selon des classes prédéfinies. Ils parviennent ainsi à identifier, de façon semi-automatique, les éléments largement utilisés par la communauté de scripteurs (p.ex. Dsl pour 'désolé', jsuis pour 'je suis' ou lol, 'laughing out loud' angl. pour 'mort de rire') et d'autres qui sont (encore) rarement mobilisés (p.ex. coa pour 'quoi' ou moa pour 'moi').

L'approche des nouvelles formes de communication écrite soulève par ailleurs la question de l'impact que le mode de production des corpus a sur les possibilités d'analyse des activités des participants. La focalisation sur l'unité du message, isolé de son contexte d'échange, est forcément réductrice. Ainsi, Katharina König illustre les avantages que revêt l'analyse de données dialoguées et rend compte des régularités séquentielles au travers desquelles les participants gèrent, message par message, leurs échanges. En appliquant les méthodes de l'analyse conversationnelle à l'étude de textos de type SMS et WhatsApp, l'auteure examine les différences entre ces deux formes de communication. Son article est particulièrement représentatif des travaux menés à l'université de Münster (Allemagne) sur l'organisation interactionnelle des échanges par texto (p.ex. Günthner 2011; König & Bahlo 2014)13.

12 http://88milsms.huma-num.fr/ 13 Notons que lors de l'école doctorale, la présentation de Simona Pekarek Doehler (avec Etienne

Morel) a bien illustré l'avantage que représentait le fait d'analyser des pratiques plurilingues dans la communication par texto en adoptant une perspective qui prenne en compte la façon dont les participants eux-mêmes s'orientent mutuellement, au cours de leur interaction, vers les pratiques qu'ils déploient. La présentation de Marc Relieu, d'inspiration ethnométhodologique, a quant à elle exploré les différentes manières de circonscrire le contexte pertinent à l'analyse de l'interaction électronique. Il a notamment montré que la prise en compte de l' "hybridité des lieux d'activités" (Relieu 2005), des entrelacements entre les activités distantes (l'échange de

Page 13: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

8 Avant-propos

Les thématiques abordées par les jeunes chercheurs du projet sms4science.ch soulèvent des questionnements linguistiques et sociolinguistiques fréquemment thématisés dans les travaux sur la communication par texto. Trois contributions traitent de différents phénomènes de la variation morphosyntaxique qui sont potentiellement liés à certains registres mobilisés dans les écrits électroniques (omission d'éléments syntaxiques comme le sujet ou la préposition; variabilité des formes interrogatives); une autre contribution s'intéresse quant à elle aux pratiques plurilingues récurrentes dans ce type de communication (voir ci-dessus).

Dans leur contribution, Karina Frick, Anne-Danièle Gazin et Charlotte Meisner étudient les ellipses des prépositions dans les sous-corpus suisse-allemands, français et italiens du corpus sms4science.ch. Ce phénomène, souvent associé à une forme ethnolectale très marquée, n'est pas fréquente dans les données analysées, et ce malgré l'idée largement répandue selon laquelle cette forme de communication amènerait les scripteurs à privilégier la petitesse de leur message quitte pour cela à ne pas respecter l'ordre syntaxique. Les auteures montrent au contraire que l'ellipse des prépositions semble suivre des régularités d'ordre syntaxique et sémantique, ce phénomène s'observant avant tout dans des syntagmes liés à l'expression du temps et du lieu.

Comment pose-t-on des questions dans la communication par texto? C'est de la variabilité formelle des questions, de l'outillage conceptuel et méthodologique nécessaire à leur catégorisation et à leur interprétation qu'Alexander Guryev et François Delafontaine discutent dans leur article. Ils y mettent en cause l'approche sociolinguistique classique de la variation dans laquelle chaque type de réalisation de la question (p.ex. par inversion ou avec est-ce que) serait lié à un faisceau précis de valeurs socio-stylistiques. En se basant sur une analyse exploratoire du corpus francophone de sms4science.ch, ils plaident en faveur d'une conceptualisation alternative et mettent en relief l'importance de paramètres morphosyntaxiques dans la sélection des structures interrogatives.

Aurélia Robert-Tissot propose un article où elle remet en question l'association, souvent trop hâtivement établie, entre une forme de communication (la communication par SMS) et un registre ou une variété linguistique spécifique ('le langage SMS'). En s'intéressant notamment à l'omission du sujet dans le corpus SMS Suisse et dans un corpus de journaux intimes, elle montre que la distribution de ce phénomène est davantage liée au code graphique informel qu'à une forme de communication précise. Sa contribution met en avant le fait qu'un nouveau moyen de communication ne

textos) et des activités dans la situation "proximale" peut représenter un atout analytique considérable, notamment dans une approche praxéologique du phénomène (Relieu 2005).

Page 14: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Etienne Morel & Alexander Guryev 9

débouche pas nécessairement – comme on pourrait le croire – sur la création d'un registre de langue entièrement nouveau.

Claudia Cathomas, Nicola Ferretti, Claudia Bucher et Etienne Morel travaillent tous, dans le cadre de leurs thèses respectives, sur des phénomènes de contact linguistique et d'alternance codique (code-switching) tels qu'ils sont observables dans le corpus SMS Suisse. En appliquant un schéma d'annotation commun14, ils confrontent ici les résultats de leurs travaux et parviennent à dégager des similitudes et des différences notables entre les sous-corpus suisse-allemand, français, italien et romanche. Ils montrent que, malgré les particularités propres aux situations diglossiques des diverses parties du pays, les patterns décrits se caractérisent tous par des pratiques minimales de l'alternance codique et par une concentration sur des contextes d'occurrences périphériques, en début et en fin de message. Les auteurs suggèrent notamment que les participants ont recours à de telles formes d'alternance codique pour marquer leur inscription dans un certain espace d'affinités.

Par la richesse des contributions qu'il comprend, ce numéro TRANEL permet d'une part de soulever certains enjeux méthodologiques propres aux approches linguistiques des nouvelles formes de communication écrite (catégorisation des formes de communication et de discours, traitement semi-automatique, analyse quantitative, impact du type de données). D'autre part, ce numéro contribue également à rendre compte des travaux actuellement menés par des jeunes chercheurs sur la communication par texto, que ce soit en Suisse ou dans d'autres pays. Réunies dans un même numéro, ces études qui s'inscrivent dans différentes perspectives, illustrent l'atout qu'implique un regard pluridisciplinaire porté sur les écrits électroniques, et plus particulièrement sur les textos.

Nous voudrions terminer cette introduction en mentionnant les personnes qui ont contribué au succès de ce projet qui n'a été possible que grâce au généreux soutien de:

– Marie-José Béguelin et Simona Pekarek Doehler, qui nous ont soutenus durant toute la durée du projet;

– La Conférence Universitaire de Suisse Occidentale (CUSO), qui a entièrement financé l'école doctorale dont est issu ce volume. Nous remercions tout particulièrement Johanna Blochowiak pour son aide dans les démarches administratives liées à cette école.

La publication de ce numéro n'a été possible que grâce à la collaboration des membres du comité de relecture, à la bienveillance des responsables de la revue, Evelyne Berger et Gilles Corminboeuf, et à l'indispensable travail d'édition réalisé par Florence Waelchli. Nous remercions toutes ces personnes

14 Avec le soutien de Simona Pekarek Doehler et de Beat Siebenhaar.

Page 15: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

10 Avant-propos

pour leur précieux soutien. Merci aussi à Martin Hilpert, Cécile Petitjean, Virginie Degoumois et Ioana Stoenica pour la mise à disposition de leurs compétences en anglais et en français.

C'est au cours de la préparation de ce numéro que nous apprenons, avec une profonde tristesse, la disparition d'une collègue très appréciée par l'ensemble de la communauté. L'enthousiasme de Josie Bernicot, tout comme sa persévérance humaine et scientifique, nous ont beaucoup impressionnés; nous gardons de ses interventions un excellent souvenir et nous voudrions dédier ce numéro TRANEL à la mémoire de cette figure centrale de la recherche sur la communication par SMS.

Bibliographie

Al-Khatib, M. A. & Sabbah, E. H. (2008): Language Choice in Mobile Text Messages among Jordanian University Students. In: SKY Journal of Linguistics, 21, 37-65.

Androutsopoulos, J. K. (2002): SMS-Kommunikation: Ethnografische Gattungsanalyse am Beispiel einer Kleingruppe. In: Zeitschrift für Angewandte Linguistik, 36, 49-80.

Anis, J. (2007): Neography - Unconventional spelling in French SMS Text Message. In: Danet, B. & Herring, S.C. (éds.): The multilingual Internet: Language, culture, and communication online. Oxford/New York (Oxford University Press), 87-115.

Bautista, M.L.S. (2004): Tagalog-English code switching as mode of discourse. In: Asia Pacific Education Review, 5, 226-233.

Béguelin, M.-J. (2012): La variation graphique dans le corpus suisse de SMS en français. In: Caddéo, S. & al. (éds.): Penser les langues avec Claire Blanche-Benveniste. Aix-en-Provence (Presse de l'Université de Provence), 47-63.

Bernicot, J., Volckaert-Legrier, O., Goumi, A. & Bert-Erboul, A. (2014a): SMS experience and textisms in young adolescents: Presentation of a longitudinally collected corpus. In: Cougnon, L.-A. & Fairon, C. (éds.): SMS Communication. Amsterdam/Philadelphia (John Benjamins), 29-45.

Bernicot J., Goumi, A., Bert-Erboul, A & Volckaert-Legrier, O. (2014b): How do skilled and less-skilled spellers write text messages?: A longitudinal study. In: Journal of Computer Assisted Learning, 30, 559-576.

Bernicot, J. (2013), La pratique des SMS des collégiens et des lycéens: Rapport final. Université de Poitiers-CNRS (UMR 7295), Centre de Recherches sur l'Apprentissage et la Cognition, Poitiers. Disponible: http://cha.unsa-education.com/IMG/pdf/unsabernicotrapportfinal_161213.pdf (1.07.2015)

Bieswanger, M. (2010): Gendered language use in computer-mediated communication: Typography in textmessaging. In: Bieswanger, M. & al. (éds.): Language in its Socio-Cultural Context. New Exploration in Gendered, Global and Media Uses. Frankfurt a.M. (Peter Lang), 157-172.

Braun, B. (2006): Jugendliche Identitäten in SMS-Texten. In: Dürscheid, C. & al. (éds.): Zwischentöne: Zur Sprache der Jugend in der Deutschschweiz. Zürich (Verlag Neue Zürcher Zeitung), 101-114.

Bucher, C. (2015): Code-Switching in SMS Communication: Formal and Functional Aspects in the Swiss-German sms4science Corpus. In: Torgersen, E., Hårstad, S., Mæhlum, B. & Røyneland, U. (éds.): Language variation - European Perspectives V (=Studies in Language Variation). Amsterdam (John Benjamins).

Page 16: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Etienne Morel & Alexander Guryev 11

Carrier, M. L. & Benitez, S. Y. (2010): The effect of bilingualism on communication efficiency in text messages (SMS). In: Multilingua - Journal of Cross-Cultural and Interlanguage Communication 29, 167-183.

Chiluwa, I. (2008): Assessing the Nigerianness of SMS text-messages in English. In: English Today 24, 51-56.

Cougnon, L.-A. (2015): Langage et SMS: Une étude internationale des pratiques actuelles. Cahiers du Cental 8. Louvain-la-Neuve (Presses universitaires de Louvain).

— (2011): 'Tu te prends pour the king of the world?' Language contact in text messaging context. In: Hasselblatt, C. & al. (éds.): Language contact in times of globalization. Amsterdam/New York (Rodopi), 45–59.

Cougnon, L.-A. & Fairon, C. (2014): SMS communication: A linguistic approach. Benjamins Current Topics volume 61. Amsterdam/Philadelphia (John Benjamins).

Cougnon, L.-A. & François, T. (2011): Etudier l'écrit SMS: Un objectif du projet sms4science», Linguistik online, 48.

— (2010): Quelques contributions des statistiques à l'analyse sociolinguistique d'un corpus de SMS. In: Actes du colloque JADT 2010, Vol. 1, 619-630.

Deumert, A. & Oscar Masinyana, S. (2008): Mobile languages choices: The use of English and isiXhosa in text messages (SMS). In: English World-Wide. A Journal of Varieties of English, 29, 117-147.

Dürscheid, C. (2011): Schreib nicht, wie du sprichst. Ein Thema für den Deutschunterricht. In: Rothstein, B. (éd.): Sprachvergleich in der Schule. Baltmannsweiler (Schneider Verlag Hohengehren), 89-109.

Dürscheid, C., Wagner, F. & Brommer, S. (éds.) (2010): Wie Jugendliche schreiben: Schreibkompetenz und neue Medien. Berlin (De Gruyter).

Fairon, C., Klein, J. & Paumier, S. (2006): Le langage SMS: Étude d'un corpus informatisé à partir de l'enquête "Faites don de vos SMS à la science". Louvain-la-Neuve (Presses universitaires de Louvain).

Frehner, C. (2008): Email, SMS, MMS: The linguistic creativity of asynchronous discourse in the new media age. Bern/New York (Peter Lang).

Grünert, M. (2011): Varietäten und Sprachkontakt in rätoromanischen SMS. In: Linguistik online, 48.

Günthner, S. (2012): "Lupf meinen Slumpf" – die interaktive Organisation von SMS-Dialogen. In: Meier, C. & Ayaß, R. (éds.): Sozialität in Slow Motion: Theoretische und empirische Perspektiven. Wiesbaden (VS Verlag für Sozialwissenschaften), 353-374.

— (2011): Zur Dialogizität von SMS-Nachrichten - eine interaktionale Perspektive auf die SMS-Kommunikation. In: Networx, 60.

Günthner, S. & Kriese, S. (2012): Dialogizität in der chinesischen und deutschen SMS-Kommunikation – eine kontrastive Studie. In: Linguistik online, 57.

Guryev, A. (2013): Comment traiter la variation dans la communication par SMS? Le cas de l'interrogation totale. In: Variation et variabilité dans les sciences du langage: analyser, mesurer, contextualiser. JéTou 2013, Toulouse, 16-17 mai 2013, 76-87.

Haggan, M. (2007): Text messaging in Kuwait. Is the medium the message?. In: Multilingua, 26,1, 427-449.

Hård af Segerstad, Y. (2005): Language in SMS - a sociolinguistic view. In: Harper, R. (éd.): The inside text. Dordrecht (Springer), 33-51.

Höflich, J.R. & Gebhardt, J. (2005): Changing cultures of written communication: Letter – e-mail – SMS. In: Harper, R. (éd.): The inside text. Dordrecht (Springer), 9-32.

Hutchby, I. & Tanna, V. (2008): Aspects of sequential organization in text message exchange. In: Discourse & Communication, 2, 143-164.

Page 17: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

12 Avant-propos

Imo, W. (2012): Fischzüge der Liebe: Liebeskommunikation in deutschen und chinesischen SMS-Sequenzen. In: Linguistik online, 56.

Kasesniemi, E.-L. (2003): Mobile message: Young people and a new communication culture. Tampere (Tampere University Press).

König, K. & Bahlo, N.U. (éds.) (2014): SMS, WhatsApp & Co: Gattungsanalytische, kontrastive und variationslinguistische Perspektiven zur Analyse mobiler Kommunikation. MV Wissenschaft 12. Münster (Monsenstein und Vannerdat).

Krummes, C., Guryev, A. & Morel, E. (2014): Les fautes, l'anglais, la langue en danger: Quelques mythes sur les textos. Communication faite dans le cadre de la Semaine de la langue française et de la francophonie, 19: La langue en folie: des textos aux jeux littéraires, Neuchâtel. Disponible: http://cedrickrummes.org/ckfinder/userfiles/files/SLFF-mythes%20final.pdf (02.07.2015)

Labeau, E. (2014): Quand l’analytique se fait synthétique: les formes verbales périphrastiques dans le texto. In: Studii de Lingvistică, 4.

Laursen, D. (2005): Please reply! The replying norm in adolescent SMS communication. In: Harper, R. (éd.): The inside text. Dordrecht (Springer), 53-73.

Ledegen, G., Seeli, J., Blondel, M. & Gonach, J. (2011): 'Tu pense quoi mieux?' De la Normandie à La Réunion, les interrogatives en question dans les SMS en contexte de surdité. In: Liénard, F. & Zlitni, S. (éds.): La communication électronique: enjeux de langues. Limoges (Lambert-Lucas), 223-234.

Ling, R.S. (2005): The sociolinguistics of SMS: An analysis of SMS use by a random sample of Norvegians. In: Ling, R.S. & Pedersen, P.E. (éds.): Mobile communications: Re-negotiation of the social sphere. London (Springer), 335–350.

Marcoccia, M. (2004): La communication écrite médiatisée par ordinateur: faire du face à face avec de l'écrit: Journée d'étude de l'ATALA "Le traitement automatique des nouvelles formes de communication écrite (e-mails, forums, chats, SMS, etc.)". Disponible: http://sites.univ-provence.fr/veronis/je-nfce/Marcoccia.pdf (1.7.2015)

Moise, R. (2007): Les SMS chez les jeunes: premiers éléments de réflexion, à partir d'un point de vue ethnolinguistique. In: Glottopol, 10, 101-112.

— (2008): Registre du jeu comme compétence langagière: la communication des jeunes par sms. In: COMMposite,11, 25-43.

Morel, E., Bucher, C., Pekarek Doehler, S. & Siebenhaar, B. (2014): SMS communication as plurilingual communication: Hybrid language use as a challenge for classical code-switching categories. In: Cougnon, L.-A. & Fairon, C. (éds.): SMS Communication. Amsterdam/Philadelphia (John Benjamins), 111-139.

Morel, E. & Pekarek Doehler, S. (2013): Les 'textos' plurilingues: l'alternance codique comme ressource d'affiliation à une communauté globalisée. In: Revue Française de Linguistique Appliquée, XVIII, 29-43.

Moretti, B. & Stähli, A. (2011): L'italiano in contatto con il dialetto e altre lingue. Nuovi mezzi di comunicazione e nuove diglossie. In: Linguistik online, 48.

Panckhurst, R. (2009): Txting in three European languages: does the linguistic typology differ? In: i-Mean 2009 Issues in Meaning in Interaction, Apr 2009, Bristol, United Kingdom, 119-136.

Pekarek Doehler, S. (2011): Hallo! Voulez vous luncher avec moi hüt? Le "code switching" dans la communication par SMS. In: Linguistik online, 48.

Reinkemeyer, A. (2013): Die Formenvielfalt des langage SMS im Wechselspiel zwischen Effizienz, Expertise und Expressivität: Eine Untersuchung der innovativen Schreibweise in französischen SMS. ScriptOralia 139. Tübingen (Narr).

Relieu, M. (2005): Les usages des TIC en situation naturelle: une approche ethnométhodologique de l'hybridation des espaces d'activité. In: Intellectica, 41-43, 139-162.

Rettie, R. (2005): Presence and Embodiment in Mobile Phone Communication. In: PsychNology, 3, 16-34.

Page 18: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Etienne Morel & Alexander Guryev 13

— (2009): SMS: Exploiting the interactional characterstics of near-synchrony. In: Information, Communication & Society, 12, 1131–1148.

Rivière, C.A. & Licoppe, C. (2005): From voice to text: Continuity and change in the use of mobile phones in France and Japan. In Harper, R. (éd.): The inside text. Dordrecht (Springer), 103-126.

Schmidt, G. & Androutsopoulos, J. K. (2004): löbbe döch. Beziehungskommunikation mit SMS. In: Gesprächsforschung, 5, 50-71.

Schwitter, S., Vouilloz, L. & Fournier, M. (2012): L'adaptabilité dans les conversations smartphones. Travail d'étudiants (Prof. Béguelin, M.J.), Université de Neuchâtel.

Spagnolli, A. & Gamberini, L. (2007): Interacting via SMS. Practices of social closeness and reciprocation. In: British Journal of Social Psychology, 46, 343-364.

Spycher, S. (2004): "I schribdr de no" Schweizerdeutsche Umgangsformen in der SMS-Kommunikation. In: Networx, 36.

Stark, E. (2011): La morphosyntaxe dans les SMS suisse francophones: Le marquage de l'accord sujet. In: Linguistik online, 48.

— (2014a): Negation marking in French text messages. In: Cougnon, L.-A. & Fairon, C. (éds.): SMS Communication. Amsterdam/Philadelphia (John Benjamins), 191-215.

— (2014b): Frequency, Forms and Functions of Cleft Constructions in Romance and Germanic. In: de Cesare, A.-M. (éd.): Frequency, forms and functions of cleft constructions in Romance and Germanic: Contrastive, corpus-based studies. Berlin/Boston (De Gruyter Mouton), 325-344.

Tagg, C. (2012): The discourse of text messaging: Analysis of text message communication. London (Continuum International Pub. Group).

Tagliamonte, S.A. & Denis, D. (2008): Linguistic ruin? LOL! instant messaging and teen language. In: American Speech, 83, 3-34.

Thurlow, C. & Poff, M. (2013): Text Messaging. In: Herring, S.C. Stein, D. & Virtanen, T. (éds.): Pragmatics of CMC. Berlin/New York (Oxford University Press), 163-190.

Vold Lexander, K. (2011): Texting and African language Literacy. In: new media & society,13, 427-443.

Page 19: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Page 20: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Travaux neuchâtelois de linguistique, 2015, 63, 15-29

Analyse d'un corpus longitudinal de SMS produits par de jeunes adolescents1

Josie BERNICOT1, Alain BERT-ERBOUL1, Antonine GOUMI2 & Olga VOLCKAERT-LEGRIER3 1Centre de Recherches sur la Cognition et l'Apprentissage, Université de Poitiers

2Laboratoire Cognitions Humaine et Artificielle, Université Paris Ouest Nanterre La Défense 3Unité de Recherche Interdisciplinaire Octogone, Université Toulouse Jean Jaurès

In this paper, our hypothesis is that the SMS register of the written language shares certain features with the spoken language. One of them – the way it is being acquired – will be at the center of this study. In contrast to traditional writing, the SMS register is not the result of explicit academic instruction. It is acquired through daily life activities and interactions, just as spoken language is, although at a later stage in time. To examine this question, we collected a longitudinal corpus of natural SMS data (2009-2010), with the collaboration of a junior high school in the region of Poitou-Charentes (France). Data collection took place over the course of one school year (each month) among youngsters between the ages of 11 and 13 years who had no previous experience using a cell phone (a total of 4,524 SMS messages has been collected). These text messages were analyzed using two kinds of indices: a) orthographic indices (categories of spelling errors) and b) dialogic indices (presence/absence of openings or closings). The data are discussed in terms of the specificities of the SMS register as compared to other large registers (traditional spoken, traditional written language).

1. Introduction

Depuis une dizaine d'années un nouveau registre de la langue écrite fait partie de notre vie quotidienne: le registre SMS2 qui se pratique sur l'écran de 160 caractères3 de nos téléphones mobiles. Les exemples ci-dessous illustrent les différences importantes entre le registre SMS et la langue écrite traditionnelle.

(1) c toi ki socupe d chien a martin?4

(2) cc alor ta dmende pour ce soir

(3) tro dégou t de pa etre alé au bal

1 Cette recherche a été soutenue par l’Agence Nationale de Recherche française: projet ANR-08-

COMM-011-01 intitulé "L'adolescent et l’écrit numérique: prérequis, usages et apprentissage" (ANR-08-COMM-011-01). Les auteurs remercient tous les enfants et parents pour leur participation, ainsi que le Collège de la Région Poitou-Charentes qui a collaboré au recueil de données.

2 Angl. "Short Message Service" ou fr. "Service de Messages Succincts". 3 La limite de 160 caractères correspond aux téléphones utilisés lors du recueil de données de

notre étude en 2009-2010. Depuis cette date, les forfaits sont devenus illimités. 4 Pour ne pas nuire à une bonne lecture du texte, la traduction de tous les exemples de SMS en

français traditionnel est reportée dans la Fig. 1 (cf. 2.4.2).

Page 21: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

16 Analyse d'un corpus longitudinal de SMS produits par de jeunes adolescents

(4) emma, joyeux anniv gro bisou

(5) tu peux macheter des scoobidoo merci

Le caractère hybride du registre SMS, comme ayant à la fois des traits de l'écrit traditionnel et de l'oral, a souvent été souligné (Elmiger 2012). D'une façon générale pour désigner le langage pratiqué lors des communications médiatisées5 par ordinateur (CMO) des termes comme "netspeak" ou "cyberspeak" (Crystal 2001) sont utilisés. Pour la langue française, Anis (2001) a créé le terme "parlécrit", et Daugmaudyté & Kedikaité (2006) soulignent que la proximité avec l'oral se manifeste par la fréquence de transcription purement phonétique (par exemple remplacement de lettres par des nombres ayant le même son, "2m1" pour "demain"). Dans leurs formes, les SMS comprennent de nombreuses caractéristiques orthographiques qui s'écartent de l'écrit traditionnel, et une partie d'entre elles semble 'transcrire' les régularités de l'oral (Stark 2011). Même si les SMS reposent sur une technologie asynchrone, ils permettent d'avoir des conversations à l'écrit presqu'aussi rapides dans la succession des tours de parole que lors des conversations à l'oral (Fernandez & Yuldashev 2011). Cette rapidité était bien sûr impossible avec l'échange de lettres par courrier postal. Le "netspeak" (ou ParlerNet) a aussi des traits qu'il ne partage ni avec la langue orale ni avec la langue écrite (Crystal 2001). Un aspect récurrent du registre SMS est la structure dialogique des messages qui n'ont pas systématiquement d'ouverture (le fait de saluer son interlocuteur, cf. exemples 1, 2, 3 et 5) ou de clôture (le fait de prendre congé de son interlocuteur, cf. exemples 1, 2 et 3) (Bernicot & al. 2012a). Les ouvertures et les clôtures sont systématiques dans les interactions traditionnelles orales ou écrites.

Le registre SMS partage avec le langage oral un autre trait qui à notre connaissance n'a jamais été analysé: son mode d'acquisition. L'un et l'autre sont acquis dans l'interaction sans apprentissage explicite. A l'inverse, la langue écrite est acquise à travers un apprentissage explicite et systématique en milieu scolaire à partir de l'âge de 6 ans. S'il est bien établi que le langage oral est acquis à travers les échanges avec l'entourage entre 0 et 6 ans, aucune étude n'a montré comment le registre SMS est acquis en quelques mois après le début de la pratique. L'objectif de l'article est de combler cette lacune en présentant une étude qui a permis le recueil longitudinal pendant un an des SMS envoyés par de jeunes collégiens de 11-12 ans, initialement totalement novices quant à la pratique des SMS. Nous allons présenter des recherches déjà réalisées qui montrent que chez les adolescents le registre SMS présente deux caractéristiques fortes: des formes orthographiques différentes de celle de l'écrit traditionnel, et une structure dialogique différente de celles des interactions traditionnelles orales ou écrites. L'hypothèse est que, avec la pratique, les SMS des jeunes collégiens de 11-12 ans vont

5 Panckhurst (1997) utilise le terme de communication médiée par ordinateur.

Page 22: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Josie Bernicot & al. 17

s'écarter de plus en plus de la langue traditionnelle aussi bien du point de vue de leur forme (orthographe) que de leur structure dialogique (message sans ouverture et/ou clôture).

1.1 Évolution de l'orthographe des SMS avec la pratique: études déjà réalisées

Pour étudier l'orthographe des SMS, la quasi-totalité des recherches prennent comme variable la densité de textismes. Un textisme est défini comme un changement dans la forme orthographique d'un mot par rapport à l'écrit traditionnel. Pour chaque message, la densité de textismes est égale au nombre de changements divisé par le nombre total de mots du message.

Actuellement, uniquement deux recherches ont utilisé la méthode longitudinale pour analyser l'évolution de la densité de textismes avec la pratique. Wood & al. (2011a) ont recueilli, pendant 10 week-ends et les mercredis, les SMS de 56 enfants de 9-10 ans (moyenne: 9 ans et 10 mois) n'ayant jamais utilisé de téléphone mobile avant le début de l'étude. Les messages sont recopiés à la main par les expérimentateurs chaque début de semaine. Sur les 10 semaines, aucune évolution de la densité de textismes avec la pratique n'est mise en évidence (.129 après la semaine 1, et .120 à la fin de la semaine 10). Wood & al. (2011b) ont mené une étude longitudinale auprès de 1'019 enfants de 8 à 12 ans (moyenne 10 ans et 4 mois). Les enfants ont déclaré avoir leur téléphone portable depuis l'âge de 8 ans et 1 mois; ils avaient donc environ 2 ans et 6 mois d'expérience. Les enfants doivent fournir un échantillon de messages qu'ils ont envoyés à deux périodes: au début de l'année scolaire et à la fin de l'année scolaire. Les résultats montrent que le ratio moyen de textismes passe de .33 à .40 entre le début et la fin de l'année scolaire. Cette légère augmentation masque des diminutions à 8-9 ans et à 11-12 ans qui restent à expliquer. Au début comme à la fin de l'année, le ratio de textismes est plus important pour les 11-12 ans que pour les 8-9 ans (respectivement .42/.27 et .33/.074).

Les études transversales avec des participants de 9 à 12 ans mettent en évidence des valeurs de densité de textismes allant de 0.34 à 0.53 (Bouillaud, Chanquoy & Gombert 2007; Bushnell, Kemp & Martin 2011; Kemp & Bushnell 2011; Plester & al. 2011; Plester, Wood & Bell 2008; Plester, Wood & Joshi 2009).

1.2 La structure dialogique des messages SMS: études déjà réalisées

En décrivant les rituels de l'interaction traditionnelle orale entre deux personnes, Goffman (1967) insiste sur l'importance des salutations et des adieux. Ces rituels sont décrits comme des obligations permettant de garder une certaine face (une valeur sociale positive) dans une situation donnée.

Page 23: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

18 Analyse d'un corpus longitudinal de SMS produits par de jeunes adolescents

Pour définir le schéma interactif en langage écrit (par exemple dans les lettres), Herring (1996b) propose une structure de base en trois parties où le contenu du message est précédé par une "convention épistolaire d'ouverture" et suivi par une "convention épistolaire de clôture". L'ouverture et la clôture sont des adresses directes à l'interlocuteur, des marques discursives qui témoignent de la façon dont le scripteur se positionne par rapport à son interlocuteur. Dans quelle mesure retrouve-t-on cette structure (ouverture, saluer l'autre +message, dire ce que l'on a à dire +clôture, prendre congé) lors des interactions par SMS? Comme le souligne Rettie (2009), on peut se demander dans quelle mesure cette structure en trois phases est pertinente dans le cas des interactions médiatisées par ordinateur. La structure des SMS, qui sont techniquement asynchrones avec un fonctionnement quasi-synchrone, est donc particulièrement intéressante à étudier.

L'évolution de la structure dialogique des messages SMS avec la pratique n'a pas été étudiée, et seulement deux recherches concernent les adolescents. Laursen (2005) montre que, dans les échanges entre adolescents de 14 ans, les ouvertures et les clôtures sont rares, pour les messages qui initient l'échange, pour les réponses, et même pour la réponse à la réponse (dans le cas d'échanges à trois tours de parole). Bernicot & al. (2012a) ont analysé les SMS d'adolescents francophones de 15-18 ans: la structure des SMS diffère de celle des interactions traditionnelles orales ou écrites (73% des messages n'ont pas la forme conventionnelle ouverture-message-clôture, l'ouverture et/ou la clôture étant manquante). Les messages seuls (sans ouverture ni clôture) représentent 23% des SMS, la structure message-clôture environ 47%, et la structure ouverture-message représente un très faible pourcentage (environ 3%). Globalement, 30% des messages ont une ouverture, 74% ont une clôture, 77% ont une ouverture et/ou une clôture.

Les recherches réalisées sur des adultes vont dans le même sens. Pour Ling (2005), seulement 10% des messages contiennent une ouverture ou une clôture; pour Spagnolli et Gamberini (2007), 13% des messages ont une ouverture alors que 35% ont une clôture; et enfin pour Spilioti (2011), globalement, 30% des messages incluent une clôture. L'arrivée des Smartphones permet de visualiser les échanges de SMS comme un fil de discussion. Par conséquent, les interlocuteurs ne considèrent pas forcément chaque nouveau message comme une nouvelle prise de contact, mais plutôt une continuité avec les échanges précédents (Panckhurst & Moïse 2014). L'étude de SMS conversationnels (Panckhurst & Moïse 2011) a mis en évidence que les formules de clôture sont plus fréquentes que les formules d'ouverture. Avec l'analyse d'un corpus français de SMS ("88milSMS": http://88milsms.huma-num.fr/), Panckhurst et Moïse (2014) montrent que parmi les formules relevées, 75% sont des formules de clôture contre 25% seulement de formules d'ouverture.

Page 24: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Josie Bernicot & al. 19

1.3 Objectifs

Les études mentionnées ci-dessus sont centrées sur des enfants et des adolescents âgés de 8 à 12 ans pour l'orthographe, et âgés de 14 à 18 ans pour la structure dialogique des messages. Les méthodes utilisées sont diverses, allant du recueil de données naturelles à la simulation d'écriture de mots dans le registre SMS dans une situation papier/crayon. La densité de textismes mise en évidence est variable: les valeurs vont de .074 à .53. L'ancienneté de la pratique des SMS des participants est elle aussi variable: inexistante, quelques mois, un an, deux ans, jusqu'à quatre ans. Les deux études longitudinales (Wood & al. 2011a; Wood & al. 2011b) n'ont pas mis en évidence d'évolution de la densité des textismes avec la pratique. Notons que dans le premier cas la période d'étude est relativement courte (9 et 10 semaines), et que dans le dernier cas la période d'étude est d'une année scolaire mais que l'on ne dispose d'un échantillon de SMS que pour le début et pour la fin de l'année. En ce qui concerne la structure dialogique, les études sont trop peu nombreuses et trop peu analytiques pour permettre d'en tirer des conclusions. Il apparaît cependant que, contrairement à tout ce qui est observé dans les interactions traditionnelles orales ou écrites, il peut exister avec les SMS des interactions sans ouverture et/ou sans clôture: les ouvertures semblent plus souvent absentes que les clôtures (Bernicot & al. 2012a; Panckhurst & Moïse 2014). Ceci pourrait être une spécificité des SMS par rapport à d'autres moyens de communication médiatisés par ordinateur comme le courrier électronique. Pour ce dernier, les ouvertures et les clôtures sont plus fréquentes (50 à 100% des messages ont une ouverture ou une clôture) (Bou-Franch 2011; Volckaert-Legrier 2007; Volckaert-Legrier, Bernicot & Bert-Erboul 2013; Waldvogel 2007).

Pour aller plus loin dans la compréhension du mode d'acquisition du registre SMS, on doit utiliser une méthode permettant de déterminer les caractéristiques des messages réellement produits par les scripteurs. La méthodologie de notre étude permet de recueillir des SMS produits dans des conditions de vie quotidienne. La collecte est réalisée de façon longitudinale (mois par mois) sur une longue période (12 mois lors de l'année scolaire 2009-2010) auprès d'enfants n'ayant eu aucune pratique des SMS avant le début de l'étude. De cette façon, nous pourrons mettre au jour le processus d'évolution de la forme des SMS et contrôler l'ancienneté de la pratique des SMS.

Notre objectif est de montrer l'acquisition progressive du registre SMS avec la pratique en étudiant deux caractéristiques spécifiques de ce registre: les formes orthographiques distinctes de l'écrit traditionnel et la structure dialogique des messages différente de celles observées dans les interactions traditionnelles orales et écrites. Notre première hypothèse est que les formes qui s'écartent de l'écrit traditionnel vont augmenter avec la pratique. Il n'existe aucun lieu, ni institutionnel, ni familial, où les jeunes adolescents recevraient

Page 25: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

20 Analyse d'un corpus longitudinal de SMS produits par de jeunes adolescents

un apprentissage explicite du non respect de la norme orthographique par rapport à l'écrit traditionnel. Notre seconde hypothèse est que les messages sans ouverture et/ou sans clôture vont augmenter avec la pratique. De la même façon que pour l'orthographe, il n'existe aucun lieu, ni institutionnel, ni familial, où les jeunes adolescents recevraient un apprentissage explicite de la transgression de la politesse (ne pas dire "bonjour" et/ou ne pas dire "au revoir"). Si nos hypothèses sont vérifiées, l'apprentissage du registre SMS ne pourra avoir été réalisé qu'au cours des interactions, comme c'est le cas pour le langage oral.

2. Méthode

2.1 Participants

Dix-neuf jeunes adolescents ont participé à l'étude: 10 filles et 9 garçons (âge moyen = 11.79 ans, SD6 = .59 d'année). Ils ont été recrutés dans un collège public d'une commune de la région Poitou-Charentes en France (classes de 6ème et de 5ème). Les élèves n'ayant jamais possédé ou utilisé de téléphone portable ont été invités à participer à l'étude. La proposition était la suivante: être équipé gratuitement d'un téléphone mobile pendant un an et s'engager à "donner" au moins 20 SMS (rédigés par l'élève lui-même) par mois à l'équipe de recherche qui garantissait l'anonymat à toutes les étapes de l'étude7. Le consentement et l'engagement écrits des parents et des enfants ont été obtenus. Tous les participants sont issus de la classe moyenne, dans l'âge scolaire légal, et de langue maternelle française.

2.2 Matériel

Le matériel se compose de téléphones portables Sony Ericsson modèle J132 ou Alcatel modèle OT-303 (modèles français). Ces deux modèles de téléphones mobiles à façade sans clapet et clavier alphanumérique sont analogues. La touche T9 permettant l'écriture intuitive et l'accès à un dictionnaire est désactivée. Les cartes permettant de recharger les téléphones en crédit de communication sont, d'une part des cartes à 15 Euros (équivalent à 30 minutes de communication voix ou 150 SMS), et d'autre part des cartes à 5 Euros valables 5 jours en SMS illimités. Une clé 3G et le logiciel Vodafone Mobile Connect installés sur un ordinateur permettent la réception par l'équipe de recherche des SMS "donnés" chaque mois par les participants.

6 Angl. Standard Deviation. 7 Dans les exemples, toutes les indications permettant l’identification des participants ont été

supprimées (par exemple, les prénoms et les lieux ont été modifiés).

Page 26: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Josie Bernicot & al. 21

2.3 Procédure

Au début de chaque mois, les téléphones des participants sont automatiquement crédités d'une somme de 15 Euros équivalente à 30 minutes de communication voix ou 150 SMS. Une fois par mois, les téléphones des participants sont en plus crédités d'une somme de 5 Euros permettant l'envoi de SMS illimités pendant 5 jours. C'est pendant cette période qu'ils doivent rediriger vers la clé 3G de l'équipe de recherche au moins 20 SMS qu'ils choisissent librement parmi les SMS qu'ils ont envoyés pendant le mois et donc qu'ils ont eux-mêmes rédigés. Ces SMS, via la clé 3G, sont reçus sur un ordinateur grâce au logiciel Vodafone SMS. A partir de ce logiciel, un "copier-coller" permet d'entrer les SMS dans les cellules d'un classeur Excel. Cette procédure est répétée pendant 12 mois.

Les participants ont respecté leur engagement en fournissant au total 4'524 messages8: par participant, en moyenne, 19.84 SMS (SD = 3.02) par mois et 238.10 SMS (SD = 36.24) pour l'année. Le recueil des données s'est déroulé pendant l'année scolaire de septembre 2009 à août 2010. Les exemples (6) et (7) illustrent le type de SMS recueillis.

(6) Oué suuuuper mé heuresement c k1 rève =D

(7) Salut sa va moi ouai sa se passe bien tes vacanse nous on s'ammuse bien met ces mieu kan vous ette la. Bon aplus :-):-D;-)

2.4 Codage

Pour calculer la densité de textismes, il est nécessaire de déterminer le nombre de mots de chaque message SMS. A partir de chaque message original nous avons utilisé une formule de comptage automatisé dans le logiciel Excel pour déterminer le nombre de mots, c'est-à-dire les ensembles de lettres séparés des autres ensembles de lettres par un espace avant et par un espace après. Deux exemples de message original sont présentés ci-dessous:

(8) Nn je pe pa venir (5 mots)

(9) T tro cool jtd ofete heuresemen que je me sui reveile cet nui ma den es tombe toute seule i men reste plu qune et jore toute me den (29 mots)

Nous avons considéré deux indices: la densité de textismes et la structure dialogique du message.

8 Tous les SMS envoyés par les participants ont été pris en compte, à l’exception des SMS de

types "chaînes" ou "spams" (par définition non rédigés par les participants eux-mêmes).

Page 27: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

22 Analyse d'un corpus longitudinal de SMS produits par de jeunes adolescents

2.4.1 Codage des textismes

Nous avons pris en compte la densité de textismes. Un textisme est défini comme un changement dans la forme orthographique d'un mot par rapport à l'écrit traditionnel. Pour chaque message la densité de textismes est égale au nombre de mots avec changement divisé par le nombre total de mots du message.

Pour coder les textismes, nous nous sommes à la fois appuyés sur les grilles issues de l'analyse de la langue anglaise (Grinter & Eldridge 2003; Plester, Wood & Joshi 2009; Thurlow & Brown 2003) et sur des grilles dédiées à la langue française (Anis 2007; Panckhurst 2009). Panckhurst (2010) a montré les particularités du français (en registre SMS) par rapport à l'italien et à l'espagnol. Stark (2011) a étudié la morphosyntaxe dans les SMS suisses francophones, et s'est intéressée aux SMS dans trois langues (français, allemand, italien) parlées dans ce pays (Stark & Dürscheid 2011). En français, nous avons la typologie de Panckhurst (2009) qui fait suite à celles d'Anis (2003), Fairon, Klein & Paumier (2006), Liénard (2007) et Véronis & Guimier de Neef (2006). La classification de Panckhurst (2009) porte sur les néographies et comprend des substitutions ("bo" pour "beau"), des réductions ("mdr" pour "mort de rire"), des suppressions/absence ou raréfication ("voila" pour "voilà"), des augmentations et ajouts ("suuuupppeeerrr !!!"). Ces phénomènes peuvent apparaître en se combinant ("7éta" pour "cet état" correspond à une réduction et une substitution).

Pour le codage des différents types de textismes avec nos catégories, nous avons mesuré un coefficient de recouvrement inter-codeurs presque maximal (99.53%) à partir de 250 messages tirés au sort et contenant 940 textismes.

2.4.2 La structure dialogique des messages

Chaque message a été segmenté en trois parties: l'ouverture (O), le message lui-même (M) et la clôture (C). Ces trois parties correspondent aux trois phases "obligatoires" d'une interaction orale entre deux personnes (Goffman 1967): on se salue (O), on dit ce que l'on a à dire (M), et on prend congé (C). Dans les interactions utilisant des SMS, contrairement aux interactions orales (Goffman 1967) ou écrites traditionnelles (Adam 1998; Herring 1996), il existe des messages sans ouverture ni clôture ou bien des messages où l'un des deux est absent. Nous avons recueilli les quatre types de message présentés ci-dessous (cf. Fig. 1 pour les traductions en orthographe standard):

Page 28: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Josie Bernicot & al. 23

(10) Message seul (M): Ouai a par que je mennui grave et toi (M)

(11) Ouverture et Message (O + M): slt (O) je vé pa au colèg é twa (M)

(12) Message et Clôture (M + C): Tu revient kand (M)bisous (C)

(13) Ouverture, Message et Clôture (O + M + C): Slt tata c théo (O) g recu le coli le bonome blan é lé persso de catch son maran é jadore lé pinsse (M) bisou é merci (C)

Numéro exemples

SMS original Traduction du SMS en orthographe standard

1 c toi ki socupe d chien a Martin c'est toi qui s'occupe du chien à Martin 2 cc alor ta dmende pour ce soir

coucou alors tu as demandé pour ce soir

3 tro dégou t de pa etre alé au bal trop dégouté(e) de pas être allé(e) au bal4 emma, joyeux anniv gro bisou Emma, joyeux anniversaire gros bisous 5 tu peux macheter des scoobidoo

merci Tu peux m'acheter des scoubidous merci

6 oué suuuuper mé heuresement c k1 rève =D

Ouais super mais heureusement cest qu'un rêve [smiley bouche grande ouverte]

7 salut sa va moi ouai sa se passe bien tes vacanse nous on s'ammuse bien met ces mieu kan vous ette la. Bon aplus :-):-D;-)

Salut ça va moi ouais ça se passe bien tes vacances nous on s'amuse bien mais c'est mieux quand vous êtes là. Bon à plus [smileys sourire, smiley bouche grande ouverte, smiley clin d'œil]

8 nn je pe pa venir Non je peux pas venir 9 t tro cool jtd ofete heuresemen que

je me sui reveile cet nui ma den es tombe toute seule i men reste plu qune et jore toute me den

Tu es trop cool je t'adore au fait heureusement que je me suis réveillé(e) cette nuit ma dent est tombée toute seule il m'en reste plus qu'une et j'aurai toutes mes dents

10 Message seul (M). M: ouai a par que je mennui grave et toi

Message seul (M). M: ouais à part que je m'ennuie grave et toi

11 Ouverture et Message (O + M). O: slt + M: je vé pa au colèg é twa

Ouverture et Message (O + M). O: salut + M: je vais pas au collège et toi

12 Message et Clôture (M + C). M: Tu revient kand + C: bisous

Message et Clôture (M + C). M: Tu reviens quand + C: bisous

13 Ouverture, Message et Clôture (O + M + C). O: slt tata c théo+ M: g recu le coli le bonome blan é lé persso de catch son maran é jadore lé pinsse + C: bisou é merci

Ouverture, Message et Clôture (O + M + C). O: salut tata c'est Théo + M: j'ai reçu le colis le bonhomme blanc et les personnages de catch sont marrants et j'adore les pinces + C: bisous et merci

Fig. 1: Transcription des SMS en orthographe standard

3. Résultats

Pour les variables concernant la longueur des messages, la densité de textismes, et la structure dialogique des messages, en prenant les participants

Page 29: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

24 Analyse d'un corpus longitudinal de SMS produits par de jeunes adolescents

comme variable aléatoire, les résultats ont été traités à l'aide d'une ANOVA9 à un facteur: la pratique (mois 1 à 12). Les différences sont considérées comme significatives à partir du seuil .05.

Pour le nombre moyen de mots (F(11,198) = 1,15, p = 0,32), l'effet de la pratique n'est pas significatif. Les participants produisent en moyenne des messages qui contiennent 7,05 mots. La longueur des messages SMS reste stable tout au long de l'année.

3.1 L'évolution de la densité de textismes en SMS avec la pratique

La variable dépendante est la densité moyenne de textismes (nombre total de textismes divisé par le nombre de mots par message) par mois et par participant. L'effet de la pratique est significatif (F(11,198) = 3,89, p < .00004, η²=.18) (cf. Figure 2). La densité de textismes augmente du mois 1 (moyenne=.44) au mois 12 (moyenne=.57).

Fig. 2: Évolution pendant une année de la densité de textismes en fonction des mois (M) de pratique. Les barres verticales représentent les erreurs standards.

3.2 L'évolution de la structure dialogique des SMS avec la pratique

Quatre structures de message SMS ont été produites: message seul (M), ouverture et message (O + M), message et clôture (M + C), ou ouverture et message et clôture (O + M + C). Pour chaque participant et chaque mois,

9 L'ANOVA (Analyse de variance) est un test d’inférence statistique qui permet de comparer des

moyennes entre elles afin de savoir si ces moyennes diffèrent l’une de l’autre de manière significative.

0.40

0.45

0.50

0.55

0.60

M1 M2 M3 M4 M5 M6 M7 M8 M9 M10 M11 M12

Den

sité

de

text

ism

es

Mois

Page 30: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Josie Bernicot & al. 25

nous avons calculé la proportion de chaque type de structures par rapport au nombre total de messages.

Globalement, dans 98% des cas, les SMS ne présentent pas la structure traditionnelle (O + M + C): seul 2% des SMS ont cette structure. Dans 85% des cas, les messages sont seuls (M) sans ouverture ni clôture, la catégorie (O + M) représente 9%, et la catégorie (M + C) représente 5% des messages. Globalement, 11% des messages ont une ouverture, 7% une clôture et 15% une ouverture et/ou une clôture.

Pour la catégorie la plus fréquente (M) nous avons analysé, avec une ANOVA, la proportion de messages SMS en fonction de la pratique. Le facteur pratique est significatif (F(11,198) = 3.51, p < .0002, η²=.16). La proportion de messages avec une structure M augmente du mois 1 (.76) au mois 12 (.91) (cf. Figure 3).

Insérer la Figure 2

Fig. 3: Évolution pendant une année de la proportion de messages avec une structure M (message seul sans ouverture ni clôture) en fonction des mois (M) de pratique. Les barres verticales représentent les erreurs standards.

4. Discussion

Notre étude longitudinale a permis de recueillir, pendant un an, un nombre conséquent de SMS (4'524) produits par de jeunes collégiens (11-12 ans) lors de leurs activités quotidiennes. Ces messages SMS adressés à leurs proches

0.60

0.65

0.70

0.75

0.80

0.85

0.90

0.95

M1 M2 M3 M4 M5 M6 M7 M8 M9 M10 M11 M12

Pro

po

rtio

n d

e m

essa

ges

ave

c st

ruct

ure

M

Mois

Page 31: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

26 Analyse d'un corpus longitudinal de SMS produits par de jeunes adolescents

restent courts (en moyenne 7 mots) tout au long de l'année. Goumi, Volckaert-Legrier, Bert-Erboul et Bernicot (2011) ont mis en évidence une moyenne de 19 mots par message pour des scripteurs de 13-14 ans.

La densité de textismes augmente avec la pratique passant de .44 au mois 1 à .57 au mois 12. Ces résultats sont nouveaux par rapport aux deux études longitudinales déjà réalisées (Wood & al. 2011a; Wood & al. 2011b). Notre méthode de recueil, sur une période longue avec une récupération automatisée des SMS par les chercheurs, a permis aux jeunes adolescents de pleinement s'approprier le téléphone mobile comme nouveau mode de communication. Les valeurs de densité de textismes mises en évidence se situent dans la fourchette haute par rapport aux recherches déjà réalisées (de .44 à 57 dans notre étude vs entre .074 et .53 dans la littérature). On peut décrire les productions des jeunes adolescents en disant que plus ils utilisent les SMS, plus ils s'expriment dans leurs messages SMS avec des textismes, formes qui s'écartent de l'orthographe standard.

La proportion de messages seuls (sans ouverture, ni clôture) augmente avec la pratique passant de .76 au mois 1 à .91 au mois 12. Cette proportion est en moyenne plus élevée que celles relevées dans toutes les études déjà réalisées. Notons qu'auparavant aucune étude n'a porté sur la structure dialogique utilisée par des scripteurs aussi jeunes (11-12 ans). De plus, dans notre étude longitudinale, nous ne retrouvons pas une proportion de messages avec clôture plus importante que celle avec ouverture observée dans les études déjà réalisées (Bernicot & al. 2012a; Panckhurst & Moïse 2011; Panckhurst et Moïse 2014; Spagnolli & Gamberini 2007). Ceci est certainement dû à un "effet plafond" car uniquement 15 % des messages SMS ont une ouverture et/ou une clôture. On peut décrire les productions des jeunes adolescents en disant que plus ils utilisent les SMS et moins ils insèrent des formules de salutation (par rapport aux règles des interactions traditionnelles) dans leurs messages SMS.

Nos résultats suggèrent fortement que les jeunes adolescents, initialement totalement novices quant à la pratique des SMS, s'approprient les formes orthographiques et la structure dialogique des SMS à travers les interactions avec leurs proches (amis, copains, membres de leur famille). Ce n'est ni à l'école, ni au sein de leur famille que les scripteurs de notre étude ont appris à ne pas respecter l'orthographe standard qui leur est enseignée ou à ne pas saluer leur interlocuteur (messages seuls sans ouverture et/ou sans clôture). C'est à travers un raisonnement par élimination que nos données conduisent à la démonstration que le registre SMS est acquis par les jeunes adolescents au cours des interactions, comme c'est le cas pour le registre oral chez les enfants de 0 à 6 ans. Ce raisonnement "en creux" est renforcé par le fait que les participants à notre étude sont dans la norme de leur âge du point de vue du niveau en orthographe standard comme du point de vue des résultats scolaires dans la discipline "français".

Page 32: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Josie Bernicot & al. 27

Les recherches sur les SMS ont fourni des nouvelles données permettant de répondre à des questions à propos de l'acquisition du langage et de son fonctionnement. Le partage de traits entre le langage oral et le langage écrit est l'une de ces questions. Contrairement à la communication traditionnelle orale ou écrite, le registre SMS ne reste pas stable dans le temps. Son évolution extrêmement rapide le rend très difficile à appréhender et à saisir par les chercheurs.

Bibliographie

Adam, J.-M. (1998): Les Genres du discours épistolaire: De la rhétorique à l'analyse pragmatique pratiques discursives. In: La Lettre Entre Réel et Fiction, SEDES, 37-53.

Anis, J. (2001): Parlez-vous Texto ? Guide Des Nouveaux Langages Du Réseau. Paris (Le Cherche Midi).

— (2007): Neography – Unconventional Spelling in French SMS Text Messages. In: Danet, B. & Herring, S. C. (éds.), The Multilingual Internet – Language, Culture and Communication Online. New York (Oxford University Press), 87-115.

Bernicot, J., Goumi, A., Bert-Erboul, A. & Volckaert-Legrier, O. (2014): How do skilled and less-skilled spellers write text messages? A longitudinal study of sixth and seventh graders. In: Journal of Computer Assisted Learning, 30 (6), 559-576.

Bernicot, J., Volckaert-Legrier, O., Goumi, A. & Bert-Erboul, A. (2012a): Forms and functions of SMS messages: A study of variations in a corpus written by adolescents. In: Journal of Pragmatics, 44, 1701-1715.

Bou-Franch, P. (2011): Openings and Closings in Spanish Email Conversations. In: Fuel and Energy Abstracts, 43 (6), 1772-1785.

Bouillaud, C., Chanquoy, L. & Gombert, J.-E. (2007): Cyberlangage et Orthographe: Quels effets sur le niveau orthographique des élèves de CM2, 5e et 3e? In: Bulletin de Psychologie 60 (6), 553-565.

Bushnell, C., Kemp, N. & Martin, F. H. (2011): Text-messaging Practices and Links to General Spelling Skill: A Study of Australian Children. In: Australian Journal of Educational & Developmental Psychology, 11, 27-38.

Crystal, D. ( 2001): Language and the Internet. Cambridge (Cambridge University Press).

Daugmaudyté, J. & Kédikaité, D. (2006): Le Langage SMS dans le français. In: Kalbotyra, 56 (3), 39-47.

Dürscheid, C. & Stark, E. (2011): Sms4science: An International Corpus-based Texting Project and the Specific Challenges for Multilingual Switzerland. In: Thurlow, C. & Mroczek, K. R. (éds.), Digital Discourse: Language in the new media. New York (Oxford University Press), 299-320.

Elmiger, D. (2012): L'écriture SMS: émergence de nouvelles pratiques orthographiques. In: Langage & Pratiques, 49, 74-81.

Fernandez, J. & Yuldashev, A. (2011): Variation in the Use of General Extenders and Stuff in Instant Messaging Interactions. In: Journal of Pragmatics, 43 (10), 2610-2626.

Goffman, E. (1967): Les rites d'interaction. Paris (Editions de Minuit).

Goumi, A., Volckaert-Legrier, O., Bernicot, J. & Bert-Erboul, A. (2011): SMS Length and Function: a Comparative Study of 13 to 18 Year-old Girls and Boys. In: European Review of Applied Psychology, 61 (4), 175-184.

Page 33: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

28 Analyse d'un corpus longitudinal de SMS produits par de jeunes adolescents

Grinter, R. & Eldridge, M. (2003): Wan2tlk?: Everyday Text Messaging. In: CHI '03: Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, 441-448.

Herring, S. C. (1996): Computer-Mediated Communication: Linguistic, Social, and Cross-cultural Perspectives. Amsterdam (John Benjamins).

Kemp, N. & Bushnell, C. (2011): Children's Text Messaging: Abbreviations, Input Methods and Links with Literacy. In: Journal of Computer Assisted Learning, 27, 18-27.

Laursen, D. (2005): Please Reply! The Replying Norm in Adolescent SMS Communication. In: Harper, R., Palen, L. & Taylor, A. (éds.), The Inside Text. The Kluwer International Series on Computer Supported Cooperative Work 4. Springer (Netherlands), 53-73.

Ling, R. (2005): The Socio-linguistics of SMS: An Analysis of SMS Use by a Random Sample of Norwegians. In: Ling, R. & Pedersen, P. E. (éds.), Mobile Communications: Renegotiation of the Social Sphere. Springer (London), 335-349.

Panckhurst, R. (1997): La communication "médiatisée" par ordinateur ou la communication "médiée" par ordinateur? In: Terminologies Nouvelles, 17, 56-58.

— (2009): Short Message Service (SMS): typologie et problématiques futures. In: Arnavielle, T. (coord.), Polyphonies, pour Michelle Lanvin. Université Paul-Valéry Montpellier 3, 33-52. Disponible: https://hal.archives-ouvertes.fr/hal-00443014 (28.6.2015)

— (2010): Texting in three European languages: does the linguistic typology differ? Proceedings i-Mean 2009 Issues in Meaning in Interaction, University of the West of England, Bristol, April, 2009, 119-136.

Panckhurst, R. & Moïse, C. (2011): SMS "conversationnels": caractéristiques interactionnelles et pragmatiques. 79e colloque Acfas, Sherbrooke, 9-10 mai 2011. Disponible: http://hal.archives-ouvertes.fr/hal-00702406 (28.6.2015)

Panckhurst, R. & Moïse, C. (2014): French text messages. From SMS data collection to preliminary analysis. In: Cougnon, L.-A. & Fairon, C. (éds), SMS Communication. A Linguistic Approach. Amsterdam (John Benjamins) 141-168.

Plester, B., Lerkkanen, M.-K., Linjama, L. J., Rasku-Puttonen, H. & Littleton, K. (2011): Finnish and UK English Pre-teen Children's Text Message Language and Its Relationship with Their Literacy Skills. In: Journal of Computer Assisted Learning, 27, 37-48.

Plester, B., Wood, C. & Bell, V. (2008): Txt Msg n School Literacy: Does Texting and Knowledge of Text Abbreviations Adversely Affect Children's Literacy Attainment? In: Literacy, 42 (3), 137-144.

Plester, B., Wood, C. & Joshi, P. (2009): Exploring the Relationship Between Children's Knowledge of Text Message Abbreviations and School Literacy Outcomes. In: British Journal of Developmental Psychology, 27, 145–161.

Rettie, R. (2009): Mobile Phone Communication: Extending Goffman to Mediated Interaction. In: Sociology, 43 (3), 421-438.

Spagnolli, A. & Gamberini, L. (2007): Interacting via SMS: Practices of Social Closeness and Reciprocation. In: British Journal of Social Psychology, 46, 343–364.

Spilioti, T. (2011): Beyond Genre: Closings and Relational Work in Text-messaging. In: Thurlow, C. & Mroczek, K. R. (éds.), Digital Discourse: Language in the new media. New York (Oxford University Press), 67-85.

Stark, E. (2011): La morphosyntaxe dans les SMS suisses francophones: le marquage de l'accord Sujet – Verbe Conjugué. In: Linguistik Online, 48 (4), 35-47.

Thurlow, C. & Brown, A. (2003): Generation Txt ? The Sociolinguistics of Young People's Text-messaging. In: Discourse Analysis Online.

Volckaert-Legrier, O. (2007): Le Courrier Électronique Chez Les Adolescents: Un Nouveau Registre de La Langue Écrite. Poitiers. Disponible: http://www.theses.fr/2007POIT5010 (28.6.2015)

Page 34: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Josie Bernicot & al. 29

Volckaert-Legrier, O., Bernicot, J. & Bert-Erboul, A. (2013): Le courriel chez les adolescents. In: Liénard, F. (éd.), Culture, identity and digital writing, Epistémè, 9, Revue internationale de sciences humaines et sociales appliquées. Séoul, Université Korea – Center for Applied Cultural Studies, 15-49.

Waldvogel, J. (2007): Greetings and Closings in Workplace Email. In: Journal of Computer-Mediated Communication, 12 (2), 456-477.

Wood, C., Jackson, E., Hart, L., Plester, B. & Wilde, L. (2011a): The Effect of Text Messaging on 9- and 10-year-old Children's Reading, Spelling and Phonological Processing Skills. In: Journal of Computer Assisted Learning, 27, 28-36.

Wood, C., Meachem, S., Bowyer, S., Jackson, E., Tarczynski-Bowles, M. L. & Plester, B. (2011b): A Longitudinal Study of Children's Text Messaging and Literacy Development. In: British Journal of Psychology, 102 (3), 431-442.

Page 35: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Page 36: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Travaux neuchâtelois de linguistique, 2015, 63, 31-47

La problématique des genres de discours dans la communication sur Internet

Marc BONHOMME Institut de langue et de littérature françaises, Université de Berne

Die neuen Kommunikationsformen, welche das Internet mit sich bringt, sind aufgrund ihrer Gattung zwangsweise problematisch. Ihr kategorialer Rahmen regelt ihre Produktion, bestimmt ihren Inhalt und beeinflusst die Erwartungen ihrer Empfänger. In der vorliegenden Arbeit werden wir erläutern, dass Chats, E-Mails, Foren und Webseiten verschiedenartig analysiert werden können, je nachdem ob ihre im Vergleich zu anderen Gattungen gegensätzliche Funktionsweise oder ihre Verwandtschaft mit Letzteren im Fokus steht. Anschliessend werden wir untersuchen, inwieweit die mit Internetkommunikation verbundenen Gattungen neuartig sind. In einer Fallstudie werden wir schliesslich die Komplexität der gleichzeitig von externen und internen Faktoren abhängigen, kategorialen Form von politischen Homepages aufzeigen.

1. Introduction

La généricité des textes et des discours constitue une vieille question déjà au centre des réflexions des théoriciens de l'Antiquité gréco-latine1. Par ailleurs, elle a surtout été abordée d'un point de vue littéraire pendant des siècles, même si elle a ensuite été étendue à différents domaines. Quoi qu'il en soit, il s'agit d'une question complexe, dans la mesure où la généricité comprend plusieurs aspects. D'une part, la notion de genre suppose au moins quatre conditions. La première est, selon Crowston (2010), un regroupement catégoriel de productions discursives plus ou moins similaires. La seconde condition implique une stabilisation ou une typification des productions qui sont réunies, ce qu'a bien vu Bakhtine (1984: 265): "Chaque sphère d'utilisation de la langue élabore ses types relativement stables d'énoncés, et c'est ce que nous appelons les genres du discours". La troisième condition, mentionnée par Maingueneau (2013), concerne la dimension socio-historique attachée à cette activité de regroupement/stabilisation, les genres étant situés culturellement et idéologiquement, fonctionnant comme des modèles d'écriture et comme des horizons d'attente à certaines époques de l'histoire2. La

1 Pensons notamment à la Poétique d'Aristote (rééd. 1977). Pour le concept de "généricité" qui

définit le statut typologique des productions discursives, voir Schaeffer (1989) ou Maingueneau (2013).

2 Ainsi en est-il pour le genre "tragédie classique" développé au XVIIe siècle. En cela, les genres s'opposent aux registres de discours – tel le tragique – qui fonctionnent comme des matrices d'écriture anhistoriques.

Page 37: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

32 La problématique des genres de discours sur Internet

quatrième condition est que les genres sont dialectiques, du fait qu'ils opèrent comme des préconstruits pour les activités discursives et qu'ils construisent à leur tour ces dernières.

Mais les problèmes commencent avec la disparité des critères présidant à la catégorisation des genres. D'après Kerbrat-Orecchioni (1980), on peut les subdiviser en critères externes (telle situation de communication récurrente…) ou en critères internes (telle régularité compositionnelle, telle propriété sémiotico-linguistique réitérée…). On peut aussi, selon Maingueneau (2013), opter pour une conception réaliste des genres, vus comme des activités de communication réglées et objectivement identifiables, ou pour une conception conventionnaliste. Constituent à ce moment un genre toutes les productions qu'on choisit de ranger dans une même classe3. De plus, à la suite de Beacco (2004), il importe de prendre en compte les trois perspectives linguistiques qui sous-tendent les genres. Tantôt ceux-ci apparaissent comme une classification ordinaire du discours, à l'image des catégories empiriques que les praticiens de la presse ont élaborées pour leur profession: le billet, le commentaire, etc. Tantôt les genres sont considérés comme des classes de textes davantage rigoureuses reposant sur des constantes mesurables, lesquelles varient en consistance (prototype vs écarts) et en contrainte (genres formulaires vs genres flexibles). Tantôt dans une optique sociolinguistique, les genres sont envisagés comme des indices de communautés discursives, marquant les sphères d'emploi privilégiées d'un groupe, avec ses normes et son style. A tous ces paramètres s'ajoute le problème des interférences des genres entre eux et de leur hiérarchie. La notion de genre requiert en effet une division stratifiée du savoir qui dépend du point de vue de l'analyste. Comment distinguer alors entre hypergenre, genre, sous-genre et genre associé?

Ces questions posées par la généricité sont d'autant plus cruciales pour Internet qu'on a affaire à un média récent, avec des dispositifs scripturaux encore instables et des modalités inédites d'utilisation de la langue, l'ensemble étant susceptible de produire de nouveaux genres, sans parler de genres encore potentiels, qu'il convient d'analyser. Dans les pages qui suivent, après avoir souligné l'importance de la généricité pour Internet, nous évaluerons plus longuement les propositions de classification des genres faites à propos de ce média, en nous interrogeant sur l'originalité de ces derniers. A travers l'étude concrète de pages d'accueil de sites politiques suisses, nous montrerons ensuite que leur généricité tient à des facteurs hétérogènes qu'il faut sérier précisément.

3 Par exemple, on peut décider que tous les sites Internet avec vidéo forment un même genre.

Page 38: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Marc Bonhomme 33

2. Importance et multidimensionnalité des genres sur Internet

En raison de ses nombreuses possibilités de circulation de l'information et des millions de messages qu'il transmet, Internet demande un regroupement de ceux-ci en domaines d'emploi cohérents, sous peine d'offrir un fonctionnement incontrôlable, voire anarchique. En premier lieu, les genres sont importants pour les professionnels du web, car ces derniers doivent développer des techniques et des applications de plus en plus sophistiquées pour catégoriser l'information. En outre, les genres jouent souvent un grand rôle pour eux afin d'améliorer les interfaces des dispositifs de communication. En second lieu, les genres s'avèrent primordiaux pour les utilisateurs d'Internet, ne serait-ce que pour faciliter leur pratique de ce média, en leur donnant une meilleure perception des documents transmis, sur la base de leur familiarité avec les genres existants. Bref, les grilles de production et de réception textuelle inhérentes à la notion de genre doivent être clarifiées pour le web, de façon à dégager en son sein des patterns reconnaissables favorisant l'interaction. En particulier, conformément à leur définition comme des systèmes "pour accomplir une tâche par des moyens verbaux" (Swales 1990: 55), les genres permettent d'élaborer, de planifier et de repérer les activités verbales proposées sur Internet, en procurant des normes aussi bien génétiques (comment produire un texte) que mimétiques (comment assurer une fonction de représentation) ou herméneutiques (comment interpréter un texte). Le tout est évidemment prédisposé à évoluer assez vite avec le réajustement incessant des routines mises en œuvre sur le web.

Certes, la multidimensionnalité d'Internet ne facilite pas l'évaluation des genres qui y circulent. Cette multidimensionnalité est due à la détermination plurielle (technique, procédurale, verbale, iconique…) de ses formes scripturales. Elle est aussi due au caractère composite de ce qui apparaît a priori comme des genres numériques. Ainsi, le blog combine un réseau social, une forte expression de soi et des dispositifs plus ou moins sophistiqués d'hypertextualité. La multidimensionnalité d'Internet tient encore à l'approche différenciée que l'on peut faire d'un même phénomène. Par exemple, Crowston (2010: 16) considère l'e-mail comme la reproduction d'un genre déjà attesté dans le cas du "business e-mail message", mais comme un nouveau genre pour l'"academic e-mail message".

Ces difficultés n'ont pas empêché qu'on ait essayé de dénombrer les genres d'Internet. Nous passons rapidement sur ces inventaires qui présentent de gros écarts entre eux. Entre autres, Görlach (2004) répertorie environ 2000 genres sur Internet, tandis qu'à l'autre bout de l'échelle Eissen et Stein (2004) ne reconnaissent que 8 genres, dont la discussion ou le shop. Entre les deux, on trouve Lee (2001) qui relève 70 genres ou sous-genres associés au web. Une telle variabilité dans le décompte des genres d'Internet s'explique en grande partie par la diversité des niveaux hiérarchiques dans lesquels on les envisage, de même que par leurs possibilités de regroupement. Ainsi,

Page 39: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

34 La problématique des genres de discours sur Internet

Crowston et Williams (2000: 209) subsument dans la supercatégorie "declaratory documents" les genres "advertisements" et "announcements".

3. Des catégorisations génériques fluctuantes

Plutôt qu'au recensement des genres sur Internet, nous allons nous intéresser à la nature des critères qui président à leur catégorisation. Ceux-ci sont très malléables, car ils alternent entre des perspectives structurales, contrastives et génétiques, allant jusqu'à la relativisation de la notion de genre pour le web.

3.1 Catégorisation comparative des genres sur Internet

Cette première approche consiste à confronter et à différencier les principaux genres présents sur Internet à l'aide de critères structuraux. Il s'agit en gros de sélectionner des traits caractéristiques et de voir si Internet les comporte. Cela donne une grille taxinomique comme celle de Crystal (2001) qui compare les genres du site web, de l'e-mail, du chat et des mondes virtuels. Il opère cette comparaison sur la base de deux grandes familles de traits: ceux du langage parlé et ceux de l'écrit. Pour l'oral, sont retenus les traits de la spontanéité, du face-à-face, de l'interactivité sociale et de la richesse prosodique. Ainsi qu'on peut s'y attendre, ces traits sont globalement absents du site web, mais bien actualisés dans l'e-mail ou le chat, avec quelques restrictions4. Pour l'écrit, Crystal retient sans surprise des traits comme la décontextualisation, la structure élaborée, le caractère révisable ou la richesse graphique. Là encore se dégage une nette différence entre d'un côté le site web – très écrit – et d'un autre côté l'e-mail et le chat dont la scripturalité est plutôt floue.

Une approche comparative similaire s'effectue à l'aide d'un arbre hiérarchisé chez Marcoccia (2003) qui adopte une perspective communicationnelle. A partir des deux critères de la communication de masse et de la communication interpersonnelle, il relève le nombre de participants dans le cas de cette dernière, de même que sa temporalité (synchrone/asynchrone). Cela lui permet de différencier d'une part le site web (communication de masse), d'autre part l'e-mail qui comporte deux participants [par défaut] et qui est asynchrone, enfin le chat et le forum qui ont plus de deux participants, le premier s'avérant synchrone et le second asynchrone. A travers son arbre hiérarchisé, Marcoccia visualise également la complexité du site web qui peut intégrer des chats et des forums. Le schématisme de cet arbre est certes discutable, notamment pour le chat et le forum dont la temporalité est plus

4 Par exemple, un chat peut admettre une interactivité à deux participants et non seulement

sociale.

Page 40: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Marc Bonhomme 35

nuancée qu'il ne l'indique. Mais il a le mérite d'être clair et de mettre en évidence des critères génériques saillants.

3.2 Comparaison des genres numériques et prénumériques

Beaucoup plus nombreuses sont les typologies qui comparent les genres numériques avec les genres prénumériques. Elles s'appuient sur deux perspectives.

3.2.1 Point de vue contrastif

Une première approche consiste à effectuer une analyse contrastive entre certains genres présents sur Internet et leurs correspondants scripturaux ou oraux antérieurs. Cette approche enregistre les ressemblances entre ces deux catégories de genres, mais elle fait aussi ressortir les particularismes liés à Internet.

Selon cette perspective, Cusin-Berche (1999) a mené une étude approfondie sur les relations entre l'e-mail et le courrier postal. Dans son analyse, elle dégage les points communs entre ces deux genres: leur rituel épistolaire, leurs stratégies d'adressage ou leur réception non-instantanée. Mais elle met surtout en relief les spécificités de l'e-mail par rapport à une simple lettre. D'abord, l'e-mail renferme des traits structuraux propres, comme la mention de l'objet, l'absence de signature ou la possibilité d'une réponse automatique dans le péritexte. De plus, l'e-mail comporte des modalités compositionnelles qui lui sont intrinsèques. Parmi elles, prédomine ce que Cusin-Berche (1999: 51) appelle "le discours reporté" avec l'insertion des messages les uns sous les autres dans la chronologie de l'échange, lequel favorise l'interlocution et s'oppose au discours rapporté de la lettre. A cela s'ajoute un discours de jonction ("x a écrit", etc.) entre ces différents messages. L'e-mail se remarque encore par sa fréquente hétérogénéité textuelle, en ce qu'il peut prendre la forme d'une lettre, d'un avis ou d'un compte-rendu. Il se caractérise également par sa mise en scène plurilogale (avec la hiérarchie des destinataires dans le dispositif électronique ou avec le procédé des pièces jointes), de même que par certaines particularités stylistiques: rédaction plus informelle que celle de la lettre, limitation des formules de politesse… Au total, pour Cusin-Berche (1999: 54), l'e-mail se définit comme un "genre messiel", à la fois composite et relativement singulier.

On observe une approche méthodologique analogue pour le chat chez Crystal (2001). Ce genre numérique ressemble à la conversation familière par ses marqueurs d'oralité, mais il recèle plusieurs traits distinctifs dus au média Internet: des messages unidirectionnels, un rythme d'interaction plus lent que dans une conversation spontanée, une expression originale des affects au moyen des smileys.

Page 41: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

36 La problématique des genres de discours sur Internet

Les forums de discussion ont pareillement donné lieu à ce type d'approche contrastive, mais avec des conclusions divergentes, ce qui ne manque pas d'être problématique. Pour Marcoccia (2003), ils s'apparentent à la conversation, constituant des polylogues médiatisés par ordinateur. En même temps, ils s'en distinguent par leur tendance à la décomposition thématique, par l'imprécision de leur cadre participatif et par leur temporalité (asynchronie des échanges et déroulement indéterminé). Au bout du compte, les forums se définissent comme des "conversations persistantes" et plus largement comme des "documents numériques dynamiques" (idem: 7). Mais pour Pirogovska (2006), ces mêmes forums présentent une grande analogie avec la correspondance traditionnelle, sur la base d'échanges de messages échelonnés dans le temps. Ils s'en différencient néanmoins par certains traits, tels que leur forte implication séquentielle avec un fil coconstruit ou leurs marquages scripturaux (syllabogrammes, majuscules, smileys…).

3.2.2 Point de vue génétique

Si les approches précédentes mettent plutôt l'accent sur la discontinuité entre les genres numériques et prénumériques, d'autres analystes insistent sur leur voisinage génétique. C'est le cas pour Colin et Mourlhon-Dallies (2004) dans leur étude du courrier des lecteurs et des forums de discussion. D'une façon générale, ils font l'hypothèse qu'il existe un genre théorique en surplomb, le genre "discussion asynchrone par écrit en groupe restreint" (idem: 138), qui s'est incarné chronologiquement sur deux supports: celui écrit de la lettre et celui électronique de l'ordinateur, lesquels lui ont seulement donné des marquages spécifiques. Ainsi, l'apport d'Internet à ce genre surplombant serait l'accélération des temps de transmission, l'enrichissement des possibilités scripturales et l'accroissement des effets de masse. Sinon pour l'essentiel, le courrier des lecteurs et les forums seraient dans une proximité étroite sur les plans formels (marquages de l'échange et de l'envoi, dynamisme interactionnel) et énonciatifs. Si une telle perspective montre bien comment une certaine façon d'utiliser la langue peut se retrouver à diverses époques sur des supports différents, elle sous-estime l'influence déterminante du médium sur la structure du message5. La proposition d'un "genre discursif théorique construit" que fait par ailleurs Mourlhon-Dallies (2007: 21) pose deux problèmes. Elle néglige le conditionnement socio-historique des genres et elle confond finalement ces derniers avec la notion de "types de discours" qui est effectivement théorique6.

5 Suivant la formulation célèbre de McLuhan (1968: 23): "Le message, c'est le médium".

6 Voir Bronckart (1996) pour qui les types de discours sont des modes fondamentaux de

structuration à la source des textes.

Page 42: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Marc Bonhomme 37

On retrouve un même décloisonnement des genres vis-à-vis de leurs supports dans l'étude génétique de Labé et Marcoccia (2005) sur les formes épistolaires. Selon leurs conclusions, il n'existerait que des variations historiques entre le billet des XVIIe et XVIIIe siècles, le télégramme, puis le fax des XIXe et XXe siècle, et enfin le mail actuel. Car ces réalisations s'intègrent pour l'essentiel dans le genre épistolaire court.

3.3 Relativisation des genres numériques

Par rapport aux approches précédentes qui accordent un rôle non négligeable aux genres numériques, Maingueneau (2013) adopte une position assez radicale, en considérant la généricité comme très secondaire sur Internet. Il fonde sa conception sur la distinction entre trois réalisations génériques: les genres auctoriaux qui sont déterminés unilatéralement et imposés au destinataire par un auteur ou un éditeur, surtout en littérature; les genres routiniers qui correspondent à des pratiques sociales stabilisées, comme les genres juridiques; enfin les conversations qui ne sont pas régularisées et qui s'avèrent difficiles à analyser en genre. Maingueneau propose également la notion d'hypergenre qui dénote un simple formatage catégoriel avec des contraintes très pauvres, ce qui est le cas du dialogue, de la lettre ou du journal. Il formule en outre le concept de scène d'énonciation7, avec ses trois composantes: la scène englobante qui recouvre un type de discours ou une sphère d'activité, qu'elle soit politique, littéraire ou autre; la scène générique qui assigne un cadrage aux activités langagières, avec un médium, des rôles et des finalités; la scénographie qui définit la mise en œuvre du dispositif énonciatif par un auteur ou un locuteur.

Or d'après Maingueneau, Internet transforme complètement les conditions de la communication. En effet, la scène générique y est considérablement affaiblie en raison du lissage des catégories textuelles suite à la circulation en hyperliens, à la fragmentation des pages d'écran, à la présence d'une mosaïque de modules hétérogènes qui subvertit la textualité, à la hiérarchie floue entre ces modules et au renouvellement continuel du dispositif scriptural. De la sorte, le régime classique de la textualité y est mis à mal, ce qui est compensé par une hypertrophie de la scénographie, le souci premier du web étant une mise en scène de la communication qui mobilise toutes ses ressources verbales et numériques. Maingueneau reconnaît toutefois qu'il existe des genres sur Internet, à l'instar du site ou du blog, mais il pense qu'ils

7 La notion de "scène" est prise ici dans une acception différente de celle développée en

sémantique cognitive (voir Dubois, 1991). Comme l'écrit d'autre part Maingueneau (2002: 515), "en parlant de scène d'énonciation, on met l'accent sur le fait que l'énonciation advient dans un espace institué, défini par […] la dimension constructive du discours, qui se met en scène, instaure son propre espace d'énonciation".

Page 43: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

38 La problématique des genres de discours sur Internet

fonctionnent comme des formatages peu astreignants. Ainsi pour lui, les blogs impliquent de faibles contraintes formelles et assurent des relations communicationnelles minimales, du type: x parle de lui à quelqu'un qui visite son site. Par contre, ils offrent une grande diversité architecturale, thématique et procédurale.

Plus largement, Maingueneau identifie trois formes de textualité: d'abord, l'oral conversationnel qui échappe à la planification; puis la textualité planifiée qui est orale8 ou écrite. Celle-ci repose sur la logique du lieu avec sa cartographie des activités tant verbales que scripturales et la généricité y est pleinement pertinente. Maingueneau distingue de surcroît la textualité navigante du web avec ses ramifications hypertextuelles. Cette dernière s'appuie sur le couple Hypergenre-Scénographie et sur la logique du lien qui brouille l'unité du texte.

Cette conception est très stimulante et utile lorsqu'on analyse des corpus concrets, comme on le vérifiera plus loin. Néanmoins, elle demande quelques réserves. D'une part, Maingueneau limite trop la généricité à la cohérence textuelle, sans prendre en compte le fait qu'un genre peut aussi intégrer l'hétérogénéité, comme l'illustre la fatrasie en poésie9. De plus, suite à la mise en évidence de nombreuses règles conversationnelles par les pragmaticiens, on peut douter que la conversation échappe totalement à la planification et à la généricité. Sur un autre plan, la textualité navigante et métamorphique du web ne l'empêche pas d'incorporer des genres planifiés (comme des articles de presse ou des publicités), vu qu'il constitue un multimédia capable de tout absorber.

3.4 Synthèse évaluative: Internet favorise-t-il de nouveaux genres?

Au terme de cette section se pose la question de l'originalité des genres sur Internet. La majorité des études qu'on a vues vont dans le sens de leur continuité avec les genres existants. Plus exactement, loin d'être originaux, les genres du web seraient des réaménagements de genres anciens ou des hybridations de ces derniers, à l'exemple du forum qui amalgame les formes de la conversation et de la correspondance. Simplement, le média électronique leur conférerait de nouvelles propriétés tout en en oblitérant d'autres. Dans cette optique, l'e-mail, le forum ou le chat seraient davantage "des nouveaux noms de genres" (Beacco 2004: 112) que des nouveaux genres stricto sensu. Ces constats peuvent être étayés par diverses études sur les genres numériques. Ainsi, Anis (1998) montre que les encyclopédies

8 La textualité planifiée orale est soit dialogale (cas du spectacle de théâtre), soit monologale (ex.

de la conférence). 9 La fatrasie désigne un genre poétique médiéval caractérisé par son incohérence et son contenu

absurde.

Page 44: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Marc Bonhomme 39

électroniques se bornent la plupart du temps à enrichir les dictionnaires par du maillage hypertextuel, une dynamisation des entrées ou des documents audio et iconographiques. Pareillement, Deseilligny (2003) insiste sur les métamorphoses du journal intime en blog dans le cadre de mêmes structures scripturales fondamentales. Des études plus extensives vont dans une direction similaire. Entre autres, analysant 1'000 pages web, Crowston et Williams (2000) identifient 48 genres qui se répartissent de la façon suivante: 60% constituent des genres reproduits, 30% sont des genres adaptés numériquement, seulement 5% sont des genres vraiment inédits, dont la hotlist ou la page personnelle, et 5% sont inclassables.

Cependant, on peut plaider pour une certaine innovation des genres sur Internet, comme le pensent plusieurs auteurs. En particulier, d'après Hélary et al. (2007), le forum de discussion serait un genre réellement novateur du fait de sa polyphonie marquée, de sa surabondance en signes d'attribution personnelle du discours et de l'importance accordée aux liens anaphoriques pour les fils de discussion. Si l'on prend d'autres genres, Orasan et Krishnamurthy (2002) mentionnent la nature singulière du spam. Ou encore pour Vergès (2007), les œuvres artistiques sur le web présentent des formes originales de création générique avec des narrations arborescentes ou en réseau, des mixages de contenus multimédias ou des dispositifs informatiques qui génèrent une coconstruction de l'œuvre par l'internaute. Du reste, comme le note Mourlhon-Dallies (2007), les analystes d'Internet se sont avant tout intéressés aux genres classiques tels l'e-mail ou le forum, mais peu à ses exploitations hypertextuelles et procédurales qui fournissent de la matière pour faire émerger de nouveaux genres. L'examen de l'une des productions les plus symptomatiques du web, la page d'accueil de sites, va nous permettre d'évaluer plus précisément la dialectique de l'ancien et du nouveau à propos des genres informatiques.

4. Etude de cas: le statut générique des pages d'accueil

Nous nous proposons de tester le statut générique des formes discursives d'Internet avec un cas concret: les pages d'accueil – jointes en annexe – de trois sites politiques représentatifs et complémentaires en Suisse: ceux du Parti socialiste, de l'Union Démocratique du Centre (UDC) et des Verts. Notre but est d'analyser comment ces pages d'accueil comportent des constantes qui attestent un cadrage générique lors de leur production et qui contribuent à un "effet-genre" lors de leur consultation. Pour cela, nous tirerons parti d'un certain nombre de considérations et de concepts précédents, dont ceux de Maingueneau, avec la nuance par rapport à lui que les pages d'accueil ont un fort statut générique. Elles sont en effet regardées comme un "genre" par plusieurs analystes, dont Furuta et Marshall (1996) ou Crowston (2010) qui voient en elles une catégorie discursive stabilisée dès les années 1990. Par ailleurs, on discerne dans ces pages d'accueil de sites politiques des

Page 45: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

40 La problématique des genres de discours sur Internet

caractéristiques qui correspondent aux définitions du genre que nous avons rappelées: une cristallisation et une typification en divers invariants plus ou moins consistants et contraints, un regroupement catégoriel possible sur la base de ces invariants, une dimension socio-historique liée à la pratique de la démocratie en Suisse avec ses codes. La généricité de ces pages d'accueil peut être étudiée suivant deux approches complémentaires.

4.1 Approche génétique externe

Selon cette première perspective, de telles pages d'accueil se situent dans le prolongement de deux genres prénumériques. D'une part, elles recyclent les traits de l'affiche avec sa dominante iconotextuelle, sa structure condensée, sa schématisation de l'information et sa lecture rapide10. D'autre part, elles ont plusieurs points communs avec la une de la presse écrite. En témoignent leur composition tabulaire, leurs jeux sur la matérialité scripturale, leur textualisation d'amorce: titres, rubriques, sommaires. Par ailleurs, de même que la une apparaît comme la vitrine du journal, la page d'accueil fonctionne comme celle du site (Bonhomme & Stalder 2006).

En somme, la page d'accueil semble bien constituer un genre reproduit, adapté au média Internet (avec le passage de l'écrit sur papier à l'écrit d'écran, lequel se traduit par un certain nombre de transformations), et un genre médiatique composite, mélangeant les traits de l'affiche et de la une. Toutefois, cette approche génétique reste encore superficielle, dans la mesure où elle rend difficilement compte de la spécificité des pages d'accueil par rapport aux autres formations génériques d'Internet. Elle doit être complétée par une étude discursive plus détaillée qui permettra d'en dégager les constantes.

4.2 Approche discursive interne

Pour cette seconde approche, nous empruntons les outils théoriques de Maingueneau. Remarquons au préalable que ces trois pages d'accueil se situent dans la même scène englobante: celle du discours politique suisse actuel. Surtout, elles mettent en place une scène générique très consistante qui mérite un examen approfondi.

4.2.1 Scène générique

Une telle scène générique repose sur plusieurs invariants. Commençons par les invariants procéduraux qui font de ces pages d'accueil des unités de

10 Pour ces traits inhérents à l'affiche, voir Luciole (1988).

Page 46: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Marc Bonhomme 41

sélection et de lecture. Parmi eux figurent des barres de navigation thématisées sur la vie du parti (UDC: "Positions", "Votations"; PS: "Positions", "Parti"…), sur les contacts avec les citoyens (Verts: "Abonnez-vous au flux RSS", "Rejoignez-nous"; PS: "Devenez membre", "Gérer mes données"), ainsi que sur l'actualité politique (PS: "Campagnes", "Actuel"; UDC: "Actualité"; Verts: "Alliance contre Ecopop", "Votations fédérales du 18 mai 2014"). En outre, les trois pages d'accueil contiennent invariablement des titres et des images en fonction d'hyperlien. Entre autres, un clic sur le portrait de Géraldine Savary (PS) nous conduit à son blog, ou un clic sur la carte suisse (UDC) nous ouvre les sections cantonales du parti. Si les éléments précédents constituent des invariants systématiques dans ces pages d'accueil, d'autres composantes y sont moins contraignantes. C'est le cas pour l'animation de l'image centrale, visible seulement sur le site des Verts et du PS. Dans la page d'accueil de ce dernier, cette animation fait alterner des manifestations, une séquence relative aux élections européennes et une scène de l'université d'été du parti, ce qui offre un aperçu panoramique sur ses centres d'intérêt.

Les pages d'accueil de ces sites politiques renferment également plusieurs invariants compositionnels. Au niveau textuel, toutes les trois ont quasi exclusivement des rubriques, des titres et des chapeaux. Corollairement, on observe une absence d'articles, même brefs. Autant de paramètres qui révèlent une information politique fragmentée et synthétique. Au niveau iconique, trois éléments sont toujours présents11. D'abord, des symboles visuels, qu'il s'agisse de logos en attaque de la page qui confèrent une forte identité aux trois partis, ou de dessins emblématiques de l'activité politique, comme une urne sur les pages du PS et des Verts. Ensuite, les trois pages comportent le portrait d'un dirigeant ou d'un porte-parole des partis concernés, lequel contribue à leur personnalisation dès le premier contact de l'internaute. A cela s'ajoute une colorisation de l'ensemble des pages d'accueil par la couleur représentative des partis, avec ses effets structurants sur la vi/lisibilité du support et des parcours de lecture.

La scène générique de ces pages d'accueil se dévoile encore à travers des invariants communicationnels. Au niveau énonciatif, le point de vue des partis est massivement exprimé par des mots d'ordre: "Le groupe unanime contre Ecopop" (Verts), "Oui à la protection des salaires" (PS), "Non à la médecine d'Etat" (UDC), ou par des verbes d'attitude orientés sur l'action: "Les Verts rejettent la révision de la loi sur les cartels", "Le parti socialiste milite pour une politique qui profite à toute notre société"... De même, le positionnement idéologique des partis suscite une sloganisation récurrente, qu'elle soit

11 Théorisée en analyse du discours, la notion de scène générique peut être étendue au domaine

iconique, surtout lorsque celui-ci se combine avec le domaine langagier, comme dans les pages d'accueil.

Page 47: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

42 La problématique des genres de discours sur Internet

rapportée à leur nom (Verts: "Ecologiquement cohérents, socialement engagés, globalement solidaires") ou à leurs cibles (PS: "Non aux milliards pour des avions de combat"). Le marquage idéologique est aussi constant dans les titres: "Pour une Europe sociale" (PS), "Initiative contre l'immigration de masse" (UDC)…, ainsi que dans le reste du textuel, comme l'indique le chapeau central antimilitariste du PS: "Le comité a déposé quelque 100'000 signatures en faveur du référendum contre l'achat de 22 avions de combat Gripen". Au niveau des relations avec le visiteur, on relève la permanence d'un dialogisme interlocutif12 destiné à stimuler son adhésion aux positions des partis. Il se réalise à travers des impératifs (Verts: "Participez"; UDC: "Vous aussi, renforcez la Suisse!"), des questions (PS: "Veux-tu faire bouger les choses?") et des infinitifs incitatifs (PS: "Faire un don"). Quant au dialogisme exploratoire guidant l'internaute dans sa navigation, il est toujours plus ou moins explicité sur ces pages d'accueil. Tantôt il s'avère très développé, à l'image de la page des Verts: "Prenez quelques instants et visitez notre site! Vous découvrirez plus précisément qui nous sommes et quelle vision politique nous défendons. Excellente lecture!". Tantôt il est plus discret: "En savoir plus sur nos positions" (PS), "Plus" (UDC). Par contre, le dialogisme de salutation est facultatif puisque seuls les Verts y ont recours: "Bienvenue chez les Verts!".

Ces pages d'accueil font enfin voir des constantes fonctionnelles, en ce qu'elles revêtent des rôles convergents. Elles ont toutes une fonction d'identification (se présenter politiquement) et d'information (faire connaître ses positions et ses objectifs) à l'égard des partis en jeu. D'autres rôles sont centrés sur le public envers lequel les pages d'accueil assurent une fonction phatique de contact, tout en promouvant les partis (fonction publicitaire) afin de faire agir le citoyen selon leur point de vue politique (fonction persuasive).

La combinaison de ces invariants procéduraux, compositionnels, communicationnels et fonctionnels constitue ainsi un cadrage prégnant qui construit une scène générique originale dans les pages d'accueil analysées. Ce cadrage générique leur confère une assise interdiscursive à travers une matrice commune qui facilite leur production, tout en leur donnant une identité scripturale dans la pluralité des messages sur le web. Au niveau de leur réception, ce même cadrage générique instaure un air de famille entre elles, ce qui en garantit une lecture efficace. Cependant, outre qu'une telle généricité demanderait à être confirmée par l'examen d'un corpus plus étendu, elle ne reste pas sans problèmes. En effet, il n'est pas toujours aisé de séparer les éléments de généricité établis par la machinerie informatique

12 Pour Moirand (2002), le dialogisme interlocutif définit les relations d'un discours avec les

réactions de ses destinataires réels ou virtuels.

Page 48: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Marc Bonhomme 43

(barres de navigation, hyperliens…)13, ceux attachés à toute page d'accueil (comme l'obligation du rubriquage) et ceux propres à la thématique politique (comme la récurrence des logos, des slogans ou des positionnements idéologiques). En fait, ces pages d'accueil cumulent au moins deux strates de généricité: celle de la page d'accueil en général et celle de la page d'accueil politique. Sur un autre plan, il n'est pas évident de situer le niveau hiérarchique de leur généricité. Plutôt qu'un genre autonome, ces pages d'accueil forment sans doute un composant générique fortement circonscrit au sein du genre "site web politique" et de l'hypergenre "site institutionnel". Dans ce cas, à l'intérieur des sites politiques sur le web qui sont très diversifiés suivant les partis, la page d'accueil constitue certainement le composant générique le plus normé, car il lui faut concentrer dans un espace minimal le même type d'informations avec des procédés similaires.

4.2.2 Des scénographies variées

Tout en étant cadrées génériquement, les trois pages d'accueil considérées comportent de nombreuses variations scénographiques dans l'acception de Maingueneau (2013). Celles-ci s'expliquent par la nécessité qu'ont les partis de se différencier sur l'échiquier politique vis-à-vis des partis concurrents. Elles répondent à deux grands procédés sur lesquels nous n'insistons pas, car ils n'entrent pas directement dans notre problématique.

Ces variations peuvent prendre la forme de marquages circonstanciels qui caractérisent telle ou telle page d'accueil. Par exemple, celle des Verts est la seule à proposer des liens sur Facebook et Twitter, ce qui témoigne de son orientation moderniste axée sur les médias à la mode. Mais les variations scénographiques les plus intéressantes sont celles qui se greffent sur des constantes génériques, comme la colorisation de la page. Si cette dernière est omniprésente, elle endosse chaque fois une fonction symbolique particulière d'après l'idéologie des partis: rouge visualisant l'ancrage à gauche du PS, vert écologique prédominant sur la page des Verts, vert dégradé avec des incrustations de forêts, d'un lac et d'un paysage montagneux connotant la ruralité et l'enracinement territorial de l'UDC. De même, tout en étant consubstantiels au genre politique, les slogans varient selon le positionnement de chaque parti. Entre autres, celui de l'UDC "Pour une Suisse forte" confirme d'entrée sa vision nationaliste. Pour ce qui est des logos, toujours représentés comme on l'a vu, chacun d'entre eux personnalise l'identité des partis en

13 Précisons à ce niveau que le support participe à la délimitation du genre qui n'est pas

seulement une affaire de contenu. Ainsi, le support du livre conditionne le genre "roman" ou celui de l'écran détermine le genre "débat télévisé".

Page 49: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

44 La problématique des genres de discours sur Internet

question: fleur et feuille stylisées pour les Verts, rose dans un poing pour le PS, soleil accompagné d'un drapeau suisse pour l'UDC.

5. Conclusion

Toute production discursive oscille à des degrés variés entre une polarité générique qui l'intègre dans des catégories existantes et une polarité spécifique qui en conditionne la singularité. Sous cet aspect, les nouvelles formes scripturales d'Internet n'échappent pas à la problématique du genre qui, tout en étant une donnée préconstruite, participe à la construction de chaque discours. Dans le cas d'Internet, la généricité est d'autant plus importante qu'elle régule l'extrême diversité de ce média en cours de stabilisation. Simplement, comme l'illustrent les pages d'accueil des sites politiques, la généricité y est ambivalente. D'un côté, elle se nourrit des genres en vigueur, ne serait-ce que pour ne pas perturber les habitudes des internautes. Mais d'un autre côté, elle remodèle profondément les genres dont elle s'inspire, les enrichissant par de nouveaux invariants qui les transforment en genres numériques, à l'instar du blog, du forum et du chat, ou en composants génériques, à l'exemple de la page d'accueil. En ce qui concerne celle-ci, ce remodelage s'effectue dans le sens d'une certaine hybridation (avec le mixage des genres de l'affiche et de la une de la presse écrite) et d'une certaine fragmentation (avec ses modules juxtaposés). Néanmoins, sa cohérence générique est assurée grâce à plusieurs phénomènes compensatoires, comme la fonction structurante de la colorisation, la cartographie rigoureuse des modules visualisés et le bon contrôle de la navigation hypertextuelle. On peut alors parler d'une généricité plus composite et plus dynamique que celle des productions prénumériques. Mais elle est bien présente.

Bibliographie

Anis, J. (1998): Texte et ordinateur. L'écriture réinventée? Bruxelles (De Boeck Université).

Aristote (1977): Poétique. Paris (Les Belles Lettres).

Bakhtine, M. (1984): Esthétique de la création verbale. Paris (Le Seuil).

Beacco, J.-Cl. (2004): Trois perspectives linguistiques sur la notion de genre discursif. In: Langages, 153, 109-119.

Bonhomme, M. & Stalder, P. (2006): Analyse sémiolinguistique des pages d'accueil des sites politiques suisses sur Internet. In: Mots, 80, 11-23.

Bronckart, J.-P. (1996): Activité langagière. Textes et discours. Lausanne (Delachaux & Niestlé).

Colin, J.-Y. & Mourlhon-Dallies, Fl. (2004): Du courrier des lecteurs aux forums de discussion sur l'internet: retour sur la notion de genre. In: Les Carnets du CEDISCOR, 8, 113-139.

Crowston, K. (2010): Internet Genres. Syracuse University, School of Information Studies. Disponible: citeseerx.ist.psu.edu/viewdoc/ (15.03.2014).

Page 50: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Marc Bonhomme 45

Crowston, K. & Williams, M. (2000): Reproduced and emergent genres of communication on the World-Wide Web. In: The Information Society, 16 (3), 201-216.

Crystal, D. (2001): Language and the Internet. Cambridge (Cambridge University Press).

Cusin-Berche, F. (1999): Courriel et genre discursif. In: Anis, J. (éd.) : Internet, communication et langue française. Paris (Hermès), 31-54.

Deseilligny, O. (2003): Du journal intime au blog: quelles métamorphoses du texte?. In: Communication & Langages, 155, 45-62.

Dubois, D. (éd.) (1991): Sémantique et cognition. Paris (Editions du CNRS).

Eissen, S. M. & Stein, B. (2004): Genre classification of web pages: User study and feasibility analysis. Paper presented at the 27th Annual German Conference on artificial intelligence (KI 04). Ulm.

Furuta, R. & Marshall, C. C. (1996): Genre as Reflection of Technology in the World-Wide Web. Austin (Hypermedia Research Lab).

Görlach, M. (2004): Text Types and the History of English. New York (Mouton de Gruyter).

Hélary, F., Kuster, Y., Lameul, G. & Sensevy, G. (2007): Le forum débat comme dispositif d'apprentissage collaboratif en formation initiale: spécificités discursives. In: Gerbault, J. (éd.), La Langue du cyberespace. Paris (L'Harmattan), 201-220.

Kerbrat-Orecchioni, C. (1980): L'Enonciation. De la subjectivité dans le langage. Paris (Armand Colin).

Labé, H. & Marcoccia, M. (2005): Tradition épistolaire et médias numériques: du billet au courrier électronique. In: Betten, A. & Dannerer, M. (éds.): Dialogue Analysis, IX, vol. 2. Tübingen (Niemeyer), 285-292.

Lee, D.Y.W. (2001): Genres, registers, text types, domains and styles. In: Language Learning & Technology, 5 (3), 37-72.

Luciole (1988): La Politique s'affiche. Paris (Didier).

Maingueneau, D. (2002): Scène d'énonciation. In: Charaudeau, P. & Maingueneau, D. (éds.): Dictionnaire d'analyse du discours. Paris (Le Seuil), 515-518.

— (2013): Genres de discours et web: existe-t-il des genres web? In: Barats, C. (éd.): Manuel d'analyse du web. Paris (Armand Colin), 74-93.

Marcoccia, M. (2003): La communication médiatisée par ordinateur: problèmes de genres et de typologie. In: Journée d'études: les genres de l'oral. Université Lumière Lyon 2, 11 p. Disponible: http://icar.univ-lyon2.fr/Equipe1 (18.03.2014).

McLuhan, M. (1968): Pour comprendre les médias. Paris (Mame/Le Seuil).

Moirand, S. (2002): Dialogisme. In: Charaudeau, P. & Maingueneau, D. (éds.): Dictionnaire d'analyse du discours. Paris (Le Seuil), 175-178.

Mourlhon-Dallies, Fl. (2007): Communication électronique et genres du discours. In: Glottopol, 10, 11-23.

Orasan, C. & Krishnamurthy, R. (2002): A corpus-based investigation of junk emails. In: Proceedings of the Third International Conference on Language Resources and Evaluation (LREC). Disponible: http://clg.wlv.ac.uk/papers/show_paper.php?ID=47 (22.03.2014)

Pirogovska, E. (2006): L'oralité dans la communication asynchrone via Internet sur les exemples du discours du cyberespace français et italien. In: Studia romanica posnaniensa, 33, 181-197.

Schaeffer, J.-M. (1989): Qu'est-ce qu'un genre littéraire? Paris (Le Seuil).

Swales, J. M. (1990): Genre Analysis. New York (Cambridge University Press).

Vergès, F. (2007): Pour une typologie des œuvres artistiques sur le web. In: Communication & Langages, 151, 103-113.

Page 51: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

46 La problématique des genres de discours sur Internet

Annexes

Fig. 1: Page d'accueil du Parti socialiste suisse. Disponible: http://www.sp-ps.ch/ (14.03.2014).

Page 52: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Marc Bonhomme 47

Fig. 2: Page d'accueil de l'UDC suisse. Disponible : http://www.svp.ch/ (14.03.2014). Fig. 3: Page d'accueil des Verts suisses. Disponible : http://www.gruene.ch/ (14.03.2014).

Page 53: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Page 54: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Travaux neuchâtelois de linguistique, 2015, 63, 49-69

Computer-Mediated Communication: What a Quantitative Linguistic Approach Should Do

John C. PAOLILLO School of Informatics and Computing, Indiana University

Cet article met en perspective une approche quantitative de données linguistiques issues de la Communication Médiée par Ordinateur (CMO) et en propose quelques principes d'application. Les méthodes de cinq approches quantitatives différentes sont passées en revue et discutées tant du point de vue linguistique que statistique. Les observations faites suite à l'examen de ces méthodes permettent de dégager un ensemble de prin-cipes à respecter dans l'approche quantitative de données linguistiques. L'article clôt avec quelques conclusions d'ordre général à propos de l'application de cette approche à l'étude de la CMO.

1. Introduction

Linguistics has played an important role among disciplines seeking to under-stand computerized communication and its consequences. Some of the earli-est studies of computer-mediated communication (CMC) draw on linguistics or employ linguistic insights. The scale of the adoption of CMC and the availabil-ity of data encourage quantitative analysis. Unfortunately, the number of stud-ies on CMC that are both linguistically informed and quantitative is relatively small. A consequence of this is that large-scale quantitative studies are often done in the absence of linguistic insight, leading to many spurious or incorrect conclusions. Hence, quantitative studies of CMC need to become better in-formed linguistically, to improve upon our understanding of the phenomenon.

My goal here is to sketch a role for a quantitative linguistic approach to CMC and to indicate what it could look like. In the first part of this discussion I sug-gest a motivation for a quantitative linguistics of CMC. I then briefly summarize some existing quantitative linguistic perspectives, sketching the linguistic and statistical reasons why these approaches fall short of what is needed. I then offer a set of principles for quantitative linguistic analysis, and close with gen-eral conclusions.

2. Why should there be a quantitative linguistics of CMC?

In most parts of the world, information technologies are now tightly integrated into all our patterns of communication. For many people, daily rituals include checking email, logging into social media accounts, texting and sending "selfies" on smart phones, searching the Internet for entertainment, reading online news, and video-chatting with co-workers, family or friends. Many for-

Page 55: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

50 Computer-Mediated Communication

merly print-mediated functions, from commerce to government, healthcare, education, entertainment and recreation are now performed involving some combination of telephones, wireless communication and computers. Busi-nesses routinely create organizational units whose members interact primarily or solely via technology. Outsourcing technologically connects developed and developing regions in a tightly coupled economic network; much outsourced work, such as that in call centers, involves communication. In Africa, cell phones connect remotely located farmers, fishers, producers and craftspeople to information about the markets that they depend on, while in Northern Cana-da medical care for remote Inuit villages is delivered via video teleconference. Political movements are chronicled in real time on Twitter and Facebook, even if their shape and direction is not directly influenced by those technologies. Many more uses exist for computerized, Internet and telephonic communica-tion than had been originally imagined. CMC is therefore an object of deep concern to everyone inside and outside of academia.

CMC is both ubiquitous and voluminous, making it deeply relevant to linguis-tics. For many young people, it is even an important vehicle for childhood so-cialization, with instant messaging, SMS, Twitter and chat having sometimes supplanted the bonding role of face-to-face communication with peers and adults. Longstanding issues within linguistic theory, regarding the relationship of communication modality to language, its use, structure and change, are rendered potentially observable in CMC as never before. Time-scales in lan-guage use, of both great depth and fine local detail, are now becoming availa-ble for research. The digital nature of CMC also facilitates recording both the content and context of human social interaction; the scales on which this can be accomplished have never before been seen. For these reasons, linguistics can hardly ignore CMC and its theoretical importance.

Moreover, because of the scale of the issues, and the precision required for some questions, quantitative approaches will need to play a role. This implies the application of statistical models,1 which offer the only rigorous procedure for deciding if one's observations result from the operation of chance, as op-posed to systematic and interesting causes. Hence, we must look for insights into how linguistic hypotheses may be expressed quantitatively, and how the models suggested might structure our inquiry into the properties of CMC.

1 We ignore purely descriptive quantitative analyses for the present purposes.

Page 56: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

John C. Paolillo 51

3. What quantitative linguistics of CMC presently does

There are a small number of well-established approaches to quantitative lin-guistics, and a number of approaches to quantitative analysis of language from outside of linguistics that are relevant; five are discussed below.2

Labovian variationism is the study of language initiated in the 1960s by Wil-liam Labov and his students and colleagues, which systematically explores language variation through examining fundamental units called linguistic varia-bles. Each linguistic variable represents a non-absolute choice among alterna-tives in some context. Linguistic variables are typically conditioned by a num-ber of different factors, both social (dialect, ethnic group, gender, social class, register, etc.) and linguistic (preceding and following environments, etc.). For analysis, variationists typically use logistic regression models to measure the effects of different factors on the observed choices among alternatives, from which interpretations are made about differences between dialects, social in-terpretations of the different realizations of a variable, and general processes of language change.

In speech communication, variationist analyses typically focus on phonological and lexical variables, mainly because of the genesis of variationism in urban dialectology, but they can be applied to any kind of structural element where a choice between alternative realizations is involved. The variationist approach has been applied to CMC in a variety of places, such as in the analysis of chat-specific variants (Paolillo 2001), dialect features in chat (Siebenhaar 2006, 2008), genre and gender in weblogs (Herring & Paolillo 2006), among others.

For example, if one is interested in the realization in chat of standard ortho-graphic [s] as non-standard orthographic [z], then the proportion of non-standard [z] (with respect to [s]) will be the response variable or dependent variable, which we will notate . Our working hypothesis is that the distribution of the response variable is influenced by several predictor variables (also called independent variables) , , etc.; these represent observations about specific contexts of use of [s/z], for example, the linguistic context (word-final or not), the pragmatic function (joking or serious), social identities of the inter-locutors (younger users or not), etc. Predictors can be of any data type (cate-gorical or continuous), although their specific handling may depend on data type to some extent. The model statement for a typical variationist model may be given as in (1) (Agresti 1996).

(1) ( ) = + + +…+

2 The selection of approaches is driven by mathematical coherence, as should be evident below.

Given space constraints, I cannot address some other important approaches, such as natural language processing (NLP) and literary stylometry.

Page 57: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

52 Computer-Mediated Communication

The function (∙) is a link function transforming the observed values into a scale that can be used in analysis. Typically this is done for value scales like counts or proportions, whose values are limited by zero and/or one; for the lo-gistic regression model used in variationist analysis, the logit function is used as (∙).3 The symbols and are model parameters, i.e. values that are to be estimated from the data. The selection of these parameters represents differ-ent hypotheses about the distribution of the data, and parameter values and significance tests guide our interpretations of that distribution. Finally, the term represents the error specific to a given observation, but characterized by a

probability distribution. This can also be understood as the contribution of chance to the observation.

The model statement in (1) says that the propensity to use a particular variable in a context can be expressed as a simple sum of terms, each of which is the product of a parameter and a corresponding predictor variable (they are multi-plied together), except for , which is the same for all observations, and , which is distinct for each observation. The propensity can be transformed us-ing the inverse link function (∙) to express it in units like proportions.

For interpretation, the interesting parts of the model are , which can be taken to represent an average propensity of the variable, and the values, which express the effect of various contextual variables on the variable of interest

. For example, if one is interested in the realization in chat of standard ortho-graphic [s] as non-standard orthographic [z], then the proportion of non-standard [z] (with respect to [s]) will be the variable . Predictor variables ,

, etc. would be observations about specific contexts of use of [s/z], for ex-ample, the linguistic context (word-final or not), the pragmatic function (joking or serious), social identities of the interlocutors (younger users or not), etc. The

values indicate how much each contextual factor influences the expression of [s/z], while the value indicates an overall propensity to use [z] instead of [s].

Commitment to this type of model is faced with several technical and methodo-logical difficulties. The first of these is that linguistic variables must be investi-gated individually, when the systemic nature of language varieties indicates that different linguistic variables should correlate: [s/z] use is likely to share many contextual characteristics with [are/r] and [you/u] for example (cf. Paolillo 2001). Unfortunately there is no natural way to address this in (1), and multiple such models must be proposed and investigated separately for each variable of interest. This raises a serious statistical problem, as the variation in each variable shared with other variables is unaccounted for and the significance tests for the and values are distorted by this.

3 The logit is the natural logarithm of the odds, i.e. logit = ln [1 − ]⁄ .

Page 58: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

John C. Paolillo 53

A second technical problem that worries many analysts is that the variable is typically assumed to be a binary choice among variants of an item. Many rele-vant phenomena do not have this character, such as the variation among emoticons, or the use of a specific semantic marker (e.g. invariant durative aspectual be in African American Vernacular English); treating these in the variationist framework using logistic regression is possible (Rousseau and Sankoff 1978). Technical solutions involve the explication of systems of choice, or adoption of a multinomial logistic regression model for analysis. The latter choice can lead to considerably more effort in interpretation.

A third problem with regression-type models as in (1) is that the practices around their use favor simpler models, sometimes unrealistically simple ones, in a range of ways. First, models with fewer terms are simpler; hence if one doesn't know (or simply doesn't suspect) that some contextual factor influ-ences the rate of variation, one might leave out any term with that factor. Any variation attributable to this factor is therefore available to be associated with other factors, leading the significance tests of those factors to be biased. Re-cently, a methodological and statistical debate has developed around the treatment of individuals in variationist models (cf. Johnson 2008; Tagliamonte and Baayen 2012; Paolillo 2013) whose central issue how to include a term representing the effect of the individual in a model of the form in (1). Similarly, complex conditional relationships among contextual variables need to be ex-pressed as interaction effects; not only are these difficult to state, but there are many ways to state equivalent effects and models that nonetheless suggest subtly different interpretations. In any case, when interactions are left out, simi-lar problems arise; some of the methodological and statistical issues around this have been explained in Sigley (2003).

Biberian multidimensionalism is an approach established by Douglas Biber in the late 1980s in work with Edward Finegan and other colleagues, focused on revealing dimensions of systematic variation across various contexts of language use, characterized as registers, although others prefer the term gen-re.4 In this approach, language features from a predetermined set are counted in the texts of a corpus, which are grouped into pre-determined categories of communication. The feature-by-category counts are transformed mathemati-cally and subsequently analyzed using Factor Analysis, possibly using a non-orthogonal rotation. The resulting dimensions are interpreted as dimensions along which different message types (registers) vary, according to mode (writ-ten/oral), purpose (informational, argumentative, etc.), narrativity, historical period, etc. The multidimensional approach has sometimes been applied to

4 In this view, genres represent categories of communication (Hymes 1974) like business emails,

status updates, picture captions, etc., whereas registers represent language varieties that are specialized in social function. Both types of variation are called "register" variation in the multi-dimensional approach, in spite of the fact that they can be distinguished both methodologically and theoretically.

Page 59: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

54 Computer-Mediated Communication

CMC (Yates 1996; Emigh & Herring 2005), mainly with the aim of characteriz-ing CMC with respect to speech and written communication.

The model employed in the multidimensional approach may be schematized as in (2). Unlike the model in (1), there are multiple equations in this model, one for each dimension in the result, where represents the factor score for dimension . Also unlike (1), the linguistic features are considered together; the various factor coefficients , relate each of the linguistic variables to the different dimensions of variation. The function ( ) represents the treatment of the counts, proportions or other measure of the linguistic feature before it is entered into the factor analysis model. Typically this is a z-score normalization, although logarithmic or other scale transformations may be applied first. Note that each feature has its own function (∙). Not represented in (2) is an as-sumed error term that is specific to each of the linguistic features y observed.

(2) = , ( ) + , ( ) + , ( )… = , ( ) + , ( ) + , ( )… = , ( ) + , ( ) + , ( )…

An aspect of the model's application not visible in (2) is that the linguistic fea-tures y are typically aggregated over some range of features, as well as over some group of example texts. For example, the part of speech category "prep-ositions" is a language-specific list of words; these alongside all other linguistic features are counted in a corpus of texts that has been partitioned into sets representing non-overlapping "registers", such as conversation, personal let-ters, business letters, public speeches, etc. This means that aggregation is taking place at two different levels, that of the linguistic feature and that of the register. The results of the analysis are determined in great part by these ag-gregations in ways that cannot be fully accounted for, as nothing is left to trace back from the aggregate features and registers to the individual features and their specific contexts of use.

Multidimensional analysis is conducted on a sample of texts that is intended to be representative of the relevant range of variation in a particular language or variety. The factor analysis model is highly data-dependent, meaning that very different factor structures may emerge out of only partly different samples. Consequently it is of utmost importance that the contents of the sample are known, and that anything that may lead to observed variation, systematic or spurious, is understood. Generally, these samples are linguistic corpora, sometimes commercially licensed, sometimes purpose-built. Their status as corpora generally means that they are used, often by the same people, in mul-tiple studies. Such sample/corpus re-use appears to be efficient, but in fact it is a deprecated statistical practice, especially when distinct studies appear to show distinct, independently supportable results. This problem is only fully cor-

Page 60: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

John C. Paolillo 55

rected when subsequent studies subsume all of the considerations of prior studies, or when entirely new data is used.

Apart from data re-use, even the largest corpora have serious limitations. For example, in Bresnan and Ford's (2010) study of the English dative alternation in a corpus of voice telephone calls, only 2'360 instances of the dative con-struction were recorded, from a three million word corpus. Were one to find that this corpus is 100 or 1000 times too small for its purposes, expanding it could only be done at considerable cost. Obtaining samples large enough to show meaningful distributions of rare variables is far from trivial. Worse yet, linguistic variables tend to have highly skewed distributions: high frequencies of occurrence are concentrated in a small number of texts, and rather large numbers of texts show little to no use. This is, of course, the famous Zipf dis-tribution (Zipf 1935; see Baayen 2001 for a more current view). Its conse-quence is considerable, however, in that it also induces apparent correlations in word frequencies, and it can be difficult to demonstrate that these are not spurious consequences of the chosen sample texts.

Multidimensional research has other difficulties as well. Its features are highly language specific, and under-theorized with respect to other aspects of lan-guage, e.g. dialect and social variation, the syntax, semantics and pragmatics of language, etc. It is likely that at least some aspects of the variation observed are due to such unobserved variables in the analysis, and the model does not provide for how these different levels of linguistic analysis should interrelate. Furthermore, some features, such as part of speech tags, are heavily influ-enced by other factors, so the model sought in multidimensional analysis can-not properly account for the distribution of its selected features, meaning that the resulting dimensions are confounded by these other factors. Consequently, a multidimensional analysis can only be considered broadly suggestive about the nature of the different dimensions of language variation.

The vector space model is a general term we can use to describe a family of approaches derived from the work of Salton in the early 1970s on information retrieval (IR), which is the basis of most search engine technology today. The central idea is to characterize documents in terms of their vocabulary. This is done by counting the frequencies of terms in documents, and arranging them together in a very large term-document matrix. Modern search engines may use up to tens of thousands of terms and millions of documents. The term fre-quencies are weighted and normalized, using a term-weighting formula, many of which are versions of tf-idf, where term frequencies (tf) are log transformed and weighted by the inverse of the document frequency (idf). Various other operations may be performed to simplify the term-document matrix, such as clustering, dimensionality reduction or a combination thereof.

Page 61: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

56 Computer-Mediated Communication

The vector space model is often not characterized in statistical terms like (1) and (2).5 Instead, the term-document matrix itself is often treated as the model, and many questions involve the projection of a new document into this "vector space". This is accomplished by counting its term frequencies, weighting them and otherwise mathematically treating them like the original documents to give a term vector, i.e. a list of weighted frequency values for each term. This vec-tor can then be compared with the other documents in the vector space using similarity metrics such as the cosine or the Pearson correlation coefficient. In retrieval, documents are ranked according to their similarity to the new docu-ment, typically called a query and possibly consisting of only a few words. In document classification, the new document's similarity to a number of known document clusters is measured; it is classified as belonging to whichever clus-ter is closest.

Implicitly, this use of the space with cosine, correlation or Euclidean measures of similarity implies a model like (2), in which the function (∙) simply repre-sents tf-idf, and the number of dimensions as well as the number of varia-bles is very large (thousands or millions). One version of the vector space model, known as Latent Semantic Analysis (LSA), has that very description (Landauer & al. 1998; Dumais 2004). This permits some economy in the num-ber of dimensions that needs to be retained. If one replaces tf-idf with a z-score normalization, a vector-space model equivalent to (2) results. This has the advantage of being somewhat more motivated from a statistical perspec-tive, and suggests that principal components or factor analysis may be used in place of typically application-specific computation methods, both for obtaining the number of dimensions , and for computing and interpreting the desired vector space (Paolillo 2004).

There is some ambiguity, however, as to whether terms or documents repre-sent the variables in the vector space model. The difference in this choice is referred to as P-mode versus Q-mode analysis in the factor analysis literature (Basilevsky 1994; Gorsuch 1983); some versions of (∙) can give identical re-sults for both modes, but that is not the general case and only one arrange-ment, with terms as , has a transparent linguistic interpretation.

Apart from this, the notion of document involves inescapable and often arbi-trary aggregation over some amount of text; where CMC is concerned, this can be highly unnatural, e.g. when a set of tweets or status updates are ag-gregated together in order to populate terms in an otherwise very sparse vec-tor. Also, this aggregation is quite different from the kinds of aggregation per-mitted by (1). In the vector space model, documents are the only factors ob-served conditioning term distribution. However, the notion is used very elas-

5 The vector space model is often introduced as a mathematical model, a tacit admission that it

lacks fundamental components of a statistical model, such as a random distribution in reference to which significance tests may be made.

Page 62: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

John C. Paolillo 57

tically, and, depending on the application, a document may be an article, an abstract, a paragraph, a sentence or some other unit entirely. All provide very different information about the term and its context of appearance. One does not necessarily know from the presentation of a vector space model exactly what aggregation has been done, or if documents really represent some other contextual variable of interest. Consequently, documents may conflate multiple levels of description, thereby confounding any explanations of a term's distri-bution.

The vector space model has other problems that make it unsatisfactory as a linguistic model. In any application, there are numerous unobserved factors that also affect term distribution: genres, authors, audiences, etc. A key issue is syntax: there are numerous syntactic and semantic dependencies that are readily observed through conventional linguistic methods, including phrase-structure grammar, lexical subcategorization, selectional restrictions, lexical priming, lexical cohesion, etc. These effects induce correlations among term occurrences in a document (one view being that whatever is intended by "doc-ument" is essentially a syntactic unit). Vector space representations are usual-ly insensitive to any word order dependent relations: predication and negation are among these.

The vector space model is also sample-dependent in the same way as multi-dimensional analysis, and all the same issues attend this. For the vector space model, the corpus is the document set, and very commonly, these are of all one type: journal article abstracts, encyclopedia entries, email messages, sta-tus updates, or whatever the researcher has to hand. One can see that quite different results could be obtained from these different kinds of corpora. It is important to recognize that the original purpose of the vector space model is retrieval. For this purpose one wants a representation that arbitrarily closely matches the original document, while being easy to store and to compare against other documents and queries. The term vector suffices for this pur-pose. It is only later that this has come to be interpreted as a semantic repre-sentation (in the sense of "aboutness"), and this was done without carefully considering its statistical consequences, with respect to model structure and sampling needs.

Sentiment mining is an approach to analyzing text that combines aspects of the vector space model with psychological assessment instruments from clini-cal psychology. Various tools have been designed by different research groups to try to evaluate moods or psychological states represented in psycho-logical assessment interviews. These tools, such as Linguistic Inquiry and Word Count (LIWC; Tausczik & Pennebaker 2010), Affective Norms for Eng-lish Words (ANEW; Bradley & Lang 1999) and Profile of Mood States (POMS; Bollen & al. 2011), involve a fixed dictionary whose elements are counted in the interview transcript. The counts of the dictionary words are then weighted and summed according to a formula established in prior research of a corpus

Page 63: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

58 Computer-Mediated Communication

of interviews. The results of the formula indicate the "sentiment", "affective content" or "mood state" of the evaluated interview.

The model corresponding to sentiment mining is essentially a vector space model as in (2), but with the linguistic variables trimmed to a small subset of terms that are expected to reveal sentiment information, and the factor dimen-sions optimized to express some theoretical model of sentiment. It therefore has many of the problems of vector space models, such as insensitivity to syn-tax, negation, any complex conditions on semantic composition, pragmatic in-directness, etc. The justification for sentiment mining's approach resides in an implicit assumption that dimensions of sentiment are a subset of the various ("aboutness") dimensions of meaning, and that they are independent of and orthogonal to any other dimensions of meaning. Reduction of the space to a subset of its dimensions is treated as a mathematical operation of projecting the vector space into a smaller-dimensional subspace, in the information re-trieval literature (Korfhage 1997).

Such assumptions are unsafe, however. For example, if one were to sample Twitter at the time of the downing of the Malaysian airliner MH17 over Ukraine, one would find a range of sentiment-laden terms associated with tweets around that event, especially representing negative sentiments (anger, frustra-tion, confusion, etc.). This would be quite different from the sentiments ex-pressed on another topic, such as the games in the FIFA world cup tourna-ment, the Tour de France, etc. Moreover, in each of these cases people with different orientations will express their sentiments about different things, e.g. both Ukrainian and Russian sympathizers might express anger around MH17, but with opposite targets in the different communities. Sentiment mining can-not address this without substantial changes to the model.

The problem with sentiment mining is two-fold. On the one hand, there is an implicit larger vector space, some of whose terms are potentially correlated with the sentiment terms in unknown ways. Since the larger vector space is unavailable for interpretation, the unobserved terms, and their correlations with the observed terms are also not available, but they nonetheless confound the intended interpretations: variation attributed to affect may well come from an-other source, such as genre, topic, individual style, etc. On the other hand, many aspects of sentiment are best expressed conditionally: someone is an-gry at a particular event (but happy about something else), etc. Sentiment min-ing also extrapolates the affective values of terms from a clinical context to an unrestricted general context, in which pragmatic and interpersonal context plays a significant role in fixing affective interpretation. When the context is CMC in the form of blog posts or Twitter feeds, the affective meanings of the sentiment dictionary terms are unlikely to be fixed in the assumed way. Such

Page 64: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

John C. Paolillo 59

complex conditions are not easily expressed in a vector space, which tends to be strictly linear in its composition.6

Network analysis is not really a linguistic analysis, but it is a form of quantita-tive analysis often performed on CMC data, and therefore involves language. Basically, network analysis reduces the meaning of a message to its sender and recipient. Typically, no information about the content is retained, although time/date and other contextual variables may be recorded. Sender and recipi-ent are generally assumed to be the same type of actor, and analyses are conducted to reveal the structure of the "x sends y a message" relationship among the all the actors. Typically, network visualizations are produced for interpretation alongside various sorts of statistical models may be used: block-models perform cluster analysis on the network ties to reveal social segmenta-tion (e.g. class, ethnicity, gender, age cohorts, etc.) and flows between differ-ent groups (Doreian & al. 2005); exponential random graph (ERG) models treat network ties as inter-dependent and seek to reveal relational properties such as reciprocity and transitivity (Handcock & al. 2003); dynamic process models treat network ties as generated by a stochastic process and seek to discover process-generating rules which lead to the observed networks (Pas-tor-Satoras & Vespignani 2007).

Network analysis became popular in early research on CMC because it prom-ised a way to address issues of social interest by directly operating on obser-vational artifacts of CMC: chat log files, email and discussion group archives, etc. could be readily captured and analyzed by largely automatic means to ob-tain understandings of both social interaction and electronic communication in quantities that were previously prohibitive. Much work came from the perspec-tive of Social Network Analysis (Paolillo 2001; Wellman & al. 1996), which al-ready had a history of developing quantitative, computer-assisted methods for analysis of social interaction of different sorts (Freeman 2004).

At its simplest, the network model is like a vector-space model, where the terms are the various available recipients of messages and documents are the recipient lists of each sender. The analysis performed on this arrangement is often a clustering of senders and recipients, most often with both modes treat-ed at the same time. The general term for this approach is blockmodeling, and it results in a reduced representation of the network that is more readily inter-preted than the original network (Doerian & al. 2005). A key observation that is made from this concerns the centrality of different senders or recipients, with different definitions of centrality corresponding to different kinds of power or status in the network.

More sophisticated network approaches adopt the same initial arrangement, but develop statistical models where the terms represent elemental network 6 If a vector space is to be used for sentiment with any accuracy, then the complex conditions

associated with the sentiment’s target have to be built into the vectors (variables) in some way.

Page 65: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

60 Computer-Mediated Communication

configurations: participants' propensity to link to others, the reciprocity and transitivity of links, etc. This is represented by the ERG approach (Handcock & 2003), and the dynamic process modeling approach (Pastor-Satoras & Vespignani 2007): both result in a summary of global properties that character-ize the network at the level of the individual. One example of a network analy-sis of CMC can be found in Ronen & al. (2014) who examine the status of lan-guages in Twitter and Wikipedia by employing network maps and centrality measurements to arrive at their interpretations.

Network analysis, however, represents an extreme reduction of the message to a single observable: the fact of a message being sent from one individual to another. The message content is seldom accessed, and when it is, it is typical-ly reduced to a small number of categories, to make it amenable to the availa-ble statistical models. For example, in the Ronen & al. (2014) study, neither the Twitter nor Wikipedia analyses employed the content of the tweets or arti-cles that "connected" languages. This results in an extreme loss of information about the subject of interest (connections among languages), which consti-tutes the network in the first place. For example, Ronen & al. (idem) find strong linkages in Twitter between English and three other languages: Malay,7 Span-ish, and Portuguese; a fact which is impossible to interpret without knowing what is actually shared among the relevant groups. And although structures may be observed in the resulting network, we lose the opportunity to examine what in the messages might have caused this structure; in other words, the observation of structure in a network analysis of CMC is confounded by the unobserved contents of the communication.8 Furthermore, all communication networks are observed in some time-window; the choice of that time window has an enormous impact on the nature of the structures observed. For exam-ple, with regard to the Ronen & al. (2014) study, Twitter data was only collect-ed from Dec. 6, 2011 to Feb. 13, 2012. Connections made outside this narrow time window are completely unobserved, however important they might be to the interpretation. Hence, sharply reductive procedures like network analysis cannot guarantee a readily interpretable result without additional explanations or methodological constraints.

4. Principles for quantitative analysis in CMC research

It should be evident from the summaries given so far that each form of quanti-tative analysis of CMC has its own limitations. Each is intended to answer a certain type of question, and makes a set of assumptions amenable to that

7 The "Malay" language classification includes Indonesian in Ronen & al. (2014). 8 A related problem is that individuals are treated as equivalent, but for their connections to oth-

ers. Hence, network models cannot help us see what within the individuals (personal histories, cognitive propensities, etc.) might be responsible for their communications, and thus their con-nections with others.

Page 66: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

John C. Paolillo 61

goal. Each ignores other types of information relevant to questions that the other approaches may address. None of them addresses all of the relevant questions, nor does any provide a framework for selecting among competing approaches. My goal in this section is to recommend a general set of princi-ples to address these issues and guide quantitative CMC research design.

Avoid reductionism. Reductionism may arise in any of the approaches, alt-hough its specific manifestations vary in each. Variationist methodology re-duces by focusing on individual linguistic variables, when multiple variables potentially share their variation. The multidimensional approach, although it considers multiple variables simultaneously, nonetheless ignores potential dif-ferences among many individual variables, such as specific verbs within the various verb classes. The vector space model ignores relevant syntactic and social conditioning factors, thereby impoverishing its "semantic" representa-tion. Sentiment mining focuses on a specific subset of lexical variables to the exclusion of all others, and network analysis reduces all communication to the identity of its endpoints.

There are at least two manifestations of reductionism in research design: one arises when relevant contextual variables are ignored, leading to incorrect in-ferences about the phenomenon observed. The other arises when disparate elements are treated together as representing the same variant of a variable. Both of these reductions result in an improper aggregation: elements are counted together when they at least potentially should not be.

The aggregations used in a study must be defensible, on a theoretical level. If they are not or cannot be defended, they imperil the interpretation of the anal-ysis. This sort of issue has gathered a considerable amount of healthy, meth-odological argument in the variationist literature, e.g. around the treatment of different forms of be in English (Rickford & al. 1991) or realizations of /s/ in Spanish (Sankoff & Rousseau 1989). The problem, however, is a general one, and its consequences in the other approaches are less extensively explored. The categories used in a piece of quantitative research, and the aggregations they result in are a critical aspect of the research design, and nothing can be safely interpreted without them.

Hence, careful attention must be paid to how the categories defined aggregate different phenomena together, and the analytical choices made should be carefully defended, based on theoretical and methodological considerations. Methodologically, if models can be constructed that allow the alternative ag-gregations to be compared, then one can address the aggregation issue as part of one's research questions. This, for example, is the point of work by Sankoff & Rousseau (1989) on rule ordering in Spanish /s/ deletion (see dis-cussion in Paolillo 2002: 93).

Account for skewed distributions. Many of the types of data handled in lin-guistic analyses have highly skewed distributions. The skewness of linguistic

Page 67: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

62 Computer-Mediated Communication

distributions has a long history of study, going back at least to Zipf (1935). Un-fortunately, few of the issues that skewness represents in linguistic distribu-tions have been resolved in any general way. Hence, the consequences of skewness deserve direct consideration in any research design.

There are two ways skewness is manifest in linguistic data: size extremes and sparseness. These raise different issues and they require different solutions. The size extremes of a distribution are closely related to the scale on which it is measured. When categories are observed, the categories are typically counted, and counts are limited at zero, but unbounded in the positive range: no category can occur a negative number of times, but high values can occur, although less frequently. Such distributions are usually transformed logarithmi-cally when analyzed: on the logarithmic scale, both positive and negative val-ues are permitted, with the negative values corresponding to fractional counts. Because values on the logarithmic scale are compressed with respect to the count scale, aggregation can have a distorting effect. Hence, care in the han-dling of aggregates is justified statistically and mathematically, as well as theo-retically.

The sparseness of linguistic distributions refers to the preponderance of zero values. This is easiest to see in the case of vector spaces: overwhelmingly, most entries of a term-document matrix are zero, meaning that a specific word was not observed in a specific document. This is of great concern in social media data, where posts are typically short, e.g. a single sentence or less. Clearly, most of the words of a language will never have a chance to be ob-served in any given sentence. When this occurs, the counts have little mean-ing of their own, and only the occurrence (or lack of it) for a given word is im-portant. Sparseness is worsened by logarithmic transformation: zero, logarith-mically transformed, is either undefined or negative infinity, and neither value can be used statistically. In information retrieval, the "log+1" transformation is commonly used: one is added to all the counts before the logarithm is taken. This approach results in another mathematical distortion. If a count is in the hundreds (a common word in a long document), adding one changes its loga-rithm very little, but when a count is small or zero, it changes it much, much more. There is furthermore no principled reason why the value 1 is chosen; one could just as well add 0.5, obtaining a different weighting of zero cells, and hence a different analysis.9 There is no simple fix for this problem that pre-serves the count values; at best, they can be truncated to zero or one (absent or present) and analysis can be conducted on those values. Zero-inflated models generally take this approach while retaining a separate model of the counts, conditional on the non-zero cells.

9 Beyond this, the weighting of zero cells implied by adding one is dependent on the number of

rows and columns in the term-document matrix, and hence on the specific application. For these and other reasons, log+1 is not mathematically well-behaved in general.

Page 68: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

John C. Paolillo 63

Identify appropriate statistical models. All statistical models make assump-tions about the nature of the data, its distribution, the way that independence is reflected, and what sorts of things are expected to be independent. Quantita-tive research needs to carefully consider these model assumptions and match them to the research design. If the assumptions do not match the nature of the data, analysis proceeds using an incorrect model, and the results cannot be safely interpreted. Some of the ways that the data distribution bears on model assumptions are discussed above: the value scale and its limits bear on the mode of combination (the logarithmic transformation); the data's sparseness bears on what kinds of values can realistically be used.

Independence of effects is normally reflected by arithmetically adding them together. This is true in each of the models we have considered: the inde-pendent terms in (1) and (2) are added together in order to predict some value of interest. Sometimes, however, two variables may be related conditionally to the value of interest, in which case they are said to interact, or require an in-teraction effect. For example, two users of social media may be inclined to converse in one language, perhaps French, while one of them frequently uses a different language (possibly German) with other interlocutors. The French/German language preference is conditional on the identities of both interlocutors, rather than solely on the propensity of one or the other to use each language. Mathematically, this is handled by creating a term in which the interacting variables are multiplied together, with its own b coefficient (the vari-ables must be coded on a scale that allows this; see Paolillo 2002 and Sigley 2003 for discussion).

Other complex terms can also be necessary if the variable has a non-monotonic relationship to some contextual variable. For example, Siebenhaar (2006) observes a common sociolinguistic pattern in real-time chat in which dialect choice is conditioned by age. As often happens, this choice appears to be different in the middle age range (more standard dialect) from the older and younger age ranges (more regional dialect). Age is therefore not monotonically related to dialect choice, and a quadratic term ( ) is one way to express this.10 Higher-order polynomials may occasionally be justified as well, and pe-riodic effects are common in CMC, which often exhibits daily, weekly, monthly and annual usage fluctuations. These considerations bear directly on the na-ture and complexity of the terms that should appear in an appropriate statisti-cal model, and hence the model's structure.

Another issue bearing on model structure is the nature of the result required. Multidimensional and vector-space models exist, for example, because it is 10 A more common alternative is to break the age variable into age groups or cohorts, especially

when there is not a lot of information about different ages, e.g. the age cohorts in Siebenhaar (2006) could be used directly. Results from the two approaches can sometimes be interpreted similarly, but they represent different theoretical statements about age, and they make different assumptions about the availability of data.

Page 69: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

64 Computer-Mediated Communication

expected that the answers to their questions require more than one dimension: genres are unlikely to be successfully characterized by a single dimension of variation, and semantics, even in the sense of "aboutness", needs to be able to distinguish many different meanings. If the sequence of linguistic elements is at issue, as it typically is anytime, syntax is involved; the model must be structured to account for this as well. Similarly, hierarchical structure, another aspect of syntax, may need to be part of the model as well. When varying combinations of these concerns are involved, a statistical model can get quite complex.

There are three general ways that models can be structured to meet these var-ious conditions. The simplest is if complex conditional terms can be introduced to account for the required structure. Syntactic sequences sometimes have this characteristic. If hierarchical structure is involved, however, other compli-cations are likely to be required. Cascaded models, in which distinct variables are studied in separate models and one model is conditioned on the outcome of the other model, are sometimes recommended for such situations. The Rousseau & Sankoff (1989) models for rule ordering fall under this approach; other arrangements would be required to address hierarchy in phrase struc-ture.

The third approach is to complexify the model by increasing its dimensionality, as in the multidimensional and vector space models. This approach has limita-tions, and it is difficult to combine complex conditionals and hierarchical ar-rangements with vector spaces, which characteristically offer a relatively uni-form field of values. Such a combined model, to my knowledge, has never been attempted, and the complexity of the model is one reason for this.

In designing CMC research, it is critical to think through the implications of one's questions in terms of the kinds of relationships that are involved, as this bears on the selection of the proper statistical model to employ. Moreover, one must be responsible not only to one's desired interpretations, but to any other factors that are not of specific interest, but which nonetheless are relevant to the interpretations that could be drawn. For example, Herring & Paolillo (2006) demonstrated that presumed gender effects in weblogs (Koppel & 2002) could be attributed exclusively to genre: failure to include genre effects in the original model results in an incorrect interpretation. This same lesson applies generally to all of the different kinds of effects one must consider. Hence it is crucial to identify, for the sake of properly specifying a statistical model, what effects one is responsible for in an account of CMC variation. The arguments for this come from the research design and its relation to the statistical model, and never from within the statistical model itself, in spite of many assertions to the contra-ry one can find in the literature.

Answer all research questions in one model. The previous answer leaves us with a big question: how do we design research and choose models to

Page 70: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

John C. Paolillo 65

make the interpretations we would like? If we have multiple questions, can we have multiple models to answer these questions? While this approach is often followed, the short answer is no, it is never safe to interpret multiple models in answering different questions. It is only ever safe to answer all the relevant questions within a single model. The reason for this is technical: when factors are unaccounted for in a model, they may still have effects. They may cause effects included in the model to appear significant, if those are correlated with the excluded effects, or, on the contrary, they may cause them to appear non significant, if they are uncorrelated or anti-correlated. Hence, if effects are ex-cluded from the model that should not have been, alternative interpretations invoking them are fair game.

There are two approaches to addressing this general problem. One requires careful consideration of the various different possible effects and excluding them on the basis of some well-founded theoretical grounds. This is difficult to do, and different members of the field often have different opinions about what is relevant, for different reasons. It is not possible to settle all of the questions one would like this way, and those that are a matter of substantive empirical dispute simply must be included in one's design. Statistically, the criterion of what to include is known as ignorability; though this term needs to be under-stood technically within statistics, its actual meaning is vague and its applica-tion to specific factors is subject to theoretical argument in any given study.

A second approach is to employ controls, i.e. observational procedures that explicitly take into account some factor, possibly by fixing it to one or more values. If one uses multiple values of a factor as control, of course, then one needs a term in the model for that factor. If one limits oneself to fixing a factor at a specific value, then one's interpretations are limited. They are effectively conditioned on that factor value, and the main consequence of this is that we know nothing about what would happen if we allowed that factor to vary. Care must be taken to ensure that the questions asked can tolerate this absence of information.

The observations above have consequences for data re-use, especially the use of corpora, chief among which is that one cannot restudy existing corpora without wanting to either replace or augment the findings of earlier studies, no matter what they are. Since data for a corpus are often collected with specific questions in mind, the information that one needs to answer one's questions is often not available. Consequently, data re-use probably should not be encour-aged to the extent it currently is (e.g. consider the number of studies of the En-ron corpus, given its availability).

At times, it may be very difficult to answer all one's questions in a single mod-el. For example, suppose one has a syntactic variable that is syntactically and socially conditioned in a way that indexes the identities of both participants. Such a variable could be codeswitching in a mixed-competency bilingual set-

Page 71: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

66 Computer-Mediated Communication

ting. The variable depends on the syntactic environment to license it, so se-quence and hierarchy may need to be part of the model. Speaker and ad-dressee need to be known as well, and distinct combinations are relevant to how switching occurs. Topic and semantic domain are well-known correlates of codeswitching as well. The statistical model for this potentially requires pa-rameters for hierarchical and serial syntactic factors, the speaker-addressee network and possibly some unknown number of semantic dimensions. Han-dling such a model is a worthy endeavor, but very difficult because of the many unsolved problems it invokes and its untested nature. More fruitful work is likely to be done by restricting the questions in some way, e.g. conditioning on the specific pairs of interlocutors conversing within specific semantic do-mains, and exploring the syntactic properties of the switch, or some other re-stricted combination of the available variables. This approach sacrifices gen-eralizability, but with the aim of permitting inferences that are sound.

Ensure data sufficiency. A final and persistent hazard of all language-related variation research, and therefore of CMC research, is that there are often far more questions that can be answered than the data permits. This points to lack of successful argument for ignoring irrelevant factors, or the failure to im-plement meaningful controls, but this circumstance is so ubiquitous and its consequences are so important that it deserves special mention. Relatively simple quantitative analyses require small amounts of data to establish "signif-icance"; larger models require more data. The problem is that the data re-quirements are multiplicative of the model complexity: adding a factor with three levels requires three times more data to estimate than the model without the added factor. This requirement, though true of all types of models, is wide-ly ignored, much to the hazard of the research.

A relatively prominent example may serve to make the general point. Bresnan and Ford (2010) use a corpus of transcribed English telephone conversations to estimate a corpus model for the dative alternation in English. This model considers nine factors with two levels each (structural paralellism, syntactic complexity, discourse accessibility, definiteness, pronominality, animacy, con-creteness, person, number), in examples from 50 different lexemes that are expected to exhibit the dative alternation, in which an indirect object may ap-pear as a bare NP object immediately after the verb, or a PP object with the preposition to or for in a later position in the sentence. The model therefore implies 512 possible combinations of factors, ignoring the random effects.11 With only 2'360 data tokens in the telephone corpus dataset, this gives an un-

11 Considering verb lexeme, there is a total of more than 38'000 cells; the reviewers disagree with

my view that the random effects should be considered in the research design, and that the cor-pus model is under-determined by the data in the extreme. Yet merely including the random ef-fect at its nominal one degree of freedom doubles the effective number of cells to 1024, and halves the average cell count to 2.3 tokens, underscoring the overall problem of data insuffi-ciency.

Page 72: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

John C. Paolillo 67

impressive average of 4.6 tokens per cell, and given the characteristic imbal-ances associated with naturalistic data, it is highly likely that at least some cells to have no data associated with them.

A closer look at the data reveals that the data for the different verb senses are quite unbalanced. This is what should be expected given the skewed distribu-tion of lexical frequencies discussed above, but its consequence is that any significant factors observed cannot be trusted, because the random effect for verb is unreliably estimated for most of the verbs in the corpus. This situation is normally addressed in variationist research by confining the variable of in-terest to, e.g. sentences in the corpus in which give is the verb of interest (1'666 examples; more than half of the data). This leads to a different kind of study, which is not able to generalize beyond the specific verb give (cp. the variationist approach to English t/d-deletion, which originated from an attempt to more generally examine consonant cluster reduction).

Data quantity is therefore a paramount concern, which should temper the goals of the research with the cost of data gathering and the complexity of se-lecting an appropriate statistical model. Unfortunately, the large quantities of data available for quantitative CMC research often lack important contextual information or adequate controls in the research design that would license their interpretation. Worse, such large volumes of data may yet be insufficient if all the relevant research questions were introduced into a single model. This is only addressed by restricting the scope of the research question, carefully constructing the research design, controlling and arguing for the exclusion of factors that need to be ignored.

5. Conclusion

This discussion has emphasized the interrelation between the design of quan-titative CMC research and the choice of statistical models that are used in analysis. In addition, the linguistic nature of the phenomena observed has an important status. Much CMC research emphasizes conception of the research goals in model selection; while this is important, it is secondary to the other three considerations. CMC research that uses inadequate statistical models might be redeemed to the extent that it is executed with sound linguistic rea-soning and observation. There is little chance that, however, thorough the sta-tistics, CMC research based on shoddy linguistic reasoning can be redeemed. Research design, which variables should be observed, which should be con-trolled and how, how much data should be collected, etc. follows from the best understanding of the phenomenon studied. For CMC research, in which lan-guage plays a crucial role, both the design and the selection of the model need to be deeply linguistically informed.

Page 73: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

68 Computer-Mediated Communication

References

Agresti, A. (1996): An Introduction to Categorical Data Analysis. New York (Wiley).

Androutsopoulos, J. (2011): From variation to heteroglossia in the study of computer-mediated dis-course. In: Thurlow, C. & Mroczek, K. R. (eds.): Digital Discourse: Language in the new media. New York (Oxford University Press), 277-298.

Baayen, R. H. (2001): Word Frequency Distributions. Dordrecht (Kluwer Academic Publishers).

Basilevsky, A. T. (2009): Statistical Factor Analysis and Related Methods: Theory and Applications. New York (John Wiley & Sons).

Biber, D. (2006): University language: A Corpus-Based Study of Spoken and Written Registers. Ams-terdam (John Benjamins).

Bollen, J., Mao, H. & Pepe, A. (2011): Modeling public mood and emotion: Twitter sentiment and so-cio-economic phenomena. In: ICWSM 11, Barcelona, Spain, July 2011.

Bradley, M. M. & Lang, P. J. (1999): Affective norms for English words (ANEW): Instruction manual and affective ratings (Technical Report C-1). Gainesville, FL (University of Florida, The Center for Research in Psychophysiology).

Bresnan, J. & Ford, M. (2010): Predicting syntax: Processing dative constructions in American and Australian varieties of English. In: Language, 86 (1), 168-213.

Doreian, P., Batagelj, V. & Ferligoj, A. (2005): Generalized Blockmodeling. New York (Cambridge University Press).

Dumais, S. T. (2004): Latent semantic analysis. In: Annual Review of Information Science And Tech-nology, 38 (1), 188-230.

Emigh, W. & Herring, S. C. (2005): Collaborative authoring on the Web: A genre analysis of online encyclopedias. In: Proceedings of the 38th Hawaii International Conference on System Scienc-es. Los Alamitos, CA (IEEE Press).

Freeman, L. C. (2004): The Development of Social Network Analysis: A Study in the Sociology of Sci-ence. Vancouver (Empirical Press).

Gorsuch, R. L. (1983): Factor Analysis (second edition). New Jersey (Lawrence Erlbaum Associates).

Handcock, M. S., Hunter, D. R., Butts, C. T., Goodreau, S. M. & Morris, M. (2003): statnet: Software tools for the Statistical Modeling of Network Data. Seattle, WA. URL http://statnetproject.org

Herring, S. C. & Paolillo, J. C. (2006): Gender and genre variation in weblogs. In: Journal of Sociolin-guistics, 10 (4), 439-459.

Hymes, D. (1974): Foundations in sociolinguistics: An ethnographic approach. Philadelphia (University of Pennsylvania Press).

Johnson, D. E. (2009): Getting off the GoldVarb Standard: Introducing Rbrul for Mixed�Effects Varia-ble Rule Analysis. In: Language and Linguistics Compass, 3 (1), 359-383.

Koppel, M., Argamon, S. & Shimoni, A. R. (2002): Automatically categorizing written texts by author gender. In: Literary and Linguistic Computing, 17(4), 401-412.

Korfhage, R. R. (1997): Information storage and retrieval. New York (Wiley).

Landauer, T. K., Foltz, P. W. & Laham, D. (1998): An introduction to latent semantic analysis. Dis-course Processes, 25 (2-3), 259-284.

McNair, D. M., Droppleman, L. F. & Lorr, M. (1992): Edits manual for the profile of mood states: POMS. San Diego, CA (Educational and Industrial Testing Service).

Paolillo, J. C. (2001): Language variation on Internet Relay Chat: A social network approach. In: Jour-nal of Sociolinguistics, 5 (2), 180-213.

Page 74: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

John C. Paolillo 69

— (2002): Analyzing Linguistic Variation: Statistical Models and Methods. Stanford, CA (CSLI Publica-tions).

— (2004): Latent Structure Analysis: Semantic or Syntactic? In: International Conference on Natural Language Processing. Hyderabad, India.

— (2013): Individual effects in variation analysis: Model, software, and research design. In: Language Variation and Change, 25 (01), 89-118.

Pastor-Satorras, R. & Vespignani, A. (2007): Evolution and Structure of the Internet: A Statistical Physics Approach. New York (Cambridge University Press).

Rickford, J. R., Ball, A., Blake, R., Jackson, R. & Martin, N. (1991): Rappin on the copula coffin: Theo-retical and methodological issues in the analysis of copula variation in African-American Ver-nacular English. In: Language Variation and Change, 3 (01), 103-132.

Ronen, S., Gonçalves, B., Hu, K. Z., Vespignani, A., Pinker, S. & Hidalgo, C. A. (2014): Links that speak: The global language network and its association with global fame. In: Proceedings of the National Academy of Sciences, 111 (52), 5616-5622.

Salton, G. Wong, A. & Yang, C. S. (1975): A vector space model for automatic indexing. In: Communi-cations of the ACM, 18 (11), 613-620.

Sankoff, D. (1978): Linguistic Variation: Models and Methods. New York (Academic Press).

Sankoff, D. & Rousseau, P. (1989): Statistical evidence for rule ordering. In: Language Variation and Change, 1 (01), 1-18.

Siebenhaar, B. (2006): Code choice and code switching in Swiss German Internet Relay Chat rooms. In: Journal of Sociolinguistics, 10 (4), 481-506.

— (2008): Quantitative approaches to linguistic variation in IRC: implications for qualitative research. In: Language@Internet, 5.

Sigley, R. (2003): The importance of interaction effects. In: Language Variation and Change, 15 (2), 227-253.

Tagliamonte, S. A. & Baayen, R. H. (2012): Models, forests, and trees of York English: Was/were var-iation as a case study for statistical practice. In: Language Variation and Change, 24 (02), 135-178.

Tausczik, Y. R. & Pennebaker, J. W. (2010): The psychological meaning of words: LIWC and comput-erized text analysis methods. In: Journal of Language and Social Psychology, 29 (1), 24-54.

Wellman, B., Salaff, J., Dimitrova, D., Garton, L., Gulia, M. & Haythornthwaite, C. (1996): Computer networks as social networks: Collaborative work, telework, and virtual community. In: Annual Review of Sociology, 213-238.

Yates, S. J. (1996): Oral and written linguistic aspects of computer conferencing. In: Herring, S. C. (ed.), Computer-Mediated Communication: Linguistic, Social and Cross-Cultural Perspectives. Amsterdam (John Benjamins), 29-46.

Zipf, G. K. (1935): The Psycho-Biology of Language. Boston (Houghton-Mifflin).

Page 75: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Page 76: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Travaux neuchâtelois de linguistique, 2015, 63, 71-86

Classification des items inconnus de 88milSMS: aide à l'identification automatique de la créativité scripturale

Cédric LOPEZ1, Mathieu ROCHE2 3 & Rachel PANCKHURST4 1R&D, Viseo, Grenoble 2UMR TETIS, Cirad, Irstea, AgroParisTech, Montpellier 3LIRMM, UMR 5506 CNRS & Université Montpellier 4Praxiling, UMR 5267 CNRS & Université Paul-Valéry Montpellier

The sud4science LR project1 aimed at studying a fairly recent form of written communication: SMS (Short Message Service). The first step of the project was to collect a large number of text messages from the general public. We initially gathered 93'085 SMS and our final corpus, entitled 88milSMS, contains over 88'000 SMS.2 In this article, we propose a novel approach (which is also applicable to other textual data) for classifying unknown items in 88milSMS, based on two steps: 1) Classification of SMS in relation to 5 European languages (French, Spanish, English, German, Italian), 2) Classification of unknown items according to predefined classes (schedules, items containing special character(s), number(s), words without accents, or with repeated characters, etc.). We are then able to make a distinction between the truly "original" items which are widely used compared to those that are rarely used in the corpus. Based on examples mined in the different classes, we present a preliminary analysis of the obtained resource.

1. Introduction

Les nouvelles formes de communication électronique médiée développées ces dernières années soulèvent de nombreux problèmes linguistiques complexes. Avec l'adoption des téléphones mobiles, le service de messagerie SMS (Service de Messages Succincts) s'est largement développé à travers le monde, permettant la transmission de courts messages textuels en temps réel. Au départ contraint par le nombre de caractères maximum utilisables pour la rédaction d'un SMS et par la difficulté de maniement des claviers, l'écriture SMS apparaît et se développe rapidement sur les supports de communication du Web (réseaux sociaux, fora, blogs, etc.).

L'écriture SMS (désormais eSMS3) se caractérise par la présence de formes scripturales très riches: squelettes consonantiques ("slt" (salut)), abréviations 1 Projet sud4science Languedoc-Roussillon (LR): http://www.sud4science.org/ 2 http://88milsms.huma-num.fr/ 3 Cf. Panckhurst (2009) pour une typologie détaillée. Comme d'autres chercheurs, nous refusons

l'appellation langage SMS, car il ne s'agit pas d'un langage, ou d'une langue, mais bien d'une pratique scripturale. Nous préférons l'appellation écriture SMS à écrit SMS (Cougnon 2015), car nous nous focalisons sur l'aspect dynamique de la langue, en mouvance constante. Pour Cougnon, il s'agit de "mettre l'emphase sur le résultat d'une pratique".

Page 77: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

72 Classification des items inconnus de 88milSMS

sémantisées (f (fais/feras/faisais: tu f koi?)), apocopes ("ordi" (ordinateur)), aphérèses ("zou" (bisou)), substitutions phonétisées plus ou moins complexes ("koi" (quoi), "boC" (bosser), "2m1" (demain)), agglutinations ("jattends" (j'attends)), suppressions de fins de mots muettes ("vou" (vous)), répétitions de caractères ("suuuuppppeeerrrr"), ajouts de caractères ("les zamours", "oki"), binettes/emoji ("^^", ":)", ) — la liste est longue. Ces phénomènes simulent parfois l'oralité, l'écrit, ou possèdent leurs propres marques et caractéristiques, le tout reflétant une langue vivante dynamique en mouvance constante.

Dans le but de permettre l'étude de l'ensemble de ces phénomènes, (Panckhurst & al. 2013) ont récemment recueilli plus de 90'000 SMS dans le cadre du projet sud4science LR

4. Après plusieurs étapes de prétraitement des données (vérification, épuration, etc., Panckhurst & al. 2013) et d'anonymisation (Accorsi & al. 2014; Patel & al. 2013), le corpus final contient plus de 88'000 SMS authentiques, et est publié sous le nom de 88milSMS (Panckhurst & al. 2014)5.

Dans cet article, nous présentons une première approche permettant de classer automatiquement des items inconnus, qui apparaissent dans 88milSMS, en vue d'une aide à l'analyse de l'eSMS (Panckhurst & al. 2013) et plus précisément à l'identification de la créativité scripturale

6. Nous définissons un item lexical comme l'unité autonome constituante du lexique de l'eSMS (au moins dans le cadre de notre corpus), compris entre deux espaces. Ainsi, "jtrouve" est considéré comme un seul item lexical, alors que "je trouve" est considéré comme une suite de deux items lexicaux.

Une telle ressource contenant tous les items lexicaux SMS "inconnus" du français standard trouve son intérêt à la fois en linguistique et en informatique. D'un point de vue linguistique, cette ressource pourra faciliter l'étude à propos de la créativité scripturale, les mots du discours, l'agglutination, etc. D'un point de vue informatique, l'utilisation de la ressource sera utilisée dans la chaîne de traitement automatique des messages de blogs, fora, SMS, et réseaux

4 Le projet sud4science LR (www.sud4science.org) s'inscrit dans un projet plus global,

international, lancé en Belgique en 2004: sms4science (www.sms4science.org, Fairon & al. 2006; Cougnon 2014; Cougnon & Fairon 2014).

5 Corpus 88milSMS: http://88milsms.huma-num.fr 6 Dans le cadre de cet article, notre terme créativité scripturale se veut générique et renvoie à

différents phénomènes, qui questionnent encore et toujours en sciences du langage: la néologie (la créativité lexicale par suffixation (SMS, n° 52041: “ça se passe bien la voituration?”), mots-valises ("mdr j'avais une réponse bien cinglante, mais rien que de répondre, ça annule la cinglicité (?) de la chose...")), la néographie (des variantes de graphies qui constituent des "écarts ludiques" (Anis 1998: 132), qui s'éloignent de la langue standardisée et qui sont très présentes et très instables dans l'écriture SMS: abréviations, troncations, notations sémio-phonologiques ou graphies phonétisées, etc.), l'écriture non-intentionnée ("fautes" de saisie, etc.). Nous ne prétendons pas répondre à ces questions, notamment concernant la frontière parfois ténue entre néologie et néographie, mais nous n'avons pas besoin d'une distinction fine ici.

Page 78: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Cédric Lopez, Mathieu Roche & Rachel Panckhurst 73

sociaux. Elle constitue en effet un premier pas vers le transcodage automatique de l'écriture non standard vers l'écriture standardisée (Beaufort & al. 2010) qui permettra d'améliorer la qualité des applications fondées sur un traitement automatique de l'eSMS, par exemple dans un contexte médical (Stenner & al. 2011; Vetulani & Marciniak 2011), ou de reconnaissance vocale (Bove 2005).

Dans la suite de l'article, nous commençons par identifier, de manière automatique, les items non standard (§ 2) en classant les SMS par langue (§ 2.1) puis, en se concentrant sur le classement des items issus de SMS français (§ 2.2). Enfin, nous présentons et discutons les résultats et la ressource obtenue (§ 3) avant de conclure (§ 4).

2. Identification automatique d'items originaux

L'objectif du travail est d'aider l'utilisateur à identifier les items non standard (INS) dans le corpus 88milSMS, dans le sens où ces items n'existent dans aucun dictionnaire de langue française. Parmi les INS, nous proposons d'identifier les items non standard originaux (INSO). Un traitement manuel serait complexe principalement à cause de deux points:

– la définition d'un "item non standard original"; – la taille du corpus, supérieure à un million d'items lexicaux.

La question de l'originalité d'un item est largement discutable selon que l'on s'intéresse aux variations lexicales/scripturales, aux créations de termes, ou encore à l'alternance codique, par exemple. Afin de ne pas biaiser l'interprétation de la ressource produite et de ne pas contraindre son utilisation à une application donnée, nous avons considéré que les INSO sont des items lexicaux que nous ne sommes pas en mesure de classer de façon triviale (par exemple par horaires, pseudonymes, termes du français, etc.). L'hypothèse sous-jacente est de considérer que les items n'ayant pu être classés dans les catégories prédéfinies sont potentiellement des INSO.

La taille du corpus nous incite à proposer un traitement automatique. L'identification des INS revient donc à un problème de classification selon des catégories prédéfinies. Même si ce traitement ne permet pas de dresser une liste exhaustive des classes d'INS du corpus, celui-ci a tout de même le mérite d'aider l'utilisateur dans la tâche d'identification. Dans la suite, nous décrivons les deux étapes principales de notre approche: le classement des SMS par langue (§ 2.1), puis la définition des filtres pour le classement des items en français (§ 2.2).

Page 79: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

74 Classification des items inconnus de 88milSMS

2.1 Classement des SMS par langue

Le classement des SMS par langue est indispensable pour assurer que la ressource produite en sortie de l'étape de classification des items ne contient pas de biais dû aux différentes langues utilisées dans 88milSMS. Par exemple, le SMS "see you soon" doit être classé dans la catégorie "anglais", sans quoi chacun des items le composant serait confronté à des critères définis a priori pour le français. Nous avons restreint la classification au français et à 4 langues officielles de pays limitrophes à la France. Au total, nous considérons donc 5 langues: français, anglais, espagnol, allemand, italien. À ces 5 classes, nous ajoutons 4 classes mixtes qui permettent de tenir compte de la présence de deux langues7 dans un même SMS: français-anglais, français-espagnol, français-allemand, français-italien. Ainsi, notre système doit être en mesure de classer les SMS selon 9 classes. Notons que d'autres langues apparaissent dans le corpus (notamment le shimaoré/mahorais et l'arabe)8.

L'approche largement adoptée pour la classification de textes par langue repose sur l'identification des n-grammes de caractères, suites de n caractères (Cavnar & Trenkle 1994) caractéristiques des langues (par exemple, les trigrammes "the" et "les" sont respectivement associés à l'anglais et au français). À partir de listes établies pour chaque langue, il est alors possible de prédire la langue d'un texte. Dans notre contexte, nous nous intéressons à l'étude des spécificités scripturales des SMS. Ainsi, les n-grammes "classiques" risquent de se révéler peu pertinents étant donné la présence d'inventions langagières, d'abréviations, d'erreurs d'accentuation, de variantes d'orthographe propres à l'eSMS (par exemple, les n-grammes extraits à partir du SMS "C como kon fai pr ls k do" seront tout à fait inappropriés). Par ailleurs, la découverte de ces n-grammes caractéristiques sera étudiée, d'une certaine mesure, dans la suite du processus (voir § 2.2).

D'autres approches s'appuient sur l'apprentissage automatique pour construire un modèle permettant de classer les textes selon chaque langue apprise (Vo-Trung 2004; Okanohara & Tsujii 2009). Cette approche nécessite au préalable d'avoir un jeu de données annoté. De tels jeux de données sont disponibles pour les textes homogènes, créés la plupart du temps en utilisant les métadonnées décrivant la langue utilisée (par exemple, dans les articles journalistiques, pages web, ou dans les tweets), évitant ainsi une lourde tâche d'annotation manuelle. Mais la tâche est plus complexe lorsque l'on souhaite

7 D'autres classes sont représentées dans 88milSMS. Nous avons par exemple rencontré des

SMS contenant plus de 3 langues (sms n° 41015: Hello ! Que tal? Yes, a bientôt); voir également n° 32957 et n° 78099). Dans le cadre de cet article, nous nous focalisons sur les classes les mieux représentées.

8 Notons que les SMS écrits en shimaoré/mahorais ont fait l'objet d'une annotation manuelle lors d'une étude réalisée par des étudiants stagiaires. Au total, 335 SMS ont été classés ainsi et ne constituent pas ici un objectif de classement automatique.

Page 80: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Cédric Lopez, Mathieu Roche & Rachel Panckhurst 75

annoter un jeu de données constitué de SMS. D'une part, à notre connaissance, il n'existe aucun corpus de SMS annotés par langue9, et d'autre part, nous considérons les SMS comme des textes hétérogènes, i.e. contenant parfois des mots de plusieurs langues (par exemple, "peut dormir at home?", SMS n° 928, doit être classé dans une même classe "français et anglais").

Démunis d'un jeu de données annoté pour les SMS10 et souhaitant éviter d'utiliser des n-grammes de caractères, nous avons choisi une approche de classement fondée sur lexique. Pour constituer notre lexique, nous avons utilisé la liste des mots les plus fréquents utilisés pour l'anglais, l'espagnol, l'allemand, et l'italien (500 à 1'000 mots par langue), selon Wiktionary11.

Nous avons ensuite comparé les termes des 4 listes entre eux, ainsi qu'au plus grand lexique des formes fléchies du français disponible au format électronique, le Lexique Électronique des Formes Fléchies du Français (LEFFF, cf. (Sagot 2010)). Les termes présents dans plusieurs listes ont été éliminés. De même, les termes présents à la fois dans une liste et dans le LEFFF ont été éliminés, puisqu'ils ne peuvent être considérés comme étant spécifiques à la langue en question. L'ensemble de ces listes constituent ainsi notre modèle. Dans la suite de l'article, nous nommerons "descripteurs" les mots spécifiques à une langue.

Afin de considérer la spécificité de notre corpus, notre expertise nous a permis d'ajouter manuellement des descripteurs à notre modèle. Par exemple, nous savons que "bjr" (bonjour), "slt" (salut) ou "jtm" (je t'aime) sont des descripteurs pertinents pour les SMS français.

Nous obtenons ainsi un lexique contrôlé, spécifique à chaque langue, adapté aux SMS: 88 descripteurs pour l'anglais, 55 pour l'espagnol, 62 pour l'allemand, 83 pour le français, et 45 pour l'italien.

À chaque SMS est attribué un score pour chaque langue. Ce score correspond à la somme des occurrences de chaque descripteur dans un lexique donné (par exemple, FR=4 signifie que 4 descripteurs du français ont été identifiés automatiquement dans un SMS). Les résultats sont structurés au format XML, annotés avec les balises FR, EN, SP, DE, et IT indiquant chaque langue considérée.

Par exemple, dans un SMS contenant "at home", "at" est un mot fréquent en anglais; en revanche, "home" ne figure pas dans la liste des 500 à 1'000 mots fréquents en anglais. Comme "at" n'apparaît ni dans le LEFFF ni en tant que

9 Nous avons très récemment eu connaissance d'un corpus suisse annoté par langue (voir Stark

& al. 2009-2014; Cathomas & al. ce volume). 10 Nous projetons de constituer un corpus d'apprentissage hétérogène à partir de différents corpus

de SMS de langues différentes, de la même façon que (Lui & al. 2014). 11 http://www.wiktionary.org/, voir "listes de fréquences".

Page 81: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

76 Classification des items inconnus de 88milSMS

descripteur des autres langues considérées, il sera classé parmi les 88 descripteurs ayant été retenus pour l'anglais, alors que "home" sera rejeté.

Formellement, notre algorithme de classement est le suivant:

Soit S un SMS.

Soit L∈ {français, anglais, espagnol, italien, allemand}.

Soit Ns,l le nombre de descripteurs de S pour la langue l∈ L.

Soit m(S) le nombre maximum de descripteurs de l trouvés pour S.

1. Si aucun descripteur n'a été trouvé, on classe le SMS par défaut en français.

2. Pour chaque Ns,l = 1 = m(S) on classe S dans la classe l

3. Pour chaque Ns,l > 1, on classe le SMS dans la/les langue(s) l correspondante(s).

Les trois étapes de l'algorithme correspondent aux trois cas de la fig. 1, ci-dessous.

Exemples Format XML

Cas 1

• français

<sms id="64158" text="bon courage" EN="0" SP="0" DE="0" IT="0" FR="0" />

Cas 2

• français et

anglais

<sms id="928" text="<PRE_5> peut dormir at home?" FR="1" EN="1" />

Cas 3.1

• français

Cas 3.2

• français

et anglais

<sms id="424" sms="Hey yo ! Viens quand tu veux péqufier mon appart , ce sera ac grand plaisir ! Enfin le week prochain je rentre sr Tlse , ms sinon ceux qui suivent ss problème ! du coup on se voit la semaine prochaine ! Bisous vieille grognasse" SP="1" FR="6" />

<sms id="1648" sms="Seriously?? ! ! Wow such a coincidence ! ! She ll probably give you a 100 % yes j en suis sure ! ! I ' m watching csi :) j ai cours a 8h demain :/ FML tu commence quand le boulot? <3" EN="3" FR="4" />

Fig. 1: Exemples de SMS classés par langue(s).

De façon générale, de nombreux termes spécifiques à une langue peuvent également être des créations scripturales dans le cadre des SMS. Par exemple, "el" est à la fois le déterminant espagnol et une contraction du pronom français "elle". Dans notre système, ces cas peuvent contribuer à une classification erronée, et montrent donc une limite à notre approche (cf. § 3 pour une évaluation de notre approche).

Page 82: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Cédric Lopez, Mathieu Roche & Rachel Panckhurst 77

Notre classification des SMS par langue a montré que le corpus 88milSMS était composé d'une très grande majorité de SMS en français (de l'ordre de 97% du vocabulaire utilisé est spécifique au français). Ces SMS en français sont alors retenus et exploités pour la prochaine étape décrite en section 2.2.

2.2 Classement des items

Notre approche d'identification d'INS consiste à fournir le corpus 88milSMS en entrée du système et à obtenir en fin de traitement un ensemble de classes permettant d'aider à l'identification automatique de la créativité scripturale. Le système est développé en Java.

Le corpus 88milSMS est d'abord segmenté. Les segments habituellement considérés dans les approches de classification sont les mots ou les phrases. La segmentation par phrases n'est pas pertinente ici car notre objectif est d'identifier un ensemble d'items. Aussi, dans le contexte de la segmentation de SMS, il ne semble pas pertinent de prendre le mot comme segment puisque le lexique utilisé pour la rédaction de ces messages n'est pas formellement défini. De plus, il est complexe d'identifier automatiquement les frontières des mots au sein d'une chaîne de caractères issue de données textuelles de type SMS (par exemple, "a2min lami" = "à demain l'ami"). Notre objectif étant d'identifier des items lexicaux non standard, nous considérerons donc qu'un segment, ou item lexical, est une suite de caractères compris entre deux espaces (dans l'exemple précédent nous obtenons ainsi deux segments: "a2min" et "lami"). Notons qu'un prétraitement a consisté à ajouter une espace avant et après chaque élément de ponctuation lorsque ce dernier était absent. Au total, nous obtenons ainsi plus d'un million d'items lexicaux.

Notre approche consiste à déterminer, dans un premier temps, trois ensembles distincts, que nous nommerons "classe": C1, C2 et C3.

La classe C1 recevra les items standard, c'est-à-dire les items présents dans le LEFFF, avec et sans accents. C2 recevra les INS reconnus grâce à des filtres que nous définissons ci-après, et C3 recevra tous les items qui n'ont été classés ni dans C1 ni C2 et qui peuvent donc correspondre à une forme de créativité scripturale non retenue par nos filtres. Les classes C1, C2, et C3 sont disjointes, i.e. un même item ne peut apparaître dans deux classes différentes.

L'objectif du travail étant d'identifier automatiquement les INS pour le français, nous cherchons, en premier lieu, à élaguer l'ensemble des items de 88milSMS qui seraient également présents dans le LEFFF. Ainsi, la classe C1 contenant les items standard est constituée de deux sous-classes:

Page 83: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

78 Classification des items inconnus de 88milSMS

- C1.1: items standard présents dans le LEFFF. Le filtre consiste ici à comparer un à un les items français de 88milSMS avec les items du LEFFF. Les items présents dans le LEFFF sont attribués à la classe C1.1.

- C1.2: items standard présents dans le LEFFF sans accents. Nous mettons en place un filtre permettant de comparer les items avec les mots du LEFFF auxquels nous avons supprimé les accents. La classe C1.2 accueille donc les items correctement orthographiés selon les normes du français standard mais dont l'accentuation est absente (par exemple: qualites, degat, precisions, europeen).

Cette première étape a permis de construire une approche automatique qui catégorise les items standard. Dans la suite, nous proposons une sous-catégorisation des items non standard (INS) de C2 (items non contenus dans C1):

- C2.1: items composés d'un caractère unique. Cette sous-classe contient les items constitués d'un seul caractère, incluant les caractères spéciaux, les chiffres, lettres, etc. Une telle classe est par exemple utile pour l'étude des abréviations sémantisées telles que c pour c'est/ces/ce… ou t pour t'es/tu….

- C2.2: items assimilables à des horaires. Cette sous-classe contient les items représentant une heure, ou plus généralement un rapport avec le temps. Le filtre correspondant est une succession de tests recherchant la présence d'une suite de caractères spécifiques telle qu'un chiffre suivi de la lettre "h" ou des lettres "min". Par exemple, nous identifions 12h30, 23:56, 8heures, 10minaperdre, 6-7h, etc.

- C2.3: item avec allongement. Les termes de cette sous-classe ont subi une répétition de caractères, qui simule un allongement vocalique, et ce sur au moins un caractère (par exemple: Jarriiiiiiiiive, Huuuummm, Meeerciiiiiii, tkkkkt). Le filtre mis en œuvre compare chaque caractère avec le caractère suivant. Si plus de deux caractères sont répétés, l'item est classé dans C2.3. Rappelons que les mots possédant deux mêmes caractères consécutifs issus de la langue standard (par exemple: passe, embrasse, apprendre) ont précédemment été classés dans C1. Si nous considérons qu'un allongement est un critère répondant à l'originalité des items, alors il faut considérer que C2.3 contient bon nombre d'INSO.

- C2.4: item avec caractère spécial. Nous testons ici la présence d'un caractère spécial dans chaque item. Les caractères spéciaux considérés sont tous les caractères d'un clavier alphanumérique AZERTY classique, hors chiffres et lettres (30 caractères spéciaux au total). Les items de la classe C2.4 contiennent au moins un caractère spécial (par exemple: Conn*rd, resto+cine, appeler/texto, dés~annule, thèse/antithès/synthèse, fish&chips). Cette sous-classe contient les binettes contenant un ou plusieurs caractères spéciaux (par exemple: ^^ ou ;)).

Page 84: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Cédric Lopez, Mathieu Roche & Rachel Panckhurst 79

- C2.5: présence d'un chiffre. La sous-classe C2.5 contient tous les items incluant un chiffre (qui n'ont pas été précédemment repérés, par exemple, dans C1). Le filtre correspondant teste simplement la présence d'au moins un chiffre au sein de l'item. Nous obtenons par exemple, numb3rs, mc2, 106ounette, 3615ma-vie, Ar5gggggggh. Ces items peuvent dès lors être considérés comme des INSO dont l'originalité réside dans la présence de chiffres.

- C2.6: binettes12. Cette sous-classe contient les binettes d'après une liste construite en deux temps: 1) binettes acquises sur le Web13, 2) binettes ajoutées manuellement d'après notre expertise sur le corpus. Les binettes inconnues de notre liste pourront être découvertes dans la sous-classe C2.4. Au total, nous disposons d'une liste de 54 variantes de binettes (par exemple: ":-)" et "+.+"). Cette liste ne contient aucun 'emoji' (émoticône graphique).

Enfin, la classe C3 contient les items qui ne sont ni dans C1 ni dans C2.

- C3: items non standard originaux (INSO). Cette catégorie contient les items qui n'ont pas été classés dans les catégories précédentes et ne nécessite donc pas la mise en place de filtre spécifique. Nous obtenons ainsi des items néologiques tels que cinglicité, voituration ou encore des items néographiques agglutinés tels que tatende, tetrangle. Les items présents dans C3 sont donc potentiellement des items non standard originaux (INSO).

Il est important de noter que les sous-classes de C2.1 à C2.6 ne sont pas disjointes: plusieurs sous-classes peuvent contenir un même item. Par exemple, Ar5gggggggh doit être classé dans C2.3 et C2.4.

Nous avons défini 3 classes et 8 sous-classes qui représentent l'ensemble des items présents dans les SMS "français" identifiés à l'étape précédente (§ 2.1). D'autres classes et sous-classes peuvent être ajoutées dans le but de classer plus finement les items en fonction des objectifs visés.

Dans la suite, nous évaluons l'approche de classement des SMS par langue, et nous analysons les classes générées automatiquement d'un point de vue quantitatif et qualitatif afin de mettre en relief la pertinence de nos propositions et le type d'items non standard originaux identifiables.

12 'Binette' est le terme (québécois) que nous utilisons pour évoquer 'smiley', 'émoticône',

'frimousse', par exemple: ";)", "^^", ";)", ":D", etc. Dans un travail ultérieur, nous effectuerons le classement des 'emoji' (les binettes graphiques) qui nécessitent un repérage Unicode.

13 Notamment https://support.skype.com/fr/faq/FA12330/qu-est-ce-que-la-liste-complete-d-emoticones

Page 85: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

80 Classification des items inconnus de 88milSMS

3. Evaluations et analyse

Dans un premier temps, nous évaluons notre algorithme d'identification de la langue (§ 3.1) puis nous discutons les INSO extraits au regard des différentes sous-classes que nous proposons (§ 3.2).

3.1 Classification par langue

Cette section a pour objectif de présenter la qualité des classes générées par notre système. Nous avons appliqué notre algorithme de classification automatique sur l'ensemble du corpus 88milSMS. Le protocole consiste à évaluer manuellement tous les SMS classés par notre système. Cependant, devant l'ampleur de la tâche qui exige la lecture attentionnée de chaque SMS, nous avons limité la taille de la classe "français" à 500 SMS. Au total, 1'329 SMS ont été évalués manuellement.

La fig. 2 présente les résultats de classification par rapport aux classifications réelles issues des experts. Un exemple de lecture est le suivant: Le système a automatiquement attribué 551 SMS à la classe "anglais" (EN), parmi lesquels 476 sont effectivement écrits en anglais, 63 sont écrits à la fois en anglais et en français et 12 sont en français. La fig. 2 permet de mettre en avant le taux d'exactitude, c'est-à-dire le taux de SMS bien classés qui s'élève à 89%. Ainsi, les résultats montrent que le système permet de générer des classes pertinentes, bien que l'on doive noter une faiblesse pour le classement des SMS italiens et allemands, mal représentés dans notre corpus.

Classes réelles

FR EN SP IT DE FR-EN

FR-SP

FR-IT FR-DE

Classes prédites

FR 494 0 1 0 0 5 0 0 0

EN 12 476 0 0 0 63 0 0 0

SP 1 0 25 0 0 0 6 0 0

IT 5 0 0 9 0 0 0 2 0

DE 2 0 0 0 2 0 0 0 0

FR-EN 21 4 0 0 0 169 0 0 0

FR-SP 0 0 3 0 0 0 7 0 0

FR-IT 8 0 0 11 0 0 0 1 0

FR-DE 2 0 0 0 0 0 0 0 0

Fig. 2: Matrice de contingence des résultats du classement des langues.

Finalement, l'évaluation montre que les classes générées sont satisfaisantes en vue d'une exploitation dans la suite du processus (classification des items).

Page 86: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Cédric Lopez, Mathieu Roche & Rachel Panckhurst 81

3.2 Analyse des résultats et ressource obtenue

Le traitement décrit dans § 2.2 permet d'obtenir une ressource facilitant l'exploration des items lexicaux originaux dans le corpus 88milSMS. La ressource obtenue est divisée en 11 fichiers au format XML. Chaque fichier correspond à une classe ou sous-classe, et associe à chaque item son nombre d'occurrences dans le corpus. La fig. 3 présente une synthèse de la ressource générée.

Nous observons un nombre d'items différents compris entre 83 (pour C2.1) et 22'211 (pour C1.1).

L'item mono caractère (C2.1) le plus utilisé apparaît 74'922 fois. Il s'agit du point qui semble indiquer une volonté de segmenter les syntagmes. Notons que le point n'est pas utilisé dans les binettes.

L'item le plus fréquent dans C2.2 est "19h", utilisé 172 fois dans notre corpus. Le nombre important d'items différents attribués à la classe C2.2 (500 items) tend à montrer l'utilisation des SMS comme un outil de prise de rendez-vous.

Dans la classe C2.3 contenant des items présentant une répétition de caractères, les plus fréquents sont "Mdrrr", "mdrrr", "Mdrrrr", "Biisoux", et "Loool", utilisés entre 66 et 741 fois. Le maximum de répétitions observées sur un item s'élève à 171 "a" successifs (dans "Aaaa[…]aaah", SMS n° 348).

Les caractères spéciaux sont le plus fréquemment utilisés dans la ponctuation et construction de binettes, tel que le montrent les items classés dans C2.4. Parmi les mieux représentés, nous trouvons le point et l'apostrophe ainsi que les binettes " :)", "^^", ":D", " :p", utilisés entre 1'382 et 74'922 fois. D'autres formes d'utilisation apparaissent, comme la censure dans "pu+in", "Conn*rd", la valorisation d'un item dans "*ironie*", ou le remplacement d'un item par un symbole équivalent phonétique, par exemple "La+Belle".

1'971 items forment la classe C2.5. Les plus fréquents sont les chiffres et nombres, avec un maximum atteint pour le chiffre 2, ce qui s'explique par son transcodage en la préposition "de". Viennent ensuite les expressions de positionnement telles que "2eme", "3eme", les expressions monétaires telles que l'item "5€" qui apparait 9 fois, ainsi que d'autres items tels que "mp3" pour le support numérique ou encore "w9" pour la chaîne télévisée.

La classe C3 contient 17'891 items. Comme nous l'avons vu, celle-ci contient les items qui n'ont pas été classés dans les catégories précédentes. Afin de donner un aperçu de la qualité globale du contenu de C3, nous mentionnons ci-après 20 INSO parmi ceux qui ont le plus faible nombre d'occurrences (1 occurrence) et les 20 INSO qui ont le plus grand nombre d'occurrences (entre 219 et 3'341 occurrences):

Page 87: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

82 Classification des items inconnus de 88milSMS

• 1 occurrence: zeit, Fbk, evenemens, mavei, GDF, haceler, parcequel, souvenai, svpm, lattendais, Hmhm, Jmendors, kmbien, vaho, Bàh, tavécour, Alellujah, estt, estr, alongei

• Entre 214 et 3'341 occurrences: Jai (214), Lool (219), avc (229), Tkt (237), Jte (246), Pk (248), weekend (253), Beh (263), Dsl (264), cest (283), LOL (300), méme (306), Parce (347), jsuis (425), çà (459), week (552), jte (608), tkt (688), parce (1'009), lol (3'341)

Les items les plus fréquents sont les abrègements morpho-lexicaux (acronymes/sigles: "lol", "mdr", etc.), puis des squelettes consonantiques avec substitution tels que "tkt" (688 occurrences, pour "t'inquiète"), des réductions en agglutinations "jte" (608 occurrences, pour "je te"), des apocopes ("ordi" 313 occurrences), puis des onomatopées comme "Beh" (263 occurrences) ou encore des substitutions graphiques comme "mwa" (108 occurrences, pour "moi"), etc. (Panckhurst 2009). On note également la présence d'items appartenant à d'autres langues (provenant d'un classement erroné à l'étape de l'identification de la langue), ou plus généralement d'items absents du LEFFF qui ne peuvent en aucun cas être considérés comme des INSO (GDF, Alellujah…).

La fig. 3 montre la répartition du nombre d'items par classe et met en évidence le nombre élevé d'items dans C3 (17'891 items). Nous remarquons que les items de C3 peuvent se distinguer en 3 sous-classes:

• items non standard largement utilisés par les utilisateurs. Il s'agit des items qui apparaissent les plus fréquemment, tels que les acronymes susmentionnés et certains squelettes consonantiques. Ces items peuvent être repérés par le nombre d'occurrences élevé des items de C3. Nous pouvons considérer que ces INS sont adoptés par les utilisateurs. On peut dès lors se poser la question de leur originalité.

• items non standard rarement utilisés (qui apparaissent rarement dans notre corpus). Nous pouvons proposer deux sous-classes pour ces items qui correspondent:

o soit à une écriture non intentionnée (erreur de touche sur le clavier, par exemple) comme cela semble être le cas dans "dimache", "qiue", "szrviette" ou encore "confortablemenr". Ces items apparaissent une seule fois dans le corpus. En effet, les items originaux ayant une graphie non intentionnée se traduisent par un nombre d'occurrences faible dans le corpus, s'expliquant par le fait qu'une même erreur sur un même item est peu probable.

o soit à une réelle volonté de la part de l'utilisateur de créer un item original. Nous les distinguons des items de la sous-classe précédemment décrite en ce sens qu'ils sont réellement originaux, c'est-à-dire que la graphie ne semble pas due à une erreur de

Page 88: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Cédric Lopez, Mathieu Roche & Rachel Panckhurst 83

frappe. C'est le cas par exemple de "Keskitariv", "coa" "juskau", "fmlle", qui apparaissent une seule fois dans le corpus. Lorsque ces items apparaissent plus d'une fois dans le corpus, mais avec un nombre d'occurrences toutefois faible (de l'ordre d'une dizaine dans notre corpus), on peut considérer qu'il ne s'agit ni d'inventions de la part de l'utilisateur, ni de graphies largement adoptées par la communauté. Cette proposition est renforcée par l'observation de nombreuses graphies pour un même mot (par exemple pour "coa": "koi", "qoi", "qua", etc.). Nous pourrions qualifier certains items de "naissants" afin d'émettre l'idée qu'il s'agit d'un item qui pourrait être adopté prochainement par une plus large partie des "textoteurs". Cela pourrait être le cas par exemple de "depech" (2 fois), "sapel" (2 fois), "mkini" (4 fois), "kun" (4 fois), "staprem" (5 fois), "komen" (5 fois), "moua" (5 fois), ou "kome" (6 fois).

Les constatations précédentes nous amènent à évoquer la question de l'adoption d'un item dans le vocabulaire SMS (en considérant que ce vocabulaire correspond à l'ensemble des graphies utilisables pour la rédaction d'un SMS). Nous avons repris l'ensemble des items appartenant aux classes C2.1 à C2.6 ainsi que C3 (c'est-à-dire tous les items de notre corpus 88milSMS absents du LEFFF). En représentant leur nombre d'occurrences (fréquence) normalisé sur un graphe (non représenté dans cet article), on constate qu'une majeure partie des INS employés dans 88milSMS constituent la longue traîne (entre 0 et 1%), et que de très rares items originaux sont plus fréquemment employés (seulement 8 INS ont une fréquence supérieure à 1%) avec une fréquence maximum de 4,05% pour la binette "^^".

Le vocabulaire spécifique aux SMS ne respecte donc pas la loi de Zipf (observation empirique concernant la fréquence des mots dans un texte). Or, la loi de Zipf est valide quelle que soit la langue sur laquelle elle est appliquée. Quels que soient les sujets ou les auteurs, elle présente toujours la même allure. Aujourd'hui, les INS ne sont donc pas suffisants pour composer un vocabulaire complet. La créativité lexicale ne semble donc pas réduire le vocabulaire en rassemblant derrière un simple mot une multitude de significations (Bully 1969), comme cela est interprété dans le cas de la loi de Zipf, mais au contraire d'augmenter le vocabulaire.

Parmi la multitude d'INS proposés par les utilisateurs, certains seront ainsi adoptés, voire figés, par la communauté (par exemple "tkt" utilisé 908 fois dans notre corpus).

Page 89: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

84 Classification des items inconnus de 88milSMS

Catégorie Nombre d'items différents

Item ayant le nombre d'occurrences maximum pour chaque classe

C1.1 22'211 de (24'908)

C1.2 2'530 a (16'017)

C2.1 83 . (74'922)

C2.2 500 19h (172)

C2.3 2'537 Mdrrr (741)

C2.4 481 . (74'922)

C2.5 1'971 <3 (1'540)

C2.6 54 :) (6'704)

C3 17'891 lol (3'341)

Fig. 3 : Description synthétique de la ressource générée.

4. Conclusion

Dans le but d'aider à l'identification de la créativité lexicale au sein du corpus 88milSMS, nous avons proposé, dans cet article, une approche automatique de classification des items inconnus. L'application, développée en Java, a permis de générer une ressource constituée de 11 classes à laquelle l'utilisateur peut accéder selon ses propres objectifs de recherche (étude de la créativité lexicale, de l'agglutination, etc.). Notons que de nouvelles classes peuvent être ajoutées facilement.

La mise à disposition d'une telle ressource est fondamentale dès lors que l'on s'intéresse à des tâches telles que le transcodage automatique de SMS en français standardisé. Plus généralement, les outils linguistiques mis à disposition de la communauté du Traitement Automatique du Langage Naturel sont peu robustes lorsqu'il s'agit d'analyser du texte brut issu des réseaux sociaux, tels que Twitter, Facebook, ou encore des blogs ou fora. Dans ce contexte, un prétraitement visant à transcoder l'écrit non standard vers une écriture standard nécessite de nombreuses ressources telles que celle que nous proposons dans nos travaux.

À moyen terme, il sera intéressant de mener une étude comparative des résultats obtenus à partir du corpus 88milSMS avec d'autres corpus de SMS, mais aussi avec d'autres types de corpus comme des données en français issues de Twitter (Bouillot & al. 2012).

Par ailleurs, notre prochain travail consistera à transcoder semi automatiquement les INS découverts dans le corpus 88milSMS: une partie automatique consistera à aligner les items de notre ressource (nous

Page 90: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Cédric Lopez, Mathieu Roche & Rachel Panckhurst 85

évaluerons en particulier l'apport de cette ressource à notre méthode d'alignement (Lopez & al. 2014) avec des items déjà présents (et transcodés) dans d'autres ressources); une partie manuelle sera nécessaire afin de transcoder les INS n'ayant pas été référencés par ailleurs. Ensuite, il sera envisageable d'utiliser notre ressource transcodée manuellement en tant que corpus d'apprentissage afin de la fournir en entrée d'un système d'apprentissage automatique. Ceci pourrait représenter une aide précieuse pour l'identification de certaines règles et permettre ainsi un transcodage automatique des INS à venir.

Bibliographie

Accorsi, P., Patel, N., Lopez, C., Panckhurst, R. & Roche, M. (2014): Seek&Hide: Anonymising a French SMS corpus using natural language processing techniques. In: Cougnon, L.-A. & Fairon, C. (éds.): SMS Communication. A linguistic approach. Amsterdam (John Benjamins), 11-28.

Anis, J. (1998): Texte et ordinateur: l'écriture réinventée? Bruxelles (De Boeck Université).

Beaufort, R., Roekhaut, S., Cougnon, L.-A. & Fairon, C. (2010): A hybrid rule/model-based finite-state framework for normalizing SMS messages. In: Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, 770-779.

Bouillot, F., Poncelet, P., Roche, M., Ienco, D., Bigdeli, E. & Matwin, S. (2012): French Presidential Elections: What are the Most Efficient Measures for Tweets? In: Proceedings of Politics, Elections and Data Workshop (PLEAD'2012). CIKM Workshop, ACM, 23-30, Maui, USA, 23-30.

Bove, R. (2005): Étude de quelques problèmes de phonétisation dans un système de synthèse de la parole à partir de SMS. Actes de RECITAL 2005, 625-634.

Bully, P. (1969): Zipf, créateur de la linguistique statistique. In: Communication et langages, 2 (1), 23-28.

Cavnar, W. B. & Trenkle, J. M. (1994): N-gram-based text categorization. In: Ann Arbor MI, 48113 (2), 161-175.

Cougnon, L.-A. (2015): Langage et sms. Une étude internationale des pratiques actuelles. Cahiers du CENTAL, 8. Louvain-la-Neuve (Presses universitaires de Louvain).

Cougnon, L.-A. & Fairon, C. (éds.) (2014): SMS Communication. A linguistic approach. Amsterdam (John Benjamins).

Fairon, C., Klein, J.-R. & Paumier, S. (2006): SMS pour la science. Corpus de 30.000 SMS et logiciel de consultation. Louvain-la-Neuve (Presses universitaires de Louvain). Manuel+CD-Rom. Disponible: http://www.smspourlascience.be/ (28.6.2015)

Lopez, C., Bestandji, R., Roche, M. & Panckhurst, R. (2014): Towards Electronic SMS Dictionary Construction: An Alignment-based Approach. In: Proceedings LREC, Reykjavik, Iceland, 26-31 May, 2833-2838.

Lui, M., Lau, J. H. & Baldwin, T. (2014): Automatic detection and language identification of multilingual documents. In: Transactions of the Association for Computational Linguistics, 2, 27-40.

Okanohara, D. & Tsujii, J. (2009): Text Categorization with All Substring Features. In: Proceedings of the 2009 SIAM International Conference on Data Mining, 838-846.

Page 91: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

86 Classification des items inconnus de 88milSMS

Panckhurst, R. (2009): Short Message Service (SMS): typologie et problématiques futures. In Arnavielle, T. (coord.): Polyphonies, pour Michelle Lanvin, Université Paul-Valéry Montpellier 3, 33-52.

Panckhurst, R., Détrie, C., Lopez, C., Moïse, C., Roche, M. & Verine, B. (2013): Sud4science, de l'acquisition d'un grand corpus de SMS en français à l'analyse de l'écriture SMS. In : Épistémè – revue internationale de sciences sociales appliquées, 9: Des usages numériques aux pratiques scripturales électroniques, 107-138. Disponible: https://hal.archives-ouvertes.fr/file/index /docid/923618/filename/panckhurst_detrie_lopez_moise_roche_verine_v16.pdf (28.6.2015)

— (2014): 88milSMS. A corpus of authentic text messages in French. Produit par l'Université Paul-Valéry Montpellier III et le CNRS, en collaboration avec l'Université catholique de Louvain, financé grâce au soutien de la MSH-M et du Ministère de la Culture (Délégation générale à la langue française et aux langues de France) et avec la participation de Praxiling, Lirmm, Lidilem, Tetis, Viseo. ISLRN: 024-713-187-947-8.

Patel, N., Accorsi, P., Inkpen, D., Lopez, C. & Roche, M. (2013): Approaches of anonymisation of an SMS corpus. In: Proceedings of CICLING (Conference on Intelligent Text Processing and Computational Linguistics), LNCS, Springer Verlag, March 24–30, 2013, University of the Aegean, Samos, Greece, 77-88.

Sagot, B. (2010): The Lefff, a freely available and large-coverage morphological and syntactic lexicon for French. In: Proceedings of the 7th international conference on Language Resources and Evaluation (LREC 2010), Valletta, Malta. Disponible: http://hal.inria.fr/inria-00521242/ (28.6.2015), 2744-2751.

Stark, E., Ueberwasser, S. & Ruef, B. (2009-2014): Swiss SMS Corpus. University of Zurich. Disponi- ble: https://sms.linguistik.uzh.ch (1.7.2015)

Stenner, S. P., Johnson, K. B. & Denny, J. C. (2011): PASTE: patient-centered SMS text tagging in a medication management system. In: Journal of the American Medical Informatics Association, 19 (3), 368-374.

Vetulani, Z. & Marciniak, J. (2011): Natural language based communication between human users and the emergency center: POLINT-112-SMS. In: Human Language Technology. Challenges for Computer Science and Linguistics. Berlin/Heidelberg (Springer), 303-314.

Vo-Trung, H. (2004): SANDOH - un système d'analyse de documents hétérogènes. In: Proceedings JADT, 1177-1184.

Page 92: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Travaux neuchâtelois de linguistique, 2015, 63, 87-107

Dialogkonstitution und Sequenzmuster in der SMS- und WhatsApp-Kommunikation

Katharina KÖNIG Germanistisches Institut, Westfälische Wilhelms-Universität, Münster

The paper contrasts a monological approach to the analysis of mobile phone text messaging with a dialogical analysis which takes the interactive nature of text messaging as its starting point. Based on a corpus of dyadic text message dialogues, the "classic" text message format is compared to internet-based WhatsApp messages in a conversation-analytic approach. It is argued that WhatsApp messages differ from "classic" text messages not only in their multimodal variability. Writers also use different practices of marking off dialogues as separate entities. Moreover, different sequential patterns emerge in WhatsApp communication: Writers tend to send adjacency pair parts in separate messages which in some cases even leads to a pair-by-pair interaction.

1. Einleitung

Im Januar 2014 veröffentlichte das Allensbach-Institut eine Studie, nach der in der Gruppe der 16-29-Jährigen im Jahr 2013 zum ersten Mal mehr WhatsApp-Nachrichten als SMS verschickt wurden.1 Auch andere Untersuchungen zeigen, dass immer mehr Jugendliche ein Smartphone besitzen und überwiegend internetbasierte messenger-Systeme wie WhatsApp, Viber oder ChatOn nutzen; die "klassische" SMS wird zunehmend verdrängt.2 Ein Grund für die grosse Beliebtheit und die rasche Ausbreitung von WhatsApp und Co. ist sicherlich die Erweiterung der Kommunikationsmöglichkeiten – zum einen durch die kostenlose Integration von Bild, Ton und Video und zum anderen durch die Bereitstellung des Gruppenchats. Der vorliegende Beitrag befasst sich mit der Frage, ob sich darüber hinaus Unterschiede darin zeigen, wie SchreiberInnen die Kommunikationsformen SMS oder WhatsApp für den dialogischen Austausch nutzen, ob und wie sie einzelne Dialogeinheiten abgrenzen und ihre Beiträge sequenzieren.

1 Ein Kurzbericht der Studie findet sich unter http://tinyurl.com/o8fjtbc (letzter Zugriff: 20.03.2015). 2 Dies belegen eindrücklich etwa die KIM-Studie 2014 (abrufbar unter:

http://www.mpfs.de/index.php?id=646&L=0, letzter Zugriff 20.03.2015) und die JIM-Studie 2014 (abrufbar unter: http://www.mpfs.de/index.php?id=631, letzter Zugriff 20.03.2015).

Page 93: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

88 Dialogkonstitution und Sequenzmuster bei SMS und WhatsApp

2. Von einer monologischen zur dialogischen Analyse mobiler Schriftlichkeit

Mit der raschen und weiten Verbreitung der mobil übermittelten, schriftlichen Kurznachrichten wuchs auch das Interesse der linguistischen Forschung an "typischen" sprachlichen und kommunikativen Mitteln bei SMS- und Whats-App-Nachrichten. Zu den häufig aufgeführten Phänomenen zählen etwa die Verwendung von Emoticons (vgl. Arens & Nösler 2014; Imo 2015), Emphasemarkierungen durch Grossschreibung oder Zeicheniteration (vgl. Dittmann 2006; Schnitzer 2012), die Verwendung SMS-spezifischer Akronyme und Abkürzungen (HDL, HDGDL) sowie syntaktischer Reduktionsformen (vgl. Bieswanger 2007; Döring 2002a, b; Schlobinski & al. 2001) – wie sie etwa in den folgenden zwei SMS-Nachrichten beobachtbar sind: Beispiel 1: #1194 (SMS)

Oh,nichts von gehört,haben uns heut kaum gesehn...muß bissl bürokratisches erledigen,deshalb bei mir am besten 12.30 o nachmittags(um 16.30).sag

einfach!lg 16.03.2010 - 21:39:29

Beispiel 2: #365 (SMS) Ja,können uns halb neun am Bhf treffen.Halb acht ist wahrscheinlich n bissel

früh.Mallorca?Das ist ja cool,musste mir dann am SA genauer erzählen:-)Gute Nacht&lg

23.03.2011 - 21:44:18

Anstelle der Konjunktion oder verwendet die erste Schreiberin ein simples o ("12.30 o nachmittags"). Das Wort Bahnhof wird in Beispiel 2 nicht ausgeschrieben, sondern in der Kurzform Bhf angeführt; beide Nachrichten werden mit der konventionalisierten Schlussformel lg für Liebe Grüße beendet. Auf syntaktischer Ebene fällt auf, dass in beiden Nachrichten etwa das Personalpronomen wir im Vorfeld nicht realisiert wird, sondern aus dem Kontext zu rekonstruieren ist: "[wir] haben uns heut kaum gesehn" bzw. "[wir] können uns halb neun am Bhf treffen". Ebenfalls auffällig in beiden Nachrichten ist das Fehlen von Spatien nach Satzzeichen. Solche und ähnliche Verfahren gelten als typische Merkmale der SMS- oder WhatsApp-Kommunikation (für einen Forschungsüberblick vgl. Thurlow & Poff 2013); die Veröffentlichung diverser Lexika und Handbücher zur SMS-Sprache (etwa Schlobinski 2009) spiegelt dabei das grosse öffentliche Interesse an den genannten Phänomenen.

Die auf eine einheitliche SMS-"Sprache" ausgerichtete Analyse der genannten schriftbasierten Praktiken mobiler Kommunikation basiert zum grossen Teil auf dekontextualisiert betrachteten Einzelnachrichten (vgl. Spagnolli & Gamberini

Page 94: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Katharina König 89

2007 für eine ähnliche Kritik).3 Die Mitteilungen und damit auch die genannten sprachlichen Mittel werden nicht in ihrem ursprünglichen dialogischen Verwendungszusammenhang untersucht. An den oben genannten Beispielen ist jedoch auf verschiedenen strukturellen Ebenen klar ablesbar, dass es sich um reaktive Mitteilungen handelt, die aus einer (längeren) Dialogstruktur entnommen sind. Sowohl die Interjektion "oh" (Beispiel 1) als auch das responsive "ja" direkt zu Beginn von Beispiel 2 weisen darauf hin, dass den Nachrichten bereits andere vorausgegangen sein müssen.4

Auch auf der Ebene kommunikativer Handlungen sind Bezugnahmen auf eine vorherige Interaktion zu erkennen: In Beispiel 1 erfolgt die Verhandlung eines Verabredungstermins, ohne dass Anlass und Ort der Verabredung noch einmal näher benannt werden. Der explizierende Kommentar "halb acht is wahrscheinlich n bissl früh" in Beispiel 2 kann sich auf einen Vorschlag in der vorhergehenden Nachricht beziehen. Auch das folgende interrogative "Mallorca?" samt Aufforderung, mehr zu erzählen, deutet auf eine Erwähnung im vorhergehenden Interaktionsverlauf hin. An diesen exemplarischen Beobachtungen zeigt sich, dass die sprachlichen und kommunikativen Mittel in den Texten mobiler Schriftlichkeit auf ein Gegenüber ausgerichtet und eng an die jeweils zu bearbeitenden kommunikativen Aufgaben und Ziele angebunden sind. Auch wenn die angeschriebene Person im Gegensatz zu face-to-face-Gesprächen nur das Produkt, nicht aber die Produktion eines Beitrags rezipieren kann, so ist an den angeführten Beispielen doch klar erkennbar, dass sie einer Sequenz von aufeinander bezogenen Nachrichten entnommen sind und sich geordnet (vgl. Bergmann 2001) auf diese beziehen. Hieraus ergibt sich die Notwendigkeit einer dialogischen Analyse von SMS- und WhatsApp-Nachrichten, die im vorliegenden Beitrag unter Bezug auf bisherige konversations- bzw. gesprächsanalytische Arbeiten zur SMS-Kommunikation eingelöst werden soll (vgl. Günthner 2011, 2012; Hauptstock, König & Zhu 2010, Schmidt 2006, Schmidt & Androutsopoulos 2004). Im Anschluss an eine Charakterisierung der beiden Kommunikationsformen soll verglichen werden, wie einzelne Dialoge konstituiert werden und welche prototypischen sequentiellen Muster sich in der SMS- und der WhatsApp-Kommunikation beschreiben lassen.

3 Vgl. Dürscheid & Frick 2014: 159: "[Es geht] den Autoren nicht um die Analyse von Sequenzen

kommunikativer Akte (CASs), sondern um die sprachlichen Merkmale einzelner SMS (CAs) und um die Frage, welchen Einfluss die medialen Bedingungen (z.B. Zahlentastatur, Zeichenbeschränkung) auf das Schreiben haben."

4 Geteiltes Interaktionswissen zwischen den SchreiberInnen ist zudem auch notwendig, damit die elliptische Äusserung "nichts von gehört" (Beispiel 1) für die Adressatin/den Adressaten verständlich ist (vgl. Günthner 2011 zu Verfahren des "recipient design" in SMS-Dialogen).

Page 95: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

90 Dialogkonstitution und Sequenzmuster bei SMS und WhatsApp

3. Die Kommunikationsformen SMS und WhatsApp

Während kommunikative Praktiken in der SMS-Kommunikation bereits in zahlreichen linguistischen Studien beschrieben worden sind, gibt es bislang nur vereinzelt Studien, die sich mit dem messenger-System WhatsApp befassen (vgl. Arens 2014; Dürscheid & Frick 2014; Schnitzer 2012). SMS und WhatsApp werden im Folgenden mit Holly (2011) und Dürscheid (2005) als Kommunikationsformen bzw. "kommunikative Konstellationen" (vgl. Dürscheid 2005: 5) gefasst, die durch das Medium des Handys übermittelt werden. Innerhalb der kommunikativen Konstellationen SMS und WhatsApp können sich musterhafte Verfestigungen oder komplexe Gattungen (vgl. Günthner & Knoblauch 1994) ausbilden.5 Der vorliegende Beitrag hat jedoch keine spezifischen Gattungen, sondern allgemeine Sequenzmuster in beiden Kommunikationsformen zum Gegenstand. Es soll zunächst geklärt werden, wie die kommunikativen Konstellationen SMS und WhatsApp jeweils ausgestaltet sind, um hieran anschliessend in einem konversationsanalytisch geprägten Zugang spezifische Praktiken der Dialogkonstitution und des Dialogaufbaus darzustellen.

Sowohl SMS- als auch WhatsApp-Nachrichten werden als eine Form der keyboard-to-screen-Kommunikation (vgl. Jucker & Dürscheid 2012; Dürscheid & Frick 2014) über das Medium des Handys vermittelt.6 Während SMS über das Mobilfunknetz verschickt werden, ist für den WhatsApp-messenger eine Internetverbindung zum Senden und Empfangen der Nachrichten notwendig. Beide Kommunikationsformen bedienen sich des Zeichentyps der geschriebenen Sprache zur räumlichen Distanzkommunikation und sind grundlegend dialogisch ausgerichtet. Zeitlich können beide Kommu-nikationsformen asynchron bis quasi-synchron gebraucht werden. Der Prozess des Verfassens einer Nachricht ist dabei durch komplexe Informationsbezüge bestimmt: Während man bei SMS lediglich eine Sendebestätigung erhalten kann, wird über den WhatsApp-messenger sowohl der Versand als auch das Lesen einer Nachricht durch jeweils einen blauen Haken angezeigt. Zusätzlich bekommt man bei WhatsApp eine Information darüber, ob NutzerInnen gerade schreiben oder wann sie zuletzt online waren.7 Auch wenn eine Einbindung von Bildern als MMS in SMS-Dialoge möglich ist, ist es ein distinktives Merkmal von WhatsApp-Dialogen, dass sie

5 Als Gattungen in der SMS-Kommunikation sind z.B. Klatsch-Nachrichten (Krabbenhöft 2014),

Liebes-SMS (Schmidt & Androutsopoulos 2004, Imo 2012), Vorwürfe (Quader 2014) und Verabredungen (Androutsopoulos & Schmidt 2002) beschrieben. Vgl. auch Ling, Julsrud & Yttri (2005) und Schmidt (2006).

6 Bei WhatsApp ist seit Januar 2015 zudem eine Browser-gestützte PC-Bedienung möglich. 7 Im Folgenden wird jedoch keine Produktions-, sondern eine produktorientierte Analyse

vorgenommen (vgl. aber Beißwenger 2008).

Page 96: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Katharina König 91

neben Bilden auch Audio- und Video-Dateien als multimodale Erweiterungen umfassen können. Untersuchungen hierzu finden sich etwa bei Dürscheid & Frick (2014) und Arens (2014).8

Ein weiterer zentraler Unterschied besteht in der Variabilität der Anzahl an SchreiberInnen: Während bei der SMS meist zwei Personen miteinander interagieren (one-to-one, auch wenn eine einzelne Nachricht durchaus an mehrere EmpfängerInnen geschickt werden kann, one-to-many), ist der Gruppenchat, in dem mehrere SchreiberInnen gleichzeitig miteinander in Kontakt treten können (many-to-many), eine häufig genutzte Interaktionsmöglichkeit bei WhatsApp. Die Bezeichnung "Gruppenchat" stellt eine gewisse Nähe zu computerbasierten Chat-Interaktionen her (vgl. auch Dürscheid & Frick 2014: 166f.), die jedoch empirisch noch zu validieren ist. Ähnlich wie bei solchen Chats werden einzelne Beiträge nach dem Mühlenprinzip (vgl. Beißwenger 2007; Storrer 2001) angeordnet. Anders als in anonymen Chat-Formaten kennen sich die meisten SchreiberInnen jedoch in aller Regel:9 Für die initiale Kontaktherstellung ist die Kenntnis der Handynummer relevant. Während der "klassische" Chat i.d.R. nicht für eine zeitlich zerdehnte Kommunikation genutzt wird,10 müssen die SchreiberInnen bei WhatsApp nicht immer zur gleichen Zeit auf die Interaktion fokussiert sein: Ähnlich wie bei SMS kann es auch bei WhatsApp-Dialogen zu längeren Schreibpausen kommen.

SMS- und WhatsApp-Dialoge werden auf den meisten Handys als kontinuierlicher Nachrichtenstrang angezeigt (vgl. Dürscheid & Frick 2014: 169). Zuvor gesendete Nachrichten bleiben also in einem Bildschirmverlaufsprotokoll (vgl. Beißwenger 2007) vorhanden und sind über einen längeren Zeitraum wieder abrufbar. Je nach Handymodell lassen sich einzelne Nachrichten auch auf dem Sperrbildschirm oder als Bannernachricht am Bildschirmrand lesen – also auch dann, wenn die jeweilige Anwendung gerade nicht geöffnet ist. Während SMS-Nachrichtenstränge bei neueren Handymodellen personenbezogen angeordnet sind,11 können WhatsApp-Nachrichten durch die Gruppenchatfunktion auch thematisch oder anlassbezogen angeordnet werden (etwa: "Martin und Lisas Hochzeit" oder

8 Für beide Kommunikationsformen gilt jedoch, dass typographische Variationen (z.B. Schriftart, -

grösse, -farbe) (bislang) nur begrenzt möglich sind und somit nicht als Ressource zur Verfügung stehen.

9 Zwar kann es dazu kommen, dass man zu einem Gruppenchat mit mehreren Unbekannten eingeladen wird, jedoch ist man dann mindestens mit der einladenden Person bekannt.

10 Beißwenger (2007: 37) fasst die "Gleichzeitigkeit des Orientiertseins der Kommunikanten auf den gemeinsamen Austausch" als grundlegende Eigenschaft der Chat-Kommunikation.

11 Dürscheid & Frick 2014 kommen zu einer anderen Charakterisierung, da die beiden Autorinnen die SMS-Kommunikation mit älteren Handymodellen zu ihrer Beschreibungsgrundlage gemacht haben.

Page 97: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

92 Dialogkonstitution und Sequenzmuster bei SMS und WhatsApp

"die Handball-Crew"). Dies kann bedeuten, dass eine thematische Kohärenz nicht immer wieder explizit hergestellt werden muss, sondern allein schon durch die Rahmung des Gruppenchats gegeben ist.

Im Folgenden gilt es, näher zu beschreiben, wie die SchreiberInnen diese grundlegenden kommunikativen Rahmenbedingungen nutzen. Es wird untersucht, ob und wie SchreiberInnen in den beiden Kommunikationsformen SMS und WhatsApp durch sprachliche Mittel distinkte Dialoge konstituieren (Abschnitt 3) und welche spezifischen sequentiellen Muster sich als "Nutzungsformen" (Dürscheid & Frick 2014: 164) im zeitlichen und interaktiven Vollzug mobiler Schriftlichkeit herausgebildet haben (Abschnitt 4).

4. Zur Dialogkonstitution bei WhatsApp und SMS

Die vorliegende Untersuchung basiert auf einer Sammlung von 12.098 SMS- und WhatsApp-Nachrichten (Stand 20.03.2015), die am Centrum Sprache und Interaktion (WWU Münster, http://cesi.uni-muenster.de/~SMSDB/) seit 2010 mittels einer passwortgeschützten online zugänglichen Datenbank aufgebaut wird. Zusätzlich zu den anonymisierten Nachrichten werden ebenso Metadaten zu den SchreiberInnen, Gattungen bzw. Schreibanlässen und Eingabemodi erhoben (vgl. Imo 2012 für eine ausführliche Beschreibung). Die Datensammlung erfolgt überwiegend im Rahmen von universitären Lehrveranstaltungen an der WWU und umfasst daher zu grossen Teilen mobile Schreibpraktiken aus dem studentischen Milieu Münsters.12 SMS- und WhatsApp-Nachrichten werden nicht einzeln abgespeichert, sondern als Dialoge hinterlegt, die durch eine spezifische Nummerierung (in Bsp. 1: #1194) identifizierbar sind.13 Da die Datenbank lediglich für die Interaktion zweier SchreiberInnen ausgelegt ist, können WhatsApp-Gruppenchats (derzeit) nicht erfasst werden. Daher erfolgt in diesem Beitrag lediglich eine Analyse dyadischer SMS- und WhatsApp-Interaktionen. Zukünftige Untersuchungen müssen zeigen, inwiefern sich in Gruppenchats mit drei und mehr SchreiberInnen andere Dialog- und Sequenzmuster beschreiben lassen (vgl. Abschnitt 5). 50 SMS- und 50 WhatsApp-Dialoge wurden unabhängig von ihrer Länge, vom Schreibanlass, der Beziehungskonstellation oder dem Alter der SchreiberInnen zusammengestellt und in Bezug auf ihren zeitlichen Verlauf, Rahmungselemente (Anreden, Grussformeln), die Themen-entwicklung und Sequenzierungsmuster verglichen.

12 Ein Anspruch auf Repräsentativität kann jedoch nicht erhoben werden, da die Studierenden

selbst auswählen, welche Daten sie zur Verfügung stellen und welche nicht. Auch wenn sich mitunter recht persönliche Daten (wie etwa Streit-Sequenzen) in der Datenbank finden, kann keine Aussage darüber getroffen werden, welchen Anteil solche Themen und Anlässe im kommunikativen Haushalt (vgl. Luckmann 1988) der SchreiberInnen haben.

13 Zudem konnten die Studierenden für jeden Dialog einen Titel vergeben.

Page 98: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Katharina König 93

Für die folgenden Analysen ist zentral, dass die Studierenden selbst die Dialoge in die SMS-Datenbank eingestellt haben, ohne dass in allen Fällen eine einheitliche Definition des Begriffs "Dialog" vorgegeben wurde. Es oblag also den Studierenden, zu entscheiden, welche Einzelnachrichten aus einem kontinuierlichen Datenstrang einen Dialog konstituieren, wann also ein Dialog beginnt und wann er als beendet gelten kann. Aussagen über die vorhergehende oder folgende schriftliche Kommunikation lässt das Daten-bankdesign nicht zu. Im Folgenden soll zunächst herausgearbeitet werden, welche Merkmale beim Einstellen in die Datenbank zur Klassifikation als Dialog gedient haben können bzw. wie die SchreiberInnen selbst anzeigen, wann eine neue Interaktionseinheit einsetzt. Bei manchen Dialogen scheint ein zeitliches Kriterium für die Einteilung relevant gewesen zu sein. So gibt es Abfolgen von Dialogen,14 bei denen im ersten Dialog etwa eine Verabredung getroffen wurde und im zweiten, zeitlich später situierten Dialog der Termin konkretisiert wird. Bei anderen Eingaben scheint ein thematisches Kriterium für die Zusammenfassung zu einem Dialog relevant zu sein; eventuell auftretende längere Zeitabstände werden für die Einteilung dagegen nicht als relevant behandelt. Beispiel 3: #1303 (SMS)

Jens alter rabauke. Wie ist die Lage? Gruß Jan Nachricht #1 - 01.01.2011 - 17:40:05

Moin Janny.hab diese Woche auf unsere Verfassung geschoren ;) bin grad in Braunschweig,Eltern besuchen und Geburtstag vom Freund.was machst du so?

wie geht`s Lisa?lg Jens Nachricht #2 - 01.01.2011 - 18:10:05

Na dann Glückwunsch. Komplett vergessen zu schreiben. Bei uns alles in Butter. Lottchen geht`s gut. Müssen mal wieder was machen. Lass mal was von dir hören

wenn du Zeit hast. Gruß

Nachricht #3 - 02.01.2011 - 20:50:05

Jens. Morgen schon was geplant? Gruß Jan Nachricht #4 - 14.01.2011 - 18:19:05

Hey jan.ich bin in albersloh mit Lena und ihrer Family.Lena fliegt nämlich am Sonntag zurück nach London.habt ihr die Woche über (außer Montag) Zeit?wir könnten z.b. Aasee Mensa gehen abends...ihr könnt euch ja zeitnah einfach mal

melden ;) schönes we!!lg Jens Nachricht #5 - 14.01.2011 - 18:20:05

Alles klar. Dann mal schöne Grüße und guten Flug. Bei mir geht`s dann nur am Do. Dann lass mal do festhalten. Melde mich dann. Schönes Wogende Nachricht #6 - 14.01.2011 - 19:06:05

14 Da die Daten anonymisiert vorliegen, kann im Regelfall nicht festgestellt werden, welche

SchreiberInnen gleich sind. Mitunter lässt sich dies aber über eingegebene Kommentare erschliessen oder durch die Speicherreihenfolge in der SMS-Datenbank plausibilisieren.

Page 99: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

94 Dialogkonstitution und Sequenzmuster bei SMS und WhatsApp

Ok digga!halten wir fest.macht euch ne schöne zeit :) Nachricht #7 - 14.01.2011 - 19:38:05

Wie siehts heut abend aus? Nachricht #8 - 20.01.2011 - 09:40:05

Zwar liegen zwischen Nachrichten #3 und #4 und auch zwischen #7 und #8 jeweils mehrere Tage, jedoch wird der gleiche Gegenstand (ein gemeinsames Treffen) verhandelt. Zudem besteht ein Zusammenhang der zeitlich abgesetzten Nachricht #8 mit dem vorhergehenden Dialog darin, dass durch Jens' Aufforderung in Nachricht #5 ("ihr könnt euch ja zeitnah einfach mal melden") und Jans "Melde mich dann" (#6) eine Folgehandlung von Jan relevant gemacht wurde. Auffällig ist aber, dass die durch erneute Anrede markierte Nachricht #4 nicht dazu geführt hat, dass die Kommunikation zwischen den beiden Schreibern von der einstellenden Person in unterschiedliche Dialoge eingeteilt wurde. Es kann jedoch dafür argumentiert werden, dass das Mittel der dialoginternen Anrede, die nicht auf eine vorherige Anrede reagiert, einen Kontextualisierungshinweis (Gumperz 1982) darstellt, mit dem die SchreiberInnen einen Bruch in der Nachrichtenfolge markieren. Das folgende Beispiel der Kommunikation zwischen einem Studenten und seiner Mutter ist in der Datenbank zwar nur als ein einzelner Dialog dokumentiert (es handelt sich immer um kurzfristige organisatorische Abstimmungen der beiden SchreiberInnen), an der sprachlichen Oberfläche werden durch Anreden jedoch an bestimmten Stellen Grenzen markiert: Beispiel 4: #1882 (SMS) Hallo mutti! Treffen wir uns um halb eins beim vapiano? Ist beim picasso museum Nachricht #1 - 04.12.2012 - 10:32:00

Und wo ungefähr ist das Museum Nachricht #2 - 04.12.2012 - 11:04:00

Das ist bei den arkaden. Frag olli wenn er kommt, der kann dir das sagen Nachricht #3 - 04.12.2012 - 11:05:00

Weis bescheid Nachricht #4 - 04.12.2012 - 11:06:00

(3 Nachrichten ausgelassen)

Hallo mutti. Kann ich morgen abend den großen wagen zum Getränke holen haben? Und kannst du mir geld für Getränke geben? Bin wohl gegen 20uhr da

Nachricht #8 - 05.12.2012 - 16:33:00

Hi Matze sind heute Abend da schreib wenn du kommst lg Mama Nachricht #9 - 06.12.2012 - 08:42:00

Bist du heute in ms? Nachricht #10 - 06.12.2012 - 08:56:00

Nein Oli und Steffi ziehen nächstes Wochenende um Nachricht #11 - 06.12.2012 - 08:58:00

(3 Nachrichten ausgelassen)

Page 100: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Katharina König 95

Hallo mutti. Der jannik holt mich vom bhf ab. Ich bräuchte dann später nur den großen wagen. Bis später

Nachricht #15 - 06.12.2012 - 15:38:00

Hallo mutti. Der jannik holt irgendwann die Bänke und so. In der Küche steht ne dortmund tasse mit nem umschlag mit bargeld drin. Das ist für ihn.

Nachricht #16 - 10.12.2012 - 11:47:00

Alles klar lg Mama Nachricht #17 - 10.12.2012 - 14:23:00

(4 Nachrichten ausgelassen)

Hi Matze bis jetzt ist geplant, Kaffee und Abendessen bei Steffi und Oliver ! Lg

auch an Sabine Nachricht #22 - 18.12.2012 - 16:09:00

Ok! Sind die alten Meyers auch dabei? Nachricht #23 - 18.12.2012 - 16:13:00

Kann ich nicht genau sagen ,aber geh mal von aus. Nachricht #24 - 18.12.2012 - 16:14:09

Juhu Nachricht #25 - 18.12.2012 - 16:14:00

Hallo mutti. Kann mich heut abend jemand vom bhf holen? Wird wohl 7 oder 8 Nachricht #26 - 19.12.2012 - 14:00:00

Papa ist da mußt ihn anrufen lg Nachricht #27 - 19.12.2012 - 14:02:00

In dem vorliegenden Nachrichtenstrang finden sich immer wieder explizite Anreden der InteraktionspartnerInnen ("Hallo mutti" in den Nachrichten #1, #8, #15, #16, #26, "Hi Matze" in Nachrichten #9, #19, #22), deren dialogkonstituierende Kontextualisierungsfunktion jedoch unterschiedlich zu bewerten ist. Anreden in reaktiven Zügen sind als Gegengruss zu klassifizieren, die keinen neuen Abschnitt eröffnen. Mit dem Wegfall von Anreden in den darauf folgenden Nachrichten zeigen die SchreiberInnen einen "continuing state of incipient talk" (Schegloff & Sacks 1973: 325; vgl. auch Günthner 2011: 15) an. Mit einer nicht reaktiven Anrede kontextualisieren die SMS-SchreiberInnen in obigem Beispiel dagegen, dass sie eine neue Interaktionseinheit, einen neuen Dialog beginnen.15 Diese Herauslösung separater Dialogeinheiten lässt sich jedoch nur in Abgleich zum vorhergehenden Diskurs bestimmen: Dass die Anreden der Mutter (mit Ausnahme von #22) keine Dialoginitiierungen darstellen, ist allein durch den analytischen Einbezug des vorhergehenden Kontexts erkennbar. Methodisch zeigt sich an dieser Stelle also, dass die Kategorie des "Dialogs", wie sie bei datenbankgestützten Erhebungen angelegt sein kann, zu reflektieren ist. Zum Teil steht die Dialogeinteilung der einstellenden Personen in Kontrast zu den

15 Dass allein ein zeitlicher Abstand hierfür nicht ausreichend ist, hat das Beispiel 3 belegt.

Page 101: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

96 Dialogkonstitution und Sequenzmuster bei SMS und WhatsApp

sprachlichen Markierungen der DialogteilnehmerInnen. Analysen von längeren Nachrichtensträngen in dem untersuchten Korpus jedoch, dass bei SMS-Dialogen durch Anreden häufig einzelne Abschnitte als distinkte Interaktionseinheiten markiert werden.16

Während bei der SMS-Interaktion in Beispiel 4 zumindest ein thematischer Zusammenhang in der Dialogfolge erkennbar ist (kurzfristige terminliche Abstimmungen), die bei der Datenbankeingabe zu einer Einteilung als Dialogeinheit geführt haben kann, erweist es sich bei den in der Datenbank gesammelten WhatsApp-Dialogen tendenziell als schwierig, eine solche thematische Kohärenz als mögliches Klassifikationskriterium zu rekonstruieren. Zunächst fällt auf, dass die eingegebenen Dialoge länger sind (sie umfassen im Untersuchungskorpus bis zu 56 Einzelnachrichten, vgl. Bsp. 5)17 und zudem auch längere Zeiträume überspannen. Während der Grossteil der SMS-Dialoge in der Datenbank an nur einem Tag stattgefunden hat (Bsp. 4 stellt insofern eine Abweichung vom prototypischen SMS-Muster dar), finden sich bei den eingespeisten WhatsApp-Dialogen auch Beispiele, die mehrere Tage oder Wochen umfassen. So stammen die folgenden Nachrichten aus einem insgesamt 56-zügigen WhatsApp-Dialog, der sich vom 29.03.2014 bis zum 26.04.2014 entwickelt. Beispiel 5: #2288 (WhatsApp)

kaffee?

Nachricht #8 - 29.03.14 - 17:37:59

wir kommen ma runter Nachricht #9 - 29.03.14 - 17:29:28

milch? Nachricht #10 - 29.03.14 - 17:39:31

wer ist wir? Nachricht #11 - 29.03.14 - 17:39:35

kai und ich

Nachricht #12 - 29.03.14 - 17:39:40

16 Vgl. Dürscheid & Frick 2014: 169: "[Ein] Nachrichtenstrang kann sich in der Summe aller

Einträge über einen langen Zeitraum erstrecken. Folglich wäre es auch falsch anzunehmen, dass jede dieser Konversationen einer einzelnen, langen Sequenz kommunikativer Akte (CAS) entspricht. Vielmehr kann es sich um eine Reihe verschiedener CASs handeln, die zu verschiedenen Zeiten entstanden, vom System aber zu einem Strang zusammengefügt wurden."

17 Es ist jedoch davon auszugehen, dass auch längere Folgen möglich sind. Die Studierenden hatten in der Regel die Zielvorgabe, 50 Nachrichten in die Datenbank einzustellen.

Page 102: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Katharina König 97

milch hab ich noch ein bisschen Nachricht #13 - 29.03.14 - 17:39:41

ach kai ist noch da^^ Nachricht #14 - 29.03.14 - 17:39:46

bring ihn mit Nachricht #15 - 29.03.14 - 17:39:48

und tassen Nachricht #16 - 29.03.14 - 17:39:50

milch und zucker hab ich hier Nachricht #17 - 29.03.14 - 17:39:54

george ezra Nachricht #18 - 30.03.14 - 15:55:54

Danke Nachricht #19 - 30.03.14 - 16:41:05

schreibst du mir, wenn ud durch bist? Nachricht #20 - 31.03.14 - 11:30:51

ist schon in der dropbox. Nachricht #21 - 31.03.14 - 11:35:22

Mir wird grade klar, woher "grün vor neid" kommt. Nachricht #22 - 31.03.14 - 11:42:52

wo willste denn hin? Nachricht #23 - 01.04.2014 - 18:19:49

los, weil ich keine zeit mehr habe. war grade noch 2 min im haus unterwegs. claudia kommt mich aber in 5 min abholen...

Nachricht #24 - 01.04.2014 - 18:26:49

ist bei euch zwischen 18 und 22 uhr noch ne waschmaschine frei? Nachricht #25 - 03.04.2014 - 09:36:05

keine ahnung Nachricht #26 - 03.04.2014 - 09:37:54

darf ich gleich bei dir einfach reinklommen? Nachricht #27 - 03.04.2014 - 09:38:49

oder soll ich klopfen? Nachricht #28 - 03.04.2014 - 09:38:53

ja Nachricht #29 - 03.04.2014 - 09:38:53

also in 2 minuten Nachricht #30 - 03.04.2014 - 09:38:55

also 1 Nachricht #31 - 03.04.2014 - 09:38:56

k Nachricht #32 - 03.04.2014 - 09:39:07

hast du noch milch? Nachricht #33 - 03.04.2014 - 16:43:38

Page 103: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

98 Dialogkonstitution und Sequenzmuster bei SMS und WhatsApp

ja Nachricht #34 - 03.04.2014 - 16:44:29

Im Gegensatz zu den Beispielen 3 und 4 führen die Schreiberinnen in dem obigen Beispiel einen auf der sprachlichen Oberfläche nahtlos gestalteten Dialog. Obwohl in der Abfolge der Nachrichten diverse neue Themen begonnen werden (vgl. die Übergänge von #17/#18 sowie #19/#20, #22/#23, #24/#25 oder #32/#33), erfolgt anders als in den SMS-Dialogen keine erneute Anrede;18 auch Gruss- und Abschlussformeln, die einzelne Einheiten ausgliedern könnten, finden sich in diesem Dialog nicht. Dieses charakteristische Muster deutet darauf hin, dass ein klar angegrenztes Dialogformat, das als solches etwa durch Anreden markiert wird, bei den WhatsApp-NutzerInnen, deren Nachrichten in der vorliegenden Datenbank repräsentiert sind, keine relevante Kommunikationspraxis mehr darstellt. Auch über thematische und zeitliche Grenzen hinweg wird in den untersuchten WhatsApp-Nachrichtensträngen ein "continuing state of incipient talk" (Schegloff & Sacks 1973: 325) angezeigt. Die SchreiberInnen nutzen die Kommunikationsform tendenziell also anders, als dies in den untersuchten Daten bei den "klassischen" SMS-Interaktionen der Fall ist. In Bezug auf die Ebene der Dialogkonstitution ist die Tendenz feststellbar, dass sich neue Nutzungsformen bei der WhatsApp-Kommunikation ausgebildet haben, die eine explizite Separierung distinkter Dialogeinheiten irrelevant setzen.

Zudem haben die Überlegungen zur Erhebung und Aufbereitung von SMS- und WhatsApp-Kommunikation gezeigt, dass eine Differenzierung zwischen Dialogen als Konstrukt der einstellenden Person und als Teilnehmerkategorie vorgenommen werden sollte. Um die teilnehmerbasierte Vorstellung einer zusammengehörigen Nachrichtenfolge rekonstruieren zu können, sollten fortlaufende Nachrichtenstränge untersucht werden. Nur so lassen sich gesicherte Aussagen über die Relevanz der Einteilung in separate Interaktionseinheiten machen.

5. Sequenzmuster in der SMS- und WhatsApp-Kommunikation

Wurden bislang unterschiedliche Verfahren der Dialog- bzw. Einheitenkonstitution in der SMS- und WhatsApp-Kommunikation herausgestellt, so sollen in den folgenden Abschnitten sequentielle Besonderheiten in den beiden Kommunikationsformen aufgezeigt werden, die sich durch den zeitlichen Ablauf des dialogischen Austauschs in der mobilen Schriftlichkeit ergeben. Bei der Untersuchung von gesprochener Alltags-

18 Auch Schnitzer 2012 kommt bei der Untersuchung eines explorativen Korpus zu einem

ähnlichen quantitativen Befund.

Page 104: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Katharina König 99

kommunikation sucht die Konversationsanalyse nach Regelmässigkeiten und Geordnetheiten, mit denen die Interagierenden ihre Interaktion strukturieren, mit denen sie sich verständigen und gegenseitiges Verstehen sichern (vgl. Bergmann 2001). Adjazenzpaare wie die Folge von Frage und Antwort oder Gruss und Gegengruss stellen ein basales sequentielles Muster mündlicher Interaktion dar (vgl. Schegloff & Sacks 1973). Äussert ein Sprecher den ersten Teil eines solchen Paares (first pair part), so eröffnet er hiermit eine konditionelle Relevanz für die angesprochene Person, in unmittelbarer Folge mit einem second pair part zu reagieren.19 Für die SMS-Kommunikation hat Günthner (2011; 2012) ein spezifisches sequentielles Muster beschrieben, bei dem in einer SMS-Nachricht gleich mehrere erste Teile von Adjazenzpaaren realisiert werden. Diese konditionellen Relevanzen werden von den antwortenden SchreiberInnen in der gleichen Reihenfolge nacheinander "abgearbeitet", wie das folgende Beispiel eines SMS-Dialogs zwischen Mutter und Tochter zeigt: Beispiel 6: #2204 (SMS) Guten Morgen, meine Lieblingsmaus! Hoffe du hast gut geschlafen. Wünsche dir viel Erfolg für heute. Frühstück schön ausgiebig und denk dran: Du schaffst das

schon. Ist die Klausur um 14 Uhr? Wann kommst du dann nach Hause? Küsschen Mama.

Nachricht #1 - 12.02.2014 - 9:04

Hallo Mami, Ja hab gut geschlafen und mir geht's gut...frühstücken tu ich gleich. Ja richtig, klausur ist um 14 uhr...danach mache ich klarschiff in WG und heute

abend bin ich höchstwarscheinlich Zuhause:) freu mich! Hab dich lieb kuuuuuuss (6 Smileys)

Nachricht #2 - 12.02.2014 - 9:28

Denk an dich, du Süße. Freu mich auch auf dich. (Smiley) Ruf an wenn du da bist wegen Abholen!

Nachricht #3 - 12.02.2014 - 9:31

Die folgende Tabelle stellt eine Rekonstruktion des Aufbaus der ersten beiden Nachrichten des Dialogs dar. Die vorangehenden Buchstaben markieren dabei, welche Nachrichtenteile aufeinander bezogen sind.

19 Dies bedeutet jedoch keinesfalls, dass damit die Reaktion der zweiten SprecherInnen

determiniert ist, dass also auf eine Frage immer eine Antwort folgen muss, dass eine Verabredungseinladung immer auch die Annahme der Einladung evoziert. Es zeigt sich jedoch, dass bestimmte Realisationen eines zweiten Paarteils als präferiert bzw. dispräferiert markiert werden (vgl. Pomerantz & Heritage 2013 zum Konzept der Präferenz). Zu dispräferierten second pair parts in der SMS-Kommunikation siehe König (2015).

Page 105: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

100 Dialogkonstitution und Sequenzmuster bei SMS und WhatsApp

Aufbau Nachricht 1 – Mutter Aufbau Nachricht 2 – Tochter a) Gruss b) Wunsch "schlafen" Wunsch "Erfolg" c) Aufforderung "Frühstück" Daumendrücken d) Erkundigung Klausurtermin e) Erkundigung Zeit Heimreise f) Abschlussformel Name

a) Gegengruss b) Reaktion auf Wunsch "schlafen" c) Folgen der Aufforderung "Frühstück" d) Bestätigung Termin Klausur e) Termin "nach Hause kommen" f) Abschlussformeln Emoticons

Zwar erfolgt nicht auf alle sprachlichen Teilhandlungen der initialen Nachricht eine Reaktion, aber es ist dennoch klar erkennbar, dass sich die antwortende Schreiberin an der sequentiellen Folge der first pair parts aus der ersten SMS-Nachricht orientiert.

In den hier exemplarisch untersuchten WhatsApp-Daten lassen sich zum Teil spezifische Abweichungen von einer solchen "verketteten" Anordnung von Paarteilen feststellen. Zum einen fällt auf, dass das von Günthner (2011) beschriebene sequentielle Muster einer chronologischen Abarbeitung konditioneller Relevanzen nur in bestimmten Phasen eines Dialogs vorkommt: Eine derartige Verkettung tritt vor allem zu Beginn der eingestellten Whats-App-Dialoge auf und kann somit als weiterer Kontextualisierungshinweis für den Beginn einer neuen Interaktionseinheit gewertet werden. Haben die Schreibenden die eingangs eröffneten Paarteile abgearbeitet, treten sie in einen zunehmend als Paarteil-für-Paarteil-Austausch realisierten Dialog ein, wie das folgende Beispiel zeigt. Beispiel 7: #2317 (WhatsApp) Hey, habt ihr nun unterschrieben? Und wie sieht's heute mit ner Runde zum den

aasee mir paul aus? Ist ja super Wetter Nachricht #1 - 19.07.2014 - 13:18:05

Hey! Ja haben wir =D [WhatsApp-Smiley] Es ist zu warm um mit paul so lange zu

laufen. Aber wir können gern was machen ;) Nachricht #2 - 19.07.2014 - 13:33:05

Super! Was sollen wir denn machen? Irgendwas in der Sonne wäre cool Nachricht #3 - 19.07.2014 - 13:33:05

Joa. In die stadt erst mal? Nachricht #4 - 19.07.2014 - 13:34:05

Gerne, wann denn? Nachricht #5 - 19.07.2014 - 13:34:05

Um 3? Nachricht #6 - 19.07.2014 - 13:34:05

Hört sich gut an Nachricht #7 - 19.07.2014 - 13:34:05

Während der Beginn des Dialogs noch durch die Eröffnung mehrerer first pair parts in einer Nachricht charakterisiert ist, fokussiert sich die folgende Interaktion auf die Vereinbarung eines Termins und im weiteren Verlauf der Interaktion wird pro Nachricht nur noch ein Paarteil realisiert. An diesem

Page 106: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Katharina König 101

Dialog zeigt sich also, dass es zu einem hohen Interaktivitätsgrad (vgl. Dürscheid & Frick 2014: 170) in der WhatsApp-Kommunikation kommen kann, dies aber nicht immer durchgehend der Fall sein muss. WhatsApp-Dialoge können also in unterschiedlichen Geschwindigkeiten verlaufen und changieren in ihrem sequentiellen Aufbau zwischen den Polen der klassischen asynchronen SMS und des quasi-synchronen Chats. In den meisten Fällen lässt sich aber auch bei WhatsApp-Dialogen eine chronologische Abarbeitung der eröffneten Paarteile erkennen. Insgesamt zeigt sich in dem Untersuchungskorpus jedoch bei WhatsApp-Dialogen eine Tendenz, die zweiten Paarteile in getrennten Nachrichten zu versenden. Beispiel 8: #2296 (WhatsApp)

Hey Laura :-) Frohes neues Jahr erstmal noch! Die Arbeit hat doch ganz normal offen, oder? Weil ich sitze hier alleine und warte auf Annika;-)

Nachricht #1 - 06.01.2014 - 12:12:00

Hey! Dir auch ein frohes neues Jahr Nachricht #2 - 06.01.2014 - 12:45:00

Ja, die Arbeit hat ganz normal geöffnet Nachricht #3 - 06.01.2014 - 12:45:00

Ist sie inzwischen da? Nachricht #4 - 06.01.2014 - 12:45:00

Aber du kommst auch alleine klar, oder? Nachricht #5 - 06.01.2014 - 12:46:00

Ja klar :-) Nachricht #6 - 06.01.2014 - 12:46:00

Die in einer Nachricht gereihten ersten Paarteile in #1 (Gruss, Neujahrsgrüsse, Frage, Begründung der Frage) werden von der zweiten Schreiberin in der gleichen Reihenfolge, aber in separaten Nachrichten in schneller zeitlicher Abfolge20 "abgearbeitet" (vgl. Beißwenger 2007: 245; Zitzen & Stein 2004: 1004 zu dem Muster der "split turns"): Auf den Gegengruss und die reaktiven Wünsche zum neuen Jahr folgt in einer neuen Nachricht die Antwort auf die in #1 gestellte Frage nach der Arbeit. Auch die Gegenfrage in #4 folgt der sequentiellen Ordnung von #1 insofern, als hier auf die in #1 zuletzt benannte Annika Bezug genommen wird.

Doch nicht nur zweite Paarteile werden separat verschickt. Ähnliche Muster lassen sich in den WhatsApp-Interaktionen zum Teil auch für dialog-initiierende, einzeln direkt hintereinander gesendete erste Paarteile beschreiben.

20 Die einstellende Person hat für den Dialog lediglich Angaben zu Minuten, nicht aber zu den

Sekunden gemacht. Da aber Nachrichten 2-4 alle um 12:45 Uhr verschickt wurden, ist von einer schnellen Abfolge der einzelnen Nachrichten auszugehen.

Page 107: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

102 Dialogkonstitution und Sequenzmuster bei SMS und WhatsApp

Beispiel 9: #2270 (WhatsApp) Habs voll vercheckt Nachricht #1 - 29.04.2014 - 08:50:00

Deine ma hat gestern angerufen weil sie heute nach Paris kommt und deine Schwester nicht da ist

Nachricht #2 - 29.04.2014 - 08:50:30

Und sie wollte wissen ob du sie vom Bahnhof abholen kannst

Nachricht #3 - 29.04.2014 - 08:50:45

Sorry Nachricht #4 - 29.04.2014 - 8:51:00

Kein Problem, sie hatte mich auch aufm Handy angerufenNachricht #5 - 29.04.2014 - 08:56:00

Der Schreiber von Nachricht #1 etabliert mit seiner ersten Mitteilung keine Antworterwartung, sondern schickt in einer zweiten und dritten Nachricht eine Spezifizierung dessen, was er "vercheckt" – also vergessen – hat, hinterher. Nachricht #1 fungiert hier also als Ankündigung einer weiteren Mitteilung. In der folgenden Nachricht sendet er mit der Entschuldigung "Sorry" (#4) einen weiteren ersten Paarteil. An diesem Beispiel zeigt sich, dass die in SMS häufig anzutreffenden Verkettungen mehrerer erster Paarteile auch noch in der WhatsApp-Kommunikation relevant sind und eine unmittelbare Antwort auf die einzelnen Paarteile wird nicht immer erwartet wird (vgl. Laursen 2005). Die Sequenzierung der ersten Paarteile erfolgt hier jedoch in getrennt verschickten Nachrichten.

In manchen Fällen kommt es zu Beginn eines Dialogs sogar zu einer direkten Aufeinanderfolge von erstem und zweitem Paarteil, wie die folgenden zwei Beispiele belegen: Beispiel 10: #2055 (WhatsApp)

Brudi!!! Nachricht #1 - 30.10.2013 - 19:50:18

Jaq ? :) Nachricht #2 - 30.10.2013 - 19:54:14

Ich habe richtig stress am hals!!!! Nachricht #3 - 30.10.2013 - 19:54:26

Warum bro Nachricht #4 - 30.10.2013 - 19:55:30

Beispiel 11: #2381 (WhatsApp) Hey Nachricht #1 - 18.03.2015 - 11:50:05

Morgen ^^ Nachricht #2 - 18.03.2015 - 11:50:05

Hast du Lust nachher mit Paul am aasee spazieren zu gehen? Heute ist der letzte schöne Tag

Nachricht #3 - 18.03.2015 - 11:51:05

Page 108: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Katharina König 103

Auf den Gruss erfolgt in beiden Beispielen direkt ein Gegengruss, bevor dann weitere erste Paarteile folgen. Mit Lindemann, Ruoss & Weinzinger (2014: 246) kann hier von einer sequenziellen Verdichtung gesprochen werden, die den "verstärkten Eindruck von Dialogizität mit schriftlichen Mitteln" erzeugt. Bei Beispiel 10 ist zudem zu erkennen, dass Schreiber A mit seiner Nachricht "Ich habe richtig stress am hals!!!!" (#3) die Wiedergabe einer längeren Situationsbeschreibung ankündigt. Die Nachricht könnte also als Präsequenz (vgl. Schegloff 2007) klassifiziert werden, mit sich der Schreiber der Rezeptionsbereitschaft des Interaktionspartners versichert und sich so ein "Ticket" für eine umfassendere Darstellung einholt. Dies deutet darauf hin, dass die SchreiberInnen in den untersuchten Daten WhatsApp nicht nur für kurzfristige Terminabstimmungen (vgl. Ling 2004), sondern auch für grössere und komplexere Dialoggattungen nutzen.

6. Fazit und Ausblick: Sequenzierung in der WhatsApp-Gruppenkommunikation

Mit dem messenger-System WhatsApp werden im Bereich der handy-vermittelten, mobilen Schriftlichkeit neue kommunikative Ressourcen (z.B. Piktogramme, integriertes Versenden von Audio- und Videodateien) bereitgestellt; die "klassische" SMS verliert dagegen immer mehr an Bedeutung. Unterschiede zwischen den Kommunikationsformen SMS und WhatsApp zeigen sich aber nicht nur auf der Ebene der Multimodalität. Bei dem hier vorgenommenen explorativen Vergleich von dyadischen SMS- und WhatsApp-Dialogen aus der SMS-Datenbank am Centrum Sprache und Interaktion hat sich gezeigt, dass Dialogkonstitution und Sequenzierung verschiedentlich realisiert werden: Während die SchreiberInnen in der SMS-Kommunikation auf der sprachlichen Oberfläche durch Anreden Dialog-einheiten in der Regel als distinkt abgrenzen, ist eine solche klare Untergliederung für die untersuchten WhatsApp-Nachrichtenstränge nicht mehr ohne Weiteres feststellbar. Vielmehr sind die Interaktionen auch über thematische und zeitliche Brüche hinweg als kontinuierlich andauernder Austausch gerahmt. Zwar kann das von Günthner (2011; 2012) als SMS-typisch beschriebene Muster einer verketteten Aneinanderreihung von ersten Adjazenzpaarteilen, die im Folgenden von der antwortenden Person chronologisch abgearbeitet werden, auch bei bestimmten Phasen in der dyadischen WhatsApp-Interaktion festgestellt werden, jedoch werden die einzelnen Paarteile in WhatsApp-Dialogen häufig in separaten Nachrichten übermittelt. Dies geschieht meist in schneller zeitlicher Folge und ohne dass zwischen den einzelnen Nachrichten eine direkte Antworterwartung etabliert wird.

Es hat sich zudem gezeigt, dass die Untersuchung solcher Dialog- und Sequenzmuster eine methodische Herausforderung für die quantitative Datenerhebung und -aufbereitung darstellt. Die Arbeit mit einer Datenbank, die

Page 109: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

104 Dialogkonstitution und Sequenzmuster bei SMS und WhatsApp

Nachrichten nicht einzeln, sondern als zusammenhängenden Nachrichten-strang dokumentiert, setzt eine Strukturierbarkeit des andauernden Austauschs in separate Dialogeinheiten voraus. Dass auf genau dieser Ebene unterschiedliche Nutzungspraktiken auszumachen sind, lässt sich jedoch allein durch die qualitative Analyse kontinuierlicher Nachrichtenstränge beschreiben.

Zukünftige Untersuchungen können über die Analyse dyadischer Interaktionen hinaus Sequenzierungsmuster bei der Mehrparteieninteraktion in WhatsApp-Gruppenchats thematisieren. Hier gilt es zu zeigen, ob und inwieweit die sprachlichen und sequentiell-kommunikativen Praktiken denen klassischer computervermittelter Chat-Interaktionen ähnlich sind. Kommt es in der dyadischen mobilen Kommunikation per SMS bzw. WhatsApp durch den schnellen, quasi-synchronen Austausch von Nachrichten mitunter zu einer unterbrochenen Adjazenz,21 so stellt die Mehrparteieninteraktion im Whats-App-Gruppenchat die SchreiberInnen vor komplexere Koordinationsaufgaben: Ein erster Teil eines Adjazenzpaares macht nicht nur die Antwort einer, sondern verschiedener Personen relevant, die jedoch nicht alle zur gleichen Zeit in dem Gruppenchat online oder aktiv sein müssen. Andere Beiträge richten sich nur an bestimmte Gruppenmitglieder. Werden hier ähnliche Formen der Adressierung wie im Chat genutzt (z.B. "@Steffen"), um gezielt eine bestimmte Person anzusprechen? Finden sich auch hier Hinweise auf die Persistenz des Bildschirmprotokolls, indem auf vorherige Nachrichten verwiesen wird, auch wenn auf dem Smartphone-Bildschirm meist nur weniger Nachrichten gleichzeitig angezeigt werden können?

Bibliographie

Androutsopoulos, J. & Schmidt, G. (2002): SMS-Kommunikation: Ethnographische Gattungsanalyse am Beispiel einer Kleingruppe. In: Zeitschrift für Angewandte Linguistik 36, 49-79.

Arens, K. (2014): WhatsApp: Kommunikation 2.0. Eine qualitative Betrachtung der multimodalen Möglichkeiten. In: König, K. & Bahlo, N. (Hg.): SMS, WhatsApp & Co. Gattungsanalytische, kontrastive und variationslinguistische Perspektiven zur Analyse mobiler Kommunikation. Münster (Monsenstein und Vannerdat), 81-106.

Arens, K. & Nösler, N. (2014): Jaaaa :) alles klar!! bis morgen hdl :-*. Der Ausdruck von Emotionen in SMS. In: Berg, F. & Mende, Y. (Hg.): Verstehen und Verständigung in der Interaktion Analysen von Online-Foren, SMS, Instant Messaging, Video-Clips und Lehrer-Eltern-Gesprächen. Mannheim (Verlag für Gesprächsforschung), 46-60.

Beißwenger, M. (2007): Sprachhandlungskoordination in der Chat-Kommunikation. Berlin, New York (de Gruyter).

21 Vgl. Herring (2013) zu dem Phänomen der "disrupted adjacency". Siehe auch Beispiel 5

Nachrichten #10-14.

Page 110: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Katharina König 105

— (2008): Situated Chat Analysis as a Window to the User's Perspective. In: Language@Internet 5. Abrufbar unter: http://www.languageatinternet.org/articles/2008/1532. (20.03.2015)

Bergmann, J. (2001): Das Konzept der Konversationsanalyse. In: Brinker, K., Antos, G., Heinemann, W. & Sager, S. (Hg.): Text- und Gesprächslinguistik. Ein internationales Handbuch zeitgenössischer Forschung. Berlin, New York (de Gruyter), 919-927.

Bieswanger, M. (2007): 2 abbrevi8 or not 2 abbrevi8: A Contrastive Analysis of Different Space- and Time-Saving Strategies in English and German Text Messages. In: Texas Linguistics Forum 50. Abrufbar unter: http://studentorgs.utexas.edu/salsa/proceedings/2006/Bieswanger.pdf. (20.03.2015)

Dittmann, J. (2006): Konzeptionelle Mündlichkeit in E-Mail und SMS. In: Reeg, U. (Hg.): Interkultureller Fremdsprachenunterricht: Grundlagen und Perspektiven. Bari (Editioni di Pagina), 79-97.

Döring, N. (2002a): '1x Brot, Wurst, 5 Sack Äpfel I.L.D.' - Kommunikative Funktionen von Kurzmitteilungen. In: Zeitschrift für Medienpsychologie 14, 118-128.

— (2002b): 'Kurzm. wird gesendet' Abkürzungen und Akronyme in der SMS-Kommunikation. In: Muttersprache 1, 97-114.

Dürscheid, C. (2005): Medien, Kommunikationsformen, kommunikative Gattungen. In: Linguistik online 22, 1-16. Abrufbar unter: http://www.linguistik-online.de/22_05/duerscheid.html. (20.03.2015)

Dürscheid, C. & Frick, K. (2014): Keyboard-to-screen-Kommunikation gestern und heute: SMS und WhatsApp im Vergleich. In: Networx 64, 149-181. Abrufbar unter: www.medien-sprache.net/networx/networx-64.pdf. (20.03.2015)

Gumperz, J. (1982): Discourse Strategies. Cambridge (Cambridge University Press).

Günthner, S. (2011): Zur Dialogizität von SMS-Nachrichten – eine interaktionale Perspektive auf die SMS-Kommunikation. In: Networx 60. Abrufbar unter: www.medien-sprache.net/networx/networx-60.pdf. (20.03.2015)

— (2012): 'Lupf meinen Slumpf': Die interaktive Organisation von SMS-Dialogen. In: Ayaß, R. & Meyer, C. (Hg.): Sozialität in Slow Motion. Theoretische und empirische Perspektiven. Wiesbaden, 353-372.

Günthner, S. & Knoblauch, H. (1994): 'Forms are the food of faith': Gattungen als Muster kommunikativen Handelns. In: Kölner Zeitschrift für Soziologie und Sozialpsychologie 46, 693-723.

Hauptstock, A., König, K. & Zhu, Q. (2010): Kontrastive Analyse chinesischer und deutscher SMS-Kommunikation – ein interaktionaler und gattungstheoretischer Ansatz. In: Networx 58. Abrufbar unter: www.medien-sprache.net/networx/networx-58.pdf. (20.03.2015)

Herring, S. (2013): Relevance in computer-mediated conversation. In: Herring, S., Stein, D. & Vitanen, T. (Hg.): Pragmatics of Computer-Mediated Communication. Berlin (de Gruyter), 245-268.

Holly, W. (2011): Medien, Kommunikationsformen, Textsortenfamilien. In: Habscheid, S. (Hg.): Text-sorten, Handlungsmuster, Oberflächen. Berlin, New York (de Gruyter), 144-163.

Imo, W. (2012): Fischzüge der Liebe: Liebeskommunikation in deutschen und chinesischen SMS-Sequenzen. In: Linguistik online 56, 21-38. Abrufbar unter: https://bop.unibe.ch/linguistik-online/article/view/254/341. (20.03.2015)

— (2015): Vom ikonischen über einen indexikalischen zu einem symbolischen Ausdruck? Eine konstruktionsgrammatische Analyse des Emoticons :-). In: Bücker, J., Günthner, S. & Imo, W. (Hg.): Konstruktionsgrammatik V: Konstruktionen im Spannungsfeld von sequenziellen Mustern, kommunikativen Gattungen und Textsorten. Tübingen (Stauffenburg), 133-162.

Jucker, A. & Dürscheid, C. (2012): The linguistics of keyboard-to-screen communication. A new terminological framework. In: Linguistik online 56, 39-64. Abrufbar unter: http://www.linguistik-online.de/56_12/juckerDuerscheid.html. (20.03.2015)

Page 111: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

106 Dialogkonstitution und Sequenzmuster bei SMS und WhatsApp

König, K. (2015): "Muss leider absagen. Muss noch nen referat fertig machen." – Zur Dialogizität von Absagen und Verabredungsablehnungen in der SMS-Kommunikation. In: Linguistik online 70.

König, K. & Bahlo, N. (2014): SMS, WhatsApp & Co. – Forschungsstand und Analyseperspektiven. In: König, K. & Bahlo, N. (Hg.): SMS, WhatsApp & Co. Gattungsanalytische, kontrastive und variationslinguistische Perspektiven zur Analyse mobiler Kommunikation. Münster (Monsenstein und Vannerdat), 1-16.

Krabbenhöft, E. (2014): 'Hast du eigentlich was neues von jb gehört?' Klatschen und Plaudern in SMS. In: König, K. & Bahlo, N. (Hg.): SMS, WhatsApp & Co. Gattungsanalytische, kontrastive und variationslinguistische Perspektiven zur Analyse mobiler Kommunikation. Münster (Monsenstein und Vannerdat), 17-39.

Laursen, D. (2005): Please reply! The replying norm in adolescent SMS communication. In: Harper, R., Palen, L. & Taylor, A. (Hg.): The Inside Text. Social, Cultural and Design Perspectives on SMS. Dodrecht (Springer), 53-73.

Lindemann, K., Ruoss, E. & Weinzinger, C. (2014): Dialogizität und sequenzielle Verdichtung in Forenkommunikation: Editieren als kommunikatives Verfahren In: Zeitschrift für Germanistische Linguistik 42, 223-252.

Ling, R. (2004): The Mobile Connection. The Cell Phone's Impact on Society. San Francisco (Morgan Kaufmann Publishers).

Ling, R., Julsrud, T. & Yttri, B. (2005): Nascent communication genres within SMS and MMS. In: Harper, R., Palen, L. & Taylor, A. (Hg.): The Inside Text. Social, Cultural and Design Perspectives on SMS. Dodrecht (Springer), 75-100.

Luckmann, T. (1988): Kommunikative Gattungen im kommunikativen 'Haushalt' einer Gesellschaft. In: Smolka-Koerdt, G., Spangenberg, P. & Tillmann-Bartylla, D. (Hg.): Der Ursprung von Literatur. Medien, Rollen, Kommunikationssituationen zwischen 1460 und 1650. München (Fink), 279-288.

Pomerantz, A. & Heritage, J. (2013): Preference. In: Sidnell, J. & Stivers, T. (Hg.): The Handbook of Conversation Analysis. Chichester (Blackwell), 210-228.

Quader, W. (2014): Komparative Analyse von Vorwurfsaktivitäten in deutschen und chinesischen SMS-Nachrichten. In: König, K. & Bahlo, N. (Hg.): SMS, WhatsApp & Co. Gattungsanalytische, kontrastive und variationslinguistische Perspektiven zur Analyse mobiler Kommunikation. Münster (Monsenstein und Vannerdat), 107-124.

Schegloff, E. (2007): Sequence Organization in Interaction. A Primer in Conversation Analysis I. Cambridge (Cambridge University Press).

Schegloff, E. & Sacks, H. (1973): Opening up closings. In: Semiotica 8, 289-327.

Schlobinski, P. (2009): Von HDL bis DUBIDODO. (K)ein Wörterbuch zur SMS. Mannheim (Duden).

Schlobinski, P., Fortmann, N., Gross, O., Hogg, F., Horstmann, F. & Theel, R. (2001): Simsen. Eine Pilotstudie zu sprachlichen und kommunikativen Aspekten in der SMS-Kommunikation. In: Networx 22. Abrufbar unter: www.medien-sprache.net/networx/networx-22.pdf. (20.03.2015)

Schmidt, G. (2006): Sprachliche Variation in der SMS-Kommunikation. In: Schlobinski, P. (Hg.): Von *hdl* bis *cul8r*. Sprache und Kommunikation in den Neuen Medien. Mannheim (Duden), 317-333.

Schmidt, G. & Androutsopoulos, J. (2004): löbbe döch. Beziehungskommunikation mit SMS. In: Gesprächsforschung. Online-Zeitschrift zur verbalen Interaktion 5, 50-71. Abrufbar unter: http://www.gespraechsforschung-ozs.de/heft2004/heft2004.html. (20.03.2015)

Schnitzer, C. (2012): Linguistische Aspekte der Kommunikation in den neueren elektronischen Medien: SMS – E-Mail – Facebook. München. Abrufbar unter: http://edoc.ub.uni-muenchen.de/14779/. (20.03.2015)

Spagnolli, A. & Gamberini, L. (2007): Interaction via SMS: Practices of local closeness and reciprocation. In: British Journal of Social Psychology 46, 343-364.

Page 112: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Katharina König 107

Storrer, A. (2001): Getippte Gespräche oder dialogische Texte? Zur kommunikationstheoretischen Einordnung der Chat-Kommunikation. In: Lehr, A., Kammerer, M., Konerding, K., Storrer, A., Thimm, C. & Wolski, W. (Hg.): Sprache im Alltag. Beiträge zu neuen Perspektiven in der Linguistik. Berlin, New York (de Gruyter), 439-465.

Thurlow, C. & Poff, M. (2013): Text messaging. In: Herring, S., Stein, D. & Virtanen, T. (Hg.): Pragmatics of Computer-Mediated Communication. Berlin (de Gruyter), 163-190.

Zitzen, M. & Stein, D. (2004): Chat and conversation: a case of transmedial stability? In: Linguistics 42, 983-1021.

Page 113: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Page 114: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Travaux neuchâtelois de linguistique, 2015, 63, 109-127

Präpositionale Ellipsen im Schweizer SMS-Korpus – kontrastiv: Schweizerdeutsch, Französisch und Italienisch

Karina FRICK1, Anne-Danièle GAZIN2 & Charlotte MEISNER3

1Deutsches Seminar, Universität Zürich 2Istituto di Lingua e Letteratura Italiana, Universität Bern 3Romanisches Seminar, Universität Zürich

Dans la présente contribution, nous proposons une analyse comparative de l'ellipse des prépositions dans le corpus sms4science.ch. A partir des observations concernant le suisse allemand, notre étude vise à identifier des parallèles avec le français et l'italien. L'analyse du corpus a révélé qu'il est rare qu'une préposition soit absente dans les SMS là où la grammaire prescriptive en prévoit une. L'analyse qualitative des cas attestés suggère que (1) d'un point de vue sémantique, les ellipses des prépositions sont fréquentes dans des indications de lieu et de temps – dans les trois langues – et que (2) d'un point de vue syntaxique, l'ellipse de la préposition accompagne souvent l'ellipse d'un article ou l'ellipse d'une forme contractée.

1. Einleitung

Bei der sprachwissenschaftlichen Beschäftigung mit SMS werden regelmässig verschiedene Arten syntaktischer Kurzformen in den Blick genommen (vgl. König & Bahlo 2014: 4). Dabei werden unter "syntaktischen Kurzformen" unterschiedliche Phänomene subsumiert und grösstenteils unter dem Terminus "Ellipse" erörtert – so etwa die Tilgung von Subjektpronomen vor dem finiten Verb (z.B.: bin gleich da). Deren Vorkommen wird häufig damit begründet, dass SMS-Schreiben aufgrund der eingeschränkten Zeichenzahl und dem umständlichen Eingabemodus (vgl. Dürscheid & Brommer 2009: 8; Ling & Baron 2013: 203) Ökonomieanforderungen unterliegen würde (vgl. König & Bahlo 2014: 5). Auch der vorliegende Artikel setzt sich mit syntaktischen Kurzformen und deren möglichen Auslöser auseinander, jedoch aus einer sprachstrukturell ausgerichteten Perspektive: Im Zentrum des Interesses stehen dabei Auslassungen von Präpositionen, die anhand einer Beispielsammlung sprachvergleichend – Schweizerdeutsch, Französisch und Italienisch – untersucht werden, wobei das Hauptaugenmerk auf dem Schweizerdeutschen liegt. Zur Veranschaulichung des zu untersuchenden Phänomens nachfolgend drei Beispiele:

(1) […] bin am sa Ø züri,was häsch welle undernäh? […] (4368)1

1 '[...] Bin am Samstag Zürich, was willst du unternehmen?' Wir gehen hier der schriftlichen Form

folgend davon aus, dass züri nicht für "z Züri" (in Zürich) steht.

Page 115: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Präpositionale Ellipsen im Schweizer SMS-Korpus – kontrastiv 110

(2) Salut,comment vas tu?Bien terminé la soirée?Pourrais tu transmettre a julius que sil a un peu Ø tps cet a-m,ca me ferait plaisir de prendre 1verre avec lui.[…] (10155)

(3) Ciao jeffry come stai? ho appena letto info Ø h1n1 e ho una domanda privata […] (19078)

Das Vorkommen solch präpositionaler Ellipsen (im Folgenden: PE) wird in der Literatur oftmals auf das sogenannte "ethnolektale Deutsch" (vgl. 2.3) zurückgeführt (Dürscheid 2003: 335) und in verschiedenen Studien als typisches syntaktisches Reduktionsphänomen der SMS-Kommunikation genannt (Androutsopoulos & Schmidt 2002: 67; Döring 2002: 105). Dürscheid (2003: 336) bezeichnet das Weglassen von Präpositionen als ein "besonders augenfällig[es]" Ausdrucksmittel, das der Inszenierung von fehlerhaftem Deutsch diene. Vor dem Hintergrund neurolinguistischer Studien wird die Auslassung von Funktionswörtern wie Präpositionen darüber hinaus als Evidenz für agrammatische Gehirnschädigungen interpretiert (vgl. Lonzi & al. 2006: 267). Eine derartige Beurteilung liegt nicht im Ermessen des vorliegenden Artikels, dennoch scheint es so zu sein, dass die Auslassung von Präpositionen als besonders markiert bzw. teilweise als fehlerhaft wahrgenommen wird. Das Ziel des vorliegenden Artikels liegt daher darin, das Vorkommen von PEs in der privaten Alltagsschriftlichkeit von SMS-Nachrichten (vgl. Stähli, Dürscheid & Béguelin 2011: 9) sprachkontrastiv zu beschreiben und dabei der Frage nachzugehen, welche möglichen Auslöser PEs zugrunde liegen. Dabei interessieren die folgenden Fragen: Welche Typen von PE treten unter welchen Bedingungen auf? Wie gestaltet sich deren lexikalische Rekonstruierbarkeit? Gibt es Beschränkungen für die Nicht-Realisierung von Präpositionen? Und schliesslich: Welche sprachübergreifenden Gemeinsamkeiten lassen sich finden?

Bevor diese Fragen aufgrund einer unten skizzierten empirischen Basis (vgl. 3.) beantwortet werden, sind zunächst einige theoretische und terminologische Fragen zu klären. Das betrifft zum einen den hier zugrunde gelegten Ellipsenbegriff (vgl. 2.1) und zum anderen die grammatische Kategorie "Präposition" (vgl. 2.2.). Nach der Analyse und der Darstellung der Ellipsenkategorien (vgl. 4.) folgt eine Diskussion der Ergebnisse.

2. Theoretische Grundlagen

2.1 Was ist eine Ellipse?

In der Einleitung ist bereits darauf hingewiesen worden, dass mit Bezug auf den dehnbaren Terminus "Ellipse" ganz unterschiedliche Phänomene untersucht werden (vgl. Hofmann 2006: 30). Klein (1993) formuliert diese Heterogenität in seinem wegweisenden Handbuchartikel zur Ellipse wie folgt:

Page 116: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

111 Karina Frick, Anne-Danièle Gazin & Charlotte Meisner

[…] unter der Flagge ‹Ellipse› segeln sehr verschiedene Erscheinungen, die nur gemeinsam haben, dass sie als irgendwie ‹unvollständig› angesehen werden und kontextueller Ergänzung bedürfen. (Klein 1993: 765)

Dabei hat gerade die Bestimmung des Begriffs "Unvollständigkeit" und deren Bemessung an einem normorientieren "Vollständigkeitsideal" die Ellipsenforschung beschäftigt und zu kontroversen Diskussionen geführt, die im Wesentlichen in zwei einander konträr gegenüberstehende Standpunkte münden (Hofmann 2006: 32f.): Der autonomistische Ansatz vertritt die Auffassung, dass Äusserungen mit Ellipsen selbstständige Strukturen sind. Der reduktionistische Ansatz hingegen geht in der generativen Tradition davon aus, dass Ellipsen reduzierte vollständige Varianten abbilden. Letzterer Auffassung schliesst sich der folgende Aufsatz an2 und legt dabei die Definition von Aelbrecht (2009) zugrunde:

Ellipsis […] is the omission of elements that are inferable from the [linguistic] context and thus constitutes a mismatch between sound [or form] and meaning. When one utters an elliptical sentence, its interpretation is richer than what is actually pronounced. (Aelbrecht 2009: 1)

Ellipsen setzen normalerweise gültige Form-Bedeutungs-Zuordnungen ausser Kraft (vgl. Merchant 2012: 2), indem sie zwar Bedeutung vermitteln, für die aber keine der grammatischen Normerwartung entsprechende oberflächlich realisierte Form vorhanden ist. Bei einer elliptischen Konstruktion "tragen […] häufig auch Informationen zum Verstehen sprachlicher Ausdrücke bei, die nicht Bestandteil der Äußerung selbst sind." (Hofmann 2006: 5). Für die konkrete Umsetzung dieses eher abstrakten Ellipsenverständnisses ist zentral, dass Ellipsen als – aufgrund von syntaktischen oder lexikalischen Eigenschaften – rekonstruierbare Kategorien verstanden werden (vgl. Bußmann 2008: 158). Dadurch kann die Form-Bedeutungs-Diskrepanz überhaupt erst erkannt und ein Element entsprechend als Ellipse bestimmt werden. Dies ist nur unter Rückgriff auf die vorhandenen sprachlichen Strukturen möglich, die ihrerseits im Idealfall anhand angedeuteter syntaktischer Relationen Effekte des ausgelassenen Elements zeigen (vgl. Merchant 2012: 8). Die Anwendung dieser zunächst theoretischen Überlegung auf die PE könnte im Deutschen beispielsweise so aussehen, dass die Kasusrektion der ausgelassenen Präposition an den Phrasenkomplementen

2 "Reduziert" ist hierbei nicht wertend zu verstehen, sondern erfasst lediglich den Umstand, dass

im Syntagma weniger Elemente realisiert sind. Ein reduktionistischer Ansatz ist hier als Arbeitsdefinition deshalb notwendig, weil nur unter der Annahme, dass eine reduzierte syntaktische Struktur vorliegt, die ausgelassenen Elemente überhaupt identifiziert und rekonstruiert werden können. Inwiefern der Ellipsenbegriff angesichts der Ergebnisse aus der Datenanalyse angebracht ist, wird weiter unten zu diskutieren sein. Gründe, die gegen eine reduktionistische Annahme sprechen, lassen sich im Sammelband von Hennig (2013), u.a. in den Aufsätzen von Rickheit & Sichelmschmidt, Ágel & Kehrein und Lötscher finden.

Page 117: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Präpositionale Ellipsen im Schweizer SMS-Korpus – kontrastiv 112

ausgedrückt ist, wie es im konstruierten Beispiel (4) der Fall ist (vgl. dazu auch Siegel 2014: 76):

(4) Wir gehen Ø einen anderen Stadtteil.3

Halten wir fest: Ellipsen sind unserem Verständnis nach nicht realisierte sprachliche Elemente, die aber aufgrund der vorhandenen Struktur rekonstruierbar sind. Für die Analyse der interessierenden PEs bedarf es zunächst noch einer Bestimmung der Wortart "Präposition" in den drei behandelten Sprachen.

2.2 Präpositionen: Deutsch, Französisch, Italienisch

Präpositionen als unflektierbare sprachliche Funktionswörter (vgl. di Meola 2000: 40), die im Regelfall vor ihrem Bezugswort stehen, setzen andere sprachliche Einheiten zueinander in Beziehung – typischerweise ist dieser Bezug räumlicher Art (vgl. ebd.: 40f.), er kann aber auch abstraktere Verhältnisse kodieren.4 Präpositionen bilden zusammen mit ihrem Komplement eine syntaktische Einheit – die Präpositionalphrase (PP) –, als deren Köpfe sie fungieren und die im Satz unterschiedliche syntaktische Funktionen übernehmen kann (Glück 2005: 507). In den hier behandelten Sprachen herrscht keine Einigkeit darüber, ob (und anhand welcher Kriterien) Präpositionen eine geschlossene Wortart bilden und wie hoch die Anzahl ihrer Mitglieder zu veranschlagen wäre (vgl. Griesshaber 2009: 631 in Bezug auf das Deutsche und Adler 2012: 59-78 für das Französische). Unumstritten ist hingegen die Tatsache, dass Präpositionen "[…] zu den am häufigsten verwendeten Wörtern […]" zählen (ebd.: 636) und in fast jedem Satz auftreten (vgl. Duden 2009: 600).

Je nach Einzelsprache verfügen Präpositionen über mehr oder weniger stark unterschiedliche Funktionen. Im Folgenden ist daher kurz auf die präpositionalen Systeme der drei berücksichtigten Sprachen einzugehen.

Die Präpositionen des Deutschen regieren den Kasus ihrer Komplemente (di Meola 2000: 42; Griesshaber 2009: 629). Dabei ist zu unterscheiden zwischen Präpositionen, die nur einen, und solchen, die zwei Kasus regieren (Wechselpräpositionen). Darüber hinaus gibt es Präpositionen, die entweder

3 Bei den präpositionslosen Direktiva aus dem Korpus ist meist keine Kasusmarkierung

erkennbar. Dies liegt v.a. daran, dass die meisten Direktiva nur aus einer Ortsangabe bestehen, bei der ein Kasusmarkierung ohnehin nicht erkennbar wäre (z.B.: Zürich, St. Gallen, Altstadtbar u.Ä.). Ein Beispiel aus der schweizerdeutschen Belegsammlung, bei der die Rektion erkennbar ist, wäre etwa das folgende: Hey mein Junge, wa isch denn Ø eu obä los?? […] (8708); das Pronomen der 2. Person Singular weist hier die durch die Präposition bei geforderte Dativmarkierung auf.

4 Di Meola (2000: 41) nennt Temporalität, Kausalität, Modalität, Adversativität und Konzessivität.

Page 118: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

113 Karina Frick, Anne-Danièle Gazin & Charlotte Meisner

keine eindeutige Kasusforderung tragen, oder bei denen der Kasus schwankt (vgl. Griesshaber 2009: 629).

In den romanischen Sprachen ersetzen viele Präpositionen historisch gesehen die Kasusflexion der Nomina. Sie werden im modernen Französisch und Italienisch zum Teil vom flektierten Verb regiert und gehören in diesen Fällen zum Verbkomplement; dies trifft auch auf viele Verben im Deutschen zu. Das indirekte Objekt wird im Französischen und Italienischen beispielsweise durch die Präposition à (FR) bzw. a (I) eingeleitet. Tabelle 1 gibt einen Überblick über die wichtigsten semantischen Relationen welche in den hier betrachteten Sprachen durch Präpositionen ausgedrückt werden und die weiter unten in der Datenanalyse z.T. wieder aufgenommen werden.

temporal lokal instrumental/

modal

weitere

in, auf, vor, nach mit, gegen, zwischen, für, ohne durch, für, in, aus

von, trotz, ausser, gemäss DE während, seit, bis,

um (am)5, über, ab an, zu, bei, aus, unter, durch, hinter, über, neben

FR à (à + le(s) →au(x)), de (de + le(s) → du/des), en hors, nonobstant, outre, selon après, avant, depuis,

pendant, durant, dès, entre, vers

dans, derrière, devant, sous, sur, vers, entre

avec, contre, entre, pour, sans

IT a (a + Det → al/allo/alla/ai/agli/alle), di (di + Det → del/dello/della/dei/degli/delle), in (in + Det → nel/nello, etc.), su (su + Det → sul/etc.), da (da + Det → dal/etc.), con (con + Det → col, etc.)

fuori (di), nonostante, oltre, secondo

dopo di, prima di, durante, entro, verso

in, dietro (a), davanti a, sotto, sopra, su, verso, accanto a, contro

con, contra, tra/fra, per, senza, attraverso

Tabelle 1: Die häufigsten Präpositionen und die damit ausgedrückten semantischen Relationen im Deutschen, Französischen und Italienischen.

Aus der Tabelle ist ersichtlich, dass Präpositionen oft multifunktional (vgl. Duden 2009: 603f.), d.h. in mehreren der obigen semantischen Kategorien vertreten sind (vgl. in, nach, vers, entre, da). Der Grund dafür ist, dass die häufigsten Präpositionen – im Französischen wären das beispielsweise à und de – gleichzeitig die semantisch 'leersten' sind, weshalb sie sowohl zeitliche als auch örtliche und sogar instrumentale Bezüge ausdrücken können. Riegel, Pellat & Rioul (2008: 372) fassen diese Beobachtung wie folgt in Worte:

Si le sens de certaines prépositions est relativement stable et aisément identifiable (spatial: dans, sur, sous, à côté de; instrumental: grâce à, moyennant; causal: à cause de, etc.), d'autres présentent une gamme d'interprétations tellement diversifiée qu'il semble vain de leur associer un sens de base commun à tous leurs emplois.

5 Am ist die schweizerdeutsche Variante der nicht-dialektalen, zeitlichen um oder am und kommt

in Äusserungen wie mir treffed eus am 6i oder am samstig chummi nöd vor.

Page 119: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Präpositionale Ellipsen im Schweizer SMS-Korpus – kontrastiv 114

In allen drei Sprachen spielen sogenannte Verschmelzungsformen6 eine wichtige Rolle. Es handelt sich dabei um Wortformen, die aus einer Fusion von Artikel und Präposition bestehen, wobei meist einfache, kurze und besonders häufig auftretende Präpositionen involviert sind (vgl. Duden 2009: 615). Je nach Kontext ist die Verwendung der zusammengezogenen Form bedeutend häufiger und teilweise sogar obligatorisch (vgl. ebd. 616) – das liegt daran, dass es sich hierbei um einen sich im Vollzug befindenden Sprachwandelprozess handelt (vgl. Nübling 2010: 260). Zu den häufigsten Verschmelzungsformen im gesprochenen als auch geschriebenen Deutsch gehören: zum, zur, in, am, beim, vom. Im Französischen und Italienischen hingegen verschmelzen die Präpositionen à/a und de/di, wenn ihnen ein definiter Artikel folgt: es entstehen dabei articles contractés (F) oder preposizioni articolate (I). Im Gegensatz zum Französischen entstehen beim Italienischen aber die Verschmelzungsformen nicht nur bei a und di, sondern zusätzlich – ähnlich wie im Deutschen – bei den meisten einfachen Präpositionen (preposizioni semplici, Dardano & Trifone 1995: 403), z. B. sul tavolo, nell'acqua, dagli amici, col padre etc.

2.3 Auslassungsoptionen für Präpositionen

Wie eingangs erwähnt, ist die Auslassung von Präpositionen relativ stark markiert und gilt in der Mehrheit der Fälle als inakzeptabel und ungrammatisch. Im Gegensatz zu den Artikeln7 existiert im Standarddeutschen nur in seltenen Fällen die Möglichkeit zur normgrammatischen Nicht-Realisierung einer Präposition: "So besteht eine eingeschränkte Variationsmöglichkeit zwischen Präpositionalphrasen und Nominalphrasen bei Zeitangaben" (Siegel 2014: 83). Bei manchen Zeitangaben kann die Realisierung als Präpositionalphrase oder adverbiale Nominalphrase im Akkusativ erfolgen, wie im folgenden Beispiel: Wir trafen uns am letzten Sonntag vs. wir trafen uns letzten Sonntag (vgl. ebd.). Hier liegt daher grammatische Variation vor und nicht "[…] die Option im Deutschen eine Präposition 'auszulassen'". (Siegel 2014: 83); solche Vorkommen werden daher auch nicht als PE begriffen.

Im Französischen sind die Variationsmöglichkeiten hinsichtlich der Auslassung von Präpositionen grösser: So scheint es nach bestimmten Verben wie aller, venir, passer oder faire gebräuchlich, die Präposition auszulassen. Das veranschaulichen die folgenden Beispiele aus dem Schweizer SMS-Korpus:

6 An anderer Stelle auch als Klitika (vgl. Nübling 2010: 258) oder Kontraktionen (vgl. Siegel 2014:

76) bezeichnet. 7 Artikel können im Deutschen und Französischen unter anderem bei Eigennamen, Appellativen,

in lexikalisierten Ausdrücken, in Koordinationen, bei generischen Nomen, nach gewissen Präpositionen, in Kopulakonstruktionen oder bei Telegrammstil regelhaft ausgelassen werden (vgl. Duden 2009: 269-299; Riegel/Pellat/Rioul 2008).

Page 120: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

115 Karina Frick, Anne-Danièle Gazin & Charlotte Meisner

(5) Yop. Vendredi soir on va a Lausanne avec Arnaud Dylan et p-e Tschimi Ø voir monkey3 […] (9139)

(6) Alors tu viens Ø faire ce massage? (9210)

(7) Yep lorenzo! C'est bon j'ai ma TV! Tu veux passer ce soir Ø massacrer des zombies? (6163)

Auch im Italienischen gibt es Variationsmöglichkeiten zwischen Präpositionalphrasen und Nominalphrasen (z.B. sala professori). Die Beziehung zwischen den Komponenten der Nominalphrase wird von der Reihenfolge und der lexikalischen Bedeutung bestimmt (vgl. Serianni 1989: 329). Auch in unserer Bespielsammlung kommt dies (einmal) vor:

(8) […] Mi sai dire dove trovo una lampadina di ricambio x la mia luce Ø notte? Baci Gio (25277)

Präpositionen können im Italienischen zudem in losen Anbindungen ausgelassen werden (Schwarze 1995: 382). Damit sind Linksversetzungen ohne syntaktische Einbettung gemeint, für die im Italienischen der Terminus tema sospeso ("aufgehängtes Thema") verwendet wird.8 In solchen Konstruktionen wird das Thema des folgenden Satzes vorausgestellt und somit betont,9 wie etwa bei Il nord, lì è ancora peggio ("Der Norden, da ist es noch schlimmer"; Schwarze 1995: 383). Ein solches Beispiel findet sich auch in unserer Belegsammlung (9), in dem l'articolo eine lose Anbindung ist:

(9) Si ti porto la copertina, Ø l'articolo mi mancano ancora dei dati e devo fare qlk calcolo, xò x venerdì dovrebbe esserci (25021)

Im Deutschen gilt abgesehen von der genannten Variationsmöglichkeit die "Nicht-Verwendung" Auer (2013: 31)10 von Präpositionen als spezifisches Kennzeichen einer bestimmten Varietät: dem "ethnolektalen Deutsch". Darunter werden Varietäten und Sprechstile gefasst, "[…] die von Sprechern nicht-deutscher Herkunft verwendet und als typisch für sie eingestuft werden" (Androutsopoulos 2001: 323) und die in der Folge auch von Deutsch-Muttersprachlern übernommen werden. Mit der alltagssprachlich oft als "Türkendeutsch", "Kanak-Sprache" oder "Ghettoslang" bezeichneten Varietät werden bestimmte sprachliche Merkmale nicht nur auf lexikalischer sondern auch auf grammatischer Ebene (vgl. Auer 2003: 256) verbunden, darunter im morphosyntaktischen Bereich das (häufig gemeinsame) Weglassen von

8 Dafür ist auch der Begriff "Anakoluth" gebräuchlich. 9 Die italienischen Grammatiken gehen davon aus, dass das tema sospeso in der Schriftsprache

die Funktion hat, die Expressivität der gesprochenen Sprache abzubilden (Dardano/Trifone 1995: 68).

10 Auch der Terminus "Nicht-Verwendung" schliesst den Umstand mit ein, dass die an der sprachlichen Oberfläche nicht vorhandene Präposition rekonstruiert oder zumindest identifiziert werden kann.

Page 121: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Präpositionale Ellipsen im Schweizer SMS-Korpus – kontrastiv 116

Präpositionen oder Artikeln. Dieses Phänomen trete oft im Zusammenhang mit Ortsangaben auf (Androutsopoulos 2001: 324; Auer 2003: 258f.).

Das ethnolektale Deutsch betrifft einen kleinen "Ausschnitt aus der deutschen Sprachwirklichkeit von heute", der einerseits voll von Innovationen sei, aber andererseits auch nicht als abgeschlossener Sprachwandel im Deutschen bezeichnet werden könne (vgl. Auer 2003: 255). Als Ausgangspunkt und Träger dieser Innovationen identifiziert Auer (2003) verschiedene Milieus von vor Allem männlichen Jugendlichen mit Migrationshintergrund. Ausgehend von dieser Gruppe breiten sich Neuerungen aus, die einer "permanenten Rückkopplung zwischen direktem Interaktionsverhalten und medial vermittelten Sprechstilen" unterliegen (vgl. Auer 2003: 255). Im Sinne der von Androutsopoulos (2000) beschriebenen Entwicklung "from the streets to the screens and back" unterscheidet Auer (2003) zwischen einem primären, einem sekundär-medialen und einem tertiären Ethnolekt: der primäre Ethnolekt entsteht in deutschen "Grossstadtghettos" und wird durch Jugendliche mit Migrationshintergrund geprägt. Diese Sprechweise wird aufgegriffen, parodiert und weiterentwickelt von Medienschaffenden (Komikern, Sängern, Schauspielern), welche ihn männlichen Jugendlichen mit Migrationshintergrund zuschreiben. Der so entstandene Ethnolekt ist der sekundär-mediale. Dieser wiederum wird von einer grösseren Sprechergruppe von Jugendlichen mit und ohne Migrationshintergrund rezipiert, zitiert und zurück "auf die Strasse" getragen. Diese Art medial reflektierter Weiterentwicklung von jugend- oder migrantensprachlichen Innovationen ist auch für andere Sprachen beobachtet worden. Als zentrales Beispiel wäre hier das Verlan zu nennen, ein auf Silbentausch basierendes Sprachspiel, welches sich in den Banlieues der französischen Grossstädte entwickelte und über die Popkultur Eingang ins französische Establishment fand, zum Beispiel durch das Lied laisse béton (= laisse tomber) von Renaud 1978 (vgl. Azra & Cheneau (1994) für Details zum Verlan). Allerdings ist bislang die präpositionale Ellipse ausserhalb des deutschen Sprachraums nicht mit derartigen Innovationstendenzen in Verbindung gebracht worden (vgl. z.B. Bedijs 2012 für einen Überblick über medial inszenierte Jugendsprache im Französischen). Daher gehen wir nicht davon aus, dass das Konzept des ethnolektalen Deutschs aufs Französische oder Italienische übertragen werden kann. Auch sind wir bei unserer Analyse auf keinerlei Hinweis gestossen, dass PE vermehrt von nicht-Muttersprachlern gebraucht werden.

Kommen wir damit zurück zu den PEs: Während Auer (2003: 268f.) von einer Variation zwischen präpositionsloser und präpositionaler Form ausgeht, befasst sich Siegel (2014)11 eingehend mit den Auftretens- und

11 Datenbasis stellt das "Stuttgarter Datenkorpus" dar, das spontansprachliche Audiodaten aus

informellen Gruppeninterviews mit multiethnischen Jugendlichen zwischen 14 und 19 Jahren enthält, die seit Geburt oder früher Kindheit in Deutschland leben (vgl. Siegel 2014: 72).

Page 122: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

117 Karina Frick, Anne-Danièle Gazin & Charlotte Meisner

Auslassungsbedingungen von präpositionalen Köpfen in PPs in ethnolektalen Kontexten. Dabei stellt sie fest, dass PEs auch bei Sprechern von ethnolektalem Deutsch relativ selten auftreten – und zwar in nur 9,4% Prozent der Fälle (vgl. Siegel 2014: 74). Diese geringe Anteil belegt, "[…] dass die grammatischen Kontexte der präpositionslosen Phrase eingeschränkt sind." (ebd.). Die präpositionalen Köpfe können also nicht willkürlich ausgelassen werden, sondern unterliegen bestimmten Restriktionen, wobei die Wichtigste lautet, dass Präpositionen nahezu ausschliesslich bei Ortsangaben12 unrealisiert bleiben. Welchen Restriktionen der Präpositionsausfall in den schriftsprachlichen SMS aus der dreisprachigen Beispielsammlung unterliegen, zeigt die der Beschreibung der Datengrundlage folgende Analyse.

3. Datengrundlage

Die Untersuchungsdaten entstammen dem Schweizer SMS-Projekt sms4science. Das Konzept dazu wurde ursprünglich in Belgien entwickelt und später durch Kooperationen mit anderen Ländern internationalisiert. Auf diese Weise gelangte das Projekt in die Schweiz, wo zwischen November 2009 und Januar 201013 die Bevölkerung dazu aufgerufen wurde, der Wissenschaft ihre SMS zu spenden. Dadurch kam nach der Bereinigung der Daten14 ein insgesamt 25'947 Nachrichten umfassendes Korpus zustande, das hinsichtlich der hier behandelten Sprachen folgende Distribution aufweist:

CHD15 SD F I R

10737 7262 4650 1519 1121 Tabelle 1: Sprachen im Schweizer sms4science-Korpus

Das Korpus enthält mit Abstand am meisten schweizerdeutsche Nachrichten.16 Das überrascht kaum angesichts der stetig zunehmenden

12 Auer (2013: 31) und Siegel (2014: 74) schränken diese Restriktion noch weiter ein, indem sie

festhalten, dass die Nicht-Verwendung von Präpositionen lediglich in lokalen und direktionalen Angaben möglich ist. Lokal sind solche Ortsangaben, die innerhalb eines Raumes oder einer Institution platziert sind, wohingegen direktionale die Bewegungsrichtung anzeigen. In anderen Arten von Raumangaben hat die Untersuchung hingegen eine konsequente Setzung der Präpositionen ergeben.

13 In den italienischen und rätoromanischen Sprachgebieten ist zwischen Mai und Juli 2011 eine zusätzliche Sammelaktion durchgeführt worden, da in der ersten nicht genügend SMS in diesen beiden Sprachen erhoben werden konnten.

14 Bereinigt wurden lediglich SMS, die entweder doppelt vorlagen, oder solche, die von einem Computer eingesandt worden waren (z.B. Nachrichten von digitalen Kalendern). Ansonsten fand keinerlei Zensur statt.

15 Zur Codierung der Sprachenkürzel: CHD = Schweizerdeutsch, SD = Standarddeutsch, F = Französisch, I = Italienisch, R = Rätoromanisch.

Page 123: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Präpositionale Ellipsen im Schweizer SMS-Korpus – kontrastiv 118

Verschriftung der Mundart in privat-informellen Kontexten (vgl. Siebenhaar 2006: 47). Darauf folgen die nicht-dialektalen Nachrichten, die den zweitgrössten Teil des Korpus ausmachen. Am dritthäufigsten sind französische Nachrichten, gefolgt von italienischen und schliesslich den rätoromanischen SMS.

Für die kontrastiven Untersuchungen zur PE sind schweizerdeutsche, französische und italienische Daten herangezogen worden. Den Proportionen entsprechend sind 4000 schweizerdeutsche und jeweils 1500 französische und italienische Nachrichten auf die Auslassung von Präpositionen hin untersucht worden.17 Dabei hat sich ergeben, dass die Auslassung von Präpositionen ein seltenes Phänomen ist. Das entspricht den quantitativen Ergebnissen der Studie von Siegel (2014): "[…] Der grössere Anteil an Präpositionen wird von den Informanten so gesetzt, wie es die deutsche Grammatik verlangt." Trotz des geringen Vorkommens wird im folgenden Kapitel anhand von Beispielen aus den drei Sprachen aufgezeigt, welche Formen von PEs in der schriftlichen SMS-Kommunikation vorkommen.

4. Analyse: Kategorien

Wie bereits angedeutet, findet sich in den drei SMS-Beispielsammlungen jeweils nur eine geringe Anzahl an PEs. Aufgrund der in Fussnote 17 beschriebenen Umstände, ist eine exakte Quantifizierung nicht möglich – die folgenden Zahlen repräsentieren daher nur ungefähre Werte. Sieht man über die abweichenden Grössen der Beispielsammlungen sowie über die unterschiedlichen Richtlinien hinweg, die der Zählung zugrunde lagen, so ergibt sich eine ungefähre Anzahl von 10 bis 15 präpositionalen Ellipsen pro tausend SMS in den drei untersuchten Sprachen. Angesichts der in der Literatur zur Sprache in SMS immer wieder genannten Tendenz zu syntaktischen Kürzungen mag diese geringe Anzahl zunächst überraschen; nicht zuletzt deshalb, weil andere Ellipsenformen – etwa die Auslassung von Artikeln oder insbesondere Subjektpronomen im Deutschen – ungleich höhere Raten aufweisen.18 In der Einleitung ist allerdings schon der Umstand zur Sprache gekommen, dass die Weglassung von Präpositionen offenbar als

16 An dieser Stelle ist zu erwähnen, dass im Schweizer SMS-Korpus aufgrund des Vorgehens bei

der Datensammlung immer nur einzelne SMS verfügbar sind. Ein potentieller dialogischer Kontext ist deshalb nicht rekonstruierbar.

17 Aufgrund der unterschiedlichen Grösse der für den Aufsatz untersuchten Beispielsammlungen können keine Quantifizierungen angestellt werden. Das liegt darüber hinaus auch daran, dass die schweizerdeutschen Korpusbelege, die für eine Dissertation auf präpositionale Auslassungen hin annotiert worden ist, anderen Richtlinien bei der Bestimmung von PE zugrunde gelegt worden sind.

18 Das hängt bei den Subjektellipsen (mindestens der 1. und 2. Pers. Sing.) auch damit zusammen, dass deren Auslassung aufgrund ihrer einfachen kontextuellen Rekonstruierbarkeit keine Verstehens- bzw. Verständigungsprobleme bereiten.

Page 124: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

119 Karina Frick, Anne-Danièle Gazin & Charlotte Meisner

besonders markiert wahrgenommen und als zentrales Merkmal dem ethnolektalen Deutsch zugesprochen wird. Trotz – oder vielmehr: gerade wegen – der geringen Anzahl an PEs stellt sich im Folgenden die Frage, in welchen Kontexten die Auslassung des präpositionalen Kopfes in den drei Sprachen möglich ist und welche Auslöser ihr zugrunde liegen.

Die anhand der Beispiele beobachteten Fälle von PEs können in insgesamt vier sprachübergreifende Kategorien eingeteilt werden: zwei semantische und zwei strukturelle. Diese werden nun im Folgenden präsentiert.

Analog zu Siegels Ergebnissen19 finden sich auch in den untersuchten SMS-Nachrichten am häufigsten solche PEs, die mit Ortsangaben verknüpft sind. Folgende Beispiele, die einer ersten semantischen Kategorie lokale PEs zugeordnet werden sollen, illustrieren dies:

4.1 Kategorie I: lokale PEs

(10) Bin Ø züri (7642)20

(11) […] Übrigens was haltisch du devo am Fritig Ø Rapi an Ice hockey Match zgha? […] (160)21

(12) Je crois que tu m'as mal compris: on est de retour à l'hôtel le plus tôt à 23h, donc: où est-ce qu'on se retrouve? Ø Bolzano? ØØ Hôtel? Si [Ø ?] ØØ hôtel et si tu penses arriver avant 23h, je vais me renseigner comment tu pourrais avoir accès à la chambre. BisouS. (8885)

(13) Capisco... Dai tranq. Vedrai qc succedera... Si l ho sentito! Quello e matto! Ora vado Ø locarno Ø piscina. Ti chiamo piu tardi. Baci, un pensiero (25576)

In allen Beispielen handelt es sich um präpositionale Köpfe von lokalen Phrasen, von denen im Übrigen die meisten mit einer spezifischen Ortsnennung einhergehen (Zürich, Bolzano, Locarno etc.). Eine Ausnahme bildet hier lediglich das französische Bespiel (12), in welchem mit dem Substantiv "Hotel" keine Stadt oder Ähnliches verbunden ist. Als "typischen grammatischen Kontext" für das Vorkommen von PE nennt Siegel (2014: 76) das direktionale Verb gehen, wie es in den Beispielen (11) und (13) der Fall ist (vgl. dazu auch die unten abgebildeten Beispiele (22)-(24). In (10) liegt ein Kopulaverb vor, das mit einem präpositionslosen Lokalprädikativ verbunden und daher als ortsbezogenes "sich befinden" zu interpretieren ist.22 Das

19 Siegel (2014: 75) stellt bei den sieben von ihr untersuchten Sprechern fest, dass 38 von

insgesamt 59 präpositionslosen Phrasen Ortangaben betreffen. 20 'Bin Zürich' 21 'Übrigens, was hältst du davon, am Freitag Rapperswil an Ice Hockey Match zu gehen?' 22 Auer (2013: 32) schreibt dazu: "Typische grammatische Kontexte, in denen die Präposition

fehlt, sind hingegen die Verben gehen oder sein oder die Existenzpartikel gibts, deren semantische Rahmenstruktur (frame) bereits eine Lokalisierung oder Richtung enthält."

Page 125: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Präpositionale Ellipsen im Schweizer SMS-Korpus – kontrastiv 120

französische Beispiel (12) hat kein Verb, stattdessen wird die blosse Nominalphrase ohne Präposition verwendet. In diesem Zusammenhang ist die Frage berechtigt, ob hier überhaupt von einer PE gesprochen werden kann oder ob nicht vielmehr für einen ohnehin reduzierten 'Telegrammstil'23 zu argumentieren wäre in dem Sinn, als sich hier eine generellere Abwesenheit von Syntax manifestiert.24 Für eine Kategorisierung als PE spräche die generelle Rekonstruierbarkeit der nicht realisierten Präpositionen.

Die Beispiele zeigen darüber hinaus, dass eine genaue lexikalische Rekonstruierbarkeit manchmal nicht möglich ist: So ist im dialektalen Beispiel (10) im gegebenen Kontext sowohl die Vervollständigung mit in als auch mit z25 möglich. Auch in Beispiel (11) wären verschiedene potentielle Vervollständigungen denkbar: nach, z(u), (a)uf. Diesen Umstand beobachtet auch Siegel, die entsprechend festhält: "Oftmals können in einem Beleg zwei oder drei der hier aufgeführten Präpositionen gefunden werden, die die Struktur vervollständigen könnten" (Siegel 2014: 77). Die oben aufgeführte Ellipsendefinition ist daher insofern zu ergänzen, als zwar die Struktur rekonstruierbar sein muss, eine exakte Bestimmbarkeit des elidierten Lexems hingegen keine notwendige Bedingung zur Identifikation von PEs darstellt. Vielmehr reicht es aus, dass die fehlende Kategorie rekonstruierbar ist (und das ist sie eben auch im französischen Beispiel mit Telegrammstil).

Während also die bisherigen Befunde relativ deckungsgleich sind mit denjenigen von Siegel (2014), zeigt die Beispielanalyse doch eine relevante Abweichung. Anders als bei Siegel26 lassen sich in der dreisprachigen Beispielsammlung relativ häufig temporale PEs finden. Dies zeigen die abgebildeten Beispiele der zweiten semantischen Kategorie (14)-(18):

4.2 Kategorie II: temporale PEs

(14) Ja er chunt au:-) Ø weli ziit essemer? X (4916)27

(15) Ø 10 min. Bini dihai. Love you. (1177)28

23 Telegrammstil zeichnet "[…] sich durch fragmentarische Satzstrukturen aus, wobei

Funktionswörter und Flexionsformen fehlen, reduzierte Formen auftreten oder gleich mehrere Satzglieder weggelassen werden können." (Moraldo 2011: 258).

24 Bei den schweizerdeutschen Beispielen sind solche Vorkommen von vornherein ausgeschlossen worden; dort wurden nur diejenigen Fälle als Ellipsen klassifiziert, die mit einem finiten Verb auftraten.

25 z wird in derartigen Konstruktionen im Dialekt als proklitische Form von zu verwendet. Eine präpositionshaltige Phrase der gleichen Art würde daher lauten: ich bin z'züri.

26 Nur etwa 9% aller präpositionslosen Phrasen sind bei Siegel (2014: 88) temporal. 27 'Ja er kommt auch:-) welche Zeit essen wir? X' 28 '10 min. Bin ich zuhause. Love you.'

Page 126: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

121 Karina Frick, Anne-Danièle Gazin & Charlotte Meisner

(16) Hi Veronika. Beu demain, on part Ø 5.45 de GE et à 10 .30 on marche à Alpe Devero. […] Retour possible ØØ matinée ou PM lundi. ??? Ren (905)

(17) Alors Ø 12h devant la mensa, il me semble que la plupart ont cours à 15h. […] (9280)

(18) Domani levataccia alle 4:40 x i 34km in bici fin al lavoro. Partenza Ø ore 5:15, come in passato.:-S […] (25286)

Während hier relativ eindeutige Fälle von PEs vorliegen, sind andere Fälle in Verbindung mit Uhrzeiten eher problematisch, wie die Beispiele (19)-(21) veranschaulichen.

(19) Non non (Ø) 13 h 30 est parfait. Bis dann. Lg, l (9231)

(20) Hoihoi ... Jep ha tiptop gstartet. (Ø) Fritig wär ok. […] (2252)29

(21) Den machemr doch gad (Ø) 18.20 bim stadttor, den bisch du au widr bi zite dihei. (1222)30

Im französischen Beispiel ist unklar, ob es sich tatsächlich um eine Zeitangabe handelt oder ob Non non 13 h 30 est parfait nicht die Antwort auf eine Frage wie Tu préfères 14 heures pour le rendez-vous? darstellt – in diesem Fall wäre die Abwesenheit der Präposition keine Ellipse.31 Wie die Beispiele (20) und (21) zeigen, gibt es auch im Schweizerdeutschen Fälle, in denen zwischen Realisierung und Nicht-Realisierung von Präpositionen variiert werden kann: In (20) beispielweise könnte vor der temporalen Angabe Freitag entweder ein blosser Artikel (der) oder aber die Verschmelzungsform aus Präposition und Artikel am eingesetzt werden; dasselbe gilt für Beispiel (21). Offenbar liegt hier freie Variation vor, denn die Phrase kann sowohl präpositional als auch nominal realisiert werden (vgl. 2.3.). Es handelt sich in solchen Fällen demnach auch nicht um PEs, sondern vielmehr um alternative Realisierungsformen der Phrase.

Ein weiteres Charakteristikum präpositionaler Ellipsen, das jedoch struktureller Natur ist – es kann daher zu semantischen Überschneidungen mit den anderen Kategorien kommen –, scheint sich darin zu manifestieren, dass sie

29 'Hoihoi … jep, habe tiptop gestartet. Freitag wäre ok.' 30 'Dann machen wir doch gerade 18:20 beim Stadttor, dann bist du auch wieder beizeiten

zuhause.' 31 Ähnliches mag man auf den ersten Blick auch für Beispiel (20) annehmen. Aber selbst wenn in

(20) die Antwort auf eine Frage vorläge, macht das nachfolgende Syntagma (bin ich daheim) das Fehlen der Präposition offensichtlich. Auf eine Frage wie wann bist du zuhause würde man möglicherweise mit 10 Minuten, aber kaum mit 10 Minuten bin ich zuhause antworten. In Fussnote 28 ist im Übrigen bereits darauf hingewiesen worden, dass der dialogische Kontext der SMS im Schweizer SMS-Korpus aufgrund des Vorgehens bei der Datensammlung nicht überprüfbar ist.

Page 127: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Präpositionale Ellipsen im Schweizer SMS-Korpus – kontrastiv 122

sehr häufig zusammen mit dem Artikel ausfallen, wie die folgenden Belegbeispiele zeigen:

4.3 Kategorie III: ArtPE

(22) Gange ØØ altstadtbar mit dany (6654)32

(23) […] he, saish morn müemr zeme id shuel ge. mmh, gömmr ØØ 5i zug? […] (202)33

(24) Gange Ø Märt, wasöli? Älimaa (716)34

(25) Je crois que tu m'as mal compris: on est de retour à l'hôtel le plus tôt à 23h, donc: où est-ce qu'on se retrouve? Ø Bolzano? ØØ Hôtel? Si [Ø ?] ØØ hôtel et si tu penses arriver avant 23h, je vais me renseigner comment tu pourrais avoir accès à la chambre. BisouS

(26) NNN café ØØ mensa? (3632)

(27) Ritrovo SlowUp alle 10:00 in Piazza Governo? Per pranzo (ca. Ø 13h) DEVO esser a casa.. ;-) (25128)

In Beispiel (22) wird die Präposition sowie ein definiter Artikel nicht realisiert, dasselbe gilt für Beispiel (23) – die vollständigen Präpositionalphrasen würden demnach in die Altstadtbar bzw. gömmer uf de 5i Zug lauten. In Beispiel (24) ist davon auszugehen, dass hier eine für das Schweizerdeutsche obligatorische Verschmelzungsform einzusetzen wäre: (Ich) gange an Märt. Beispiel (25) (siehe auch weiter oben) zeigt, dass der gemeinsame Ausfall von Artikel und Präposition auch im Französischen vorkommt. So könnte man beispielsweise à l'hôtel gut rekonstruieren, während die Rekonstruktion der Präposition allein à hôtel unmöglich scheint. In der folgenden Passage scheint darüber hinaus auch noch ein Verb zu fehlen. Man könnte hier beispielsweise Si on se retrouve à l'hôtel rekonstruieren, sofern man davon ausgeht, dass tatsächlich eine Reduktion und kein Telegrammstil zugrunde liegt. In Beispiel (26) können wieder nur Präposition und Artikel gemeinsam rekonstruiert werden: café à la mensa? Während café à mensa unwahrscheinlich ist. In Beispiel (27) schliesslich ist die Form alle nicht realisiert, die aus dem Zusammenschluss der Präposition a und dem Artikel le besteht.

Die Beobachtung, dass Präpositionen häufig mit dem Artikel ausfallen, lässt sich in den drei SMS-Beispielsammlungen ebenso feststellen wie bei Siegel (2014: 79), die eine Art linear-sequenzielle "Auslassungshierarchie" konstatiert: "Entweder werden Präposition und Artikel oder nur der Artikel nicht gesetzt." Da die PE in der weiteren Folge auch zu Veränderungen in der Nominalphrase führt, spricht Siegel in diesem Zusammenhang von einem

32 'Gehe Altstadtbar mit Dany' 33 'he, du sagst, morgen müssen wir zusammen in die Schule gehen. Mh, gehen wir 5 Uhr Zug?' 34 'Ich gehe Markt, was soll ich? Älimaa'

Page 128: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

123 Karina Frick, Anne-Danièle Gazin & Charlotte Meisner

Implikationsverhältnis. Die alleinige Weglassung der Präposition hingegen sei im Deutschen nur in Ausnahmefällen möglich (vgl. Siegel 2014: 80). In unserer qualitativen Beispielsammlung kommt sie in der Tat auch nicht besonders häufig vor; Ausnahmen bilden die Beispiele (28)-(31):

4.4 Kategorie IV: isolierte PEs

(28) Ah ok :-D, gosåh allei odr Ø kollege? (10050)35

(29) Hey mein Junge, wa isch denn Ø eu obä los?? […] (8708)36

(30) Carlo-mi spiace di tutto cuore-non riuscivo Ø venire-ma mi sono prenotato il 12 !spero che è andata bene la vernissage e ti mando un carissimo saluto-a presto-k (12930)

(31) Coucou je passe au manège ce soir avant le souper. Sinon rdv chez nous Ø 19h30. (7497)

In Beispiel (28) bleibt die Präposition mit unrealisiert. Hier könnte man zwar auch argumentieren, dass neben der Präposition zusätzlich auch noch ein Artikel eingesetzt werden kann: gosch allei odr mit dine kollege? Ein solcher ist jedoch nicht notwendig, das Beispiel ist auch grammatisch, wenn nur die Präposition gesetzt wird, was für die obigen Beispiele (22)-(27) nicht zutrifft; aus diesem Grund gehört das Beispiel in diese dritte Kategorie. In (29) hingegen ist nur die Präposition bei einsetzbar. Das italienische Beispiel (30) zeigt, wie die vom Verb regierte Präposition a im Verbkomplement weggelassen wird. Die Auslassung von blossen Präpositionen ohne dazugehörigen Artikel ist also ein Phänomen, das in den Schweizerdeutschen und Italienischen Beispielen zwar vorkommt, jedoch noch seltener als die gemeinsame Auslassung von Präposition und Artikel ist. Daraus lässt sich die Hypothese ableiten, dass letztere etwas weniger stark markiert ist als diejenige der blossen Präposition. Das trifft allerdings für das Französische nicht zu: Dort kommt die Auslassung der Präposition allein häufiger vor als in Verbindung mit einem Artikel, wie in Beispiel (31) ersichtlich. Das liegt vor allem daran, dass die meisten PEs im Französischen in Verbindung mit Uhrzeiten auftreten, die nie mit Artikel stehen.

5. Diskussion

Die Analyse der drei verschiedensprachigen Beispielsammlungen hat zusammenfassend ergeben, dass sich PEs im schriftsprachlichen Kontext von SMS grob in vier Kategorien einteilen lassen: Das sind zum einen die semantischen Kategorien lokale und temporale PE. Zum anderen lassen sich die PEs auch strukturell kategorisieren – danach nämlich, ob sie alleine oder

35 'Ah ok :-D, gehst du alleine oder Kollegen?' 36 'Hey mein Junge, was ist denn euch oben los?'

Page 129: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Präpositionale Ellipsen im Schweizer SMS-Korpus – kontrastiv 124

gemeinsam mit der Präposition ausfallen. Während sich für die SMS-Daten gezeigt hat, dass aus semantischer Perspektive sowohl lokale als auch temporale PEs möglich sind, gibt es für die strukturellen Kategorien eine klare Hierarchie: So ist die gemeinsame Auslassung von Präposition und Artikel weniger stark markiert und ergo häufiger als die Nicht-Realisierung der blossen Präposition – mit Ausnahme der Temporal-PEs im Französischen, die nie einen Artikel brauchen.

Im Anschluss an diese Feststellung ist die Frage aufzuwerfen, ob auch Restriktionen für die Nicht-Realisierung der Präpositionen gelten. Mit anderen Worten: Gib es Umstände, unter denen die Präposition in jedem Fall realisiert werden muss, eine PE also unmöglich ist? Siegel (2014: 86-89) führt dazu vier Kontexte auf: Erstens verunmöglicht das Vorhandensein einer Proform die Nicht-Setzung einer Präposition. Nur wenn lexikalische Nomen vorliegen, kann es demnach zu einer PE kommen. Zweitens ist bei Richtungsverben nur dann eine PE möglich, wenn das Ziel der Bewegung ausgedrückt wird – bei der Bezeichnung der Herkunft der Bewegung ist eine Realisierung nötig. Eine dritte Restriktion betrifft die obligatorische Setzung von Präpositionen, "[…] die eine Pfadangabe oder die Nähe zu einem Referenzpunkt kennzeichnen" (Siegel 2014: 88). Der vierte Punkt schliesslich bezieht sich auf feste Wendungen und idiomatisierte Raumausdrücke, die ebenfalls das Vorhandensein der Präposition voraussetzen. Da im vorliegenden Aufsatz das Augenmerk auf Präpositionalphrasen lag, denen der Kopf fehlt, steht eine Bestätigung der von Siegel genannten Restriktionen noch aus; aufgrund der insgesamt hohen Übereinstimmung mit Siegels Ergebnissen ist aber davon auszugehen, dass diese obligatorischen Realisierungsbedingungen auch auf die schriftlichen (schweizer)deutschen SMS-Daten zutreffen.

Festzuhalten sei an dieser Stelle zweierlei: Erstens bringt die Identifizierung von PEs im schriftlichen Kontext der SMS gewisse Schwierigkeiten mit sich, was zum einen darauf zurückzuführen ist, dass offenbar Kontexte existieren, in welchen die Realisierung bzw. Nicht-Realisierung der Präposition Gegenstand grammatischer Variation ist. In diesen spezifischen Fällen ist auch eine ellipsenbasierte Herangehensweise nicht sinnvoll. Zum anderen ist die Identifikation von PEs in Nachrichten mit Telegrammstil erschwert, deren Charakteristikum sich ja gerade in der Abwesenheit von Syntax manifestiert. Die Annahme von PEs in derartig verfassten SMS ist daher mit gewisser Vorsicht zu behandeln.

Zweitens scheint es dementsprechend in den schweizerdeutschen Beispielen so zu sein, dass die Nicht-Realisierung von Präpositionen der Imitation eines bestimmten Registers dient – dem ethnolektalen Deutsch – bzw. umgekehrt: dass die Nicht-Realisierung von Präpositionen diesem Register zugeordnet wird. Während jedoch im gesprochenen ethnolektalen Deutsch gemäss Siegels (2014) Untersuchung vor allem lokale PEs auftreten, finden sich im

Page 130: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

125 Karina Frick, Anne-Danièle Gazin & Charlotte Meisner

geschriebenen auch relativ häufig temporale PEs, die im schriftlichen Kontext kommunikativ offenbar unproblematischer sind als im gesprochenen.37

6. Schluss

Der vorliegende Aufsatz konnte aufzeigen, dass präpositionale Ellipsen in schweizerdeutschen, französischen und italienischen SMS-Nachrichten sehr selten auftreten. Dieser Befund deckt sich mit der von Siegel (2014) zum gesprochenen 'Türkendeutsch' durchgeführten Untersuchung und ist insbesondere darauf zurückzuführen, dass die Auslassung präpositionaler Köpfe mit einer relativ starken Markiertheit einhergeht. Die Beispielanalysen zeigen, dass Präpositionen offenbar zu denjenigen grammatischen Elementen gehören, deren Realisierung im Syntagma von relativ hoher Relevanz ist. Dass die wenigen Präpositionen, die fehlen, vor allem in lokalen und temporalen Phrasen auftreten und darüber hinaus in der Mehrheit zusammen mit dem Artikel ausfallen, ist ein deutliches Indiz dafür, dass auch in SMS nicht einfach nach Belieben gekürzt wird, sondern dass die Auslassung bestimmten syntaktischen (und semantischen) Regularitäten folgen. In Anlehnung an das oben (vgl. Kap. 2.3) aufgeführte Zitat von Auer (2013: 31) könnte man als Fazit festhalten: Es ist also keineswegs der Fall, dass in SMS grundsätzlich und wahllos Elemente weggelassen werden dürfen.

Der Artikel vermag sicher einige Fragen zu beantworten – andere wiederum wirft er auf. So stellt, wie oben bereits angedeutet, die Quantifizierung der Ergebnisse ein Desiderat dar. Genaue Zahlen könnten Aufschluss darüber geben, inwiefern sich die drei Sprachen – neben den aufgeführten Gemeinsamkeiten – hinsichtlich der Möglichkeit, die Präposition auszulassen, unterscheiden. Damit einher geht die Frage danach, ob sprachspezifische Ellipsenformen existieren, die in den bisherigen Analysen, die den Gemeinsamkeiten geschuldet waren, unbeachtet blieben.

Bibliographie

Aelbrecht, L. (2009): You have the right to remain silent. The syntactic licensing of ellipsis. Abrufbar unter: http://www.gist.ugent.be/members/lobkeaelbrecht. (19.06.2015)

Androutsopoulos, J. (2001): Ultra korregd Alder! Zur medialen Stilisierung und Popularisierung von 'Türkendeutsch'. In: Deutsche Sprache, 4/2001, 321-339.

37 Dies mag auch darauf zurückzuführen sein, dass beispielsweise Uhrzeiten in geschriebener

Sprache hauptsächlich als Zahlen realisiert werden, wohingegen sie im Gesprochenen ausformuliert werden; möglicherweise ist die Identifikation als Präpositionalphrase durch die numerische Darstellung im schriftlichen Dialekt weniger eindeutig.

Page 131: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Präpositionale Ellipsen im Schweizer SMS-Korpus – kontrastiv 126

Auer, P. (2003): 'Türkenslang': Ein jugendsprachlicher Ethnolekt des Deutschen und seine Transformationen. In: Häcki Buhofer, A. (Hg.): Spracherwerb und Lebensalter. Tübingen/Basel (A. Francke), 255-264.

— (2013): Ethnische Marker im Deutschen zwischen Varietät und Stil. In: Deppermann, A. (Hg.): Das Deutsch der Migranten (= Jahrbuch des Instituts für Deutsche Sprache 2012). Berlin/Boston (de Gruyter), 9-40.

Azra, J.-L. & Cheneau, V. (1994): Jeux de langage et théorie phonologique. Verlan et structure syllabique du français. In: Journal of French Language Studies, 4, 147-170.

Bußmann, H. (Hg.) (2008): Lexikon der Sprachwissenschaft. 4., durchgesehene und bibliographisch ergänzte Auflage. Stuttgart (Alfred Kröner).

Bedijs, K. (2012): Die inszenierte Jugendsprache. Von "Ciao, amigo!" bis "Wesh, tranquille!". Entwicklungen der französischen Jugendsprache in Spielfilmen (1958-2005). München: (Meidenbauer).

Dardano, M. & Trifone, P. (1995): Grammatica italiana con nozioni di linguistica. Terza edizione. Bologna (Zanichelli).

Di Meola, Cl. (2000): Die Grammatikalisierung deutscher Präpositionen (= Studien zur deutschen Grammatik 62). Tübingen (Stauffenburg).

Duden (2009): Die Grammatik. Unentbehrlich für richtiges Deutsch. 8., überarbeitete Auflage. Mannheim (Dudenverlag).

Dürscheid, C. & Brommer, S. (2009): Getippte Dialoge in neuen Medien. Sprachkritische Aspekte und linguistische Analysen. In: Linguistik online, 37, 3-20. Abrufbar unter: http://www.linguistik-online.de/37_09/duerscheidBrommer.html. (19.06.2015).

Glück, H. (Hg.) (2005): Metzler Lexikon Sprache. 3., neubearbeitete Auflage. Stuttgart/Weimar (Metzler).

Griesshaber, W. (2009): Präposition. In: Hoffmann, L. (Hg.): Handbuch der deutschen Wortarten. Berlin/New York (de Gruyter), 629-655.

Hennig, M. (Hg.) (2013): Die Ellipse. Neue Perspektiven auf ein altes Phänomen (Linguistik – Impulse und Tendenzen 52). Berlin/Boston (de Gruyter).

Hofmann, M. (2006): Verarbeitung elliptischer Satzkonstruktionen beim Sprachverstehen. Frankfurt a.M.: Dissertation. Abrufbar unter: http://ediss.sub.uni-hamburg.de/volltexte/2006/ 3139/pdf/DissertationHofmann.pdf. (19.06.2015)

Klein, W. (1993): Ellipse. In: Jacobs, J., von Stechow, A., Sternefeld, W. & Vennemann, T. (Hg.): Syntax. Ein internationales Handbuch zeitgenössischer Forschung/An international Handbook of Contemporary Research (= Handbücher zur Sprach- und Kommunikationswissenschaft). Berlin (de Gruyter), 763-799.

König, K. & Bahlo, N. (Hg.) (2014): SMS, WhatsApp & Co.: Gattungsanalytische, kontrastive und variationslinguistische Perspektiven zur Analyse mobiler Kommunikation. Münster (Monsenstein und Vannerdat).

Ling, R. & Baron, N.S. (2013): Mobile phone communication. In: Herring, S., Stein, D. & Virtanen, T. (Hg.): Pragmatics of Computer-Mediated Communication. Berlin/Boston (de Gruyter) (= Handbook of Pragmatics 9), 191–215.

Merchant, J. (2012): Ellipsis. Abrufbar unter: http://home.uchicago.edu/~merchant/ pubs/ merchant.ellipsis.pdf.(06.01.2015).

Moraldo, S. (2011): Web 2.0 und die deutsche Sprache. Kommunikative und sprachliche Aspekte der Microblogging-Plattform Twitter. In: Moraldo, S. (Hg.): Deutsch Aktuell: Einführung in die Tendenzen der deutschen Gegenwartssprache (= Lingue e letterature Carocci 43). Rom (Carocci), 250-266.

Page 132: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

127 Karina Frick, Anne-Danièle Gazin & Charlotte Meisner

Nübling, D. (2010): Historische Sprachwissenschaft des Deutschen. Eine Einführung in die Prinzipien des Sprachwandels. 3., überarbeitete Auflage. Tübingen (Narr).

Riegel, M., Pellat, J.-C. & Rioul, R. (2008): Grammaire méthodique du français. Paris (PUF).

Serianni, L. (1989): Grammatica italiana. Torino (UTET).

Siebenhaar, B. (2006): Das sprachliche Normenverständnis in mundartlichen Chaträumen der Schweiz. In: Androutsopoulos, J., Runkehl, J., Schlobinski, P. & Siever, T. (Hg): Neuere

Entwicklungen in der linguistischen Internetforschung (= Germanistische Linguistik 186-187), Hildesheim/Zürich/New York (Olms), 45–67.

Siegel, V. (2014): Präpositionalphrasen ohne Präpositionen? Zur syntaktischen Reduktion im 'Türkendeutschen'. In: Kotthoff, H., Mertzlufft, C. (Hg.): Jugendsprachen. Stilisierungen, Identitäten, mediale Ressourcen (= Sprache – Kommunikation – Kultur; Soziolinguistische Beiträge 13). Frankfurt (Peter Lang), 67-93.

Stähli, A., Dürscheid, C. & Béguelin, M.-J. (2011): sms4sciene: Korpusdaten, Literaturüberblick und Forschungsfragen. In: Stähli, A., Dürscheid, C. & Béguelin, M.-J. (Hg.): SMS-Kommunikation in der Schweiz: Sprach- und Varietätengebrauch/La communication par SMS en Suisse. Utilisation de langues et varietés/La comunicazione mediante SMS in Svizzera: usi di lingue e varietà/La communicaziun per SMS en Svizra: diever da linguas e varietads/Text messaging in Switzerland: Use of Languages and varieties (= Linguistik online 48, 4/2011), 3–18. Abrufbar unter: http://www.linguistik-online.de/48_11/staehliDuerscheidBeguelin.pdf <19.06.2015>.

Schwarze, C. (1995): Grammatik der italienischen Sprache. 2. Auflage. Tübingen (Niemeyer).

Page 133: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Page 134: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Travaux neuchâtelois de linguistique, 2015, 63, 129-152

La variabilité formelle des questions dans les écrits SMS

Alexander GURYEV1 2 & François DELAFONTAINE1 1Institut des sciences du langage et de la communication, Université de Neuchâtel 2ED 268 Langage et langues, Université de Paris 3 Sorbonne Nouvelle

In classical sociolinguistic studies, the variety in French interrogative structures is accounted for in terms of the different socio-stylistic values that they express. However the study of SMS data provides us with evidence that this approach needs to be challenged. This paper argues in favor of an alternative approach, which views various interrogative structures as "multiple forms in concurrence" (Quillard 2000) with their own structural and functional particularities, instead of viewing various interrogative structures as alternative ways of expressing the same thing. In line with this position we will discuss some methodological issues and the design of this approach, leading us through the article from the annotation of linguistic data to some preliminary results of the study.

1. Introduction

La variété formelle de l’interrogative en français a été étudiée dans le cadre de plusieurs approches, notamment les trois suivantes: (i) les analyses syntaxiques, qui ciblent les contraintes grammaticales ou structurelles dans la production des interrogatives (Kayne 1972; Danjou-Flaux & Dessaux 1976; Obenauer 1976; Jones 1999; Druetta 2009), (ii) les analyses sémantico-pragmatiques, qui s’intéressent aux relations entre une forme interrogative et sa fonction vue comme usage potentiel (Weinrich 1989; Mosegaard-Hansen 2001; Berrendonner 2005; Abeillé & al. 2012), ou encore (iii) les approches variationnistes, qui tentent de rendre compte de la variété des interrogatives en considérant une multiplicité de facteurs, tant linguistiques (grammaticaux) que non linguistiques (communicatifs ou sociolinguistiques), susceptibles d’avoir une incidence sur le choix des interrogatives (Coveney 19961=20022; Quillard 2000; Elsig 2009; Adli 2006, 2013). Plusieurs de ces études se sont intéressées dans une perspective quantitative aux corpus de français parlé. Il a ainsi été démontré que l’oral ordinaire est caractérisé, d’une part, par l’extrême fréquence de formes interrogatives à maintien de l'ordre canonique Sujet-Verbe et, d’autre part, par la rareté des autres formes, notamment structures inversées.

Quant à cet article, il s'intéresse à la variabilité formelle des questions dans les écrits SMS (angl. Short Message Service) et vise particulièrement à répondre aux questionnements suivants:

Page 135: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

130 La variabilité formelle des questions dans les écrits SMS

- Les tendances observées dans les corpus oraux informels sont-elles aussi valides pour d’autres types de discours informels, à savoir les nouvelles formes de communication écrite véhiculées par les SMS?

- Ce type des données a-t-il quelque chose à nous apprendre à propos de la variation dans l'usage des interrogatives?

- De quelle manière faut-il aborder, de manière plus générale, les faits de variation syntaxique?

Sans prétendre à l’exhaustivité, cet article se focalisera sur les questions d'ordre méthodologique et procédera à une analyse exploratoire de la variabilité formelle des questions dans les messages du Corpus suisse de SMS en français1. Dans un premier temps, nous présenterons les données utilisées, avant de comparer les faits de langue de ce type de corpus avec les données de l'oral spontané. Dans un deuxième temps, nous discuterons de l'approche à adopter pour analyser la variabilité des questions en général. Pour terminer, nous présenterons une procédure d’annotation qui nous permettra de mettre en évidence le rôle des paramètres morphosyntaxiques dans la sélection des formes interrogatives à disposition du locuteur.

2. Le Corpus suisse de SMS

Le projet sms4science a été lancé en 2004 par le CENTAL de l’Université de Louvain en Belgique (prof. C. Fairon), via l’opération 'Faites don de vos SMS à la science'. L’objectif des initiateurs était de collecter un très vaste corpus de messages afin de "contribuer à l’étude de la communication par SMS ('SMS', 'txt', 'texto', etc.) et à l’étude du langage qu’elle véhicule"2. Quelques années plus tard, ce projet a pris une dimension internationale avec la participation de la Réunion (2008), de la Suisse (2009), du Québec au Canada, des Hautes Alpes et de l’Isère en France (2010). En Suisse, le projet s’est développé autour des Universités de Zurich, de Neuchâtel et de Berne avec la collaboration de l'Université de Leipzig (Allemagne). Il a notamment donné lieu à sept thèses de doctorat dont les questions de recherche sont explicitées dans ce numéro de Tranel (voir les articles de Robert-Tissot, de Cathomas, Ferretti, Bucher et Morel, et de Frick en collaboration avec Gazin et Meisner).

Le corpus collecté en Suisse sous l’égide des Universités de Zurich et de Neuchâtel se monte à 25'947 textos rédigés essentiellement, mais non exclusivement, dans les quatre langues nationales de la Suisse (allemand et

1 Cf. https://sms.linguistik.uzh.ch (Stark, Ueberwasser & Ruef 2009-2014). 2 Cf. http://www.sms4science.org/, le 29 mai 2015

Page 136: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Alexander Guryev & François Delafontaine 131

dialectes alémaniques, français, italien, romanche). Il comprend 4’619 messages en français qui nous ont servi de données dans cette étude (fig. 1)3:

Fig.1: Répartition des langues dans le Corpus suisse de SMS

De manière globale, les données ont été "léguées à la science" par 2'784 donateurs âgés de 12 à 77 ans, dont 46 % ont entre 20 et 29 ans (pour plus de détails, voir le site www.sms4science.ch).

3. Les écrits SMS en tant que données linguistiques

Si les écrits SMS sont souvent associés dans le large public à des productions langagières malformées et à une écriture peu compréhensible, voire agrammaticale, nous verrons ci-dessous que la réalité est loin de ce stéréotype.

3.1 Néographie4 vs orthographe standard

Au premier abord, la pratique du SMS fait penser à une rupture totale avec la norme de l’orthographe standard, surtout face à des messages qui abondent en procédés de néographie et d’abréviations:

(1) Hello, comen va? Jespèr ke ton operation c bi1 pacé é ke ta pa du alé en pédiatri come moi!lol,ya dé joli pti desin o mur la ba! Peutu mdir kel tail de chemis il te fau pr lé scout? Merci biz a+ (18395)5

3 Lors des analyses qualitatives et afin de renforcer nos observations, nous avons aussi utilisé

quelques exemples en provenance du Corpus "88milSMS" recueilli à Montpellier en France par Panckhurst et ses collègues (Panckhurst & al. 2014).

4 Nous nous référons ici au terme anglais "neography" employé par Anis (2007).

Suisse allemand 10'706

Allemand standard 7'287

Français4'619

Italien 1'519Romanche 1'121 Anglais 535

Autres langues 208

Page 137: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

132 La variabilité formelle des questions dans les écrits SMS

Toutefois, diverses études portant sur le français (Cougnon & François 2010), l’allemand (Bieswanger 2007), l’anglais (Thurlow & Brown 2003), ou encore le norvégien (Ling 2005) montrent qu’en dépit des préjugés dont fait l’objet la pratique du texto, les scripteurs, toutes catégories sociales confondues, se passent en majorité d’abréviations (cf. Krummes & al. 2014)

Par ailleurs, si l’écriture non-conventionnelle est favorisée par l'interaction par SMS en tant que genre de discours, plusieurs études montrent que les procédés associés à l’usage de graphie non-standard sont néanmoins ordonnés, relèvent d'une logique (Béguelin 2012a) et assurent diverses fonctions (Cougnon 2010). Par exemple, comme le remarque Cougnon (2010: 401), qui a étudié divers corpus de SMS issus de différents pays francophones, les auteurs des textos peuvent "marquer leur appartenance géographique et renforcer une complicité avec leur interlocuteur de même appartenance". Elle montre ainsi qu'en Suisse certains scripteurs peuvent être amenés, par imitation d’une prononciation locale, à procéder par "allongement de la syllabe finale [u] en [uə]", ou par "réalisation approximative de [v] en [w]" (2) (2010: 404):

(2) Holà! Dis-woir… Qu’est-ce que tu lui as fait, samedi, à ma sœur?… Elle me parle bien souvent de toi… il me semble… (< Cougnon)

3.2 Quelle grammaire pour le texto?

Un autre préjugé concerne la structuration discursive de la communication par SMS. On pourrait ainsi croire que la façon d’écrire le texto se rapproche des productions orales "relâchées". Ce deuxième préjugé semble encore découler du premier, discuté ci-dessus, du fait que chez beaucoup de locuteurs, sous la pression des institutions sociales et scolaires, la maîtrise de la grammaire va de pair avec la maîtrise de l’orthographe (Béguelin 2012b):

Du côté du grand public scolarisé, notamment dans le monde francophone, il existe ainsi une tendance très nette au "graphocentrisme", caractéristique d’une société à forte tradition écrite; pour bon nombre de ses usagers, le français tend ainsi à être identifié, d’abord et avant tout, à sa forme écrite (2012b: 40)6

Si le texto semble approprié à l'usage de formes linguistiques familières ou expressives7, cela n’empêche pas que les conditions dans lesquelles sont

5 Par la suite, tous les exemples en provenance du corpus suisse seront accompagnés du

numéro de SMS dans la base de données sms4science pour la Suisse. Par ailleurs, nous avons conservé dans tous les messages les particularités graphiques d'origine.

6 Sur ce point, Béguelin renvoie notamment le lecteur aux réflexions de Blanche-Benveniste (2003: 317; 1997: 11).

7 Cela s’explique entre autres par le fait que très souvent les interlocuteurs sont proches psycho-socialement: ils viennent du même milieu social et ont accès aux mêmes références partagées suite aux activités mutuelles (cf. Anis 2007).

Page 138: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Alexander Guryev & François Delafontaine 133

produits les SMS diffèrent d’une interaction orale ordinaire. Le SMS relève de la graphie et partant correspond à un "produit fini" (Béguelin & al. 2000: 233); de ce fait, on n’y trouve que rarement les phénomènes de bribes et autres traces d’élaboration du discours en temps réel qui caractérisent l’oral spontané, cf.:

(3) je suis pas très euh patriote ou nationaliste je suis | je suis je suis je suis genevois oui parce qu'en fait euh | _ | Ge- Genève c'est un peu | _ | on fait partie de la Suisse c'est sûr on fait partie euh on est suisse | _ | mais on est quand même un peu international (OFROM8)

Dans l'exemple (3), les scories en question se manifestent sous la forme d’hésitations (euh), de répétitions (je suis je suis je suis genevois), de troncations (Ge- Genève), ou encore de reformulations (Genève c’est un peu […] on est quand même un peu international) (cf. Blanche-Benveniste & Martin 2011).

Cette divergence entre l’oral spontané et le texto est plus nette encore dans la façon d’exploiter les différentes ressources grammaticales dont certaines sont réputées rares en français "relâché". Ainsi, dans le domaine des temps verbaux, Labeau (2014) a démontré, en se basant sur une étude effectuée à partir de 500 SMS belges, que dans le texto on aurait tendance à employer davantage le futur simple (je ferai) que le futur périphrastique (je vais faire): "Dans le domaine du futur, la forme synthétique apparaît majoritaire (64,86%), contrairement à ce qui est attesté dans l’oral spontané" (2014: 136).

D'autre part, contrairement à ce qu'on pouvait penser, le texto atteste de l'emploi du passé simple, même si les formes concernées sont plutôt des tournures stabilisées du type "ce fut". Ces emplois ne sont pas uniquement caractéristiques des groupes âgés, mais se rencontrent aussi chez les locuteurs plus jeunes, comme l’atteste le corpus suisse (4)9:

(4) a. F, 19 ans: Bonne nuit na yo!merci pr ce week end,on s'est tro marré et ce fut très creu et tt et tt et TOUTOU!mdr! […] dors bien,je t'aime renaud!ps: osa kitoko na coiffure na yo:) (20682) b. F, 25: Mais de rien! Ce fut un plaisir pour nous aussi. On se réjouis déjà de vous revoir. Bise et bon we. (22308)

Enfin, dans le domaine de l’interrogation, objet de cette étude, la réalisation des formes interrogatives dans le texto n’est pas exactement la même qu’à l’oral spontané. À titre indicatif, le tableau ci-dessous illustre que la réalisation des interrogatives totales est différente dans les deux types de corpus. Le premier constat surprenant, dans le corpus suisse de SMS – si c’est toujours

8 Corpus du français parlé en Suisse Romande (Avanzi & al. 2012-2015). 9 Nous rencontrons aussi les emplois du passé simple dans le Corpus français "88milSMS"

(Panckhurst & al. 2014): "Lol! Je lai pas rendu et ce fut HORRIBLE! Jsais pas qui ya demain. Aufait le cours daujourdhui a ete annulé je sais pas si je te lai dis x3 bonne nuit et a demaaaaaaain!! :3 (ID 394)".

Page 139: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

134 La variabilité formelle des questions dans les écrits SMS

la variante par maintien de l’ordre assertif qui domine, tout comme dans les corpus oraux – est que la variante par inversion, qui est réputée soutenue, dépasse clairement la variante en "est-ce que". Cette dernière est en revanche plus fréquente à l'oral d'après le corpus de Coveney:

[SV] Tu vas au cours?

[V-Scl] Vas-tu au cours?

[ESV] Est-ce que tu vas au cours?

Coveney (19961=20022: 118): Français parlé

79,4% (143) - 20,6% (37)

Mosegaard Hansen (2001: 520): Français parlé

86% (86) - 14% (14)

Corpus suisse de SMS (2009- 2014)

87,2% (1445) 8,3% (138)10 4,5% (75)

Fig.2: Réalisation des interrogatives totales dans deux corpus oraux vs un corpus de SMS

L'écart entre le texto et l’oral ordinaire devient encore plus important quand – à côté des structures par inversion simple (5) – on s'intéresse aux interrogatives par inversion complexe (6):

(5) a. Salut les ami(e)s. Seriez vous là demain soir pour une bouffe chez nous. J'ai envie de feter avec vous ma récente obtention de mon titre de psychothérapeute. […] A+ (9872) b. Emploies tu encore mon vieux natel? Sinon apporte le. Merci (15382) c. Suis-je un cadeau de Noel suffisant pour toi? :-P (21925)

(6) a. L un de vous aura t il son ordi avec lui? Sinon j prends le mien, pr vous montrer les fantastiques statistiques de notre site :) (10807) b. Sam vs a-t-il laissés dormir un peu ce matin? Belle journée et gros bisous. Votre mam's qui vs aime (20411) c. Alors Lyon? Le paradis? Vos postes vous comblent-ils? Avez-vous trouvé vos repères? Des bisous de la Cote d'Az' à tous ! (88milSMS, ID 148 ) d. Coucou […], je suis désolée de t'avertir comme ça, au jour le jour, mais j'ai un peu de mal à gérer mon emploi du temps...! Est-ce que t'as pu monter qalif vendredi dernier? Et est-ce que ça t'es possible de le monter aujourd'hui? La carrière est-elle praticable ou pas? Merci... Bisous (88milSMS, ID 452)

À titre de rappel, l'interrogation par inversion complexe est réputée très formelle ou littéraire, et pratiquement non-existante en français parlé européen (Elsig & Poplack 2006). Pourtant, on la trouve dans le contexte réputé familier du SMS.

Ces observations nous amènent à conclure que, d’une part, la répartition des faits grammaticaux réputés rares dans les discours oral informel11 ne peut

10 Dont huit sont des structures dites par inversion complexe: Cela te va-t-il?

Page 140: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Alexander Guryev & François Delafontaine 135

s’expliquer exclusivement via le paradigme "formel/informel". Nous pensons ainsi qu'on aurait tort de ramener les procédés grammaticaux à deux grandes catégories opposées, en leur collant les étiquettes soit de français "standard", soit de français "non-standard" ou "avancé" (Rowlett 2007). Par ailleurs, comme attestent certains exemples, la frontière entre les catégories "standard"/"non-standard" semble être assez floue:

(7) Yo Baboun,la forme?Jmapprète a te poster ma feuille APG et comme tu me connais g d question.1) dois je a nouveau la filer au SPO ou puis - je me contenter de cocher la case "aucune modif par rapport..."2)si jte l'envoi aujourdhui je serai riche quand? (12578)

Nous voyons ainsi dans (7) que les variantes "standard" (dois-je…puis-je…?) vont de pair avec les variantes dites "avancées" (la forme? je serai riche quand?).

D’autre part, les différences que nous avons constatées montrent que le recours aux divers procédés grammaticaux n'est pas aléatoire, mais suit certaines tendances, de sorte que des pratiques langagières différentes affichent des préférences différentes dans leur façon d’exploiter la grammaire. Suite aux réflexions de Berrendonner (1987), nous pensons ainsi que les phénomènes variationnels, en tant que diversité de ressources grammaticales mises à disposition du locuteur, peuvent être envisagés en termes de "stratégies d’exploitation" (1987: 49).

4. Quelle approche pour la variation formelle des questions?

Les observations faites jusqu’ici nous amènent à adopter une approche moins traditionnelle selon laquelle le choix des interrogatives ne se fait pas forcément en fonction de la valeur socio-stylistique qui leur correspond, mais est motivé par l'ensemble des facteurs caractéristiques d’une situation énonciative. Ci-dessous, nous exposerons en plusieurs points à quoi pourrait ressembler cette approche.

4.1 Les interrogatives en français sont-elles ou non des variantes?

S’il y a lieu de parler de variation syntaxique dans le système des interrogatives en français, c’est parce que dans chaque type de situation communicationnelle, la grammaire française met à disposition du locuteur une diversité de moyens en vue de produire des énoncés interrogatifs. Ainsi, dans le cas de l’interrogation totale, qui porte sur l’ensemble du contenu propositionnel, nous avons relevé trois variantes dans le corpus suisse de

11 Voir aussi Tagliamonte & Denis (2008) pour l'étude de l’anglais dans le cadre de la messagerie

instantanée, où les auteurs constatent qu'à côté des emplois de formes caractéristiques du langage parlé, les locuteurs usent de procédés grammaticaux qui passent pour formels.

Page 141: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

136 La variabilité formelle des questions dans les écrits SMS

SMS (fig. 2). Traditionnellement, ces variantes sont reconnues dans la plupart des études comme trois possibilités de poser la question totale 12:

(8) a. Maintien de l’ordre assertif [SV]: Yo,ca roule?alors 7raclette? […] Vs ètes tjs motiv pr sortir,si oui où? (7367) b. Inversion du sujet clitique [V-Scl]: Hello Angèle, est-tu libre demain midi? Bonne journée. Sonthaya (12522) c. “Est-ce que" [ESV]: Coucou ma belle!Oui on sréjouit tp,c déjà ce we!:-) […] Sinon est-ce que vs avez besoin de qqch de Suisse?Redis moi au cas où!Sinon on se retrouve donc samedi,vers 15h15!Je t'enverrai1sms avant!On sréjouit,bisous!:-) (16342)

Concernant l’interrogation partielle, qui porte sur une partie du contenu propositionnel et qui s’appuie sur l’usage de la variable en Qu- {qui/quoi/quand/où/comment/combien/pourquoi/quel}, le choix devient encore plus important. Nous avons ainsi relevé dans nos données jusqu’à 7 variantes différentes (voir la fig. 3 pour les pourcentages):

(9) a. In situ [SVQ]: alors on sretrouve à quelle h ds les vestiaires? (12662) b. Antéposition [QSV]: Comment il s'appelle le groupe autrichien avec la rousse et l' autre type? (20130) c. Inversion du sujet clitique [QV-Scl]: Dans quelle direction dois-je me diriger ce soir pr aller boire du thé au beurre? (13230) d. Postposition du sujet nominal [QV SN]: Comment s'est passé cette reprise nordique :-)? (23419) e. Tour interrogatif “est-ce que” [QESV]: Alor qd S kon fète sa? (11215) f. Le mot interrogatif est “Sujet” [Q=S V]: Qui dit mieux? (17428) g. Clivage [seQkSV]: sinon c'est qui qui m'amènera de la joie et de la bonne humeur? (20890)

1. [SVQ] Tu parles de quoi? 53,1% (227)

2. [QSV] De quoi tu parles? 16,6% (71)

3. [QV-Scl] De quoi parles-tu? 14,8% (63)

4. [QV SN] De quoi parle ton frère? 8,2% (35)

5. [QESV] De quoi est-ce que tu parles? 5,9% (25)

6. [Q=S V] Qui parle? 0,9% (4)

7. [seQkSV] C'est qui qui parle? 0,5% (2)

Fig.3: Forme syntaxique des interrogatives partielles dans le corpus suisse de SMS

12 Par commodité, nous désignerons nos variantes par des abréviations, comme cela se fait chez

les autres chercheurs qui ont étudié les structures interrogatives en français (Coveney 19961=20022; Quillard 2000; Mosegaard Hansen 2001; Elsig 2009). Ici, nous reprenons le système d'abréviations utilisé par Coveney (2011).

Page 142: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Alexander Guryev & François Delafontaine 137

En ce qui concerne le terme de "variante", il peut être utilisé avec sens différent d'une approche linguistique à l'autre, notamment en fonction des objectifs de programmes de recherche (cf. Jacobson 1989). Ainsi, dans la méthodologie sociolinguistique labovienne les variantes représentent "des façons alternatives de dire la même chose" (notre traduction de l’anglais, cf. Winford 1996: 177). Selon cette conception, les variantes doivent être interchangeables sémantico-pragmatiquement; si elles ne le sont pas, les cas considérés ne sont plus des variantes, mais relèvent des contextes catégoriques13.

De notre côté, nous pensons qu’au lieu d’imposer la condition d’interchangeabilité sémantico-pragmatique, il serait plus judicieux d’accorder à la définition de "variantes" plus de souplesse et de traiter les structures en cause, à l’instar de l’approche de Quillard (2000), comme "plusieurs formes en concurrence" (2000: 297), et ce pour plusieurs raisons.

4.2 Approche en termes de concurrence

Il nous semble en effet que l’approche en termes de concurrence présente plusieurs avantages. Premièrement, elle nous permet d’envisager l’étude des variantes dans leur ensemble sans exclure les cas où elles ne sont pas interchangeables en raison des contraintes grammaticales ou sémantico-pragmatiques. Ainsi, si l’on prend l’exemple des interrogatives totales (10-12), nous verrons que leur réalisation fait l'objet de plusieurs types de contraintes, qu’elles soient d’ordre structurel (10), syntactico-sémantique (11), ou pragmatique (12):

(10) Ça va?/ Est-ce que ça va?/*Va ça?

(11) a. Tu as faim, je crois?/*As-tu faim, je crois?/*Est-ce que tu as faim, je crois? (cf. Borillo 1982, Abeillé et al. 2012) b. Une bêtise il a fait?/*Une bêtise a-t-il fait?/*Une bêtise est-ce qu’il a fait? (< Rossari & Gachet 2013)14

(12) a. Tu coupes un peu le magnétophone?/# Coupes-tu un peu le magnétophone?/# Est-ce que tu coupes le magnétophone? (< Coveney 19961=20022) b. A. Je vais à Paris ce mardi. B. Ah bon? Tu vas à Paris? B`. Ah bon? # Vas-tu à Paris?/# Est-ce que tu vas à Paris?

13 Voir par exemple Guy (2007: 3): "The prevailing consensus is that, while certain structures may

have different meanings in some of the contexts they occur in, there are often other contexts in which they function as alternants. Therefore, productive variationist analyses can be conducted, given careful attention to contexts and meaning."

14 Nous remercions Frédéric Gachet pour les commentaires de (11 b), où l'intonation interrogative porte sur le SN une bêtise, alors que il a fait est un segment postfocus à contour intonatif réduit. D'où vient cette impossibilité d'employer les structures par inversion ou par "est-ce que" en position postfocale.

Page 143: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

138 La variabilité formelle des questions dans les écrits SMS

Deuxièmement, cette approche nous permet de considérer la valeur socio-stylistique directement en lien avec la fonction de la variante (Lavandera 1978: 179; Gadet 1997: 14). Nous pouvons ainsi constater que la notion de valeur socio-stylistique n’est pas en soi absolue, la même variante étant susceptible de recevoir deux interprétations différentes selon telle ou telle situation (cf. Dewaele 1999: 5). En effet, si certains contextes favorisent l’emploi de variantes dites "soutenues" ou "familières", cela n’exclut guère leur apparition dans d’autres situations, comme c’est le cas des emplois des structures inversées dans le SMS. Par exemple, la variante par inversion peut être employée dans un contexte formel de la communication, où elle permet de souligner une distance interpersonnelle entre les locuteurs (dans les écrits SMS ce type d'emploi est plutôt rare):

(13) a. Bonsoir, des cours sont annulés pour raison d'un conseil de lycée extraordinaire. Je finis donc les cours à 15h15 au lieu de 17h. Est-il possible d'avancer notre rdv? Bonne soirée rick (8310) b. Bonjour Clerc, viens-tu au cours de francais aujourd'hui? Nous n'avons PAS de cours le mercredi 11novembre (la semaine prochaine). Cordialement. (8155)

Mais employée dans le contexte familier du SMS, elle n'est plus perçue comme "formelle", la graphie non-standard attestant aussi du caractère "familier" de la communication:

(14) a. Helo il y aura finalment pa dséance ac lé vieux-castel samedi proch. On a réussi a tt planifié samedi.je vous envoie le program 2m1.par contr pr la séance du matin ac lé éclai as tu dé idé dactivité? A+ (10455) b. Hello, comen va? Jespèr ke ton operation c bi1 pacé é ke ta pa du alé en pédiatri come moi!lol,ya dé joli pti desin o mur la ba! Peutu mdir kel tail de chemis il te fau pr lé scout? Merci biz a+ (18395)

Cette diversité d'interprétations nous conduit à conclure que la valeur socio-stylistique n'est pas stable en soi. En revanche, c'est le fonctionnement syntactico-sémantique des variantes qui s'avère plus stable (supra 10-12). Nous pensons ainsi qu'il sera plus instructif d'étudier la valeur socio-stylistique en lien avec les propriétés syntactico-sémantiques des variantes (cf. Berrendonner 1988; Gadet 2007; Langacker 2010).

En somme, l'approche que nous préconisons ici insiste sur la nécessité de tenir compte de plusieurs facteurs, de caractère aussi bien grammatical que pragmatique ou encore socio-personnel (cf. Coveney 19961=20022; Quillard 2000; Druetta 2009). Ainsi, sous l'influence de ces facteurs, les emplois des formes en concurrence, ou des variantes, "ne se font pas de manière entièrement aléatoire", au sens de Berrendonner (1987), mais "donnent lieu au développement de stratégies rationnelles et explicitables" (1987: 49). À noter qu’il peut y avoir une interaction entre deux ou plusieurs de ces facteurs dans le choix de telle ou telle variante (cf. Coveney 19961=20022). Plus généralement, nous adopterons une perspective fonctionnaliste d'après laquelle le choix entre plusieurs variantes permet au locuteur-scripteur de mieux s’adapter à ses besoins communicatifs: sous la pression de l’ensemble des facteurs constitutifs d'un contexte de communication particulier, il recourt

Page 144: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Alexander Guryev & François Delafontaine 139

à une variante plus efficace que les autres afin d’arriver au mieux à ses fins communicatives. De ce point de vue, nous nous rallions aux propos de Berrendonner (1987: 49), Catach (1995: 25), Haspelmath (1999: 186), ou encore Gadet (2007: 163), selon lesquels les phénomènes variationnels peuvent être envisagés respectivement en termes de "stratégies", "palette de possibilités", "adaptation" ou "ajustement dynamique".

4.3 Étude multifactorielle

Il est essentiel, en traitant la variation syntaxique dans les structures interrogatives, de tenir compte de la pluralité des contraintes, d'où le choix d'une étude multifactorielle. La tâche consiste alors à dégager les grandes tendances observées dans la distribution des variantes en lien avec les paramètres (i) linguistiques, (ii) communicatifs et (iii) socio-personnels.

Tout d’abord, en lien avec les paramètres linguistiques, il s’agira d’effectuer une étude distributionnelle et de voir comment différents paramètres morphosyntaxiques conditionnent l’emploi des structures interrogatives.

En deuxième lieu, les tendances linguistiques établies devront être expliquées qualitativement en lien avec les contraintes communicatives propres à l’interaction par texto, car différents genres de discours n’exploitent pas de la même façon toutes les possibilités de la grammaire (Fillmore 1973: 394; Newmeyer 2010: 32).

Enfin, du point de vue sociolinguistique, il s’agira d’examiner dans quelle mesure il peut y avoir une corrélation entre le choix de telle ou telle variante et d'éventuelles réalités d’ordre socio-personnel. Ainsi, nos premières observations montrent que l’usage de l’inversion semble progresser avec l’âge. À ce propos, nous renvoyons aussi aux observations de Quillard qui a étudié les emplois des interrogatives dans les corpus oraux. Elle montre ainsi que le modèle par inversion aurait plus de chances d'être employé par des locuteurs de plus 35 ans et de la catégorie socio-professionnelle "haute" (2000: 295-296). De ce point de vue, il serait aussi intéressant de voir si ces observations sont valides dans le contexte de communication suisse. D’autre part, dans les cas impliquant l’emploi des verbes modaux, il arrive qu’un scripteur choisisse une variante (par exemple, peux-tu…? vs tu peux…?) et l’applique à de nombreuses situations prototypiques. Cela peut s’expliquer par des ritualisations formulaires, des habitudes ou des préférences personnelles (cf. Quillard 2001, Guryev 2013).

Le besoin de recourir à un modèle multifactoriel dans le traitement des structures interrogatives se justifie entre autres par le fait que la sélection d’un paramètre unique risquerait de négliger des observations importantes faites par d’autres linguistes et de rencontrer par là ses limites.

Page 145: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

140 La variabilité formelle des questions dans les écrits SMS

Dans la suite de l'article nous nous centrerons exclusivement sur l’étude des paramètres linguistiques, ou morphosyntaxiques. Nous observerons quelques tendances propres à la réalisation des variantes dans le cas de l’interrogation totale dans le corpus suisse de SMS.

5. L'annotation des paramètres morphosyntaxiques et ses enseignements

L'approche que nous proposons nécessite une annotation méthodique des données, ce qui nous permettra par la suite de dégager quelques tendances linguistiques dans la réalisation des interrogatives totales dans les données SMS. En outre, nous mettrons en évidence la pertinence du concept de configuration syntaxique, car nos données attestent que certains contextes linguistiques s'avèrent plus propices que d'autres à l'alternance entre les variantes.

5.1 Annotation des paramètres morphosyntaxiques et traitement des données

Le codage a été effectué via le logiciel MMAX2, conçu spécialement en vue d’annoter les données linguistiques à des niveaux multiples (Müller & Strube 2006)15. Nous avons annoté deux types de variables:

(i) Au premier niveau ont été annotées les variantes de structures interrogatives, qui constituent la variable dépendante, c’est-à-dire l’objet de recherche;

(ii) Au deuxième niveau ont été annotés tous les facteurs que nous avons estimés sur la base des travaux antérieurs, susceptibles d’influencer la production des variantes interrogatives et qui correspondent à la variable indépendante.

S’agissant du premier niveau, il a d’abord fallu définir tous les types d'interrogatives attestés dans nos données puis les intégrer dans MMAX2 sous forme de schémas d'annotation. Ces schémas ont été établis suite à des observations initiales sur les données, afin de recouvrir les différents types d'interrogatives relevés dans le corpus SMS. Ils ont été testés à l'aide d'un travail d'annotation préalable portant sur cent, trois cents puis cinq cents

15 Dans le cadre du projet sms4science en Suisse, qui regroupe plusieurs universités partenaires,

le programme d'annotation MMAX2 a été choisi en vue d'un partage ultérieur des données, au travers du programme ANNIS (Zeldes & al. 2009), lequel permet des requêtes sur des données annotées à des niveaux multiples.

Page 146: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Alexander Guryev & François Delafontaine 141

messages SMS. Une case "autres questions"16 a été utilisée quand aucune des catégories établies ne donnait satisfaction (fig. 4):

Fig.4: Niveau 1 - Types de structures interrogatives

Bien que les schémas cherchent à documenter les différents types d'interrogatives attestés dans le corpus étudié, le but ultime du travail, en accord avec l'état de l'art dans le domaine, était de procéder à l’analyse quantitative et qualitative des questions à verbe conjugué, qui étaient réparties en deux grandes classes: (i) les questions totales (supra 8), qui comptent trois variantes dans notre corpus, et (ii) les questions partielles (supra 9), qui comptent dans notre cas jusqu’à 7 variantes. Enfin, ces questions ont aussi été annotées selon qu’elles étaient marquées ou non par un point d’interrogation et selon qu’elles étaient coordonnées ou non à d’autres questions.

Quant au deuxième niveau, le travail a consisté à annoter les différents paramètres morphosyntaxiques caractérisant l’occurrence des énoncés interrogatifs à verbe conjugué, ceux-ci constituant l’objet principal de l’étude. Le cadre syntaxique adopté se rattache, mutatis mutandis, aux conceptions de Blanche-Benveniste, pour laquelle il est primordial de commencer l’analyse linguistique des énoncés par le verbe, qui est "le principe organisateur, avec son sujet et ses compléments, régis par ce verbe" (1990: 19, cf. 2013: 129-138). Dans cette perspective, nous avons été amenés à documenter les relations entre le verbe de l’interrogative et d’autres constituants à caractère

16 Pour donner quelques exemples de ce qui a été rangé dans cette catégorie, nous citerons les

questions en "si" Et si on allait au ciné? (16936), différents cas d'actes interrogatifs indirects: j' espère que ca va bien en allemagne !? (11542), alors redis moi si t' as besoin d' un coup de main (20893), Alors il paraît que ça va mieux? (17316), etc., mais aussi des cas d'alternances codiques: Toi ca gehts ou bien? (21841). À noter que 174 questions de notre corpus ont été attribuées à la catégorie "autres questions".

Page 147: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

142 La variabilité formelle des questions dans les écrits SMS

obligatoire ou accessoire, de sorte que l’énoncé interrogatif Et le texte de Labov, on l'aura quand environ? ! (20354) a été codé comme suit:

(15) [Et]: Renforçateur [le texte de Labov]: Constituant disloqué [on]: Sujet [le]: Complément clitique [aura]: Verbe [quand]: Mot interrogatif [environ]: Complément circonstanciel

Nous avons ainsi distingué neuf éléments différents, verbe compris, dont certains ont été identifiés à un degré ou à un autre dans les travaux de référence (Coveney 19961=20022; Quillard 2000; Druetta 2009; Elsig 2009) (fig. 5):

[Sujet] [Complément clitique] [VERBE] [Complément régime] [Complément circonstanciel]17 [Mot interrogatif] [P subordonnée] [Constituant disloqué et/ou extra-prédicatif] [Renforçateur]18

Fig.5: Niveau 2 - Paramètres morphosyntaxiques pertinents pour les questions avec verbe conjugué

Ensuite, chacun de ces constituants a été détaillé selon la complexité paramétrique attestée. Par exemple, dans le cas du verbe, nous prenons en compte (i) son type de diathèse (Berrendonner 2011): construction active, passive, impersonnelle, pronominale, causative en [faire + VInf]; (ii) son temps: présent, passé composé, futur périphrastique, futur simple, imparfait, plus-que-parfait, conditionnel, autre temps; (iii) le nombre de syllabes de la forme finie: 1-2 syllabes, 3 syllabes et plus (Elsig 2009: 63); et (iv) sa modalité: modal (pouvoir, vouloir, devoir, autre verbe) et non modal, cette dernière catégorie étant encore répartie en constructions à un seul verbe fini (Tu vas au cours?), et en celles à plusieurs verbes, où la forme verbale finie est suivie d’une forme infinitive (Tu vas lire?).

L’annotation des interrogatives dans le corpus suisse de SMS a en tout dégagé 2'677 occurrences de structures interrogatives au premier niveau, et 7'488 unités morphosyntaxiques au deuxième. Pour être exploitées, les données annotées ont été exportées depuis MMAX2 sur Excel (fig. 6)19:

17 À noter que dans le cas des catégories [Complément régime] et [Complément circonstanciel], il

s'agissait des compléments autres que clitiques. 18 Concernant le terme de “renforçateur”, nous nous référons à Druetta (2009). 19 Certaines colonnes ont été masquées à des fins d'illustration.

Page 148: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Alexander Guryev & François Delafontaine 143

Fig.6: Annotations réorganisées sur Excel

La réorganisation des données annotées sous forme de tableau Excel nous a permis d'atteindre deux objectifs: non seulement nous disposons du nombre et du type précis des éléments qui composent les structures interrogatives, ce qui permet de répondre aux besoins d'une analyse quantitative; mais nous pouvons en même temps accéder au texte complet de chaque structure, ce qui facilite considérablement l’analyse qualitative.

Ce tableau contient notamment une colonne (colonne B) qui fournit l'énoncé interrogatif, et une seconde colonne (colonne AI) qui fournit la liste exhaustive des éléments qui constituent cet énoncé. Le détail des niveaux d'annotation apparaît dans les autres colonnes: ainsi, pour le premier niveau, les différentes variantes de la variable dépendante, ou encore les types de structure interrogative (colonnes K et suivantes) et, pour le second niveau, les différents facteurs de la variable indépendante, ou paramètres morphosyntaxiques (colonnes AJ et suivantes). Enfin, un type d'information nous a été fourni directement par sms4science: au travers de leur numéro d'identification, les messages (colonne A) donnaient accès à leur locuteur (colonne C) et aux informations sociodémographiques qui le concernent (colonnes D et suivantes).

5.2 Des paramètres morphosyntaxiques à un type de configuration syntaxique

Comme nous l’avons vu plus haut, la procédure d'annotation adoptée nous permet, d’une part, de préciser la forme sous laquelle a été réalisée la question, et, d’autre part, de documenter les paramètres morphosyntaxiques caractéristiques de l’énoncé en question. À titre de rappel, dans le cadre du traitement de l’énoncé interrogatif suivant: Dis-woir...Qu'est-ce que tu lui as fait, samedi, à ma soeur? (11787), nous retrouvons deux sortes d’informations

Page 149: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

144 La variabilité formelle des questions dans les écrits SMS

désignant la variable dépendante (niveau 1) et la variable indépendante (niveau 2):

(16) Niveau 1: Question verbale > Question partielle > Variante par 'est-ce que' > ponctuée Niveau 2: Sujet [tu]: clitique, 2e personne, singulier Verbe [as fait]: voix active, passé composé, forme finie à une syllabe, non-modal, construction à un seul verbe fini Complément [lui]: clitique, 3e personne, singulier, objet indirect, datif Mot interrogatif [que]: objet direct Complément circonstanciel [samedi]: référence temporelle, adverbe Constituant disloqué [à ma sœur]: dislocation à droite, objet retardé Renforçateur [dis-woir]: position initiale

Le but ultime de notre analyse étant d’étudier l’impact des facteurs linguistiques (niveau 2) sur la sélection des variantes (niveau 1), la prochaine étape consiste à modéliser les contraintes linguistiques, avec une préférence pour l'usage du concept de configuration syntaxique qui désigne une combinaison quelconque des paramètres morphosyntaxiques constitutifs d'un énoncé interrogatif. Par exemple, dans le cas de la question Tu y es?, la configuration syntaxique sera schématisée comme suit:

(17) [Sujet clitique] + [Complément clitique] + [Verbe] Tu y es

La pertinence du concept de configuration syntaxique pour notre analyse s’explique avant tout par notre préoccupation d’aborder l’étude des contraintes linguistiques sous un angle large intégrant dans l’analyse plusieurs facteurs linguistiques en même temps, au lieu de traiter séparément de l’incidence de chaque facteur linguistique sur la réalisation des variantes (voir Guryev in prep. pour plus de détails). Plus précisément, cette analyse, qui est au cœur de l’approche proposée, demande d’inventorier plusieurs types de configurations et de procéder à leur tri selon deux types d’environnement morphosyntaxique:

(i) Environnement morphosyntaxique à variabilité faible, regroupant toutes les configurations syntaxiques qui favorisent l’emploi d’une variante au détriment des autres;

(ii) Environnement morphosyntaxique à variabilité remarquable, regroupant toutes les configurations syntaxiques qui favorisent une alternance entre les variantes.

Suite à cette distinction, nous verrons ci-dessous quelques tendances dans la sélection des interrogatives totales en fonction des types de configurations syntaxiques où elles figurent.

Page 150: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Alexander Guryev & François Delafontaine 145

5.3 Quelques tendances dans la sélection des interrogatives totales dans le corpus suisse de SMS

L’analyse de l’incidence des paramètres morphosyntaxiques sur la réalisation des variantes dans le cas de l’interrogation totale (1'658 occurrences) montre clairement que la sélection des variantes, que nous désignerons désormais par [SV] Tu viens au cours? (1'445 occurrences), [V-Scl] Viens-tu au cours? (138 occurrences) et [ESV] Est-ce que tu viens au cours? (75 occurrences), ne se fait pas aléatoirement mais qu’elle est soumise à une certaine logique.

En premier lieu, nous avons constaté que certains contextes grammaticaux n'admettent pas toutes les variantes, l'inversion n'étant pas possible dans les configurations à sujet pronominal ça (supra 10). De plus, les configurations de ce type privilégient largement l’emploi de [SV]: dans 387 cas sur 399 ces constructions ont été réalisées avec cette variante, et seulement 12 avec [ESV]. En raison de ce comportement, nous n’avons pas tenu compte des constructions en ça dans l’analyse ultérieure.

Dans un deuxième temps, nous pouvons constater que la réalisation des variantes est sensible au type de construction verbale:

- Constructions à un seul verbe fini [V1]; - Constructions à un verbe tensé suivi d'un infinitif [V+Inf].

Le test de chi-carré (x2) a ainsi montré que la différence dans le comportement des constructions [V1] vs [V+Inf] est significative (x2=53,802 df=2 p < 0.00001) (fig. 7):

Fig.7: Construction verbale simple vs suivie d’un infinitif

Il s’avère ainsi que les constructions [V+Inf] favorisent davantage l’alternance entre les trois variantes:

(18) a. tu veux pas prendre le suivant?? Qu' on puisse parler ... avant d' arriver au manège ... (20426)

b. Ta soeur viens mangé avec nous? (17740) c. dois-je a nouveau la filer au SPO ou puis-je me contenter de cocher la case aucune modif par rapport ... (10152) d. Viens tu t'entrainer ce soir? (11270) e. penses - tu venir au Réseau de ton patient cet a-m? (17027)

V1 V + Inf

88.7%(804) 72%

(254)

7.9%(72)

18.7%(66)3.3%

(30)

9.3%(33)

SV V-Scl ESV

Page 151: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

146 La variabilité formelle des questions dans les écrits SMS

f. est-ce que je pourrais passer vite chez toi pour te poser 2 petites questions? (13397) g. est-ce que tu vas skier aujourd ' hui? (12530)

À noter aussi que dans ces constructions, nous ne retrouvons pas seulement les verbes typiquement reconnus comme modaux (18 a, c, f), quand bien même ils restent majoritaires, mais aussi d'autres verbes (18 b, d, e, g).

En ce qui concerne les constructions [V1], elles sont de loin réalisées avec [SV]:

(19) a. t' es en t-shirt dehors !? ! (8531) b. alors t es toute bien installée? (13092) c. Les cours de renforcement en infocom ils se compensent , comme au sein d' un module? (16330)

Il faut pourtant admettre que si à la base les constructions [V1] sont moins propices à la variabilité dans l’usage des interrogatives totales, elles peuvent compter des configurations qui facilitent l'emploi des variantes autres que [SV]:

(20) a. As - tu déjà 1 tache? (9193) b. Est-c ' que par l' plus grand des hasard tu prends l' train d' 20h?? (22701) c. est-ce que tu aurais le num de véra? pcq le matel de Benj est provisoirement bloqué (8316)

En effet, nous verrons par la suite que les constructions [V1] peuvent à leur tour être subdivisées en deux types de configurations syntaxiques, selon la variabilité (faible vs remarquable) qu’elles attestent dans la sélection des variantes. Nous avons encore procédé à la sélection, parmi tous les paramètres morphosyntaxiques, de ceux qui se sont révélés importants dans le cas de la réalisation des interrogatives totales.

Parmi les configurations syntaxiques qui concernent les constructions [V1] et qui ont un faible potentiel de déclencher la variabilité dans l’emploi des interrogatives, nous citerons les deux configurations suivantes:

(21) [Sujet clitique] + [Verbe]: Tu viens/Viens-tu/Est-ce que tu viens?

(22) [Sujet clitique] + [Complément clitique] + [Verbe]: Tu les prends/Les prends-tu/Est-ce que tu les prends?

Ces configurations sélectionnent le plus souvent la variante à maintien de l’ordre assertif [SV] (259 cas sur 265), alors que les emplois de [V-Scl] et [ESV] sont marginaux. Voici quelques exemples de ces emplois:

(23) a. Yo madame!qu'est-ce qui se passe?tu es malade?tu déprime? (10763) b. Haha!elle à fait exprès?elle à aimé?miam miam,ca me donne l'eau à la bouche!lol!elle à pris à quoi?becs,bon aprem,jvm fort (11566) c. Trop cool :) vous avez gagner hier? Le rdv est à quel heure ce soir? J'ai déjà oublierxD bisous à ce soir alors. (19177) d. Coucou! Tu as fini? Tu prends le train de quelle heure? A toute! (13309) e. Il n y a pas de message - tu es sorti? (18188)

Page 152: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Alexander Guryev & François Delafontaine 147

(24) a. Chai pas...t'y va toi? (11579) b. Tu m'abandonnes? :-( (21839) c. Oh non mince!!C vmt pas sympa d'avoir dit ca devant lui!Il t'en a parlé du coup??T parents ont surement peur pr toi... […] (21720) d. Je v à l ancienne gare. T y es? (19483) e. Tu t' arretes à Lsne après tes cours mercredi? (10687)

Enfin, parmi les configurations syntaxiques qui relèvent des constructions [V1] à fort potentiel de variabilité, nous citerons les suivantes:

(25) [Sujet clitique] + [Verbe] + [Complément régime SN/Pro SN]: Tu as des nouvelles/As-tu des nouvelles/Est-ce que tu as des nouvelles?

(26) [Sujet SN/Pro SN] + [Verbe]: Ton frère va mieux/Ton frère va-t-il mieux/Est-ce que ton frère va mieux?

En effet, les configurations syntaxiques (25-26) font preuve d’une certaine neutralité quant à la sélection des variantes. Quand bien même [SV] reste hors concurrence, les variantes [V-Scl] et [ESV] voient leurs chances significativement augmenter: autour de 94% de leurs emplois dans les constructions à un seul verbe fini, soit 96 occurrences sur 102, se font avec les configurations syntaxiques de ce type:

(27) a. As tu du temps après midi pour le visionner chez nous? (12274) b. Emploies tu encore mon vieux natel? (15382) c. marches - tu à Berne mardi prochain (10875) d. Suis - je un cadeau de Noel suffisant pour toi? (21925) e. Yo man,yep ca me dirait bien.Rlini frogeu:est ce un souper entre hommes?javais prévu de sortir avec LA... (17732) f. est-ce que tu aurais un moment pour boire un verre histoire que je me fasse pardonner la dernière fois? (21131) g. et est ce que y a un code d entrée? (9433) h. Est-ce que tu es finalement quand meme allée chez Sibylle?? (13764)

(28) a. Mon ... chauffeur va-t-il mieux? (15045) b. Sam vs a-t-il laissés dormir un peu ce matin? (20411) c. L un de vous aura t il son ordi avec lui? (10807) d. Est-ce que demain aprem 13h - 18h t' irait pr kekea? (10686) e. et eske le matelat est au sol? (14962) f. Est-ce que clau a des envies pour noël? (20700) g. Est ce que alexis et marcus ont rompu??? (23049)

Ce qui est encore intéressant dans ces observations, c'est que l’écart entre les variantes [V-Scl]/[ESV] et leur concurrente [SV] devient moins important dans la configuration avec sujet SN/Pro SN (Ton frère travaille?) (28), comparé à leurs emplois dans les configurations avec sujet clitique (Il travaille?) (fig. 8):

[SV] [V-Scl]/[ESV]

Configuration avec

sujet clitique

89.8% (769) 10.2% (87)

Configuration avec

sujet SN/Pro SN

70% (35) 30% (15)

Fig.8: Emploi des variantes dans les constructions [V1] avec sujet clitique vs sujet SN/Pro SN

Page 153: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

148 La variabilité formelle des questions dans les écrits SMS

Le test de chi-carré a aussi montré que la différence entre les emplois des variantes avec différent type de sujet (clitique vs non clitique) est significative: x2=18,606 df=1 p < 0.0000120.

Ces résultats pourraient certes être plus amplement discutés. Néanmoins, ils permettent de conclure qu’il est nécessaire de tenir compte de l’influence des facteurs linguistiques dans l’étude des interrogatives. Nous avons vu en effet que la sélection des variantes ne se fait pas d’une façon aléatoire, mais suit régulièrement certaines tendances21. Ces tendances peuvent être saisies sous forme de liens connexes entre l’ensemble des paramètres morphosyntaxiques de l’énoncé interrogatif et le choix d’une forme interrogative, ou variante, sous laquelle est réalisée la question.

6. Conclusions

À travers cet article, nous avons montré que l’étude des interrogatives en tant que phénomène variationnel nécessitait l'analyse approfondie de plusieurs composantes. Nous préconisons donc un modèle multifactoriel prenant en compte la pluralité des facteurs caractéristiques de la situation d’énonciation, en particulier (i) les paramètres linguistiques, (ii) les paramètres communicatifs, (iii) et les paramètres socio-personnels. Sous cet angle, nous ne considérons pas les variantes syntaxiques comme des formes sémantico-pragmatiquement interchangeables, opposées entre elles par leurs valeurs socio-stylistiques. En effet, pour nous, chaque variante est dotée de ses propres spécificités fonctionnelles. Nous pensons notamment que le choix des variantes, qui sont en concurrence entre elles (Quillard 2000), ne se fait pas aléatoirement mais est motivé par l'ensemble des facteurs constitutifs d'un contexte de communication particulier. Nous avons ainsi vu au cours de cet article qu’il y a plusieurs arguments en faveur de cette approche.

Tout d’abord, l’étude des données SMS montre que l’hypothèse classique, selon laquelle le choix des variantes se fait en accord avec la valeur socio-stylistique qui leur est propre, ne permet pas toujours de rendre compte de la réalité. D’une part, dans nos données, les variantes par inversion, dites formelles ou soutenues, s'emploient dans le cadre informel du texto et peuvent

20 Notons aussi que dans le cas des configurations à deux arguments nominaux, dont le

deuxième est un objet direct: "L un de vous aura t il son ordi avec lui?" (10807), la variante [SV] n'est plus dominante dans notre corpus: 3 occurrences de [V-Scl]/[ESV] vs 2 occurrences de [SV]. Ces observations donnent à penser que de manière générale, les configurations syntaxiques avec arguments autres que clitiques constituent un milieu favorable à l'alternance entre les variantes. Gardons-nous toutefois de généraliser ces observations vu la faible représentation de ces cas.

21 Là encore, en fonction des genres de discours et des types d’interaction, les tendances dans la sélection des variantes seront sujettes à variation.

Page 154: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Alexander Guryev & François Delafontaine 149

être coprésentes avec les variantes à maintien de l’ordre canonique SV, dites familières. D’autre part, plusieurs indices montrent que la valeur socio-stylistique des variantes, même s’il y a lieu dans certains cas de parler d'une opposition entre emplois "familiers" vs "soutenus" vs "neutres", n’est pas arbitraire, mais qu’elle est motivée par les propriétés sémantico-pragmatiques des variantes qui résultent entre autre des spécificités structurelles de leurs formes (Mosegaard Hansen 2001).

Enfin, l’autre argument majeur en faveur d'une approche multifactorielle est que, comme le montre l’analyse du corpus suisse de SMS, la sélection des variantes se fait selon le type de configurations syntaxiques. Ces configurations, en tant que combinaisons différentes de paramètres morphosyntaxiques, relèvent de deux types d’environnement: (i) environnement à variabilité faible, sélectionnant d’une façon discriminatoire une seule variante parmi plusieurs, et (ii) environnement à variabilité remarquable, propice à l’alternance entre plusieurs variantes. Soulignons toutefois que les tendances linguistiques observées demanderont à être expliquées qualitativement, en lien avec les contraintes de la communication par SMS, différents genres de discours exploitant différemment les ressources de la grammaire.

À l'avenir, il conviendra de comparer les tendances relevées dans le corpus suisse de SMS avec ce qui se passe dans d’autres corpus, afin de voir dans quelle mesure elles sont extrapolables. Ceci nous aidera à mieux comprendre la nature des phénomènes variationnels, qui ne sont autre chose, selon nous, que des "stratégies d’exploitation" de structures appartenant à une même grammaire (cf. Berrendonner 1987).

Bibliographie

Abeillé, A., Crabbé, B., Godard, D. & Marandin, J.-M. (2012): French questioning declaratives: a corpus study. In: Proceedings of SemDial 2012 (SeineDial): The 16th Workshop on the Semantics and Pragmatics of Dialogue. Université Paris-Diderot (Paris 7), Paris Sorbonne-Cité, September 2012.

Adli, A. (2006): French wh-in-situ Questions and Syntactic Optionality: Evidence from Three Data Types. In: Zeitschrift für Sprachwissenschaft, 25, 163-203.

— (2013): Syntactic variation in French Wh-questions: A quantitative study from the angle of Bourdieu's sociocultural theory. In: Linguistics, 51(3), 473-515.

Anis, J. (2007): Neography – Unconventional Spelling in French SMS Text Messages. In: Danet, B. & Herring, S. C. (éds.), The Multilingual Internet – Language, Culture and Communication Online. New York (Oxford University Press), 87-115.

Avanzi, M., Béguelin, M.-J. & Diémoz, F. (2012-2015): Présentation du corpus OFROM – corpus oral de français de Suisse romande. Université de Neuchâtel, http://www.unine.ch/ofrom.

Béguelin, M.-J. (dir.), avec Matthey, M. , Bronckart, J.P. & Canelas, S. (2000): De la phrase aux énoncés. Grammaire scolaire et descriptions linguistiques. Bruxelles (De Boeck-Duculot).

Page 155: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

150 La variabilité formelle des questions dans les écrits SMS

Béguelin, M.-J. (2012 a): La variation graphique dans le corpus suisse de SMS en français. In: Caddéo, S., Roubaud, M.-N., Rouquier, M. & Sabio, F. (éds.): Penser les langues avec Claire Blanche-Benveniste. Presses de l’Université de Provence, 47-63.

— (2012 b): Le statut de l'écriture. In: Ruggero Druetta (éd.). Claire Blanche-Benveniste (1935-2010). A l'école de l'oral. Sylvain-les-Moulins: Editions GERFLINT, (Collection Essais Francophones, no1), 39-54.

Bernicot, J., Volckaert-Legrier, O., Goumi, A. & Bert-Erboul, A. (2012): Forms and functions of SMS messages: A study of variations in a corpus written by adolescents. In: Journal of Pragmatics, 44.

Berrendonner, A. (1987). Stratégies morpho-syntaxiques et argumentatives. In: Protée 15/3, 48-58.

— (1988): Normes et variations. In: Schoeni, G., Bronckart, J.-P. & Perrenoud, P. (éds.), La langue française est-elle gouvernable? Neuchâtel/Paris (Delachaux & Niestlé), 43-62.

— (2004): Grammaire de l’écrit vs grammaire de l’oral: le jeu des composantes micro-et macro-syntaxiques. In: Interactions orales en contexte didactique, 249-262.

— (2005): Questions et mémoire discursive. In: Rossari, C., Beaulieu-Masson, A., Cojocariu, C. & Razgoulieva, A. (éds), Les Etats de la question. Editions Nota Bene, 147-173.

— (2011): Rudiment de Grammaire Française (support de cours, non publié), Université de Fribourg.

Bieswanger, M. (2007): 2 abbrvi8 or not 2 abbrevi8: A contrastive analysis of different shortening strategies in English and German text messages. In: SALSA XIV.

Blanche-Benveniste, C. (1990): Un modèle d’analyse syntaxique 'en grilles' pour les productions orales. In: Anuario de psicología, 47, 11-28.

— (1997): Approches de la langue parlée en français. Ophrys, Paris.

— (2003): La langue parlée. In: Le grand livre de la langue française. Paris (Seuil), 317-344.

— (2013): De la nécessité de commencer l’étude de la syntaxe par le verbe et non par la phrase: de la nécessité d’étudier les constructions verbales avec des classifieurs. Manuscrit du 25 avril 1977, K.U. Leuven, Département Linguistick. In: Tranel, 58, 129-138.

Blanche-Benveniste, C. & Martin, P. (2011): Structuration prosodique, dernière réorganisation avant énonciation. In: Langue française, 170 (2), 127-142.

Borillo, A. (1982): Deux aspects de la modalité assertive: croire et savoir. In: Langages, 67, 33-53.

Catach, N. (1990): Le problème des variantes graphiques: variantes du passé, du présent et de l'avenir. In: Langue française, 108/1, 25-32.

Cedergen, H. J. & Sankoff, D. (1974): Variable rules: Performance as a statistical reflection of competence. In: Language, 50.2 (86), 333-355.

Cougnon, L.-A. (2010): Orthographe et langue dans les SMS. In: Études de linguistique appliquée, 4, 397-410.

Cougnon, L.-A. & François, T. (2010): Quelques contributions des statistiques à l'analyse sociolinguistique d'un corpus de SMS. In: Actes du colloque JADT 2010, Vol. 1, 619-630.

Coveney, A. (2002): Variability in Spoken French: interrogation and negation. Bristol (Intellect Books).

— (2011): L’interrogation directe. In: Travaux de linguistique, 63, 112-145.

Danjou-Flaux, N. & Dessaux, A.-M. (1976): L'interrogation en français: Données linguistiques et traitements transformationnels. In: Grammaire transformationnelle: syntaxe et lexique. Études réunies par Jean-Claude Chevalier. Publications de l'Université de Lille, 139-231.

Dewaele, J.-M. (1999): Word order variation in interrogative structures of native and non-native French. In: International Journal of Applied Linguistics, 123, 161-180.

Druetta, R. (2009): La question en français parlé: étude distributionnelle. Trauben (Edizioni Torino).

Elsig, M. (2009): Grammatical variation across space and time: the French interrogative system. Amsterdam (John Benjamins).

Elsig, M. & Poplack, S. (2006): Transplanted dialects and language change: Question formation in Québec. In: University of Pennsylvania Working Papers in Linguistics, 12(2), 8.

Page 156: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Alexander Guryev & François Delafontaine 151

Fairon, C. & Paumier, S. (2007): Un corpus SMS est-il un corpus comme les autres. In: Camugli Gal-Lardo, C., Constant, M. & Dister, A. (éds.), 209-216.

Fillmore, C. J. (1973): Pragmatics and the description of discourse. In: Kasher, A. (éd.), (1998): Pragmatics: Critical concepts. London (Routledge).

Frei, H. (2003): La grammaire des fautes. Rennes. La première édition en 1929.

Gadet, F. (1989): Le Français ordinaire. Paris (Colin).

— (1997): La variation, plus qu’une écume. La variation en syntaxe. In: Langue française, 115, 5-17.

— (2007): La Variation Sociale en Français. Collection l’Essentiel Français. Paris (Ophrys).

Guryev, A. (2013): Comment traiter la variation dans la communication par SMS? Le cas de l'interrogation totale. In: JéTou 2013. Variation et variabilite dans les sciences du langage: analyser, mesurer, contextualiser. Actes de la 4ème édition des JéTou 16 et 17 mai 2013, Toulouse, France. Toulouse: Université de Toulouse II - Le Mirail, 76-87.

— (in prep.): "Suis-je un cadeau de Noel suffisant pour toi?": quelques enseignements du SMS à propos de la variation dans les interrogatives totales. In: Sélection d’articles rédigés dans la foulée du Colloque "La syntaxe des interrogatives en français", Université de Neuchâtel, 13-14.06.2013.

Guy, G. R. (2007): Grammar and usage: The discussion continues (Letters to Language). In: Language, 83 (1), 2-4.

Haspelmath, M. (1999): Optimality and Diachronic Adaptation. In: Zeitschrift für Sprachwissenschaft, 18, 180-205.

Jacobson, S. (1989): Some approaches to syntactic variation. In: Fasold, R. W. & Schiffrin, D. (éds.), Language change and variation. Amsterdam (John Benjamins), 381-394.

Jones, M. A. (1999): Subject-clitic inversion and inflectional hierarchies. In: French Language Studies, 9, 181-209.

Kayne, R. S. (1972): Subject Inversion in French Interrogatives. In: Casagrande, J. & Saciuk, B. (éds.),Generative Studies in Romance Languages. Rowley, Mass. (Newbury House), 70-126.

Koch, P. & Oesterreicher, W. (2001): Gesprochene Sprache und geschriebene Sprache / Langage parlé et langage écrit. Lexikon der Romanistischen Linguistik 1/2. Tübingen (Max Niemayer Verlag), 584-627.

Krummes, C., Guryev, A. & Morel, E. (2014). Les fautes, l'anglais, la langue en danger: Quelques mythes sur les textos. Communication faite en vue de la Semaine de la langue française et de la francophonie, 19: La langue en folie: des textos aux jeux littéraires, Neuchâtel. Disponible: http://cedrickrummes.org/ckfinder/userfiles/files/SLFF-mythes%20final.pdf (02.07.2015)

Labeau, E. (2014): Quand l’analytique se fait synthétique: les formes verbales périphrastiques dans le texto. In: Studii de Lingvistică, 4.

Langacker, R. W. (2010): How not to disagree: The emergence of structure from usage. In: Language usage and language structure, 213, 107.

Lavandera, B. (1978): Where does the sociolinguistic variable stop? In: Language in Society, 7/2, 171-182. (Revisited version of Lavandera 1977).

Ling, R. (2005): The sociolinguistics of SMS: An analysis of SMS use by a random sample of Norwegians. In: Mobile Communications. London (Springer), 335-349.

Mosegaard Hansen, M.-B. (2001): Syntax in interaction. Form and function of yes/no interrogatives in spoken standard French. In: Studies in language, 463-520.

Müller, C. & Strube, M. (2006): Multi-Level Annotation of Linguistic Data with MMAX2. In: Braun, S., Kohn, K. & Mukherjee, J. (éds.): Corpus Technology and Language Pedagogy. New Resources, New Tools, New Methods. Frankfurt (Peter Lang), 197-214.

Newmeyer, F. J. (2010): What conversational English tells us about the nature of grammar: A critique of Thompson’s analysis of object complements. In: Language usage and language structure, 3-44.

Obenauer, H.-G. (1976): Etudes de syntaxe interrogative du français. Tübingen (Max Niemeyer Verlag).

Page 157: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

152 La variabilité formelle des questions dans les écrits SMS

Panckhurst, R., Détrie, C., Lopez, C., Moïse, C., Roche, M. & Verine, B. (2014): "88milSMS. A corpus of authentic text messages in French", produit par l’Université Paul-Valéry Montpellier III et le CNRS, en collaboration avec l’Université catholique de Louvain, financé grâce au soutien de la MSH-M et du Ministère de la Culture (Délégation générale à la langue française et aux langues de France) et avec la participation de Praxiling, Lirmm, Lidilem, Tetis, Viseo. ISLRN : 024-713-187-947-8

Preacher, K. J. (2001): Calculation for the chi-square test: An interactive calculation tool for chi-square tests of goodness of fit and independence [Computer software]. Ohio State University. Disponible: http://quantpsy.org

Quillard, V. (2000): Interroger en français parlé: études syntaxique, pragmatique et sociolinguistique. Thèse de doctorat. Université de Tours, France.

— (2001): La diversité des formes interrogatives : comment l’interpréter? In: Langage et société, 95, 57-72.

Rettie, R. (2009): SMS: exploiting the interactional characteristics of near-synchrony. Information. In: Communication & Society, 12/8, 1131-1148.

Rossari, C. & Gachet, F. (2014): Parenthetical verbs as a challenge for discourse units. In: Discourse Segmentation in Romance Languages, 250, 95.

Rowlett, P. (2007): The Syntax of French. Cambridge (CUP).

Sankoff, D. & Labov, W. (1979): On the uses of variable rules. In: Language in society, 8(2-3), 189-222.

Stark, E., Ueberwasser, S. & Ruef, B. (2009-2014): Swiss SMS Corpus. University of Zurich. Disponible: https://sms.linguistik.uzh.ch (1.7.2015)

Tagliamonte, S. A. & Denis, D. (2008). Linguistic ruin? LOL! Instant messaging and teen language. American speech, 83 (1), 3-34.

Thurlow, C. & Brown, A. (2003): Generation Txt? The sociolinguistics of young people’s text-messaging. In: Discourse analysis online,1(1), 30.

Weinrich, H. (1989): Grammaire textuelle du français. Paris (Didier/Hatier).

Winford, D. (1996): The problem of syntactic variation. In: Sociolinguistic Variation: Data, Theory, and Analysis: Selected Papers from Nwav23 At Stanford, 177-192.

Zeldes, A., Lüdeling, A., Ritz, J. & Chiarcos, C. (2009): ANNIS: A search tool for multi-layer annotated corpora.

Page 158: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Travaux neuchâtelois de linguistique, 2015, 63, 153-169

Registre et moyen de communication: interdépendance ou indépendance?

Aurélia ROBERT-TISSOT Romanisches Seminar, Universität Zürich

In diesem Beitrag werden wir anhand einer empirischen Untersuchung zeigen, dass die Computer-Mediated Communication (CMC) nicht als ein vollkommen eigenständiges Register betrachtet werden kann. Empirische Daten aus dem Korpus sms4science.ch, sowie die Analyse von Tagebüchern als zweite informelle schriftliche Quelle deuten vielmehr darauf hin, dass bestimmte sprachliche Phänomene wie z.B. die Subjektauslassung einerseits mit dem Kommunikationskontext, andererseits aber auch mit dem medialen Code zusammenhängen. Für die syntaktischen Merkmale spielt die Technologie jedoch keine unmittelbare Rolle. Daher scheint es angebracht für das Französische von einem informell schriftlichen Register, statt von einem CMC-spezifischen Register zu sprechen.

1. Introduction

Dans cette contribution nous abordons d'abord le concept de registres d'un point de vue théorique et nous proposons ensuite un procédé concret qui le rend opérationnel pour des bases de données de tailles considérables. A l'aide d'un phénomène linguistique choisi, à savoir l'omission du sujet, nous illustrons ce procédé qui permet de répondre, sur des bases empiriques, à la question plus générale de savoir ce qu'est un registre.

Comme exemple susceptible de constituer un registre, nous avons choisi la communication médiée par ordinateur (CMC, angl. computer-mediated communication), qui comprend toutes les situations de communication qui sont caractérisées par l'emploi d'une technologie numérique, comme p.ex. les e-mail, les blogs, Facebook ou les SMS (cf. Dürscheid & Brommer 2009: 4). Dans ce contexte, plusieurs auteurs parlent d'un 'langage internet' (p.ex. netspeak chez Crystal 2008: vii), qui est censé être une variété linguistique utilisée en CMC1. De manière similaire, certains auteurs supposent l'existence d'un 'langage SMS' (p.ex. Fairon & al. 2006), propre à la communication par SMS. Mais nous verrons que d'un point de vue structurel, une variété SMS en tant que (sous-)système linguistique2, ne peut pas être mise en évidence empiriquement.

1 Mais cf. Dürscheid (2004: 147) qui argumente contre une telle variété, cependant sans

présenter d’analyses empiriques quantitatives. 2 Nous définissons une variété linguistique comme un (sous-)système autonome constitué par un

ensemble de traits en co-variation et en corrélation avec certains facteurs extralinguistiques,

Page 159: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

154 Registre et moyen de communication

Nous argumenterons qu'il n'est pas approprié de regrouper toute la CMC sous une variété linguistique, ni de l'isoler d'autres formes de communication graphique qui ne sont pas à priori contraintes par une norme prescriptive, à savoir une norme qui est défendue et divulguée par des institutions officielles, telles p.ex. l'Académie Française ou les écoles. Nous utiliserons la caractérisation de potentiellement informelle (dorénavant dans sa version courte informelle) pour cette forme de communication, car il s'agit d'un contexte communicatif dans lequel la norme prescriptive peut, mais ne doit pas être respectée, comme nous verrons plus en détail dans la section 2.

La base empirique de notre analyse se constitue de la comparaison de la distribution de sujets omis dans les journaux intimes étudiés par Haegeman (p.ex. 2013) et dans le corpus sms4science.ch (cf. section 3). Il s'agit de deux types de production langagière graphique informelle, dont l'une fait partie de la CMC, tandis que l'autre existe depuis bien avant l'émergence de la CMC. La comparaison de ces deux ensembles nous permet d'identifier, à titre d'exemple, si le moyen de communication a une influence sur le phénomène étudié.

Dans la section 2, nous établissons d'abord le cadre théorique et méthodologique dans lequel nous plaçons notre analyse. Dans la section 3, nous présentons les corpus utilisés, avant de passer, à la section 4, à la description du phénomène linguistique, à savoir l'omission du sujet. Dans la section 5, nous présentons nos résultats issus du corpus sms4science.ch et les comparons avec ceux des études sur les journaux intimes. La section 6 est consacrée à la discussion. Nous terminerons par nos conclusions dans la section 7.

2. Conception, code, registre et technologie

2.1 La conception et le code

Du fait que dans les corpus analysés nous avons affaire à des données graphiques informelles, la question qui surgit est de savoir comment concevoir la relation entre l'écrit et l'oral.

D'après Koch & Oesterreicher (2001, 22011: 3-14, dorénavant K&O), il faut distinguer la réalisation médiale d'un énoncé de sa conception communicative, comme illustré dans la Fig.1, une adaptation de K&O (2001: 585).

comme p.ex. les variétés du français démotique et du français classique tardif chez Massot (2010). Cf. aussi Dufter & Stark (2002) pour une critique du concept de variété.

Page 160: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Aurélia Robert-Tissot 155

Fig.1: Le code et la conception de communication selon Koch & Oesterreicher (2001: 585)

Pour la réalisation médiale, les auteurs parlent d'une réalisation en code phonique quand le message est réalisé à l'aide de l'appareil articulatoire, et de réalisation en code graphique quand le message est transmis par des lettres alphabétiques, des idéo- ou des syllabogrammes.

La conception d'un message dépend de la situation de communication qui est caractérisée par des facteurs extralinguistiques. K&O (22011: 8) donnent une liste de facteurs pertinents qui comprend, entre autres, le degré d'intimité, la proximité physique, le degré de coopération ou le type interactionnel (monologique ou dialogique) du discours. Ces facteurs ouvrent un continuum entre les deux pôles de la proximité respectivement de la distance communicative sur lequel on peut situer chaque message. Ce dernier sera formel, donc proche de la norme prescriptive d'une langue quand la situation de communication relève d'une distance communicative (illustré par la présence de il, de ne et de e caducs dans la Fig.1), tandis qu'il montrera des traits informels, déviants par rapport à la norme dans des situations de proximité communicative (illustré par l'absence des traits mentionnés dans la Fig.1).

Le code n'est pas lié de manière univoque à une certaine conception, raison pour laquelle on trouve des productions phoniques proches du pôle de la conception de distance communicative (p.ex. des conférences de presse, illustré par la prononciation [ilnəfopalə'dir] dans la Fig.1), mais aussi des productions graphiques qui révèlent certains traits typiques de la conception de proximité communicative (p.ex. une note pour le colocataire sur le réfrigérateur, illustré par <faut pas le dire> dans la Fig.1).

Cependant, Dürscheid (2003) souligne la difficulté d'établir un profil communicatif pour un mode d'interaction (p.ex. par ordinateur, par téléphone, en face-à-face), selon le modèle de K&O, car contrairement aux genres textuels (p.ex. les contes de fées), un mode d'interaction n'est pas homogène dans sa conception communicative.

La conception communicative des SMS, qui font clairement usage du code graphique, est variée. A titre illustratif, nous donnons un exemple d'un SMS entre des amoureux en (1), qui diffère nettement en termes de conception communicative de celui en (2), probablement plutôt de nature professionnelle.

Page 161: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

156 Registre et moyen de communication

(1) Bonjour mon amour […] Ah j'allais presque oublié j'ai très envie de toi tes lèvress me manque! […] Ø T'embrasse fort Ø suis dispo ce soir si tes pulsions grimpe aussi (10586)3

(2) Bonjour. Je viens de vous envoyer les citations par email. Cordialement. Nicolas [LastName] (8540)

Vu que les SMS en tant qu'ensemble ne peuvent pas être caractérisés de manière homogène selon le modèle de K&O, nous privilégions un autre modèle de la variation linguistique, à savoir le concept de registres selon Biber (1995).

2.2 Le registre et son opérationnalisation

Les facteurs extralinguistiques qui définissent la conception de communication déterminent également les registres selon Biber (1995). Ces facteurs extralinguistiques incitent le locuteur à effectuer un choix quant à la forme linguistique concrète qu'il va adopter pour chaque énoncé. L'ensemble qui se forme à partir de ces énoncés constitue un registre empiriquement observable. Bien que par exemple Zwicky & Zwicky (1981) fassent une différence entre le style, qui se choisit en fonction de la relation entre les interlocuteurs, et le registre, qui est lié à un certain contexte communicatif, Biber (1995) considère le style comme partie intégrante du registre. Pour des raisons de simplicité, nous suivrons Biber (1995), puisque le style au sens de Zwicky & Zwicky (1981) dépend, lui aussi, de facteurs extralinguistiques.

La Fig.2 schématise l'influence des facteurs extralinguistiques sur la production linguistique du locuteur.

Fig.2: Contexte extralinguistique et registre

Nous avons ajouté la pression normative aux facteurs extralinguistiques cités par Biber (1995) et K&O (22011) dans le premier cadre de la Fig.2, car elle

3 Les numéros entre parenthèses se réfèrent au numéro d’identification du SMS dans le corpus

(cf. section 3). L’orthographe originale du message est maintenue. Le symbole Ø note l’omission d’un argument. Les noms et les chiffres sont anonymisés.

Page 162: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Aurélia Robert-Tissot 157

joue un rôle clé pour la description de nos données (que nous avons caractérisées comme à priori non contraintes par des normes prescriptives, cf. section 1).

Les ressources linguistiques disponibles pour articuler un concept sont définies par le système linguistique respectif. Dans ce dernier s'inscrivent obligatoirement les traits qui constituent un registre, comme représenté dans le deuxième cadre de la Fig.2. La forme linguistique spécifique finalement choisie par le locuteur doit donc répondre aux exigences du registre approprié à une situation de communication et elle doit être conforme au système linguistique en question. Le locuteur produira une forme linguistique unique qui dépend de son interprétation individuelle des facteurs extralinguistiques, comme illustré par le troisième cadre de la Fig.24.

Sur la question de savoir comment il faut intégrer les registres dans la compétence linguistique des locuteurs, il n'y a pas unanimité. Zwicky & Zwicky (1982) parlent d'un choix parmi les structures à disposition, tandis que Ferguson (1982) conçoit les différents registres plutôt comme des systèmes à part qui peuvent être activés à volonté. Or, si chaque registre est un système à part, les traits récurrents doivent être encodés dans chacun de ces systèmes avec leur fréquence respective, ce qui conduit à un stockage d'informations énorme et souvent répétitif. Nous préférons suivre la conception de Zwicky & Zwicky (1982) d'un registre qui se définit par un choix spécifique parmi les ressources linguistiques disponibles, qui ne sont pas choisies parce qu'elles appartiennent à un système spécifique, mais parce qu'elles sont appropriées dans un certain contexte extralinguistique. Le registre est, dans cette conception, un épiphénomène des choix effectués et n'existe, en tant que système cohérent, qu'en description linguistique.

Du point de vue linguistique, un registre est reconnaissable en termes quantificatifs par les register features (cf. Biber 1995: 28). Ces register features, des traits linguistiques élémentaires (p.ex. noms, pronoms, phrases subordonnées), caractérisent un certain registre par leur distribution quantitative spécifique correspondant au registre respectif. De plus, il existe les register markers, qui sont des propriétés linguistiques distinctives, à savoir qu'on retrouve uniquement dans un registre spécifique.

Par la fréquence des register features et la présence de register markers un registre devient empiriquement descriptible et quantifiable. Ce concept permet d'identifier empiriquement une fourchette avec un maximum et un minimum d'occurrences d'un certain trait par message, ou même de calculer sa

4 Le sujet de conversation influence également le choix de la forme linguistique, comme le fait

remarquer un relecteur anonyme. Nous ne pouvons pas thématiser cette dimension ici, car elle supposerait une analyse de contenu des messages détaillée qui dépasserait le cadre de cette contribution. Quand il y a une contradiction résultant de la présence de différents interlocuteurs, nous supposons que l’exigence la plus formelle est celle qui déterminera le choix du locuteur.

Page 163: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

158 Registre et moyen de communication

moyenne d'occurrence sur l'ensemble d'un corpus (cf. Biber 1995: 314 à propos de la variation à l'intérieur de registres). Cette approche a l'avantage de rendre possible un procédé bottom-up, à savoir de partir de données concrètes au lieu de prendre comme point de départ un registre défini par l'un ou l'autre facteur extralinguistique (procédé top-down). Plus précisément, il devient possible de vérifier si deux ensembles définis théoriquement par des facteurs extralinguistiques montrent une distribution différente de register features et de register markers, à savoir si les deux ensembles se différencient également au niveau linguistique proprement dit.

Par exemple, on peut définir l'ensemble journaux intimes et l'ensemble CMC en termes extralinguistiques en se basant sur les différentes circonstances de production et de transmission comme suggéré dans la Fig.3. Ayant établi des corpus qui correspondent à ces ensembles, ceux-ci peuvent être analysés pour certains traits qu'on suppose être typiques de l'un ou l'autre ensemble, comme illustré schématiquement par les traits A-D à droite dans la Fig.3.

Fig.3: Les approches top-down et bottom-up

Dans l'exemple fictif de la Fig.3, on pourrait constater que les journaux intimes et la CMC se distinguent par la distribution des traits A et C, mais pas de manière significative par celle des traits B et D.

Puisque certains traits varient en fonction du contexte extralinguistique, tandis que d'autres montrent une distribution similaire (ce qui équivaut à dire que les traits ne sont pas nécessairement tous en co-variation), il est primordial de considérer les traits dits spécifiques d'un registre un par un, de manière à donner une caractérisation nuancée de ce registre et de le délimiter par rapport à d'autres registres.

Si la CMC constitue une variété ou un registre à part, comme suggéré dans la littérature (cf. section 1), il faut se poser la question de savoir en quoi la CMC

Page 164: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Aurélia Robert-Tissot 159

forme un ensemble qui s'oppose à d'autres ensembles du point de vue linguistique. Dans la prochaine sous-section, nous thématisons les traits linguistiques dits typiques de la CMC.

2.3 Les traits linguistiques dits typiques de la CMC

Panckhurst (2009: 37) donne une liste de caractéristiques (para)linguistiques des textes numériques de la CMC. Y figurent, entre autres, les erreurs de frappe de toutes sortes, la présence dominante du présent de l'indicatif, la néologie et la néographie ou encore beaucoup d'ellipses (p.ex. de sujets; ce qui est répertorié sous "[l']omission de mots grammaticaux" chez Fairon & al. 2006: 43).

Cet aperçu de Panckhurst (2009), que nous avons choisi à titre d'exemple, réunit toutes sortes de niveaux d'analyse et ne s'interroge pas sur l'origine des phénomènes constatés. Pourtant, ils ne sont pas tous déclenchés par les mêmes facteurs. Notamment, le facteur pertinent n'est que très rarement la technologie de transmission. Par exemple, nous attribuerons les fautes de frappe aux claviers des divers transmetteurs électroniques. Par contre, la présence dominante du présent de l'indicatif résulte probablement de l'interaction de type dialogique des communications CMC, car les dialogues se situent typiquement dans le présent, contrairement aux narrations classiques, souvent au passé. L'invention de nouveaux mots et de nouvelles formes graphiques peut être attribuée à une basse pression normative normalement rencontrée dans les contextes de CMC, ce qui permet plus de créativité et un emploi individuel des signes disponibles. Pour les ellipses, on pourrait invoquer un principe d'économie. Cependant, nous verrons dans la section 4 que les ellipses de sujets suivent des règles syntaxiques précises et qu'une explication en termes d'économie tout court est trop simpliste.

En résumé, la majorité des caractéristiques de la liste de Panckhurst (2009) n'est donc pas conditionnée par la technologie et se retrouve également dans d'autres contextes communicatifs (cf. aussi Thurlow & Poff 2013: 164). Ceci laisse déjà surgir des doutes quant à l'existence d'une variété ou d'un registre spécifique de la CMC ou des SMS.

Avant de passer au phénomène que nous avons choisi d'analyser à titre d'exemple pour un trait dit typique de la CMC, à savoir l'ellipse du sujet dans les SMS français (cf. p.ex. Panckhurst 2009; Fairon & al. 2006), nous présentons brièvement les corpus qui ont servi de base à cette étude.

3. Le Corpus SMS et les journaux intimes

Le corpus SMS étudié se compose de 4628 messages dont la langue principale est le français. Il s'agit d'une sous-partie d'un corpus plus vaste de

Page 165: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

160 Registre et moyen de communication

SMS de Suisse qui a été établi entre octobre 2009 et février 2010 (cf. Dürscheid & Stark 2011: 309 et www.sms4science.ch).

Les auteurs des messages sont presque exclusivement de langue maternelle française (95%), dont une bonne moitié a une formation de haute école.

Pour l'analyse syntaxique, le corpus a été annoté manuellement. Nous avons relevé un total de plus de 14'000 sujets que nous avons subdivisés en sujets nominaux et pronominaux. Ces derniers ont ultérieurement été classifiés comme toniques, clitiques ou zéro et comme référentiels ou explétifs.

Nous comparerons les résultats issus de ce corpus avec ceux rapportés par Haegeman (p.ex. 1999, 2013), qui a analysé des journaux intimes anglais et français. Pour l'anglais, l'échantillon de Haegeman contient 10 auteurs de journaux intimes qui ont été édités et dont le texte original le plus ancien date de 1936 (Woolf 1985) et le plus récent de 1997 (Isaacs 1997). Pour le français, Haegeman se base sur les journaux de Léautaud (1956 et 1986) dont l'original contient des entrées de 1917 à 1933.

Comme mentionné, il est possible de définir en termes extralinguistiques le registre SMS (représentatif de la CMC) d'une part, et les journaux intimes d'autre part (cf. section 2.2). A côté de caractéristiques communes comme le fait de ne pas devoir se conformer à priori à une norme prescriptive, les deux ensembles se différencient par exemple en ce qui concerne l'interlocuteur (une deuxième personne ou l'auteur-même), le lieu de rédaction (potentiellement public ou privé) ou le mode d'écriture et de transmission (manuscrit sur papier ou tapé sur un clavier et numérique).

Par la suite, il sera question de déterminer si ces différentes conditions de production et de transmission ont un impact sur la possibilité d'omettre le sujet, un trait dit typique de la CMC (cf. section 2.3).

4. Le phénomène linguistique observé: l'omission du sujet

Nous avons choisi d'analyser l'omission du sujet dans le corpus SMS, car les ellipses (de sujets) sont dites caractéristiques de la CMC (cf. section 2.3), bien qu'en français standard, le sujet soit obligatoire avec les verbes conjugués (sauf au mode impératif). C'est un phénomène qui a déjà été étudié dans les journaux intimes anglais et français (cf. ci-dessous).

L'anglais et le français standard ne font pas partie des langues à sujet zéro5 (pro-drop, dans lesquelles le sujet non-marqué n'est pas exprimé), ni des langues à omission du topique (topic-drop, qui ont la possibilité d'omettre le topique continu). Par contre, dans des registres qui ne sont pas ou peu soumis 5 Il est important de noter que l’anglais standard se comporte comme le français standard en ce

qui concerne l’expression obligatoire du sujet. Ceci est une condition indispensable si on veut comparer les résultats issus de journaux intimes majoritairement anglais de Haegeman et les données des SMS français.

Page 166: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Aurélia Robert-Tissot 161

à la pression normative, comme p.ex. les journaux intimes, le sujet est parfois omis tant en français qu'en anglais. Selon Haegeman (2013), il ne s'agit cependant pas d'omissions du type pro- ni topic-drop.

Un argument pour le fait qu'il ne s'agisse pas de pro-drop est que l'omission du sujet dans les journaux intimes n'est pas possible après des interrogatifs, comme illustré en (3), ou des compléments préposés, comme en (4), avec l'italien pro-drop dans les exemples a, qui s'oppose au français respectivement à l'anglais dans les exemples b.

(3) a. Quando pro tornerá? b. Quand reviendra-t-*(elle) à Paris? (Haegeman 2000: 140)

(4) a. Questo libro, pro non lo voglio. b. This book, *(I) didn't like. (Haegeman 2000: 94, citant Wilder 1997)

En phrases subordonnées, un contexte typiquement sans sujet dans les langues pro-drop comme illustré en (5), Haegeman ne constate pas non plus de sujets omis dans les journaux intimes et elle suppose qu'une phrase du type (6) n'y est pas possible6.

(5) I ragazzi cantano quando pro lavorano.

(6) *Before Ø went, Clive came to tea. (Haegeman 2013: 94)

Haegeman (2013) exclut également la possibilité que l'omission du sujet soit un reflet de topic-drop. L'omission du topique dans les langues topic-drop n'est pas limitée au sujet, mais elle touche également les objets, comme dans l'exemple allemand en (7).

(7) (Den) habe ich schon gesehen. (Haegeman 2013: 96, adapté)

Par contre, selon Haegeman (2013: 97), "[t]here is no systematic object drop in the diary register". Et finalement, les sujets explétifs, à savoir des expressions pronominales non référentielles, ne peuvent pas être des topiques et, par conséquent, ils ne peuvent pas être omis en langues topic-drop comme illustré en (8).

(8) *(Es) wurde viel getanzt. (Haegeman 2013: 96)

Cependant, les sujets explétifs sont régulièrement omis dans les journaux intimes comme en (9).

(9) Ø Won't be too difficult to reconstruct his argument. (Haegeman 2007: 103, citant Thrasher 1977: 44)

Haegeman fait aussi remarquer l'asymétrie entre compléments et ajouts préposés. Comme nous l'avons vu en (4)b, l'omission du sujet après un complément topicalisé n'est pas possible. Par contre, après des ajouts préposés, le sujet n'est pas obligatoire dans les journaux intimes, comme illustré par l'exemple (10).

6 Mais cf. Haegeman & Ihsane (2001) pour les exceptions dans les journaux intimes fictifs.

Page 167: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

162 Registre et moyen de communication

(10) Jamais Ø ne se serait attendue à cela. (Léautaud, 1e mars 1924, cité dans Haegeman 2013: 91)

Le Tab.1 résume les conditions d'omission d'arguments de différents types de langues et de registres discutés dans la littérature.

conditions pro-drop topic-drop journaux

intimes

omission en début de phrase

omission après interrogatifs

omission après compléments

préposés

omission après ajouts ()7

omission en subordonnées ()8

omission de sujets explétifs -9 10

omission d'autres arguments que le

sujet 11

Tab.1: Les conditions d'omission d'arguments de différents types de langues et de registres

5. Résultats

Après avoir décrit les conditions d'omission du sujet dans les journaux intimes, nous présentons les résultats concernant les sujets omis issus du corpus SMS et nous les comparons avec ceux rapportés pour les journaux intimes.

Une remarque préliminaire concerne le taux de sujets omis. Ce dernier est calculé en proportion de pronoms personnels omis par rapport aux pronoms personnels clitiques explicites, puisque les autres sujets (à savoir lexicaux et pronominaux toniques) véhiculent des informations sémantiques et pragmatiques qui ne peuvent pas être remplacées par un élément nul (cf. Sigurðsson 2011: 289). Donc, ces sujets-là ne se prêtent pas à être omis indépendamment du type d'omission dont il s'agit (cf. section 4). De plus, les sujets pronominaux démonstratifs (ça et ce/c') ne seront pas inclus dans les considérations qui suivent puisqu'ils ne sont jamais omis sauf dans la locution comment va (cf. Robert-Tissot 2015).

Nous pouvons constater qu'à grande échelle, la distribution du sujet omis décrite par Haegeman (2013) pour les journaux intimes français et anglais

7 Les langues topic-drop avec le verbe en deuxième position (V2) comme l’allemand ne

permettent pas l’omission du topique ailleurs qu’en position initial. Les langues topic-drop qui ne sont pas soumises à cette restriction, comme p.ex. le portugais, ont la possibilité d’omettre un topique en d’autres positions linéaires.

8 Cf. la note 7. 9 Les langues pro-drop n’ont pas de sujet explétif explicite. 10 Ceci vaut pour les langues qui ne sont pas en même temps du type pro-drop. 11 Ceci vaut pour les langues qui ne sont pas en même temps du type topic-drop.

Page 168: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Aurélia Robert-Tissot 163

(cf. section 4) se confirme aussi pour le corpus sms4science.ch. La Fig.4 offre un aperçu de l'occurrence de pronoms personnels clitiques sujets et de leur omission dans ce corpus. Pour assurer une comparabilité avec les études de Haegeman, nous présentons les données selon le contexte précédant le sujet12.

Fig.4: L'omission du sujet selon le contexte syntaxique précédant dans le corpus SMS

La majorité des omissions de sujets, qui ne sont notamment pas limitées à un certain type de verbes ou à une certaine personne grammaticale, se trouvent en début de phrases principales, comme dans l'exemple (11).

(11) Oups, j'avais pas vu ton message. Ø Arrive ds 10min. A+ (14438)

Comme le montre toujours la Fig.4 ci-dessus, après un mot interrogatif un seul sujet est omis, à savoir un il explétif du verbe y avoir après la particule interrogative est-ce que13 dans l'exemple (12).

(12) C est comment le nom de famille de sergio et est ce que Ø y a un code d entrée?

(9433)

Après des compléments préposés, aucun sujet n'est omis. Par contre, après des ajouts circonstanciels, l'omission du sujet est possible, comme illustré en (13).

(13) Parfait lundi Ø suis libre merci, remet toi bien (20425)

En phrases subordonnées, nous avons une seule omission d'un sujet référentiel dans l'exemple (14).

12 La particule interrogative est-ce que a été classifiée sous interrogatif; les phrases relatives sont

répertoriées sous conjonction de subordination. 13 Cf. la note 12.

6812 168 17 1150 16535

888 1 0 68 242

0%10%20%30%40%50%60%70%80%90%

100%

zéro

clitique

Page 169: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

164 Registre et moyen de communication

(14) Coucou! Alors ton prog? Moi j te cache pas qu Ø suis pas mott à faire grd chose! :-) (19036)

Ensuite, on y trouve deux occurrences de sujets explétifs omis avec falloir comme en (15).

(15) […] 1 truc ki est sur c'est ke Ø fo ke j'apprenne à fermé ma gueule=P !![…] (19459)

De plus, nous avons deux fautes de frappes évidentes, (des <le> pour des <je>) et deux exemples en phrases subordonnées qui sont ambigus quant à leur interprétation14. Finalement, nous avons 17 occurrences du sujet explétif il du verbe impersonnel y avoir omis en phrases subordonnées comme en (16).

(16) Coucou. Bah écoute j'crois qu'il a lieu le cours, j'ai rien recu qui disait que Ø y avait pas.. Il sèche d'nouveau! :) (15873)

Les exemples à sujet nul sous autres sont du type illustré en (17). Il s'agit d'une proposition sémantiquement subordonnée mais pas introduite par une conjonction de subordination.

(17) […] Espère Ø éviterons pluie. (14463)

En résumé, nous pouvons affirmer que l'omission du sujet référentiel suit les règles syntaxiques établies par Haegeman pour les journaux intimes: le sujet est omis uniquement en début de phrases principales ou après des ajouts et une seule fois dans une phrase subordonnée.

L'omission du sujet référentiel montre donc des parallèles frappants dans les SMS et les journaux intimes. Les déviances par rapport aux règles établies se présentent presque toutes soit avec le verbe y avoir, soit avec falloir, tous deux requérant un sujet explétif.

6. Discussion

Nous avons constaté que les deux ensembles définis en termes extralinguistiques par leurs conditions de productions différentes, à savoir les SMS et les journaux intimes, suivent les mêmes règles syntaxiques quant à la possibilité d'omettre un sujet référentiel et les proportions d'omissions sont comparables entre les deux ensembles, à savoir d'environ 10% en moyenne (cf. Haegeman 1999 et Robert-Tissot 2015). Ce trait n'est donc pas distinctif pour ces deux ensembles, ou, autrement dit, il ne reflète pas, au niveau linguistique, la distinction théorique se basant sur des facteurs extralinguistiques entre les deux ensembles.

Puisque le comportement de y a diffère d'un point de vue qualitatif et quantitatif des autres exemples montrant un sujet omis (le taux d'omission avec y avoir dépasse les 50%), nous supposons qu'il s'agit d'une fusion graphique de <il> avec <y>, imitant la fusion phonétique de [i(l)ja] à [ja] très

14 Pour des raisons d’espace, nous ne pouvons pas discuter ces exemples ici (cf. Robert-Tissot

2015 pour plus de détails).

Page 170: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Aurélia Robert-Tissot 165

fréquente dans le code phonique (cf. p.ex. Blanche-Benveniste 2010: 48). Cela n'implique pas nécessairement l'absence de l'explétif au niveau syntaxique. Ces exemples doivent probablement être traités à part. De plus, l'omission des explétifs est aussi largement attestée dans des corpus phoniques (cf. p.ex. Zimmermann & Kaiser 2014) et nous émettrons l'hypothèse qu'il s'agit d'un phénomène d'une nature différente de l'omission du sujet référentiel (cf. Robert-Tissot 2015 et Zimmermann 2014)15.

Par contre, à notre connaissance, aucune omission systématique du sujet référentiel n'a été signalée pour un corpus phonique de français européen. Par systématique, nous entendons l'omission d'après des règles syntaxiques précises et d'une ampleur dépassant ce qu'on pourrait classifier de fautes de performance éparses. K&O (22011: 258s.) remarquent, certes, l'ellipse du sujet dans un corpus phonique, mais de français québécois. Vu que ce phénomène n'est apparemment pas documenté dans d'autres variétés du français, les auteurs le qualifient de trait diatopique.

De plus, nous avons mené une étude exploratrice sur le corpus OFROM (Avanzi & Béguelin 2012) lors de laquelle nous avons cherché des sujets omis avec la forme verbale suis (cf. Robert-Tissot, soumis). Nous y avons relevé un seul passage avec deux omissions consécutives du même sujet dans l'exemple (18).

(18) ouais d'ailleurs c'est ce qu'il me semblait bizarre au début quand euh j'ai entendu qu'elle faisait la colloc avec toi Ø me suis dit et ben | _ | _ | Ø me suis dit et ben c'est des filles qui ont rien à voir et puis qui se | _ | (OFROM, unifr12-jha, 215-287; _ signale une pause)

L'omission du sujet référentiel ne peut donc pas être considérée comme systématique en français phonique européen.

Nous constatons donc que le français qu'on peut observer dans les SMS montre une plus grande liberté quant aux ellipses de sujets référentiels, non seulement par rapport au français standard, mais aussi par rapport à d'autres registres (potentiellement) informels, surtout en code phonique, où l'omission du sujet référentiel est très rare. Par contre, ce type d'omission est bien attesté dans d'autres types de production informelle graphique comme en CMC, p.ex. sur Facebook, mais aussi dans les manchettes de journaux (cf. p.ex. Chow & al. 2008), les notes (cf. p.ex. Janda 1985), ou, comme nous l'avons vu, dans les journaux intimes. Comme exemple illustratif nous donnons en (19) un post sur Facebook.

15 Selon Zimmermann & Kaiser (2014), l’omission de l’explétif avec falloir par exemple (cf. (15)),

peut être considérée comme un résidu de stades plus anciens du français. Pour y avoir, cf. ci-dessus.

Page 171: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

166 Registre et moyen de communication

(19) Bientôt à Moscou pour signer un accord de coopération scientifique et rencontrer des acteurs culturels. Ø Me réjouis de revoir la Place Rouge (Facebook, 14.12.2012, conseiller fédéral Alain Berset)

Selon le procédé bottom-up que nous avons proposé dans la section 2.2, l'analyse empirique concernant l'omission du sujet référentiel suggère donc un regroupement des ensembles journaux intimes et SMS (subsumé sous la notion de 'discours informel graphique') qui se différencie d'un autre grand ensemble qu'on peut réunir sous le 'discours informel phonique'. Ce dernier est, certes, très hétérogène lui aussi, mais pour l'omission du sujet, il semble se comporter de manière uniforme (cf. p.ex. Fonseca-Greber 2004; K&O 22011; Blanche-Benveniste 2010).

La réalisation médiale est une différence frappante entre les deux grands ensembles 'discours informel phonique' et 'discours informel graphique'16. Nous constatons de manière empirique que le code graphique corrèle avec une répartition spécifique de sujets omis, qui diffère de celle du code phonique. Nous pensons que le choix du code dépend de facteurs extralinguistiques, comme p.ex. de la distance physique ou de la possibilité d'une réception simultanée et doit, par conséquent, être considéré comme un facteur avec une influence du moins intermédiaire sur le choix de la forme linguistique. Rien ne nous empêche donc d'inclure le code comme facteur pertinent pour définir un registre, bien qu'il ne soit pas explicitement mentionné chez Biber (1995) et que K&O le considèrent comme une dimension à part dans leur modèle (cf. section 2.1).

Si, comme dans la Fig.5 ci-dessous, nous représentons les registres définis en termes extralinguistiques par des cercles, ces derniers montrent des zones contenant des traits uniques ou distinctifs (ce qui correspond aux register markers, cf. section 2.2; p.ex. les erreurs de frappe dans les SMS, cf. section 2.3, ou les autocorrections dans le code phonique, cf. Blanche-Benveniste 2010: 60), mais aussi des intersections avec des traits en commun (p.ex. l'omission du sujet explétif). Ces derniers peuvent se manifester comme des register features, avec des taux d'occurrences plus ou moins élevés selon le registre. Le carré discontinu dans la Fig.5 représente l'espace du 'discours graphique', défini par le code utilisé.

16 On pourrait naturellement imaginer davantage de facteurs qui distinguent les deux ensembles,

p.ex. la nature quasi-synchrone de la communication graphique vs. la synchronie dans la communication par code phonique (cf. Dürscheid 2003 et aussi Robert-Tissot soumis).

Page 172: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Aurélia Robert-Tissot 167

Fig.5: Les traits de différents registres

7. Conclusions

Nous avons suivi Biber (1995) dans l'idée que le contexte extralinguistique définit le registre. Selon notre conception, le registre n'existe pas en tant que système cognitif, mais il est un reflet d'un ensemble de choix qui s'opère selon les facteurs extralinguistiques.

La forme linguistique concrète doit s'inscrire dans le cadre des possibilités du système d'une langue. Ce système impose les restrictions structurelles que nous avons constatées pour la répartition des sujets omis.

Avec l'omission du sujet référentiel, nous avons identifié un register marker au sens de Biber (1995) pour les registres informels graphiques, qui oppose ces derniers aux registres phoniques. Nos résultats suggèrent effectivement que le code joue un rôle décisif pour la possibilité d'omettre un sujet référentiel puisque cette dernière reste restreinte au code graphique en français européen. Par contre, la distribution du sujet omis ne reflète aucune différence entre les SMS (faisant partie de la CMC) et d'autres textes graphiques informels, parfois bien plus anciens comme les journaux intimes17.

Pour répondre à la question posée par notre titre, nous pouvons donc affirmer que, du moins pour le trait que nous avons analysé, le registre est majoritairement indépendant du moyen de communication ou de la technologie de transmission. Ces derniers ne conduisent pas à la constitution

17 Selon un relecteur anonyme, certains écrivains pratiquent également l’ellipse du sujet, ce qui

est parfaitement dans la ligne de notre argumentation.

Page 173: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

168 Registre et moyen de communication

d'un nouveau registre, bien que certains phénomènes (p.ex. les fautes de frappe) puissent être liés à des conditions techniques de la production. Le moyen de communication n'est alors qu'une petite composante des conditions extralinguistiques qui, dans leur ensemble, déterminent la forme linguistique concrète.

Bibliographie

Avanzi, M. & Béguelin, M.-J. (2012): Présentation du corpus OFROM – corpus oral de français de Suisse romande. Université de Neuchâtel. Disponible: http://www.unine.ch/ofrom. (10.12.2013)

Biber, D. (1995): Dimensions of register variation. Cambridge (Cambridge University Press).

Blanche-Benveniste, C. (2010): Approches de la langue parlée en français, nouv. éd. Paris (Ophrys).

Chow, I. & al. (2008): La syntaxe, la morphologie et la phonologie de la réduction dans les titres. In: French Studies Publications, 89. Disponible: http://ir.lib.uwo.ca/frenchpub/89. (7.11.2014)

Crystal, D. (2008): Txtng: The Gr8 Db8. Oxford (Oxford University Press).

Dufter, A. & Stark, E. (2002): La variété des variétés-combien de dimensions pour la description? Quelques réflexions à partir du français. In: Romanistisches Jahrbuch 53, 81–108.

Dürscheid, C. (2003): Medienkommunikation im Kontinuum von Mündlichkeit und Schriftlichkeit. Theoretische und empirische Probleme. In: Zeitschrift für Angewandte Linguistik, 38, 37–56.

— (2004): Netzsprache - ein neuer Mythos. In: Beisswenger, M., Hoffmann, L. & Storrer, A. (éds.): Internetbasierte Kommunikation. Duisburg (Universitätsverlag Rhein-Ruhr), 141-157.

Dürscheid, C. & Brommer, S. (2009): Getippte Dialoge in neuen Medien. Sprachkritische Aspekte und linguistische Analysen. In: Linguistik Online, 37. Disponible: http://www.linguistik-online.com/37_09/. (7.11.2014)

Dürscheid, C. & Stark, E. (2011): SMS4science: An international corpus-based texting project and the specific challenges for multilingual Switzerland. In: Thurlow, C. & Mroczek, K. (éds.): Digital Discourse. Language in the New Media. Oxford (Oxford University Press), 299-320.

Fairon, C., Klein, J. R. & Paumier, S. (2006): Le Langage SMS. Étude d'un corpus informatisé à partir de l'enquête "Faites don de vos SMS à la science". Louvain-la-Neuve (Presses Universitaires de Louvain).

Ferguson, C.A. (1982): Simplified Registers and Linguistic Theory. In: Obler, L. K. & Menn, L. (éds.): Exceptional Language and Linguistics. New York et al. (Academic Press), 49-66.

Fonseca-Greber, B. B. (2004): Zero Marking in French Impersonal Verbs. A Counter Trend to clitic Morphologization ? In: Proceedings of the Annual Meeting of the Berkeley Linguistics Society 30, 81-92.

Haegeman, L. (2000): Adult null subjects in non pro-drop languages. In: Friedemann, M.-A. & Rizzi, L. (éds.): The Acquisition of Syntax. Studies in Comparative Developmental Linguistics. Harlow et al. (Longman), 129-169.

— (2007): Subject omission in present-day written English: on the theoretical relevance of peripheral data: In: Rivista di Grammatica Generativa 32, 91-124.

— (2013): The syntax of registers: Diary subject omission and the privilege of the root. In: Lingua 130, 88-110.

Haegeman, L. & Ihsane, T. (2001): Adult Null Subjects in the non-pro-drop Languages: Two Diary Dialects. In: Language Acquisition 9, 329-346.

Page 174: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Aurélia Robert-Tissot 169

Janda, R. D. (1985): Note-Taking English as a Simplified Register. In: Discourse Processes 8, 437-454.

Koch, P. & Oesterreicher, W. (22011): Gesprochene Sprache in der Romania. Französisch, Italienisch, Spanisch. Berlin (de Gruyter).

— (2001): Gesprochene Sprache und geschriebene Sprache. Langage parlé et langage écrit. In: Holtus, G., Metzeltin M. & Schmitt, C. (éds.): Lexikon der romanischen Linguistik, vol. I,2. Tübingen (Niemeyer), 584-627.

Massot, B. (2010): Le patron diglossique de variation grammaticale en français. In: Langue française 168, 87-106.

Panckhurst, R. (2009): Short Message Service (SMS). Typologie et problématiques futures. In: Arnavielle, T. (éd.): Polyphonies, pour Michelle Lanvin. Montpellier (Université Paul Valéry Montpellier 3), 33-52.

Robert-Tissot, A. (2015): Le sujet et son absence dans les SMS français. Une analyse basée sur le corpus de sms4science suisse. Thèse doctorale.

Robert-Tissot, A. (soumis): Sur quelques propriétés des sujets entre l'oral et l'écrit dans les SMS français.

Sigurðsson, H. A. (2011): Conditions on Argument Drop. In: Linguistic Inquiry 42, 267-304.

Thurlow, C. & Poff, M. (2013): Text messaging. In: Herring, S., Stein, D. & Virtanen, T. (éds.): Pragmatics of Computer-Mediated Communication. Berlin/Boston (de Gruyter), 163-188.

Zimmermann, M. & Kaiser, G. A. (2014): On expletive subject pronoun drop in Colloquial French. In: Journal of French Language Studies 24, 107-126.

Zimmermann, M. (2014): Expletive and Referential Subject Pronouns in Medieval French. Berlin/Boston (de Gruyter).

Zwicky, A. M. & Zwicky, A. D. (1981): Telegraphic Registers in written English. In: Sankoff, D. & Cedergren, H. (éds.): Variation omnibus. Carbondale/Edmonton (Linguistic Research Inc.), 535-544.

— (1982): Register as a Dimension of Linguistic Variation. In: Kittredge, R. & Lehrberger, J. (éds.): Sublanguage. Studies of Language in Restricted Semantic Domains. Berlin/New York (de Gruyter), 213-218.

Corpus sms4science.ch:

Demande d'accès via http://www.sms4science.ch/index.html

Corpus Haegeman (œuvres citées):

Isaacs, S. (1997): Lily White, London (Penguin Books).

Léautaud, P., (1956): In: Silve, E. (éd.): Le Fléau, Journal particulier. 1917-1930. Mercure de France, 69-70.

— (1986): In: Silve, E. (éd.): Journal Particulier. 1933. Mercure de France.

Woolf, V. (1985): The Diary of Virginia Woolf. Volume 5 : 1936-1941, édité par Olivier Bel, A. & McNeillie, A. Middlesex (Penguin Books).

Page 175: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Page 176: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Travaux neuchâtelois de linguistique, 2015, 63, 171-189

Same same but different: Code-Switching in Schweizer SMS – ein Vergleich zwischen vier Sprachen

*Claudia CATHOMAS1, *Nicola FERRETTI1, *Claudia BUCHER2 & *Etienne MOREL3

1Istituto di Lingua e Letteratura Italiana, Universität Bern 2Institut für Germanistik, Universität Leipzig 3Centre de Linguistique Appliquée, Université de Neuchâtel *Ces auteurs ont participé à ce travail de façon égale

This study examines the formal and functional aspects of code-switching (CS) in a Swiss corpus of 26'000 text messages (SMS). Four corpora (Swiss-German, French, Italian and Romansh) are compared with regard to the absolute number of CS, the languages used for CS, the grammatical properties of the CS elements and their potential functions. The aim is to find out: a) which patterns are representative of one or more individual lan-guages and b) which patterns are characteristic for SMS-communication in general and/or are valid for Switzerland as a whole. With regard to the differences in the number of CS and the languages used, the respective patterns seem to mirror the different lan-guage contact situations in Switzerland. As for the described CS-types, the corpora under scrutiny seem to share the extensive use of one-token alternations (isolated items) that carry out framing functions and may point out a shared type of minimal multilingual prac-tice.

1. Einleitung

Seit der Mitte der 90er Jahre des 20. Jahrhunderts hat sich die mobile schrift-basierte Kommunikation – und insbesondere die SMS-Kommunikation – zu einem zentralen Ort der sozialen Interaktion in einer von erhöhter Mobilität und zunehmend intensiverem Informationsaustausch geprägten Welt entwickelt. Das vielfältige Repertoire an sprachlichen Ressourcen, welche in der SMS-Kommunikation verwendet werden, bietet Einblicke in die Art und Weise, wie traditionell-territorial verankerte Praktiken durch translokale Ausdrucksformen ergänzt werden (vgl. Barton & Lee 2013: 42-54; Chardenet 2010; Jacquemet 2010). Auffällig erscheinen die Verwendung und der spielerische Umgang mit mehreren Sprachen, die durch den Hinweis auf die jeweils assoziierten Erleb-niswelten in eine Art identitäre Bricolage münden (Galliker 2014; Lévi-Strauss 1962; vgl. dazu auch Pizzolotto 1991: 153-156). Individuen und Gruppen be-wegen sich gleichzeitig in sehr lokalen Netzwerken, aber auch in transnationa-len Wertesystemen und nutzen sprachliche Ressourcen flexibel, um auf die-ses Spiel hinzuweisen (vgl. Peuronen 2011). Das Phänomen des Sprach-wechsels (Code-Switching, fortan CS) in der SMS-Kommunikation ist für sehr unterschiedliche Regionen und Sprachkombinationen belegt worden und ist

Page 177: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

172 Code-Switching in Schweizer SMS – ein Vergleich zwischen vier Sprachen

sowohl für Gemeinschaften bezeugt, die als eher mehrsprachig bezeichnet werden können, als auch für solche, die, wie ein grosser Teil der Sprachregio-nen der Schweiz, als grundsätzlich einsprachig gelten (für eine Übersicht vgl. Pekarek Doehler 2011; Lüdi & Werlen 2005).

Die Mehrsprachigkeit in der Schweiz wurde in der Forschung bisher vor allem in ihrer territorialen Verteilung beschrieben (vgl. Lüdi & Werlen 2005). Wie die Sprecher der jeweiligen Sprachgebiete jedoch mit diesen territorialen Grenzen in ihrer Sprachpraxis umgehen und sie überschreiten, indem sie verschiedene sprachliche Varietäten kombinieren, wurde bisher nicht in einem gesamt-schweizerischen Rahmen untersucht. Die Erforschung der SMS-Kommunikation erweist sich hier als besonders aufschlussreich, da in der Sprachpraxis der Schreibenden nicht nur unterschiedliche lokale Ressourcen (Nationalsprachen und lokale Dialekte) verwendet werden, sondern auch wei-tere Sprachen, wie z.B. das Englische oder Spanische. Folgendes Beispiel aus dem rätoromanischen Korpus veranschaulicht die Komplexität der mögli-chen Muster exemplarisch. Die insgesamt im oberengadinischen Puter ver-fasste SMS enthält sprachliche Elemente aller Nationalsprachen und des Eng-lischen.1

(1) Bun di mon darling fit? E cu es bösel e che d'eira her al tel precis... Mh tar me es tüt perfect :-P haha also 2 gute nach-richten ed üna cha nu riv da güdicher poust tscherner svess chenüna cha es che 1. Mathe es craj ida bain 2. La lavur kind begleiten es ün 5er ed 3. Mh mama es in riveda in town! Schi those r my news ;-) at tel sta sera have a joyful day ly (SMS 24739)

Die Präsenz mehrerer Sprachen in der SMS-Kommunikation wurde bisweilen aus der sprachökonomischen Perspektive interpretiert, d.h. CS wurde als zeit- und platzsparende Strategie angesehen (vgl. Bautista 2004). Diese Interpreta-tion wurde aber wiederholt widerlegt (vgl. Carrier & Benitez 2010; Deumert & Oscar Masinyana 2008) und muss mit Blick auf die teils kunstfertige Kreativität sprachübergreifender Ausdrucksformen, die vom Einhalten ökonomischer

1 Die fremdsprachlichen Elemente sind in den Beispielen jeweils kursiv gesetzt. In der Überset-

zung in den Fussnoten sind sie jeweils mit einem Sprachtag versehen: [fra] steht für Franzö-sisch, [deu] für Standarddeutsch, [gsw] für Schweizerdeutsch, [ita] für Italienisch, [isw] für ita-loschweizer Dialekt, [eng] für Englisch, [roh] für Rätoromanisch und [spa] für Spanisch. Über-setzt heisst die Nachricht: 'Guten Tag mein [fra] Schatz [eng] fit? Und wie geht es bösel und was war gestern genau am tel... Mh bei mir ist alles [isw] perfekt [undefiniert]:-P haha also 2 gu-te nachrichten [deu] und eine die ich nicht beurteilen kann kannst selber aussuchen welche was ist 1. Mathe [gsw] ist glaube ich gut gegangen 2. Die Arbeit kind begleiten [deu] ist eine 5 und 3. Mh mama ist in der Stadt [eng] angekommen! Ja das sind meine Neuigkeiten [eng] ;-) ich rufe dich heute abend [ita] hab einen fröhlichen Tag liebe dich [eng].' Es liegt hier auch die Verwen-dung von visuellen Diamorphen vor (Wright 2011) wie fit (englisch, deutsch oder rätoromanisch) oder unterschiedlichen Sprachen zuweisbaren Elementen wie perfect, das als rätoromanisch, englisch oder (mit graphematischer Variation) deutsch interpretiert werden kann (vgl. Morel & al. 2012).

Page 178: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Claudia Cathomas & al. 173

Prinzipien weit entfernt sind, zurückgewiesen werden (vgl. Morel & al. 2012). Vielmehr kann CS als sprachliche Ressource gesehen werden, mit der sich im Laufe der Interaktion eine Reihe kommunikativer Ziele verfolgen lässt. Bei-spielweise wurde CS in der mündlichen Kommunikation als Ressource zur Kontextualisierung des Gesagten und zur Strukturierung des Gesprächs be-schrieben (vgl. Auer 1984; Gumperz 1982). Es wird mitunter als sprachliches Mittel gesehen, mit dem sich der Sprechende gegenüber Form und Inhalt der Kommunikation, gegenüber den anderen Gesprächsteilnehmenden und be-züglich der eigenen Stellung in der Welt positioniert (vgl. das Konzept des stance markers, Jaffe 2009). In dieser Hinsicht kann CS identitätsstiftende Funktionen übernehmen, da die jeweiligen Sprachen in manchen Fällen inhä-rent auf bestimmte Erlebniswelten verweisen können. Einerseits setzen Teil-nehmende Ressourcen ein, die auf gewisse Weise transnationale Dynamiken, aber auch SMS-spezifische Konventionen widerspiegeln (z.B. durch das Eng-lische und sprachübergreifende Spielereien). Andererseits werden auch terri-torial relevante Sprachmittel (z.B. mit dem Einsatz von lokalen Varietäten) verwendet, die in ihrer Übertreibung bisweilen spasshafte Züge annehmen können (z.B. mit Pseudodialekten und mit der schriftlichen Nachahmung loka-ler Akzente).

In diesem Beitrag gehen wir der Frage nach, wie sich die grundsätzlich nach dem Territorialprinzip organisierte Mehrsprachigkeit in den Praktiken der Schweizer SMS-User widerspiegelt und in welchem Masse und in welcher Form sich der Kontakt zu anderen nationalen Sprachen, aber auch zu interna-tionalen Sprachen, in den jeweiligen SMS-Teilkorpora (Schweizerdeutsch, Französisch, Italienisch und Rätoromanisch) niederschlägt. Dabei soll die Antwort auf diese Forschungsfrage anhand der folgenden konkreten Untersu-chungen fassbar gemacht werden:

– Welche Typen von CS lassen sich in den vier Korpora in welchen zah-lenmässigen Verhältnissen finden?

– In welche Sprachen wird gewechselt? Inwiefern lässt sich das Verhältnis der Sprachen und Sprachgruppen zueinander in den SMS aus den je-weiligen Sprachgebieten erkennen?

– Lassen sich ähnliche Funktionen von CS für alle Sprachen feststellen?

– Welche Muster sind für einzelne Sprachen typisch und welche weisen potenziell auf SMS-spezifische und/oder gesamtschweizerische Charak-teristika hin?

Nach einer Übersicht zu den verwendeten Daten und Methoden (2) widmen wir uns der Auswertung und dem Vergleich der Typen des CS (3), der ver-wendeten Sprachen (4) und den Funktionen von CS (5) in den vier Korpora, um in einer Diskussion ein abschliessendes Fazit zu ziehen (6).

Page 179: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

174 Code-Switching in Schweizer SMS – ein Vergleich zwischen vier Sprachen

2. Datengrundlage und Methodik

Der vorliegende Artikel fusst auf der Auswertung von 26'000 SMS-Nachrichten, welche im Rahmen des Projektes sms4science.ch zwischen September 2009 und Juli 2011 gesammelt wurden.2 Das Korpus umfasst ins-gesamt 10'706 Nachrichten in schweizerdeutscher, 7'287 in standarddeut-scher, 4'619 in französischer, 1'471 in standarditalienischer und 1'120 in räto-romanischer Sprache.3 Es handelt sich hierbei um isolierte SMS, die einzeln ohne Angabe zum Empfänger bzw. zur Empfängerin und ohne Informationen zum situationellen und dialogischen Kontext eingesendet wurden.4 Im Zuge einer ersten Verarbeitung wurden die Daten anonymisiert und eine Sprachzu-weisung vorgenommen (für Details zum Korpus vgl. Dürscheid & Stark 2011). Dabei wurde jeweils sowohl die Hauptsprache einer Nachricht identifiziert als auch das Vorliegen von fremdsprachlichen Elementen (CS) gekennzeichnet.5 Von den Autoren des vorliegenden Artikels wurde im Folgenden ein gemein-sames Annotationsschema zur Beschreibung mehrsprachiger CS-Muster er-arbeitet, welches auf die jeweiligen Korpora angewandt wurde und durch Inter-Rater-Reliabilität evaluiert wurde.6 Dabei wurden nur die Nachrichten anno-tiert, die mindestens ein fremdsprachliches Element (CS) enthielten. Für die vier Korpora zeigt sich diesbezüglich folgendes Bild:

Schweizerdeut-sches Korpus

Französisches Korpus

Italienisches Korpus

Rätoromani-sches Korpus

Gesamtanzahl SMS 10'706 4'619 1'471 1'120 Anteil der SMS, die CS

enthalten 22% 13% 23% 57%

Abb. 1: Anzahl der SMS gesamt und mit CS je Subkorpus.

2 Das Projekt sms4science.ch wurde 2009 gestartet und ist Teil eines internationalen Projekts zur

Erforschung der SMS-Kommunikation (www.sms4science.org). 3 Es enthält zudem 535 Nachrichten in englischer Sprache, und kleinere Mengen an Nachrichten

in anderen Sprachen (Spanisch, Portugiesisch, Patois, etc.) (Stand 21.10.2014). 4 Zu den AbsenderInnen der SMS liegen nur Angaben zu Alter, Herkunft, Ausbildung etc. vor,

falls sie im Zeitraum der Sammlung einen diesbezüglichen elektronischen Fragebogen ausge-füllt haben. Diese Daten werden im Rahmen der vorliegenden Vergleichsstudie jedoch nicht ausgewertet. Für nähere Details und Analysen zu soziodemographischen Angaben im Kontext der CS-Phänomene in den vier SMS-Korpora wird auf die jeweiligen Dissertationen der Auto-rInnen verwiesen (Cathomas in Vorb.; Morel in Vorb.; Ferretti in Vorb.; Bucher in Vorb.).

5 Folgende Referenzwerke wurden dabei verwendet: Rätoromanisch: Pledari Grond (online), Decurtins 2001 (Sursilvan), Tscharner 2003 (Vallader), Tscharner 2007 (Puter), Signorell 1999 (Surmiran) und Eichenhofer 2002 (Sutsilvan); Französisch: Larousse français monolingue (2010); Italienisch: Garzanti Linguistica (2010); Deutsch: Duden Rechtschreibung (2009).

6 Ausser den Autoren des vorliegenden Artikels haben sich auch Beat Siebenhaar und Simona Pekarek Doehler an der Erarbeitung des Schemas substanziell beteiligt. Die Cohen’s Kappa-Koeffizienten sind für die hier untersuchten Kategorien sehr gut: CS-Typen: 0,96; Sprachen: 0,93; kommunikative Funktionen: 0,92.

Page 180: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Claudia Cathomas & al. 175

Die Tabelle zeigt, dass die Anteile an CS-SMS je nach Subkorpus sehr unter-schiedlich ausfallen. Vor allem das rätoromanische Korpus sticht durch seine verhältnismässig hohe Anzahl an CS-SMS hervor, während im französischen Korpus nur 13% aller eingesendeten SMS CS-Elemente enthalten. Diesen Un-terschieden soll in den nachfolgenden Abschnitten anhand einer detaillierten Auseinandersetzung mit einzelnen CS-Typen auf den Grund gegangen wer-den. Die Differenzen scheinen jedoch bereits jetzt darauf hinzuweisen, dass das Französische eher zurückhaltend, das Rätoromanisch hingegen eher grosszügig fremdsprachige Elemente aufnimmt. Dies steht möglicherweise in einem Zusammenhang mit der in rätoromanischen Regionen herrschenden Di-glossiesituation, welche im vorliegenden Beitrag noch diskutiert werden wird (s. Kapitel 4, dies gilt auch für schweizerdeutsche Regionen und den relativ hohen Anteil an CS im schweizerdeutschen Korpus).

Auf methodologischer Ebene gilt es an dieser Stelle zu unterstreichen, dass sich eine eindeutige Sprachzuweisung oftmals als schwierig erweist. Eine kla-re Unterscheidung von zwei sprachlichen Varietäten ist – vor allem im Falle von CS bei einander nahe stehenden Dialekten bzw. Standardvarietäten – nicht immer durchführbar (vgl. Bucher 2015; Morel & al. 2012). Visuelle Dia-morphe (Wright 2011), die in mehreren Varietäten verwendbar sind und des-halb in mehrsprachigen SMS teilweise auch bewusst auf eine spielerische Art und Weise eingesetzt werden (wie zum Beispiel die Adressierung cara in räto-romanischen SMS, die – vor allem in Verbindung mit der Interjektion ciao – sowohl als rätoromanisch als auch als italienisch interpretiert werden kann), stellen eine Herausforderung für die Kategorisierung dar. Als eine weitere Hürde bei der Sprachzuweisung kann die Unterscheidung zwischen bereits integrierten Entlehnungen (borrowings) und spontanen Entlehnungen (CS) angesehen werden (vgl. Pekarek Doehler 2011). Als Kriterium für die Eintei-lung in die Kategorie der integrierten Entlehnungen wurde ein Eintrag im Lexi-kon der jeweiligen Varietät festgelegt.7 Dabei illustriert just dieses Kriterium, dass die angewandten Kategorien nicht losgelöst von den Eigenheiten der je-weiligen sprachspezifischen (Wissenschafts-)Kultur betrachtet werden können. So spiegelt das lexikographische Kriterium zur Unterscheidung zwischen CS und integrierten Fremdwörtern auch die sprach- und lexikonspezifischen Un-terschiede im Umgang mit fremdsprachlichen Elementen insgesamt wider.8 Weiter sind auch Unterschiede in den beschreibenden grammatischen Kate-gorien (z.B. bei der Definition der unterschiedlichen Wortarten) auszumachen; beispielsweise ist die Partikel eine in der deutschen Grammatik sehr geläufige

7 vgl. Fussnote 5. 8 Während in der französischen Lexikographie z.B. hello schon längst und lol ("laughing out

loud") seit Kurzem Eingang gefunden hat, sind die beiden Elemente bisher nicht in die deutsch-sprachige Standard-Lexikographie aufgenommen worden.

Page 181: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

176 Code-Switching in Schweizer SMS – ein Vergleich zwischen vier Sprachen

Kategorie, ist aber in der traditionellen französischen und italienischen Gram-matik kaum in Gebrauch (vgl. z.B. Riegel, Pellat & Rioul 2009).

3. CS-Typen: Dominanz minimaler Muster

Die Forschungsliteratur, auf die wir uns in diesem Artikel beziehen, definiert CS als die Verwendung von zwei sprachlichen Varietäten innerhalb der glei-chen kommunikativen Episode (vgl. Auer 1998; Gardner-Chloros 2009). Dabei sind sich die Autoren einig, dass zwischen interphrastischem und intraphrasti-schem CS unterschieden werden kann (vgl. Poplack 1980), wobei letzteres manchmal auch vom CS losgelöst als code-mixing bezeichnet wird (Muysken 2000). Im vorliegenden Artikel bezeichnet der Begriff des CS sowohl die inter-phrastische als auch die intraphrastische Verwendung von verschiedenen sprachlichen Varietäten in ein und derselben SMS.

Um die grammatischen Charakteristika von CS zu untersuchen und in den vier Korpora zu vergleichen, wurde für die nachfolgenden Analysen die Unter-scheidung zwischen Insertion und Alternation, wie sie von Muysken (2000) vorgeschlagen wurde, übernommen. Im Folgenden werden beide Kategorien vorgestellt und ihre quantitative Verteilung in den Korpora beschrieben.

Als 'Insertion' kann die punktuelle Einbettung eines Elements (d.h. eines Mor-phems, Lexems oder eines Syntagmas) einer sprachlichen Varietät in die (morpho-)syntaktische Struktur einer anderen sprachlichen Varietät angese-hen werden (vgl. "embedding", Myers-Scotton 1992). Als Beispiele können folgende Sequenzen aus französischsprachigen SMS dienen:

(2) Coucou! Ca va? T'as d news de Jannine? […] (SMS 9103)9

(3) Mon bébé! Je suis à la place Pury, et il neige !!! Je com-prends pourquoi j avais si froid. Brrr dans quelques minutes je serai at home. Bisous (SMS 18689)10

In SMS (2) ist das englische Substantiv news als Objekt in die französische Fragekonstruktion eingebettet. Im Beispiel (3) ist das ganze Adverbialsyntag-ma at home als Subjektsprädikativ in die französische Satzstruktur inseriert.

Um die Charakteristika der Insertionen in den vier Korpora genauer zu unter-suchen, wurden jeweils zusätzlich grammatische Aspekte annotiert. Bei Inser-tionen, die nur aus einem Token11 bestehen, wurde die Wortart annotiert und bei jenen, die aus mehreren Tokens zusammengesetzt sind, der Typ des Syn-

9 'Hallo! Wie geht’s? Hast du [fra] Neuigkeiten [eng] von Jannine [fra]?'. 10 'Mein Baby! Ich bin bei der Place Pury und es schneit!!! Ich verstehe, warum mir so kalt war.

Brrr in ein paar Minuten werde ich [fra] zuhause [eng] sein. Küsse [fra]'. 11 Computerlinguistische Bezeichnung für ein durch Leerzeichen von anderen Elementen getrenn-

tes Element im Korpus.

Page 182: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Claudia Cathomas & al. 177

tagmas. Der Sprachvergleich zeigt, dass bei Insertionen, die nur aus einem Token bestehen, in allen Sprachen die Kategorie der Substantive dominiert; im italienischen Korpus sind sogar 60% aller Insertionen Substantive.12 Weiter finden sich unter den Insertionen auch Eigennamen,13 Adverbien14 (vor allem im französischen und rätoromanischen Korpus) und Pronomina15 (vor allem im schweizerdeutschen Korpus). In allen Korpora scheint die Dominanz der con-tent words (Muysken 2000: 64), allen voran jene der Substantive für alle Kor-pora evident. Funktionale Kategorien (Präpositionen, Artikel, Pronomen) sind eher selten vertreten, im schweizerdeutschen Korpus sind sie jedoch häufiger als in den anderen Korpora vorhanden. Die Insertionen, die aus mehreren To-kens zusammengesetzt sind, nehmen in allen Korpora meistens die Form von Nominalphrasen oder Präpositionalphrasen an.16 Im französischen und räto-romanischen Korpus sind auch hier im Vergleich zu den anderen beiden Kor-pora relativ viele aus mehreren Tokens zusammengesetzte Eigennamen zu finden (z.B. Bandnamen wie When Icarus falls oder Buchtitel wie Marchant of Venice).

Im Unterschied zur Insertion ist bei der 'Alternation' das fremdsprachliche Element nicht in eine basissprachliche Struktur eingebettet, sondern die Struk-turen der beiden Sprachen sind sequenziell aneinandergereiht. Dieser Wech-sel von sprachlichen Strukturen kann sowohl interphrastisch (d.h. zwischen Hauptsätzen oder koordinierten Sätzen, (4)) als auch intraphrastisch (d.h. zwi-schen Hauptsätzen und untergeordneten Sätzen) geschehen (5):

(4) Hey co vai?did you learn a lot english?co eri?eis damaun a casa?as temps per mei?mcs (SMS 24126)17

(5) Je viens de rater mon train ce qui veut dire :0) daß du chli uf mich wartä muäsch ... Bin wahrschindli so uf di 10 ab zwölfi det […] (SMS 32)18

12 Anteil der Substantive unter den Insertionen, die aus einem Token bestehen: roh 53,9%; fra

43,6%; ita 60%; gsw 44,4%. 13 Anteil der Eigennamen unter den Insertionen, die aus einem Token bestehen: roh 4,1%; fra

23,6%; ita 4,4%; gsw 2,3%. 14 Anteil der Adverbien unter den Insertionen, die aus einem Token bestehen: roh 20,5%; fra

15,1%; ita 6,7%; gsw 7,4%. 15 Anteil der Pronomina unter den Insertionen, die aus einem Token bestehen : roh 4,3%; fra

0,9%; ita 2,2%; gsw 25,8%). 16 Anteil der Nominalphrasen unter den Insertionen, die aus mehreren Token bestehen: roh

42,3%; fra 34,4%; ita 53,4%; deu 46,8%. Anteil der Präpositionalphrasen in der gleichen Kate-gorie: roh 25,7% ; fra 32,8%; ita 33,4%; gsw 22,9%.

17 'Hey wie geht’s? [roh] hast du viel Englisch gelernt? [eng] wie wars?bist du morgen zu Hau-se?hast du Zeit für mich?mega liebe grüsse [rtr. Abkürzung] [roh]'.

18 'Ich habe soeben den Zug verpasst, was heisst [fra] :0), dass du etwas auf mich warten musst …bin wahrscheinlich so auf die 10 nach zwölf dort [gsw]'. Es sei hier festgehalten, dass die Schreibweisen (hier das ß) nicht automatisch zu einer bestimmten Sprachzuweisung geführt haben.

Page 183: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

178 Code-Switching in Schweizer SMS – ein Vergleich zwischen vier Sprachen

Im Beispiel (4) wird nach Satzende einer rätoromanischen Frage eine zweite auf Englisch gestellt.19 In Beispiel (5) geschieht der Wechsel innerhalb des Satzes, indem nach einem französischen Einstieg der Satz mit einem zweiten Nebensatz auf Schweizerdeutsch weitergeführt wird.

Betrachtet man bei den Alternationen den Ort des Wechsels im Satz, fällt auf, dass nur ein Bruchteil als intraphrastisch bezeichnet werden kann (für das schweizerdeutsche Korpus 0,2%, für das rätoromanische 0,4%, für das fran-zösische 0,8% und für das italienische Korpus 1,65%).20 Die Mehrheit der Al-ternationen findet interphrastisch statt. Bei näherer Betrachtung der Alternatio-nen in den vier Korpora kann weiter beobachtet werden, dass sich darunter besonders viele kurze, syntaktisch isolierte und eher am Rande der SMS auf-tretende Elemente befinden, die häufig sehr spezifische pragmatische Funkti-onen erfüllen.21 Die folgenden Beispiele aus den vier Korpora dienen der Ver-anschaulichung:

(6) Juhuu... Fatg in da 5 en nies referat :) (SMS 24765)22

(7) Sorry , pa repondu , boulot + + + , tente dapeler ce soir , bek (SMS 1148)23

(8) Yes ... E se ci telefonavamo prendevamo meno ! (SMS 25242)24

(9) Heey Gan morn ein zug früehner .. Peaace (SMS 2539)25

Diese isolierten Elemente, die nicht als Insertion bezeichnet werden können, da sie nicht in die basissprachliche Struktur eingebettet sind, jedoch aufgrund ihrer strukturellen Einfachheit auch nicht typischen Alternationen gleichen, be-zeichnet Pekarek Doehler (2011: 52) als monophrastisches CS (vgl. dazu auch Morel & al. 2012). Aufgrund ihrer syntaktischen Eigenschaften behandeln wir diese Elemente als eigene Kategorie innerhalb der Alternationen. Diese im Nachfolgenden als isolated items bezeichneten Elemente können auch modifi-ziert oder erweitert werden, was häufig bei Begrüssungen oder Verabschie-dungen, die einen Platz für Adressierungen jeglicher Art enthalten können, der Fall ist:

19 Beim hier verwendeten Englischen handelt es sich offenkundig um ein Lernerenglisch. Man

muss hier anmerken, dass in unserem Korpus vorliegende Alternationen oftmals Interferenz-spuren aufweisen.

20 Die Korpora unterscheiden sich bezüglich Verteilung der Orte des Sprachwechsels bei der Al-ternation dennoch signifikant: χ2 (3, N=3126)= 13.414, (p=0.0038), wobei der Effekt vor allem vom italienischen Subkorpus herrührt.

21 Auf die spezifischen pragmatischen Funktionen und deren Häufigkeiten in den Subkorpora wird in Kapitel 5 eingegangen.

22 'Juhuu…[deu] Eine fünf in unserem Vortrag gemacht :) [roh]'. 23 'Entschuldige [eng], nicht geantwortet, viel Arbeit, versuche dich heute Abend anzurufen, kuss

[fra]'. 24 'Ja [eng] ... Und wenn wir telefoniert hätten, hätten wir weniger bekommen [ita]'. 25 'Hey Gan morgen ein Zug früher [gsw]…Friede [eng]'.

Page 184: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Claudia Cathomas & al. 179

(10) Hey boy! Je te souhaite un joyeux anniversaire!!! […](SMS 16398)26

(11) Hola mi amor, hofä bish guet ufgstandä ...[…] (SMS 566)27

(12) Maina il luf ün liter lat? Besos da luffa.(SMS 25187)28

(13) Wela vecio auguroni ;) per stasera non so se posso venire, […] (SMS 24741)29

Eine nähere Betrachtung der grammatischen Eigenschaften der isolated items zeigt, dass diese Elemente meistens in Form von Interjektionen, Partikeln oder Substantiven auftreten, wobei Substantive30 vor allem im schweizerdeutschen Korpus häufig sind, wo sie fast 70% aller isolated items ausmachen. In den anderen Korpora dominieren die Interjektionen und Partikel,31 vor allem im französischen (82%) und rätoromanischen (78%) Korpus.

Die quantitative Verteilung der besprochenen CS-Typen (Insertionen, Alterna-tion und insbesondere der für unsere Korpora typische Subtyp des isolated items) gestaltet sich folgendermassen:32

Abb. 2: Anteil in % an Insertionen und Alternationen (zusätzlich unterteilt nach Isolated Items und ALT other) in den vier Korpora.

26 'Hey Junge [eng]! Ich wünsche dir alles Gute zum Geburtstag [fra]!!! […]'. 27 'Hallo meine Liebe [spa], hoffe bist gut aufgestanden … [gsw] […]'. 28 'Bringt der Wolf einen Liter Milch [roh]? Küsse [spa] von der Wölfin [roh]'. 29 'Hey Alter [isw] Glückwüsche ;) ich weiss nicht ob ich heute Abend kommen kann, [ita] [...]'. 30 Anteil der Substantive unter den isolated items: roh 12,6%; fra 11,1%; ita 40,9%; gsw 69,8%. 31 Anteil der Interjektionen und Partikel unter den isolated items: roh 77,9%; fra 82,5%; ita 52%;

gsw 25,6%. 32 Sprachkürzel: [eng] Englisch, [deu] Standarddeutsch, [fra] Französisch, [isw] italoschweizer

Dialekt, [ita] Italienisch, [gsw] Schweizerdeutsch, [spa] Spanisch, [gda] Nicht-/Substandarddeutsch, [roh] Rätoromanisch, [undefiniert] visuelle Diamorphe (vgl. Fussnote 1), [andere roh] für andere rätoromanische Idiome, [pseudo] Pseudosprache, [ida] andere italieni-sche Dialekte.

Page 185: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

180 Code-Switching in Schweizer SMS – ein Vergleich zwischen vier Sprachen

Wie in Abb. 1 ersichtlich wird, findet sich jeder CS-Typ in allen Korpora. Den grössten Anteil an Insertionen weist das rätoromanische Korpus mit knapp 49% auf, und mit 67% lassen sich im schweizerdeutschen Korpus verhältnis-mässig die meisten Alternationen finden. Im Falle der Alternationen zeigt die Graphik weiter, dass die Kategorie der isolated items in allen vier Korpora fast die Hälfte der Alternationen ausmacht (im schweizerdeutschen Korpus sind es knapp 45%).

Zusammenfassend sind beim Vergleich der CS-Typen durchaus einige Unter-schiede zwischen den Korpora festzumachen. Insbesondere fällt der schwei-zerdeutsche Korpus durch die relative Häufigkeit pronominaler Insertionen und komplexerer Alternationen auf, was möglicherweise auf ausgewogenere Kom-petenzen in den kombinierten Varietäten hinweist.33 Dennoch erscheinen ge-wisse Muster des CS relativ sprachunabhängig zu sein: So zeigt die in allen Korpora häufige Verwendung von Substantiv-Insertionen, kombiniert mit einer hohen Frequenz an isolated items, dass das dominante CS-Muster von "mini-malen" Charakteristika (Dominanz von kurzen, syntaktisch wenig elaborierten CS-Elementen) geprägt ist (vgl. Androutsopoulos 2007) und sich dadurch von komplexeren CS-Mustern unterscheidet (vgl. Alfonzetti 1992; Poplack 1980; Al-Khatib & Sabbah 2008). Diese Art von CS scheint somit ein relativ sprach-unabhängiges, für unsere Korpora typisches Instrument zu sein, das sich dadurch auszeichnet, dass es keine elaborierte Zweisprachigkeit der SMS-User voraussetzt.

4. Die Sprachen: Diglossie-Situationen und la english touch

Bei der Annotation des CS in den SMS-Korpora wurde neben dem jeweiligen CS-Typ auch die Sprache des betroffenen Elements erfasst.

Die folgende Tabelle (Abb.3) zeigt die Verteilung der Sprachen innerhalb der vier Korpora:34

33 Li Wei (2000:6) spricht von maximal bilingualism und definiert den Begriff mit "someone with

near native control of two or more languages." 34 Sprachkürzel s. Fussnote 32.

Page 186: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Claudia Cathomas & al. 181

Abb. 3: Anteil (in %) der jeweiligen Sprachen an CS in den betreffenden Subkorpora.

Auf den ersten Blick lässt sich in allen Korpora eine starke Präsenz des Engli-schen erkennen (mehr als 20% in allen Korpora). Diese ist im französischen Korpus am stärksten, wo fast 60% aller CS-Elemente englisch sind. Die Ver-teilung der Sprachen in den anderen Korpora widerspiegelt bis zu einem ge-wissen Grade die jeweilige Diglossie-Situation35 in der betreffenden Sprachre-gion. So lässt sich im schweizerdeutschen Korpus ein starker Einfluss des Standarddeutschen erkennen (21%),36 im italienischen Korpus können 32% aller CS-Elemente einem Dialekt der italienischen Schweiz37 zugeschrieben werden und die doppelte Diglossie (vgl. Kristol 1989: 816) im rätoromanischen Sprachgebiet – einerseits mit rätoromanischer Ortsmundart und (über)regionaler Schriftsprache, andererseits mit Schweizerdeutsch und Stan-darddeutsch – reflektiert sich in der Dominanz der standarddeutschen CS-Sequenzen im rätoromanischen Korpus. Die französischsprachigen SMS-Schreiber befinden sich nicht in einer vergleichbaren Diglossiesituation und scheinen sich stärker dem allgegenwärtigen Englischen zuzuwenden.

35 Diglossie wird hier als Hyperonym verwendet und bezeichnet unterschiedliche Situationen der

Koexistenz zweier Sprachvarietäten im Repertoire einer Gemeinschaft. 36 Des Weiteren sind sub- und nichtstandarddeutsche Varietäten mit 10,1% am dritthäufigsten

vertreten. Diese beinhalten (fast) ausschließlich die umgangssprachlichen Elementen ne und nix sowie das regional (süddeutsch und österreichisch) verwendete bussi. Ebenfalls häufig kommt kussi vor, was in Analogie zu bussi auch als nicht- bzw. substandardsprachlich annotiert wurde. Es stellt sich die Frage, ob diese Elemente wirklich als Codeswitches oder nicht viel-mehr als für die Kommunikationsform SMS spezifische Elemente anzusehen sind, die für die User nicht (mehr) funktional sind.

37 In der italienischsprachigen Schweiz kann die Diglossie-Situation als Dilalie (Berruto 1987) be-zeichnet werden, in der die H-Varietät (das Standarditalienische) auch im informellen Sprach-gebrauch dominiert.

Page 187: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

182 Code-Switching in Schweizer SMS – ein Vergleich zwischen vier Sprachen

Einen weiteren interessanten Aspekt in Bezug auf die Sprachenverteilung im Vergleich der vier Korpora eröffnet ein Blick auf die relativen Häufigkeiten der jeweiligen anderen nationalen Sprachen. Im italienischsprachigen Korpus be-finden sich die meisten Sequenzen der anderen Schweizer Nationalsprachen (jeweils 14% für französische und standarddeutsche CS-Elemente). Diese Zahlen mögen auf ausserlinguistische Faktoren zurückzuführen sein, wie die Tatsache, dass Tessiner Studierende und Arbeitnehmende sich häufig ge-zwungen sehen, ihre ursprüngliche Sprachregion zu verlassen und in die deutsch- oder französischsprachige Schweiz zu ziehen. Das französische Korpus zeigt immerhin mehr als 10% deutschsprachige und 8% italienisch-sprachige CS-Elemente, wohingegen das Rätoromanische in den anderen drei Korpora quasi nicht vorhanden ist.38 Nach dem Englischen ist das Spanische die stärkste nicht-nationale Sprache in den Korpora.

Als lohnenswert erweist sich auch ein Blick auf die Verteilung der Sprachen innerhalb der definierten CS-Typen. Innerhalb der Alternationstypen zeigt sich hierbei in allen Korpora eine ähnlich starke Dominanz des Englischen. Vor al-lem im französischen Korpus wird häufig in die englische Sprache alterniert. Das Englische nimmt hier 63% der typischen Alternationen und sogar 80% der isolated items ein. In den anderen Korpora macht das Englische bei den Alter-nationen etwa einen Drittel aus, hier sind jedoch auch die direkten Kontakt-sprachen (Standarddeutsch und sub-/nichtstandarddeutsche Varietäten für das schweizerdeutsche Korpus, italoschweizer Dialekt für das italienische Korpus und Schweizer- und Standarddeutsch für das rätoromanische Korpus) stärker vertreten.39 Die starke Präsenz des Englischen zeigt sich auch inner-halb der Gruppe der Insertionen (31% Anteil im italienischen Korpus und je 40% im französischen und schweizerdeutschen Korpus). Die Ausnahme bildet hier jedoch das rätoromanische Korpus, dessen Insertionen vor allem aus deutschen Varietäten (25% Schweizerdeutsch, 31% Standarddeutsch) stam-men. Ein möglicher Grund für diese Verteilung könnten Wortfindungsschwie-rigkeiten im Rätoromanischen sein, die in eine Ausweichstrategie der deut-schen Insertionen münden.40 Dieser Erklärungsversuch könnte darauf hinwei-

38 Die Hinzuziehung der soziodemographischen Daten legen nahe, dass jene auf Französisch

verfasste Nachrichten, die deutsche Elemente aufweisen, meist von mehrsprachigen Deutsch-schweizern stammen (vgl. Morel in Vorb.).

39 Für das schweizerdeutsche Korpus vor allem das Standarddeutsche bei den typischen Alterna-tionen und das Sub-/Nichtstandarddeutsche bei den isolated items, für das Italienische Korpus vor allem der Dialekt der italienischen Schweiz (40% bei den typischen Alternationen und 38 % bei den isolated items) und für das rätoromanische Korpus vor allem die beiden deutschen Va-rietäten Schweizerdeutsch und Standarddeutsch.

40 Hinweise auf mögliche Wortfindungsschwierigkeiten sind vereinzelt in metalinguistischen Kom-mentaren und Markierungen wie Anführungszeichen zu erkennen. Weiterführende Studien zu deutschen Insertionen im Rätoromanischen zeigen zudem, dass im Bereich spezifischer Be-zeichnungen im Rätoromanischen häufig Lücken bestehen, die durch das Deutsche gefüllt wer-

Page 188: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Claudia Cathomas & al. 183

sen, dass der Typ der Insertion mehr auf die lokalen Verhältnisse in der Sprachsituation selbst hinweist, während die Häufigkeit der englischen Alter-nationen (vor allem im minimalen Charakter der isolated items) als ein über-greifendes CS-Muster der (schweizerischen) SMS-Kommunikation charakteri-siert werden könnte.

5. CS-Funktionen: emblematisches Code-Switching

Die Funktionen von CS können vielschichtig sein und auf verschiedenen Ebe-nen definiert werden. Bisherige CS-Studien haben die diskursiven Funktionen von CS, zum Beispiel die Funktion der Strukturierung eines Gespräches, häu-fig qualitativ erforscht (vgl. Grosjean 1982; Auer 1984; Gardner-Chloros 2009). Ein quantitativer Ansatz zur Beschreibung der Funktionen von CS ist proble-matisch, da Funktionen von Sprachwechsel (vor allem in einer SMS ohne An-gaben zum Kontext der kommunikativen Situation) häufig vielschichtig und aus Sicht des Forschers nicht immer klar zuweisbar sind. Die vorliegende verglei-chende Analyse versucht trotzdem eine quantitative Gegenüberstellung, in-dem nur die direkte pragmatische Funktion der CS-Sequenz, nämlich der je-weilige Sprechakt, fokussiert wurde.

Bei der Analyse der kommunikativen Funktionen beschränken wir uns in ei-nem ersten Schritt auf die Alternationen. Aus der untenstehenden Tabelle (Abb.4) ist die Verteilung der Alternationen auf die einzelnen Kategorien er-sichtlich; ein Beispiel ist jeweils angegeben.

In allen vier Korpora dominieren Funktionen der Begrüssung und Verabschie-dung, wobei erstere vor allem im rätoromanischen und französischen Korpus und letztere vor allem im italienischen und schweizerdeutschen Korpus von Bedeutung sind.

Gemäss Pekarek Doehler (2011) wird durch das Verwenden von CS bei Be-grüssungen und Verabschiedungen deren phatische Funktion verstärkt (vgl. auch Casoni 2011). Ausserdem dienen Begrüssungen und Verabschiedungen der Organisation des Gespräches. Diese Funktion kann durch einen Sprach-wechsel betont werden.

Eine weitere kommunikative Funktion, jene des Ausrufes, findet sich vor allem im französischen Korpus wieder (lol, caramba, wesh). Im schweizerdeutschen und italienischen Korpus lässt sich weiter relativ häufig die informationsorien-tierte kommunikative Funktion der Erklärung finden, während die anderen pragmatischen Funktionen wie Entschuldigungen, Danksagungen oder Wün-sche und Gratulationen in allen Korpora ähnlich präsent sind.

den (Cathomas in Vorb.). CS-Phänomene erhalten hier folglich eine Lexikalisierungsfunktion, die Spracherosionsvorgängen in der kleineren rätoromanischen Sprache entgegenwirken.

Page 189: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

184 Code-Switching in Schweizer SMS – ein Vergleich zwischen vier Sprachen

Abb. 4: Die mit Alternationen realisierten Sprechakte (Anteil an den Alternationen im jeweiligen Sub-korpus in %).

Page 190: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Claudia Cathomas & al. 185

In den vier Korpora kommen die unterschiedlichen CS-Sprachen nicht immer für die gleichen Zwecke zum Zuge. So ist das Englische zum Beispiel für das französische und rätoromanische Korpus vor allem Begrüssungssprache,41 während es im italienischen und schweizerdeutschen Korpus häufiger zur Verabschiedung eingesetzt wird.

Über alle Korpora hinweg werden das Französische und Italienische häufig nur für periphere und phatische Zwecke eingesetzt (das Französische vor al-lem für Verabschiedungen, das Italienische im rätoromanischen Korpus auch häufiger für Begrüssungen), während das Standarddeutsche und das Schwei-zerdeutsche auch oft referenzielle Funktionen (z.B. Erklärungen) erfüllen. Dies scheint Beobachtungen zu bestätigen, wonach Französisch und Italienisch bisweilen mit Galanterie und Romantik assoziiert werden (vgl. auch Cougnon 2011; Vold Lexander 2007).

Im Allgemeinen lässt sich für alle Korpora feststellen, dass sich die kommuni-kative Funktion der Alternationen häufig so beschreiben lässt, dass sie zur pe-ripheren Organisation des Diskurses beiträgt (vgl. Alfonzetti 1992; Casoni 2011).42 Häufig geht es bei der Organisation des Diskurses dabei um eine Ab-grenzung und/oder Betonung von verschiedenen Sprechakten, die durch ei-nen Sprachwechsel markiert werden (vgl. Pekarek Doehler 2011).

Diese beschriebene Praxis ist in allen vier Korpora ersichtlich. Sie kann mit Poplack’s Begriff des emblematic switching beschrieben werden, der nicht auf eine durchgehende Zweisprachigkeit schliessen lässt, sondern als "an emb-lematic part of the speaker’s monolingual style" (Poplack 1980: 589) beschrie-ben wird. Die Wahl der Sprache scheint diesbezüglich weniger ausschlagge-bend zu sein als der Sprachwechsel an sich (vgl. Casoni 2011: 106).

Über die rein strukturelle Funktion des CS hinaus soll auch auf die Begrüs-sungs- und Verabschiedungssequenzen als für Identitätsarbeit besonders dichte Orte hingewiesen werden (Goffman 1967). Hier spricht der User den anderen Teilnehmer direkt an und zeigt, wie er sich ihm gegenüber positioniert (vgl. Bernicot & al. 2012). Dieser Umstand bietet auch Raum, um sich als ein User darzustellen, der verschiedene Ressourcen kreativ einsetzen kann und um seine momentanen – auch nur gespielten – identitären Affiliationen zu in-szenieren.

41 Im französischen Korpus können auch die meisten fremdsprachlichen Ausrufe der englischen

Sprache zugewiesen werden. 42 In seinen Daten (blogs und guestbooks der italienischen Schweiz) hat Casoni (2011: 165) für

49,7% der CS-Elemente die Funktion der peripheren Organisation des Diskurses identifiziert.

Page 191: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

186 Code-Switching in Schweizer SMS – ein Vergleich zwischen vier Sprachen

6. Fazit und Diskussion

Der Vergleich der vier SMS-Korpora hat sich im Rahmen des vorliegenden Artikels nur auf die wichtigsten Kategorien der CS-Typen und -Funktionen be-schränkt. Trotzdem zeigen sich bereits hier bedeutende Resultate in Bezug auf die Verwendung des CS in den einzelnen Korpora.

Die Häufigkeit von CS scheint auf den ersten Blick die jeweiligen Sprachkon-taktsituationen widerzuspiegeln und auch mit einem stärkeren Erfordernis von CS in den Sprachgebieten in Zusammenhang zu stehen. Im rätoromanischen Korpus enthalten zwei Drittel der Nachrichten Elemente aus anderen Spra-chen, was den Status des Rätoromanischen als kleine Sprache in Bezug auf die Nachbarssprachen mit starkem Kontakt zum Deutschen markiert. Im schweizerdeutschen, aber auch im italienischen Korpus lässt sich unschwer die Diglossie- bzw. die Dilalie-Situation der jeweiligen Sprachgemeinschaften erkennen. Das französischsprachige Korpus ist mit 13% an CS-Nachrichten ein Spiegel einer linguistischen Region mit vergleichbar geringerem Kontakt zu anderen linguistischen Varietäten.

Bei näherem Betrachten sind jedoch in allen vier Korpora vergleichbar ähnli-che, vielschichtige Prozesse von CS erkennbar. Es kann festgehalten werden, dass in allen vier Korpora jeweils alle anderen Nationalsprachen verwendet werden und dass das Englische in allen Korpora die vorherrschende Fremd-sprache ist. Während sich die Korpora bei der Verwendung der Sprachen noch unterscheiden (im französischen und schweizerdeutschen Korpus ist das Englische, in den beiden anderen Korpora jeweils die nächste Kontaktsprache dominant), ist die Häufigkeit der Verwendung der einzelnen CS-Typen in allen Korpora sehr ähnlich. Auffällig ist hier vor allem die Frequenz der isolated items, die jeweils auch ähnliche Funktionen aufweisen (Framing, periphere und phatische Funktionen). Diese Praxis scheint sprachübergreifend zu sein und auf eine Art minimale mehrsprachige Praxis hinzuweisen, die keine durchgehende Zweisprachigkeit bedingt. Diese Muster des eher einsilbigen, syntaktisch beschränkten CS scheinen jedoch nicht unbedingt auf die (man-gelnde) bilinguale Kompetenz zu verweisen, da sie auch im rätoromanischen Korpus – wo die Sprecher als durchgehend zweisprachig bezeichnet werden können – relativ häufig sind.

Im Rahmen des vorliegenden Artikels wurden vier Korpora, die unter den glei-chen Bedingungen entstanden sind, miteinander verglichen. Die Ähnlichkeiten im Bereich der Typen von CS sind dabei – in Anbetracht der unterschiedlichen Ausgangslagen in den vier untersuchten Sprachgebieten – frappant. Die Ver-wendung des als isolated items bezeichneten CS-Typs ist beispielsweise in allen Gebieten auffällig häufig, während intraphrastische Wechsel in eine an-derssprachige Struktur nur am Rande vorkommen.

Das hier beschriebene dominante Muster des emblematischen CS (vgl. Pop-lack 1980; Androutsopoulos 2007) weist möglicherweise in die Richtung einer

Page 192: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Claudia Cathomas & al. 187

Sprachpraxis, die als Bestandteil eines affinity space (Gee 2004) verstanden werden kann, d.h. einer Art abstrakter Gemeinschaft, deren Mitglieder partizi-patorische Muster teilen, aber nicht festen soziodemographischen Gruppen – etwa durch Geschlecht, Muttersprache, Ethnizität oder Alter bestimmt – zuge-ordnet werden können.

Die Interpretation der in diesem Artikel beschriebenen Gemeinsamkeiten lässt somit die Frage, ob es sich beim beschriebenen Muster um ein für SMS typi-sches Charakteristikum handelt oder ob die Ähnlichkeit der vier Korpora durch die Zugehörigkeit der Teilnehmenden zu einer Sprachgemeinschaft (der Schweiz) mitbedingt ist, unbeantwortet. Für die Untersuchung dieser Aspekte müssten in weiterführenden Studien die vorliegenden Ergebnisse einerseits mit anderen SMS-Korpora und andererseits mit anderen Korpora aus den vier Sprachgebieten der Schweiz verglichen werden. Als lohnenswert könnte sich auch ein Vergleich mit anderen Daten aus der computervermittelten Kommu-nikation erweisen (für andere Daten aus der italienischsprachigen Schweiz vgl. Casoni 2011).

Als weiteres Desideratum kann die Ausweitung der Untersuchung auf dialogi-sche Daten angesehen werden. In der Tat scheint der Umstand, dass die SMS im untersuchten Korpus nicht in ihrem kommunikativen Kontext vorliegen, vor allem im Hinblick auf die Interpretation der CS-Funktionen unbefriedigend. Ei-ne Untersuchung des CS als Ressource der (geschriebenen) Interaktion (vgl. Mondada 2007) könnte anhand von dialogischen Textnachrichten vorgenom-men werden, wie dies zum Beispiel im Rahmen des weiterführenden Projektes What’s up, Switzerland? geschehen soll.43

Bibliographie

Alfonzetti, G. (1992): Il discorso bilingue a Catania. Milano (Franco Angeli).

Al-Khatib, M. A. & Sabbah, E. H. (2008): Language Choice in Mobile Text Messages among Jordanian University Students. In: SKY Journal of Linguistics, 21, 37-65.

Ammon, U. & al. (2004): Variantenwörterbuch des Deutschen. Die Standardsprache in Österreich, der Schweiz und Deutschland sowie in Liechtenstein, Luxemburg, Ostbelgien und Südtirol. Berlin/ New York (de Gruyter).

Androutsopoulos, J. K. (2007): Bilingualism in the mass media and on the internet. In: Heller, M. (Hg.): Bilingualism: A social approach. Basingstoke/New York (Palgrave Macmillan), 207-230.

Auer, P. (1984): On the meaning of conversational code-switching. In: Auer, P. (Hg.): Interpretive so-ciololinguistics. Tübingen (Narr), 87-112.

43 www.whatsup-switzerland.ch.

Page 193: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

188 Code-Switching in Schweizer SMS – ein Vergleich zwischen vier Sprachen

— (1998): Introduction: bilingual conversation revisited. In: Auer, P. (Hg.): Code-Switching in Conver-sation: Language, Interaction and Identity. London (Routledge), 1-24.

Barton D. & Lee, C. (2013): Language online: Investigating digital texts and practices. London (Routledge).

Bautista, M. L. S. (2004): Tagalog-English code switching as mode of discourse. In: Asia Pacific Edu-cation Review, 5, 226-233.

Bernicot, J., Volckaert-Legrier, O., Goumi, A. & Bert-Erboul, A. (2012): Forms and functions of SMS messages: A study of variations in a corpus written by adolescents. In: Journal of Pragmatics, 44, 1701-1715.

Berruto, G. (1987): Lingua, dialetto, diglossia, dilalìa. In: Holtus, G. & Kramer, J. (Hg.): Romania et Slavia adriatica. Festschrift Sfür Zarko Muljačić. Hamburg (Buske), 57-81.

Bucher, C. (2015): Code-Switching in SMS Communication: Formal and Functional Aspects in the Swiss-German sms4science Corpus. In: Torgersen, E., Hårstad, S., Mæhlum, B. & Røyneland, U. (Hg.): Language variation - European Perspectives V (=Studies in Language Variation). Am-sterdam (John Benjamins).

— (in Vorb.): Grammatikalische und funktionale Eigenschaften von Codeswitching im schweizerdeut-schen sms4science-Korpus (Arbeitstitel). Dissertation. Universität Leipzig.

Carrier, M. L. & Benitez, S. Y. (2010): The effect of bilingualism on communication efficiency in text messages (SMS). In: Multilingua - Journal of Cross-Cultural and Interlanguage Communication, 29, 167-183.

Casoni, M. (2011): Italiano e dialetto al computer. Bellinzona (Osservatorio linguistico della Svizzera italiana).

Cathomas, C. (in Vorb.): "Von I dont Know zu Kei problem chara!! - Eine korpuslinguistische Studie zu rätoromanischen SMS unter besonderer Berücksichtigung unterschiedlicher Code-Switching-Typen (Arbeitstitel). Dissertation. Universität Bern.

Chardenet, P. (2010): Observer les espaces de locution plurilingues et les pratiques langagières dans des langues associées. In: Blanchet, P. & Martinez, P. (Hg.): Pratiques innovantes du plurilin-guisme: émergence et prise en compte en situations francophones. Paris (Archives contem-poraines), 121-139.

Cougnon L.-A. (2011): 'Tu te prends pour the king of the world?' Language contact in text messaging context. In: Hasselblatt, C. & al. (Hg.): Language contact in times of globalization. Amster-dam/New York (Rodopi), 45-59.

Decurtins, A. (2001): Niev vocabulari romontsch sursilvan – tudestg / Neues rätoromanisches Wörter-buch surselvisch-deutsch. Chur (Südostschweiz Print).

Deumert, A. & Oscar Masinyana, S. (2008): Mobile languages choices: The use of English and isiXhosa in text messages (SMS). In: English World-Wide. A Journal of Varieties of English, 29, 117-147.

Dudenredaktion (2009): Duden – Die deutsche Rechtschreibung. 25. Auflage. Mannheim/Wien/Zürich (Duden Verlag).

Dürscheid, C. & Stark, E. (2011): sms4science: An international corpus-based texting project and the specific challenges for multilingual Switzerland. In: Thurlow, C. & Mroczek, K. R. (Hg.): Digital discourse: Language in the new media. Oxford/New York (Oxford University Press), 299-320.

Eichenhofer, W. (2002): Pledari sutsilvan – tudestg / tudestg – sutsilvan, Wörterbuch Sutsilvan – Deutsch / Deutsch – Sutsilvan. Chur (Lehrmittelverlag des Kantons Graubünden).

Ferretti, N. (in Vorb.): Dialetto digitato. Nuovi mezzi di comunicazione e contatto linguistico nella Sviz-zera italiana (Arbeitstitel). Dissertation. Universität Bern.

Galliker, E. (2014): Bricolage. Ein kommunikatives Genre im Sprachgebrauch Jugendlicher aus der Deutschschweiz. Frankfurt (Peter Lang).

Page 194: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Claudia Cathomas & al. 189

Lévi-Strauss, C. (1962): La pensée sauvage. Paris (Plon).

Li Wei (2000): Introduction: Dimensions of bilingualism. In: Li Wei (Hg.): The bilingualism reader. Lon-don (Routledge), 1-25.

Lüdi, G. & Werlen, I. (Hg.) (2005): Le paysage linguistique en Suisse. Neuchâtel (Office Fédéral de Statistique).

Mondada, L. (2007): Le code-switching comme ressource pour l’organisation de la parole-en-interaction. In: Journal of Languages in Contact, 1, 168-197.

Morel E., Bucher, C., Pekarek Doehler, S. & Siebenhaar, B. (2012): SMS communication as plurilin-gual communication: hybrid language use as a challenge for classical code-switching catego-ries. In: Linguisticae Investigationes, 35 (2), 260-288.

Morel, E. (in Vorb.): Le bricolage plurilingue dans la communication par texto: interprétations d’une pratique entre affiliation locale et aspiration globale (Arbeitstitel). Dissertation. Université de Neuchâtel.

Muysken, P. (2000): Bilingual speech: a typology of code-mixing. Cambridge (Cambridge University Press).

Myers-Scotton, C. (1992): Comparing Code Switching and Borrowing. In: Estmann, C. M. (Hg.), Co-deswitching. Exeter (Multilingual Matters), 19-39.

Patota, G. (2010): Garzanti Italiano. Milano (Garzanti Linguistica).

Pekarek Doehler, S. (2011): Hallo! Voulez vous luncher avec moi hüt? Le "code switching" dans la communication par SMS. In: Linguistik online, 48.

Peuronen, S. (2011): "Ride Hard, Live Forever": Translocal Identities in an Online Community of Ex-treme Sports Christians. In: Thurlow, C. & Mroczek, K. R. (Hg.): Digital discourse: Language in the new media. Oxford/New York (Oxford University Press), 154-176.

Pizzolotto, G. (1991): Bilinguismo ed emigrazione in Svizzera. Bern (Peter Lang).

Poplack, S. (1980): Sometimes I'll start a sentence in Spanish y termino en español: towards a typolo-gy of code-switching. In: Linguistics, 18, 581-618.

Riegel, M., Pellat, J.-C. & Rioul, R. (2009): Grammaire méthodique du français. Paris (Presses univer-sitaires de France).

Schegloff, E. & Sacks, H. (1973): Opening up closings. In: Semiotica, 8 (4), 289-327.

Signorell, F. (1999): Vocabulari surmiran – tudestg / tudestg – surmiran, Wörterbuch Surmiran – Deutsch / Deutsch – Surmiran. Chur (Chasa editura per meds d’instrucziun).

Tscharner, G. (2003): Dicziunari vallader – tudais-ch / tudais-ch – vallader, Wörterbuch Vallader – Deutsch / Deutsch – Vallader. Chur (Chasa editura per meds d’instrucziun dal Grischun).

— (2007): Dicziunari puter – tudas-ch / tudas-ch – puter, Wörterbuch Puter – Deutsch / Deutsch – puter. Chur (Chasa editura per meds d’instrucziun dal Grischun).

Vold Lexander, K. (2007): Langues et SMS au Sénégal - le cas des étudiants de Dakar. In: Gerbault, J. (Hg.), La langue du cyberespace: De la diversité aux normes. Paris (L'Harmattan), 59–66.

Wright, L. (2011): On variation in medieval mixed language business writing. In: Schendl, H. & Wright, L. (Hg.): Code-switching in early English. Berlin (de Gruyter), 191-218.

Onlineressourcen:

www.larousse.fr (zuletzt zugegriffen am 24.11.2014)

www.oed.com (zuletzt zugegriffen am 24.11.2014)

www.pledarigrond.ch (zuletzt zugegriffen am 24.11.2014)

www.sms4science.ch (zuletzt zugegriffen am 24.11.2014)

www.sms4science.org (zuletzt zugegriffen am 24.11.2014)

www.whatsup-switzerland.ch (zuletzt zugegriffen am 24.11.2014)

Page 195: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Page 196: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Travaux neuchâtelois de linguistique, 2015, 63, 191-192

Adresses des auteurs

Alain BERT-ERBOUL, [email protected] Université de Poitiers, CeRCA - CNRS, UMR 7295, MSHS Bâtiment A5 - 5, rue Théodore Lefebvre, 86000 Poitiers, France

Marc BONHOMME, [email protected] Institut de littérature et linguistique françaises, Université de Berne Länggassstrasse 49, Postfach 999, 3000 Berne 9, Suisse

Claudia BUCHER, [email protected] Institut für Germanistik, Universität Leipzig Beethovenstr. 15, 04107 Leipzig, Allemagne

Claudia CATHOMAS, [email protected] Istituto di Lingua e Letteratura Italiana, Université de Berne Länggassstrasse 49, 3012 Berne, Suisse

François DELAFONTAINE, [email protected] Institut des sciences du langage, Université de Neuchâtel Rue de la Pierre-à-Mazel 7, 2000 Neuchâtel, Suisse

Nicola FERRETTI, [email protected] Istituto di Lingua e Letteratura Italiana, Université de Berne Länggassstrasse 49, 3012 Berne, Suisse

Karina FRICK, [email protected] Deutsches Seminar, Universität Zürich Rämistrasse 42, 8001 Zürich, Suisse

Anne-Danièle GAZIN, [email protected] Istituto di Lingua e Letteratura Italiana, Université de Berne Länggassstrasse 49, 3012 Bern, Suisse

Antonine GOUMI, [email protected] Université Paris Ouest Nanterre La Défense, CHArt UPO EA 4004 200 avenue de la République, 92 001 Nanterre Cedex, Suisse

Alexander GURYEV, [email protected] Institut des sciences du langage, Université de Neuchâtel Rue de la Pierre-à-Mazel 7, 2000 Neuchâtel, Suisse

Page 197: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

192 Adresses des auteurs

Katharina KÖNIG, [email protected] Germanistisches Institut, Westfälische Wilhelms-Universität Stein-Haus, Schlossplatz 34, 48143 Münster, Allemagne

Cédric LOPEZ, [email protected] Viseo, Centre R&I 4, avenue Doyen Louis Weil, 38000 Grenoble, France

Charlotte MEISNER, [email protected] Romanisches Seminar, Universität Zürich Plattenstrasse 47, 8001 Zürich, Suisse

Etienne MOREL, [email protected] Centre de Linguistique Appliquée, Université de Neuchâtel Rue de la Pierre-à-Mazel 7, 2000 Neuchâtel, Suisse

Rachel PANCKHURST, [email protected] Université Paul-Valéry Montpellier Route de Mende, 34199 Montpellier Cedex 5, France

John PAOLILLO, [email protected] School of Informatics and Computing, Indiana University Informatics West 307B, 901 E. 10th Street, Bloomington, IN 47408, États-Unis

Aurélia ROBERT-TISSOT, [email protected] Romanisches Seminar, Universität Zürich Zürichbergstrasse 8, 8032 Zürich, Suisse

Mathieu ROCHE, [email protected] UMR TETIS, Maison de la Télédétection 500, rue Jean François Breton, 34398 Montpellier Cedex 5, France

Olga VOLCKAERT-LEGRIER, [email protected] Université Toulouse Jean Jaurès, Octogone-ECCD EA 4156 5 allée Antonio Machado, 31058 Toulouse Cedex 9, France

Page 198: Perspectives linguistiques sur les écrits …2 Avant-propos caractériser, la communication par texto a fait l'objet de différents types d'analyses linguistiques6, dont trois seront

Travaux neuchâtelois de linguistique, 2015, 63, 193

Comité de lecture pour ce numéro

Evelyne Berger (Université de Neuchâtel), Irmtraud Behr (Université Sorbonne Nouvelle – Paris 3), Yves Bestgen (Université Catholique de Louvain), Gilles Corminboeuf (Universität Basel), Christa Dürscheid (Universität Zürich) Marion Fossard (Université de Neuchâtel), Frédéric Gachet (Université de Neuchâtel), Susanne Günthner (Westfälische Wilhelms-Universität Münster), Mathilde Henning (Universität Giessen), Martin Hilpert (Université de Neuchâtel), Sylvain Kahane (Université Paris Ouest Nanterre La Défense), Florence Lefeuvre (Université Sorbonne Nouvelle – Paris 3), Martin Luginbühl (Université de Neuchâtel), Dominique Maingueneau (Université Paris-Sorbonne), Lorenza Mondada (Universität Basel), Anton Näf (Université de Neuchâtel), Rachel Panckhurst (Université Paul-Valéry Montpellier), François Rastier (Directeur de recherche au CNRS), Corinne Rossari (Université de Neuchâtel), Jacques Savoy (Université de Neuchâtel), François Thomas (Université Catholique de Louvain), Simone Überwasser (Universität Zürich)