Analysis of Computer-Mediated Discourses Focusing on Automated Detection and Guessing of Structural Sender-Receiver Relations

Autor: R. Ecker
Dissertation: PT1701 (2017)
Ressourcen: Kopie (Senden Sie ein Email mit PT1701 als Betreff an dke.win@jku.at um diese Kopie zu erhalten)

Kurzfassung (Englisch)

Abstract

Various forms of computer-mediated communication (CMC) have become ubiquitous, and influence our lives in many ways. Facebook, Myspace, Skype, Twitter, WhatsApp, and YouTube produce enormous amounts of traffic and data - which is ideal for analysis. Automated tools for discourse analysis process this tremendous amount of computermediated discourse quickly. The aim of this thesis is to describe and develop a software architecture for an automated tool that analyzes computer-mediated discourses to answer the question “Who is communicating with whom?” at any point in time. Assigning receivers to each message is an important step. While direct addressing is helpful, it is not used in every message.

The author explores popular communication models and the most widely used CMC systems. The underlying communication model highlights the basic elements of CMC, and shows how this communication takes place. Based on this understanding, multiple views are defined by using different attributes and various guiding questions. Practical examples explain which basic information can be extracted from text-based discourses, and how that is done. The author mainly focuses on Internet Relay Chat (IRC) as an applied example because of its open and well-documented protocol. In discourses, it is not always clear who is communicating with whom; which especially affects the automatic analysis of discourses. It is important to identify the users’ nicknames in written discourse in order to determine who the respective senders and receivers are. However, the linguistic possibilities in nickname creation, and of using nicknames in the discourse, are various. To study how nicknames are created and used in IRC, logs of 13 channels, consisting of 8937 public chat messages and 7936 unique nicknames, are analyzed in detail. This thesis shows the basic structure of IRC nicknames, which parts of speech group are used to compound nicknames, and which parts of speech of a nickname are omitted within the chat discourse. This knowledge leads to a better prediction as to whether there is a link between a current logged-in user and the examined word in discourse, which can be a shortened or creatively changed form of a nickname. Additionally, this work improves two other aspects: first, automated detection and mapping of written receiver names (or parts thereof) for logged-in users; and second, automated receiver guessing without semantics if no receiver name is specified. The architecture of the automated software is described in detail. An IRC discourse with 5605 messages is manually and automatically analyzed, and both approaches achieve similar results in detecting and guessing sender-receiver relations.

Kurzfassung

Formen der computervermittelten Kommunikation (CvK) sind allgegenwärtig und beeinflussen unser Leben täglich. Facebook, Myspace, Skype, Twitter, WhatsApp und YouTube produzieren große Mengen an Daten - ideal für Analysen. Automatisierte Tools für die Diskursanalyse verarbeiten diese enormen Mengen an computervermittelten Diskursen schnell. Diese Dissertation beschreibt die Entwicklung und Struktur einer Software-Architektur für ein automatisiertes Tool, das computervermittelte Diskurse analysiert, um die Frage “Wer kommuniziert mit wem?” zu jedem Zeitpunkt zu beantworten. Die Zuweisung von Empfängern zu jeder einzelnen Nachricht ist ein wichtiger Schritt. Direkte Adressierung hilft, wird aber nicht in jeder Nachricht verwendet.

Populäre Kommunikationsmodelle und die am weitesten verbreiteten CvK-Systeme werden untersucht. Das zugrunde liegende Kommunikationsmodell verdeutlicht die wesentlichen Elemente von CvK und zeigt, wie diese Kommunikation abläuft. Mit diesem Verständnis werden mehrere Betrachtungsweisen definiert, die durch verschiedene Attribute und unterschiedliche Leitfragen repräsentiert werden. Praktische Beispiele erläutern, welche grundlegenden Informationen aus textbasierten Diskursen gewonnen werden können und wie dies stattfindet. Der Autor konzentriert sich hauptsächlich auf den Internet Relay Chat (IRC) als angewandtes Beispiel aufgrund seines frei zugänglichen und gut dokumentierten Protokolls. In Diskursen ist nicht immer klar, wer mit wem kommuniziert. Dies ist besonders bei automatischer Diskursanalyse problematisch. Es ist wichtig, die Nicknamen der Benutzer in einem schriftlichen Diskurs zu identifizieren, um die Absender und Empfänger von Nachrichten zu bestimmen. Jedoch sind die sprachlichen Möglichkeiten in der Kreation von Nicknamen und auch deren Verwendung im Diskurs vielfältig. Um zu untersuchen, wie Nicknamen kreiert und in IRC verwendet werden, wurden Logs von 13 Gesprächskanälen (Channels) bestehend aus 8937 öffentlichen Chat-Nachrichten und 7936 einzigartigen Nicknamen detailliert analysiert. In dieser Dissertation wird beschrieben, welche grundlegende Struktur IRC Nicknamen haben, aus welchen Gruppen vonWortarten Nicknamen zusammengesetzt sind, und welche Teile der Nicknamen im Chat-Diskurs weggelassen werden. DiesesWissen, in Kombination mit der Identität des eingeloggten Benutzers, führt zu einer besseren Vorhersage darüber, ob das untersuchteWort im Diskurs eine verkürzte oder kreativ veränderte Form eines Nicknamens sein kann. Darüber hinaus verbessert diese Arbeit zwei weitere Funktionen: Erstens, die automatisierte Erkennung von geschriebenen Empfängernamen (oder Teilen davon) und ihre Zuordnung zu eingeloggten Benutzern. Zweitens, wenn kein Empfängername geschrieben wird, das automatisierte Erraten des Empfängernamens ohne Semantik. Die Architektur der Software wird im Detail beschrieben. Ein IRC-Diskurs mit 5605 Nachrichten wird manuell und automatisch analysiert, beide Ansätze erzielen ähnlich gute Ergebnisse für die Erkennung und das Erraten von Sender-Empfänger-Relationen.