美文网首页
7 Fallstudie 2: Hauptuntersuchun

7 Fallstudie 2: Hauptuntersuchun

作者: shashaslife | 来源:发表于2017-11-21 19:38 被阅读0次

7.1 Hier geht es drum, ein Mehrebenenannotationsmodell zu entwickeln, was heißt. dass die Annotation über alle linguistischen Ebenen hinweg erfolgt. 

7.2 Datenaufbereitung: Im ersten Schritt wurden die Primärdaten automatisch mit dem Webtagger tokenisiert, getaggt und lemmatisiert. WebTagger ist eine Weiterentwicklung des TreeTaggers und wurde spezifisch für die Aufbereitung von Webkommentaren entwickelt. Dabei wurden die Tokenisierungs- und Taggingsregeln angepasst. Dazu werden themenspezifische Lexika genutzt. Drin ist festghalten, welche Wortformen und Tags ein Wort annehmen kann. 

7.3 Ebenen des Mehrebenenannotationsmodells

Die Auf der morphosyntaktischen Ebene getaggten Daten bilden die Basis der Mehrebenenannotation. Für die weitere Annotation werden die getaggten Dateien in den Partitur Editor EXMARaLDA (steht online frei zur Verfügung). Die Daten werden auf der Text- und Metadatenebenen annotiert.

Der Umfang einer Annotation ist die Anzahl der Token, der mit einem Tag annotiert werden dürfen. Es werden fünf Tokenumfänge unterschieden: 1)Token als eine Einheit. 2) Mehrere Token wie Phrasen. 3) Satzteile 4) ganze Sätze 5) Satzübergreifende Annotationen. Für jedes Tag des Modells wurde einzeln definiert, wie groß der Tokenumfang sein darf. Die Annotationsrichtlinien sind wie folgt im Annotationsschema notiert. 

7.3.1 Metadatenebene

Unten ist das Tagset für die Annotation kontextbezogener Metadaten

7.3.2  Textebene

Bezogen auf den Kommentartext werden sieben Annotationsebenen unterschieden:

Bei der Definition der Analysekategorien werden textmusterbezogene Merkmale modelliert und bestehende Ansätze aus der Literatur adaptiert. 

Auf der morphologischen Ebene werden Tags zur Auszeichnung von Flexion und Wortbildung vergeben. Abkürzung, Akronyme, Anglizismen, Enklise, Klitisierung, Kompositum, Netzjargon, Reduktion des Adressatenpronomens, e-Tilgung werden auf dieser Ebene annotiert. 

Auf der syntaktischen Ebene wird die Struktur des Blogkommentars annotiert. Da werden drei Subebenen unterschieden: Satz, Absatz und Text. Die Annotation auf der Text- und Absatzebene gibt die Textstruktur wieder, sie kann u.a. dienlich sein, um Verwendungsregularitäten von Bewertungshandlungen zu identifizieren. 

Auf der lexikalisch-semantischen Ebene werden themenbezogene Lexeme annotiert. Die identifizierten themenbezogenen Lexeme können für die Erstellung themenspezifischer Lexika verwendet werden und bilden die Basis für die Annotation von Bewertungskomponenten. 

Auf der pragmatischen Ebene werden Bewertungshandlungen und Komponenten des Bewertungskonzepts annotiert. Die bewertungshandlungsanzeigenden Mittel werden im Folgenden als Indikatoren beschrieben. Es werden sprachliche, korpusbezogene und polaritätsbezogene Indikatoren unterschieden. 

Auf der Polaritätsebene werden drei Typen unterschieden: Token, Multitoken, Satz: Auf der Tokenebene werden die Polaritäten einzelner Einheiten annotiert (dadurch kann herausgefunden werden, welche Bewertungsgegenstände wie bewertet werden. Auf der Multitoken-Ebene wird die Polarität der Phrasen annotiert. Immer dann, wenn auf der Tokenebene ein oder mehrere Token ausgezeichnet wurden, erfolgt in den meisten Fällen die Annotation auf der Multitokenebene. Bei der bottom-up Polaritätsbestimmung werden die zuvor auf den zwei Ebenen ausgzeichneten Satzteile berücksichtigt. Bei kontextbezogener Polaritätsbestimmung wird der Kontext berücksichtigt. 

7.4 Fazit. Die verwendeten Tools WebTagger und EXMARalDA erwiesen sich als nützliche Werkzeuge bei der semi-automatischen Datenannotation von Blogkommentaren. Die manuelle Annotation des Mehrebenenannotationsmodells in EXMARaLDA erlaubt die Einführung von Annotationsebenen als auch das vertikale Lesen der Ebenenannotation zu Zwecken der Feststellung von Mehrheitsentscheidungen und Ableitung des Goldstandards. Eine Automatisierung der Toolfunktionen ist für die stark regelbasierten und weniger interpretativen Ebenen, wie die graphematische, morphologische, syntaktische, lexikalisch-semantische und Polarität_Token Ebene denkbar. Stark interpretative Ebene, wie etwa die Ebenen Bewertungshandlung, Bewertungskonzept. Polaritätssatz und rhetorische Mittel sind maschinell nur eingeschränkt verarbeitbar.  

相关文章

  • 7 Fallstudie 2: Hauptuntersuchun

    7.1 Hier geht es drum, ein Mehrebenenannotationsmodell zu...

  • 9 Fallstudie 4 Mehrebenenannotat

    9.1 Einleitung Der vorliegende Beitrag präsentiert einen ...

  • 6. Fallstudie: Voruntersuchung

    6.1 Textkorpora. Das Textkorpus 1 enthält 63 Artikel und ...

  • 8 Fallstudie 3: Sprachliches Bew

    8.1 Auftretenshäufigkeiten bewertungsbezogener Sprachhand...

  • 周总结(2019.09.16-2019.09.22)

    运动护肤 1、KEEP 2次 2、面膜3次 学习技能 1、学习强国 7/7 2、单词打卡 7/7 3、电影2部:《...

  • 2⃣️0⃣️1⃣️7⃣️·7⃣️·2⃣️

    女人有三件事不能停!学习,美丽,赚钱,年龄不是借口,无论在哪个年龄段,都要对自己有要求。 每天打扮得像公主一样出门...

  • 第十一周检视

    本周践行情况: 早睡 2/7 早起 5/7 学习 2/7 运动 1/7 冥想7/7 本周家里有...

  • 7*2

    一个方格子,三颗黑色的煤核占据边线,与十五颗石子对峙着,一番紧张的战斗后,或是三只老狼被七零八落的小孩困死在一...

  • 7/2

    防御机制和不愉快情感的定义 防御机制是指从意识层面消除不愉快情感成分的一种心理操作。 不愉快的感情包括焦虑,抑郁和...

  • 7/2

    防御机制的触发情况 对于正常人来说,一个非常强烈的情感可能预示着毁灭一个人的思维、组织能力、注意力等心理功能。佛洛...

网友评论

      本文标题:7 Fallstudie 2: Hauptuntersuchun

      本文链接:https://www.haomeiwen.com/subject/nhaivxtx.html