You are on page 1of 39

Wortarten-Tagging

(auch Part-of-Speech(PoS)-Tagging)

Ein erster Schritt zur syntaktischen Annotation

bersicht
Allgemeines zur Ambiguitt Einfhrung Wortarten-Tagging Tagsets Automatisches Taggen eines Korpus

Ambiguitt
verschiedene Arten der Ambiguitt (Mehrdeutigkeit)
syntaktische lexikalische phonologische orthografische

Mehrdeutigkeit tritt in echten Kommunikationssituationen sehr selten auf. Sprachwissenschaftliche Beispiele sind meist konstruiert.

Ambiguitt
Beispiel (1) ist ein typisches konstruiertes Beispiel. (1) Der Mann sieht den Jungen mit dem Teleskop. Beispiele (2) und (3) sind im echten Kontext sicher nicht mehrdeutig. (2) Klaus hat ein(en) Laster. (3) Klara isst im Garten.

Ambiguitt
Fr Rechner gibt es kaum Strukturen, die nicht mehrdeutig sind. Grund: mangelnde Informationen ber
Semantik Wahrscheinlichkeit Weltwissen Kontext

Ambiguitt
(1) Diese Brause trinkt sie am Liebsten. (2) Die Mutter liebt die Tochter. (3a) Klaus hat lange Nudeln gegessen. (3b) Klaus hat lange pfel gegessen. Aufgrund reiner morpho-syntaktischer Informationen sind diese Stze fr Maschinen nicht disambiguierbar.

Motivation fr Wortarten-Tagging
explizite Annotierung von syntaktischen Informationen dient der maschinellen Bearbeitung z.B.:
Suche in Korpora (fr uns wichtig!) maschinelle bersetzung weitere maschinelle Annotation
z.B. Parsing z.B. morphologische Annotation

Motivation fr Wortarten-Tagging
Auflsung unterschiedlicher Funktion bei orthografischer Ambiguitt (1) Ohne/KOUI den Applaus abzuwarten, ging der Knstler. (2) Ohne/APPR den Applaus ging der Knstler. Wortartentags disambiguieren (vereindeutigen) verschiedene Lesarten

Motivation fr Wortarten-Tagging
in einigen Fllen wird die Motivation fr Wortarten-Tagging noch deutlicher Fragestellung: Welches zweier aufeinanderfolgender Adjektive im Dativ (mask./neut.) endet auf ``m? (1) in einem schnem groen Garten (2) in einem schnen groem Garten (3) in einem schnem groem Garten

Motivation fr Wortarten-Tagging
wenn nicht explizit vermerkt ist, welche Wortart ein Wort hat, kann man nur nach Buchstabenfolgen suchen Hier: ``Wort auf -en gefolgt von Wort auf em gefolgt von gro geschriebenem Wort Diese Suche unterscheidet nicht nach Wortarten Ergebnis auf folgender Folie zeigt viele nicht gewollte Resultate

Suchausdruck: [word="[a-z].+en"][word="[a-z].+em"][word="[A-Z].+"]

mit einem deutlich erhhten gesundheitslichem Risiko . Sie seien . Fr Deutschland nehmen auerdem Bundestagsprsidentin Rita Sssmuth , an . Es werden auerdem Projekte und Institutionen besucht wurde halboffiziell mit dessen mangelhaftem Franzsisch begrndet . Ein gleichsam eine Schnittstelle zwischen reinem Klangstck und Diskurs . , eine Welt zwischen enttuschtem Sturm und Drang und zu Kunden in dessen angestammtem Versorgungsgebiet . Wirtschaftsminister Gnter Nur wenige Jordanier trauen seinem Bruder und designierten Nachfolger , die Gratwanderung zwischen eigenem Umfeld und etablierten Machtstrukturen und Dorothea Schrade kommen diesem Bedrfnis nach . Seit Frauen mit seinem gewohnten nachrichtlichem Blick zu erfassen , weiter die Schere zwischen gewerkschaftlichem Forderungskatalog und Alltag in

Motivation fr Wortarten-Tagging
wenn man versucht die Treffermenge einzuschrnken, indem man die Artikel aufzhlt, dann findet man viele Beispiele nicht Beispiel: Suche ``Artikel gefolgt von Wort auf -en gefolgt von Wort auf -em gefolgt von gro geschriebenem Wort Ergebnis auf folgender Folie

[word="einem|dem|seinem|ihrem|diesem|dem"][word="[a-z].+en"][word="[a-z].+em"][word="[A-Z].+"]

der Frauen mit seinem gewohnten nachrichtlichem Blick zu erfassen ,

Motivation fr Wortarten-Tagging
Fazit zu ``weite Kriterien liefern zu viele Ergebnisse
d.h. zu viele falsche Treffer

zu ``enge Kriterien liefern zu wenige Ergebnisse


d.h. zu viele richtige Treffer werden nicht gefunden

Motivation fr Wortarten-Tagging
Und mit Wortarten-Tags? Suchausdruck:
[pos="ADJA" & word=".+en"][pos="ADJA" & word=".+em"]
mit einem deutlich erhhten gesundheitslichem Risiko . Sie Frauen mit seinem gewohnten nachrichtlichem Blick zu erfassen

Motivation fr Wortarten-Tagging
ohne Wortarten-Tags umfasst die Menge der Ergebnisse entweder
alle richtigen Ergebnisse, aber auch viele falsche (bergenerierung) nur richtige Ergebnisse, aber nicht alle richtigen (Untergenerierung)

Motivation fr Wortarten-Tagging
bergenerierung

Menge der gesuchten Strukturen

Menge der Treffer

Motivation fr Wortarten-Tagging
Untergenerierung

Menge der Treffer

Menge der gesuchten Strukturen

Definition Wortarten-Tagging
Wortarten-Tagging ist die Zuweisung von Wortarten-Kennungen (Tags) an Wortformen (Tokens) im Text ein Token ist eine typischerweise durch Leerzeichen abgegrenzte Buchstabenfolge im Text
ein Token kommt also immer nur ``einmal vor

Definition Wortarten-Tagging
John/NE Mack/NE trgt/VVFIN seinen/PPOSAT Spitznamen/NN "/$( das/ART Messer/NN "/$( zu/APPR Recht/NN ./$.
links Tokens rechts Tags

zwei Tokens, ein Type

Tagsets
Zuweisung der Wortarten-Tags erfolgt durch eine endliche Menge von Tags, die eine Wortart oder Unterwortart beschreiben diese Menge nennt man Tagsets Tagsets mssen
Tags eindeutig definieren jedes Token definieren knnen Konventionen fr Zweifelsflle bereithalten

STTS
einen Quasi-Standard beim WortartenTagging stellt das STTS dar STTS = Stuttgart-Tbingen-Tagset das STTS umfasst in seiner ``kleinen Version 54 Tags das STTS wird in einer TagsetBeschreibung (Guidelines) definiert

Hauptwortarten im STTS
1. Nomina (N) Hund, Katze, Maus, Peter 2. Verben (V) arbeiten, beten, sollen, sein 3. Artikel (ART) der, die, das, ein 4. Adjektive (ADJ) schn, bld, tfte 5. Pronomina (P) er, sie, es, sich, irgendein 6. Kardinalzahlen (CARD) zwei, 231.456, III 7. Adverbien (ADV) sehr, blicherweise 8. Konjunktionen (KO) und, oder, dass, weil 9. Adpositionen (AP) mit, ohne, an ... entlang 10. Interjektionen (ITJ) oh weh, zapperlot 11. Partikeln (PTK) zu, wider, bitte

Kriterien fr Definition von Tags


Einteilung nach unterschiedlichen Kriterien
distributionelle: ber/APPR die Strae die Strae entlang/APPO morphologische: findet/VVFIN, gefunden/VVPP semantische: Klaus/NE, Maus/NN

Mischung der Kriterien kann zu unterschiedlichen Ergebnissen fhren Einteilung ist theorieabhngig

Konventionen fr Tagging
Konventionen halten Vorgehen fr strittige Flle fest Sie mssen
eindeutig sein intersubjektiv sein mglichst vollstndig sein

Beispiele fr Konventionen
einige Wrter tragen Merkmale verschiedener Wortarten ins sich Konventionen legen eindeutige Annotierung fest
(1) eine gute/ADJA Idee (2) Das ist das Gute/NN daran. (3) der angemalte/ADJA Zaun (4) Man hat den Zaun angemalt/VVPP.

Umsetzung der Konventionen


Die korrekte hndische Annotation eines Korpus erfordert die Einhaltung der Konventionen und folgender Regeln: Korpus wird zunchst unabhngig von zwei verschiedenen Annotatoren annotiert Ergebnisse werden gegeneinander abgeglichen und Inter Annotator Agreement gemessen (d.i. die bereistimmung zwischen den Entscheidungen der unterschiedlichen Annotatoren) erst bei hinreichender bereinstimmung wird nur noch von einem Linguisten annotiert

Anwendbarkeit
Fr ein Tagset mssen immer die Argumente des linguistisch Wnschenswerten gegen die des technisch Machbaren abgewogen werden. hohes Inter Annotator Agreement muss erreichbar sein Einteilung der Klassen muss automatische Annotation mit niedriger Fehlerrate ermglichen, d.h.
Klassen mssen auch automatisch klar gegeneinander abgrenzbar sein Klassen drfen nicht zu selten auftreten, da sonst zu geringe Trainingsdatenmenge fr automatisches Lernen

Beispiel fr Kompromiss
Ein Standardbeispiel fr einen Kompromiss ist das Tag ADJD im Standard-Tagset STTS. Wrter, die sowohl als prdikatives Adjektiv als auch als Adverb fungieren knnen, werden ADJD getaggt losgelst von ihrer jeweiligen Verwendung. (1) Maria singt schn/ADJD. --> adverbial (2) Maria ist schn/ADJD. --> prdikativ Eine Aufteilung der beiden Lesarten wre sowohl mit stochastischen als auch mit regelbasierten Verfahren nicht mglich.

Automatisches Tagging
Es gibt zwei Arten des automatischen Taggings: regelbasiertes Tagging
bentigt (handgeschriebene) Grammatik

stochastisches Tagging
bentigt (handannotiertes) Trainings-Korpus

Regelbasiertes Tagging
typischerweise zwei Ebenen fr regelbasierte Tagger
Lexikon-Nachschlag weist Ambiguittsklasse zu Grammatik-Regeln disambiguieren

Eine Ambiguittsklasse ist die Menge aller Tags, die ein Wort losgelst vom Kontext haben kann.

Regelbasiertes Tagging
Die/ART-PRELS-PDS Hose/NN sitzt/VVFIN schlecht/ADJD ./$. ``Constraints schrnken die Lesarten ein, z.B.:
kein Relativpronomen am Satzanfang kein (substituierendes) Demonstrativpronomen vor Nomen

Regelbasiertes Tagging
Probleme regelbasierten Taggings:
Lexikon ist nie vollstndig es gibt kaum echte Constraints Interaktion der Regeln schlecht berschaubar

Selten/ADJD trinkt/VVFIN die/ART-PRELSPDS Milch/NN.

Stochastisches Tagging
bentigt nur getaggtes Korpus als Trainingsdaten berechnet bergangswahrscheinlichkeiten weist wahrscheinlichstes Tag zu kann auch Rangfolge zuweisen

Stochastisches Tagging
zwei Arten von Wahrscheinlichkeiten 1. Wahrscheinlichkeit fr Tag in Bezug auf vorausgehende(s) Tag(s) (distributionell) 2. Wahrscheinlichkeit fr Wort in Bezug auf Tag (lexikalisch)
P (Tag|vorhergehende(s) Tag(s)) * (Wort|Tag)

Stochastisches Tagging
(1) Ich/PPER bgle/VVFIN meine/PPOSAT-VVFIN Hose/NN ./\$. (2) Ich/PPER meine/PPOSAT-VVFIN ,\$. das/PDS ist/VAFIN falsch/ADJD .\$. Es wird die Wahrscheinlichkeit, dass VVFIN oder PPOSAT `meine' ist, multipliziert mit der Wahrscheinlichkeit, dass VVFIN oder PPOSAT entweder VVFIN (1) oder PPER (2) folgen. Hhere lexikalische Wahrscheinlichkeit von `meine' fr PPOSAT wird in (2) durch hhere distributionelle Wahrscheinlichkeit von VVFIN nach PPER ausgeglichen.

Probleme stochastischen Taggings


Wahrscheinlichkeit bedeutet nicht unbedingt Sicherheit Tagger sehr abhngig von Trainingskorpus Entscheidungen
typischerweise auf engen Kontext begrenzt Entscheidungen des Taggers nicht nachvollziehbar

Wortarten-Tagging
Besondere Relevanz fr Korpuslinguistik Korpora meist nicht hand-annotiert daher knnen Tags fehlerhaft sein dies muss in Interpretation der Suchergebnisse bercksichtigt werden