Вы находитесь на странице: 1из 2

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/312605007

Learning Cuneiform The Modern Way

Poster · February 2015

CITATIONS READS
0 481

4 authors, including:

Timo Homburg Christian Chiarcos


Hochschule Mainz Goethe-Universität Frankfurt am Main
17 PUBLICATIONS   9 CITATIONS    81 PUBLICATIONS   665 CITATIONS   

SEE PROFILE SEE PROFILE

Some of the authors of this publication are also working on these related projects:

SemanticGIS View project

Machine Translation and Automated Analysis of Cuneiform Languages (MTAAC) View project

All content following this page was uploaded by Timo Homburg on 20 February 2017.

The user has requested enhancement of the downloaded file.


Learning Cuneiform the Modern Way
Timo Homburg*, Christian Chiarcos*, Thomas Richter°, Dirk Wicke° Graz, Österreich
*Institut für Informatik °Institut für Archäologie 25.02.2015
Johann Wolfgang Goethe-Universität, Frankfurt am Main
Dieses Poster bietet eine Übersicht über neu entwickelte Werkzeuge für die Eingabe und das Lernen
von in Keilschrift geschriebenen Sprachen (Akkadisch, Hethitisch und Sumerisch), welche an der Implementierungen
Goethe Universität Frankfurt am Main entwickelt wurden. Vor der Entwicklung dieser Tools war eine
Eingabe und Verarbeitung von Unicodezeichen der Keilschrift nur mithilfe von Copy-Paste aus
Unicodetabellen möglich. Wörterbücher wiesen die Zeichen oft entweder gar nicht oder nur als
Bilder aus, sodaß sie für die Suche und die maschinelle Verarbeitung nicht geeignet sind. Anforderungen:
Eingabemethoden und Lernwerkzeuge für asiatische Sprachen indessen sind weit verbreitet und ●
Verschiedene Anforderungen
etabliert und dienten daher als Inspiration für eine Adaptierung der Ideen auf ähnlich konzipierte für verschiedene Plattformen
Sprachen. Mit unserem Poster werden besagte Methoden praktisch demonstriert, ihre Anwendung ●
Zentrale Aufgabe des Betriebssystems
auf die Lehre skizziert und am praktischen Beispiel der Lernsoftware Anki präsentiert. ●
Plattformunabhängigkeit wünschenswert
Die vorgestellten Tools wurden in einer Masterarbeit [2] am Lehrstuhl für Angewandte ●
Webkompatible Versionen erstrebenswert
Computerlinguistik zur Wortsegmentierung in nicht-alphabetischen Schriften entwickelt und dienen
zur besseren Verarbeit- und Lernbarkeit nicht-alphabetischer Schriften. Die Arbeit hatte zum Ziel,
erste Forschungen im Bereich der automatischen Worterkennung und der Verarbeitung von Java Input Method Framework: Version für in Java geschriebene
Keilschriftsprachen anzuwenden, und aufbauend auf den Ergebnissen bessere Verfahren zu Anwendungen um die Portabilität des Ansatzes zu verbessern.
entwickeln.
Der Lehrstuhl für Angewandte Computerlinguistik (ACoLi) an der Goethe Universität Frankfurt am
Main wurde im Januar 2013 eingerichtet, um die Aktivitäten der Digital Humanities im Bereich
Natural Language Processing (NLP) zu untersützen. Aufbauend auf vorheriger Forschung von Dr.
Christian Chiarcos entwickelt ACoLi technische Infrastrukturen zur Analyse, zur Ansammlung und zur
automatischen Verarbeitung von linguistischen Daten und unterhält Infrastrukturen zur
Speicherung, Abfrage und Visualisierung von linguistischen Analysen. Ein Interessensgebiet der
Forschung ist die Analyse von außereuropäischen und historischen Sprachen, was auch mit diesem
Poster aufgegriffen wird.

Input Method Engines (IME)


Zweck und Funktion:

Eingabe von Zeichen in nichtalphabetischen Ibus IME [8]: Unter Linux eine der Web IME: Eigenentwicklung [4] basierend auf JQuery,
Schriften durch eine Transliteration weitverbreitetsten IME Implementierungen. aufbauend auf ChineseIME [3] für die Benutzung

Effiziente Eingabe die ähnlich schnell wie Lernt die Häufigkeiten der Benutzereingaben. im Webbrowser ohne weitere Voraussetzungen für das Betriebssystem.
das Tippen lateinischer Buchstaben funktioniert

Mehrdeutigkeiten werden als
Auswahllisten dargestellt
IME für Chinesisch: Hier wird die chinesische Lerntheorie
Umschrift Pinyin für die Eingabe benutzt.

Ziele: Anwendungen aus der Lerntheorie:


Grundlagen und Voraussetzungen: ●
Keine Überforderung des Lernenden

Karteikartenlernen als Anwendungsbeispiel

Mapping von lateinischer Umschrift auf die ●
Keine Unterforderung des Lernenden

Algorithmen wie SuperMemo [1] bilden das Karteikarten
Zielschrift ●
Ideales Lernpensum soll erkannt werden lernen nach

Angaben von Wortfrequenzen zur Priorisierung ●
Ein kontinuierlicher Fortschrittsprozess

Optimale Lern- und Wiederholungsintervalle werden
von Mehrdeutigkeiten soll messbar sein generiert
→ Häufigere Worte sollen weiter vorne in der Liste ●
Erfahrungen beim

Software wie Anki [6] bringt das Karteikarten lernen auf die
stehen Lernen von strukturell ähnlichen Schriften wie mobilen Geräte und Computer

Integration von Worten und Phrasen als Chinesisch oder Japanisch sollen genutzt werden

Multimediainhalte werden in den Lernprozess integriert
Auswahlkriterien

Rechtschreibkorrektur bei der Eingabe der
Transliteration

Wörterbuch mit Frequenzen: Die Datenbasis


einer funktionierenden IME.

Resourcenaufbereitung Prinzip des Karteikartenlernens: Richtig gelernte Vokabeln werden ein Fach weiter geschoben, nicht gewusste
Vokabeln werden ein Fach nach vorne geschoben.
Als unsere Datenbasis dienen Korpora aus der Cuneiform Digital Library Initiative (CDLI) [5]. Jedes Fach besitzt ein eigenes Wiederholungsintervall WI wobei WI(Fach n)<WI(Fach n+1)
Hierbei wurden jeweils die im ATF Format verfügbaren Texte der Korpora für Akkadisch, Hethitisch
und Sumerisch extrahiert und für die weitere Verwendung aufbereitet.
Lernen von Keilschrift mit Anki
Umwandlung von ATF in ein Wörterbuch:

ATF Format ist historisch gewachsen und Einsatz von Anki[6] für das Lernen von Vokabeln:
enthält transliterierte Keilschrifttafeln

Lernen von Karteikarten erfolgt aus Kartensets

Verfügt über verschiedene Dialekte

Kartensets können aus Korpora generiert oder mithilfe der Eingabemethoden selbst gestaltet werden

Enthält Annotierung wie Tontafelnummern u.ä.

Zentrale Datenhaltung auf einem Server

Umwandlung in Unicode über eine

Integration in die Lehre: Dozenten und Studenten können eigene Lernsets generieren
Transliterationsliste der Uni Frankfurt (AcoLi) [7]

Darstellung von Keilschrift mit mitgelieferten Schriftarten behebt Initialproblem des maschinellen Lernens

Anschließend Aufbau des Wörterbuchs

Lernen von Keilschriftvokabeln auf dem Handy
Anfang einer Tontafel in ATF: Ausgehend von

Anreicherung des Wörterbuchs
diesem Format erfolgte die weitere
mit Wortfrequenzen aus
Verarbeitung.
zur Verfügung stehenden Korpora

Aufbau einer IME


Datenstruktur:

Ein Baum [2] mit den vorher aufbereiteten Daten

Enthält alle möglichen Wortbildungen pro Knoten und die zugehörig einzugebende
Transliteration

Jeder Tastenanschlag schränkt Auswahlmöglichkeiten mittels des Ablaufens des Baumes ein
Bearbeitung von Karteikarten mit Anki: Durch Karteikarte mit Anki: Eine aus Korporadaten generierte
Input Method Engines gelingt eine Vokabelkarte von Keilschrift auf Transliteration mit
benutzerfreundliche Handhabung von Karteikarten Bewertungsmöglichkeit des Lernerfolgs einmal im Anki Desktop
mit Minimalaufwand für den Anwender. Client und einmal in der AnkiDroid App

Referenzen
1. P.A. Wozniak, Optimization Of Learning, Master's Thesis, University Of Technology Poznan, 1990.
2. Timo Homburg. Verfahren zur Wortsegmentierung nichtalphabetische Schriften, Master Thesis, Goethe Universität Frankfurt am Main.
2015.
3. Herman Schaaf, Chinese IME, http://www.chinese-ime.com
4. Timo Homburg WebIME, https://github.com/situx/webime
5. Cuneiform Digital Library Initiative (CDLI) http://cdli.ucla.edu
6. Anki, https://www.ankisrs.net
7. Keilschriftzeichenliste des Lehrstuhls für Computerlinguistik der Uni Frankfurt
Beispieldatenstruktur: Bilden der Worte LUGAL, AN, AT und LU http://www.acoli.informatik.uni-frankfurt.de/resources/cuneiform/signs-final.xml
8. Ibus Input Method Engine https://code.google.com/p/ibus/

Goethe Universität Frankfurt, Institut für Informatik: Timo Homburg ( timo.homburg@gmx.de ), Christian Chiarcos ( chiarcos@em.uni-frankfurt.de )
Goethe Universität Frankfurt, Institut für Archäologie: Thomas Richter ( richter@em.uni-frankfurt.de ), Dirk Wicke ( wicke@em.uni-frankfurt.de )
View publication stats

Вам также может понравиться