163 Homburg LearningCuneiformTheModernWay

See discussions, stats, and author profiles for this publication at: https://www.researchgate.
net/publication/312605007
Learning Cuneiform The Modern Way
Poster · February 2015
CITATIONS READS
0 481
4 authors, including:
Timo Homburg Christian Chiarcos

Hochschule Mainz Goethe-Universität Frankfurt am Main
17 PUBLICATIONS 9 CITATIONS 81 PUBLICATIONS 665 CITATIONS
SEE PROFILE SEE PROFILE
Some of the authors of this publication are also working on these related projects:
SemanticGIS View project
Machine Translation and Automated Analysis of Cuneiform Languages (MTAAC) View project
All content following this page was uploaded by Timo Homburg on 20 February 2017.
The user has requested enhancement of the downloaded file.

Learning Cuneiform the Modern Way
Timo Homburg*, Christian Chiarcos*, Thomas Richter°, Dirk Wicke° Graz, Österreich
*Institut für Informatik °Institut für Archäologie 25.02.2015
Johann Wolfgang Goethe-Universität, Frankfurt am Main
Dieses Poster bietet eine Übersicht über neu entwickelte Werkzeuge für die Eingabe und das Lernen
von in Keilschrift geschriebenen Sprachen (Akkadisch, Hethitisch und Sumerisch), welche an der Implementierungen
Goethe Universität Frankfurt am Main entwickelt wurden. Vor der Entwicklung dieser Tools war eine
Eingabe und Verarbeitung von Unicodezeichen der Keilschrift nur mithilfe von Copy-Paste aus
Unicodetabellen möglich. Wörterbücher wiesen die Zeichen oft entweder gar nicht oder nur als
Bilder aus, sodaß sie für die Suche und die maschinelle Verarbeitung nicht geeignet sind. Anforderungen:
Eingabemethoden und Lernwerkzeuge für asiatische Sprachen indessen sind weit verbreitet und ●
Verschiedene Anforderungen
etabliert und dienten daher als Inspiration für eine Adaptierung der Ideen auf ähnlich konzipierte für verschiedene Plattformen
Sprachen. Mit unserem Poster werden besagte Methoden praktisch demonstriert, ihre Anwendung ●
Zentrale Aufgabe des Betriebssystems
auf die Lehre skizziert und am praktischen Beispiel der Lernsoftware Anki präsentiert. ●
Plattformunabhängigkeit wünschenswert
Die vorgestellten Tools wurden in einer Masterarbeit [2] am Lehrstuhl für Angewandte ●
Webkompatible Versionen erstrebenswert
Computerlinguistik zur Wortsegmentierung in nicht-alphabetischen Schriften entwickelt und dienen
zur besseren Verarbeit- und Lernbarkeit nicht-alphabetischer Schriften. Die Arbeit hatte zum Ziel,
erste Forschungen im Bereich der automatischen Worterkennung und der Verarbeitung von Java Input Method Framework: Version für in Java geschriebene
Keilschriftsprachen anzuwenden, und aufbauend auf den Ergebnissen bessere Verfahren zu Anwendungen um die Portabilität des Ansatzes zu verbessern.
entwickeln.
Der Lehrstuhl für Angewandte Computerlinguistik (ACoLi) an der Goethe Universität Frankfurt am
Main wurde im Januar 2013 eingerichtet, um die Aktivitäten der Digital Humanities im Bereich
Natural Language Processing (NLP) zu untersützen. Aufbauend auf vorheriger Forschung von Dr.
Christian Chiarcos entwickelt ACoLi technische Infrastrukturen zur Analyse, zur Ansammlung und zur
automatischen Verarbeitung von linguistischen Daten und unterhält Infrastrukturen zur
Speicherung, Abfrage und Visualisierung von linguistischen Analysen. Ein Interessensgebiet der
Forschung ist die Analyse von außereuropäischen und historischen Sprachen, was auch mit diesem
Poster aufgegriffen wird.
Input Method Engines (IME)

Zweck und Funktion:
●
Eingabe von Zeichen in nichtalphabetischen Ibus IME [8]: Unter Linux eine der Web IME: Eigenentwicklung [4] basierend auf JQuery,
Schriften durch eine Transliteration weitverbreitetsten IME Implementierungen. aufbauend auf ChineseIME [3] für die Benutzung
●
Effiziente Eingabe die ähnlich schnell wie Lernt die Häufigkeiten der Benutzereingaben. im Webbrowser ohne weitere Voraussetzungen für das Betriebssystem.
das Tippen lateinischer Buchstaben funktioniert
●
Mehrdeutigkeiten werden als
Auswahllisten dargestellt
IME für Chinesisch: Hier wird die chinesische Lerntheorie
Umschrift Pinyin für die Eingabe benutzt.
Ziele: Anwendungen aus der Lerntheorie:

Grundlagen und Voraussetzungen: ●
Keine Überforderung des Lernenden
●
Karteikartenlernen als Anwendungsbeispiel
●
Mapping von lateinischer Umschrift auf die ●
Keine Unterforderung des Lernenden
●
Algorithmen wie SuperMemo [1] bilden das Karteikarten
Zielschrift ●
Ideales Lernpensum soll erkannt werden lernen nach
●
Angaben von Wortfrequenzen zur Priorisierung ●
Ein kontinuierlicher Fortschrittsprozess
●
Optimale Lern- und Wiederholungsintervalle werden
von Mehrdeutigkeiten soll messbar sein generiert
→ Häufigere Worte sollen weiter vorne in der Liste ●
Erfahrungen beim
●
Software wie Anki [6] bringt das Karteikarten lernen auf die
stehen Lernen von strukturell ähnlichen Schriften wie mobilen Geräte und Computer
●
Integration von Worten und Phrasen als Chinesisch oder Japanisch sollen genutzt werden
●
Multimediainhalte werden in den Lernprozess integriert
Auswahlkriterien
●
Rechtschreibkorrektur bei der Eingabe der
Transliteration
Wörterbuch mit Frequenzen: Die Datenbasis

einer funktionierenden IME.
Resourcenaufbereitung Prinzip des Karteikartenlernens: Richtig gelernte Vokabeln werden ein Fach weiter geschoben, nicht gewusste
Vokabeln werden ein Fach nach vorne geschoben.
Als unsere Datenbasis dienen Korpora aus der Cuneiform Digital Library Initiative (CDLI) [5]. Jedes Fach besitzt ein eigenes Wiederholungsintervall WI wobei WI(Fach n)<WI(Fach n+1)
Hierbei wurden jeweils die im ATF Format verfügbaren Texte der Korpora für Akkadisch, Hethitisch
und Sumerisch extrahiert und für die weitere Verwendung aufbereitet.
Lernen von Keilschrift mit Anki
Umwandlung von ATF in ein Wörterbuch:
●
ATF Format ist historisch gewachsen und Einsatz von Anki[6] für das Lernen von Vokabeln:
enthält transliterierte Keilschrifttafeln
●
Lernen von Karteikarten erfolgt aus Kartensets
●
Verfügt über verschiedene Dialekte
●
Kartensets können aus Korpora generiert oder mithilfe der Eingabemethoden selbst gestaltet werden
●
Enthält Annotierung wie Tontafelnummern u.ä.
●
Zentrale Datenhaltung auf einem Server
●
Umwandlung in Unicode über eine
●
Integration in die Lehre: Dozenten und Studenten können eigene Lernsets generieren
Transliterationsliste der Uni Frankfurt (AcoLi) [7]
●
Darstellung von Keilschrift mit mitgelieferten Schriftarten behebt Initialproblem des maschinellen Lernens
●
Anschließend Aufbau des Wörterbuchs
●
Lernen von Keilschriftvokabeln auf dem Handy
Anfang einer Tontafel in ATF: Ausgehend von
●
Anreicherung des Wörterbuchs
diesem Format erfolgte die weitere
mit Wortfrequenzen aus
Verarbeitung.
zur Verfügung stehenden Korpora
Aufbau einer IME

Datenstruktur:
●
Ein Baum [2] mit den vorher aufbereiteten Daten
●
Enthält alle möglichen Wortbildungen pro Knoten und die zugehörig einzugebende
Transliteration
●
Jeder Tastenanschlag schränkt Auswahlmöglichkeiten mittels des Ablaufens des Baumes ein
Bearbeitung von Karteikarten mit Anki: Durch Karteikarte mit Anki: Eine aus Korporadaten generierte
Input Method Engines gelingt eine Vokabelkarte von Keilschrift auf Transliteration mit
benutzerfreundliche Handhabung von Karteikarten Bewertungsmöglichkeit des Lernerfolgs einmal im Anki Desktop
mit Minimalaufwand für den Anwender. Client und einmal in der AnkiDroid App
Referenzen
1. P.A. Wozniak, Optimization Of Learning, Master's Thesis, University Of Technology Poznan, 1990.
2. Timo Homburg. Verfahren zur Wortsegmentierung nichtalphabetische Schriften, Master Thesis, Goethe Universität Frankfurt am Main.
2015.
3. Herman Schaaf, Chinese IME, http://www.chinese-ime.com
4. Timo Homburg WebIME, https://github.com/situx/webime
5. Cuneiform Digital Library Initiative (CDLI) http://cdli.ucla.edu
6. Anki, https://www.ankisrs.net
7. Keilschriftzeichenliste des Lehrstuhls für Computerlinguistik der Uni Frankfurt
Beispieldatenstruktur: Bilden der Worte LUGAL, AN, AT und LU http://www.acoli.informatik.uni-frankfurt.de/resources/cuneiform/signs-final.xml
8. Ibus Input Method Engine https://code.google.com/p/ibus/
Goethe Universität Frankfurt, Institut für Informatik: Timo Homburg ( timo.homburg@gmx.de ), Christian Chiarcos ( chiarcos@em.uni-frankfurt.de )
Goethe Universität Frankfurt, Institut für Archäologie: Thomas Richter ( richter@em.uni-frankfurt.de ), Dirk Wicke ( wicke@em.uni-frankfurt.de )
View publication stats

163 Homburg LearningCuneiformTheModernWay

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

163 Homburg LearningCuneiformTheModernWay

Загружено:

Авторское право:

Доступные форматы

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

Learning Cuneiform The Modern Way

Poster · February 2015

Timo Homburg Christian Chiarcos

SEE PROFILE SEE PROFILE

SemanticGIS View project

The user has requested enhancement of the downloaded file.

Input Method Engines (IME)

Ziele: Anwendungen aus der Lerntheorie:

Wörterbuch mit Frequenzen: Die Datenbasis

Aufbau einer IME

Вам также может понравиться