Wordspotting in historischen Dokumenten

Gernot A. Fink
Lecture (invited) presented at Workshop ``Grundlagen der Familienforschung'', Martin-Opitz-Bibliothek, Herne, 2017.

BibTeX PDF

Abstract

Die Anstrengungen der Forschung zur Entwicklung technischer Systeme, die fähig sind Texte zu lesen, haben seit deren Anfängen in den 1960-er Jahren beträchtliche Fortschritte gemacht. Heute existieren durchaus ausgereifte Methoden für die automatische Erkennung von maschinell gedruckten Texten, die häufig als OCR-Verfahren bezeichnet werden. Die Erkennung von Handschrift ist dagegen eine deutlich anspruchsvollere Aufgabe und ein sehr aktives Feld der aktuellen Forschung, speziell wenn man historische Manuskripte betrachtet. Daher stossen aktuelle Verfahren zur Texterkennung hier an ihre Grenzen.

Als Alternative zur kompletten Transkription von Textdokumenten, wie sie klassische OCR-Verfahren liefern, hat sich daher in den letzten Jahren die Suche nach interessanten Schlüsselwörtern in digitalen Textkollektionen herausgebildet, das sogenannte Wordspotting. Ähnlich einer Internet-Suchmaschine werden beim Wordspotting auf der Basis eines vorgegebenen Anfragewortes Texte nach relevanten Fundstellen durchsucht und diese dem Benutzer als geordnete Ergebnisliste präsentiert. Dabei kann das Anfragewort im einfachsten Fall als Instanz eines Wortes vom Benutzer im Textdokument markiert werden. Die Anfrage ist damit über ein Abbild des gesuchten Schlüsselworts definiert und das Problem der Suche besteht darin, visuell ähnliche Wortabbilder in der betrachteten Dokumentkollektion zu finden. Bei dieser Art des Wortspotting spricht man von beispielbasiertem Wordspotting bzw. query-by-example (QbE). Das Vorgehen ist dabei sehr ähnlich zur inhaltsbasierten Bildsuche, bei der auch ausgehend von einem Beispielbild ähnliche Bilder in einer Biddatenbank gesucht werden.

Für den Benutzer komfortabler ist es, wenn das gesuchte Schlüsselwort direkt textuell über die Tastatur vorgegeben werden kann und nicht erst eine Instanz davon manuell gesucht werden muss. Ist das Anfragewort elektronisch als Text gegeben, spricht man von sogenanntem query-by-string (QbS) Wordspotting. Die Herausforderung bei dieser Vorgehensweise liegt darin, dass es dann erforderlich ist, eine Abbildung zu finden, die auf der Basis des Suchtextes angibt, wie die visuelle Erscheinung des gesuchten Schlüsselworts ausfallen könnte. Dies ist ohne ein geeignetes Modell, das die Erscheinungsform handschriftlichen Textes repräsentiert, nicht möglich. Solche Modelle werden heute mit Verfahren des maschinellen Lernens aus vorgegebenen Beispielen weitgehend automatisch erstellt, wobei man vom Training der Modelle spricht. Die Beispiele, über die implizit die Erscheinungsformen von Zeichen und Wörtern eines bestimmten Schriftsystems definiert werden, müssen jedoch annotiert sein, d.h. es muss jeweils angegeben werden, welcher textuellen Repräsentation ein Wortabbild entspricht. Da für die Erstellung leistungsfähiger Handschriftmodelle eine grosse Anzahl von Beispielwörtern und -texten annotiert werden muss, entsteht hier ein beträchtlicher Aufwand bei der Vorbereitung des letztendlichen Trainings der Handschriftmodelle.

Im Gegensatz dazu bietet QbE-Wordspotting prinzipiell die Möglichkeit, auf der Basis des einen, visuell vorgegebenen Anfragewortes direkt Suchergebnisse zu erzeugen. Dafür müssen die bei der Suche betrachteten Texte allerdings ein hinreichend homogenes Schriftabbild aufweisen, was z.B. dann der Fall ist, wenn diese einigermassen sorgfältig von einem Schreiber oder in einem einheitlichen Schriftstil geschrieben wurden. Eine Generalisierung auf unbekannte Schriftstile ist so nicht möglich und kann nur erreicht werden, wenn, genau wie beim QbS-Vorgehen, ein Erscheinungsmodell für Handschrift auf annotiertem Textmaterial trainiert wird, das implizit die zu erwartenden Variationen der Schrifterscheinung abdeckt.

In meiner Arbeitsgruppe an der TU Dortmund wurden in den letzten Jahren verschiedene leistungsfähige Methoden zum Wordspotting entwickelt. Für die Aufgabe des QbE-Wordspotting konnte durch eine Kombination unüberwachter Lernverfahren, die keine detaillierten Textannotationen erfordern, und klassicher statistischer Sequenzmodelle, wie sie aus dem Bereich der automatischen Spracherkennung bekannt sind, eine Methode vorgestellt werden, die sich für eine erste Exploration einer noch unerschlossenen Dokumentkollektion eignet [Rothacker et al. 2014]. In Textmaterial mit einigermaßen homogenem Schriftbild reicht die Vorgabe eines Beispiels des gesuchten Schlüsselwortes aus, um die Suche zu starten. Vorteilhaft ist an der Methode auch, dass sie keine vorab zu erzeugende Segmentierung der zu durchsuchenden Dokumente in Bereiche erfordert, die einem Wort entsprechen.

Ein weiteres Wordspottingverfahren mit enormem Potential basiert auf sogenannten tiefen neuronalen Netzen, die aktuell ausgesprochen erfolgreich für verschiedenste Aufgaben des maschinellen Sehens eingesetzt werden. Durch die Kombination mit einer speziellen Attributrepräsentation von Wörtern konnte ein Verfahren entwickelt werden, das derzeit den Stand-der-Technik für Query-by-String Wordspotting auf einer ganzen Reihe anspruchsvoller Wordspotting-Benchmarks definiert [Sudholt & Fink 2016]. In aktuellen Arbeiten konnten wir zeigen, dass das erforderliche Schriftmodell dabei auf der Basis synthetischer Handschriftdaten vortrainiert werden kann, so dass hierfür kein Annotationsaufwand erforderlich ist. Eine Anpassung an die zu betrachtende Dokumentkollektion erfordert dann lediglich relativ wenig annotiertes Textmaterial, was die Methode für den praktischen Einsatz interessant macht.

[Rothacker et al. 2014]
Leonard Rothacker, Marcal Rusinol, Josep Llados, Gernot A. Fink: "A Two-Stage Approach to Segmentation-Free Query-by-Example Word Spotting", manuscript cultures, 1(7), pages 47-57, 2014.
[Sudholt & Fink 2016]
Sebastian Sudholt, Gernot A. Fink: "PHOCNet: A Deep Convolutional Neural Network for Word Spotting in Handwritten Documents", in Proc. Int. Conf. on Frontiers in Handwriting Recognition (ICFHR), Shenzhen, China, 2016.