Der Weg der Daten ins Handschriftenportal

Exportieren, Validieren, Anreichern und wieder Importieren – Wie die ‚Datenqualitätsoffensive‘ arbeitet

Jedes neue Gebäude benötigt zunächst einmal ein solides Fundament. Im Fall des Handschriftenportals bilden das all jene Handschriftenmetadaten aus immerhin 105.000 Beschreibungen, die über Manuscripta Mediaevalia (ManuMed) abrufbar sind. Zu diesen werden bis zum Start des Portals möglichst alle in DFG-Förderung entstandenen Handschriftenkataloge deutscher Einrichtungen als Images und recherchierbare Volltexte hinzukommen, sofern das urheberrechtlich möglich ist.

Diese umfassenden Informationen aus dem vorhandenen ManuMed-Datenbestand sowie aus den Handschriftenkatalogen werden jedoch nicht einfach übernommen, sondern vor der Migration in das Handschriftenportal in wesentlichen Teilen einer tiefgehenden Bereinigung, Homogenisierung und Anreicherung unterzogen.

Welche komplexen Anforderungen und granularen Arbeitsschritte hinter dieser Mammutaufgabe stecken und wie weit das Datenredaktionsteam bereits vorangeschritten ist, erläutert Anne-Beate Riecke.

Steckbrief

Name:
Anne-Beate Riecke (SBB)


Rolle im Projekt:
Teilprojektleitung der Datenredaktion


Institutionelle Anbindung:
Handschriftenabteilung der SBB
Mitarbeiterin des Referats 1 (Abendländische Handschriften)

Porträt Anne-Beate Riecke

1. Liebe Frau Riecke, ich frage einmal ganz provokativ: War in ManuMed tatsächlich alles schlecht oder welchen Zweck hat die ‚Datenqualitätsoffensive‘?

Natürlich war und ist in ManuMed nicht alles schlecht! Immerhin sind dort Informationen zu mehr als 100.000 Handschriften verfügbar – auch weiterhin, bis zum Start des Handschriftenportals. Führt man sich allerdings vor Augen, dass diese Informationen seit den 1970er Jahren erfasst wurden, von unzähligen Mitarbeiter*innen, in unterschiedlichsten Projektformaten, mit ebenso unterschiedlichen, auch historisch gewachsenen fachlichen Anforderungen an die Daten und unter Nutzung sich entwickelnder Erfassungskonventionen und verschiedener älterer Datenbankversionen, so wird sofort deutlich, dass Inhomogenität vorprogrammiert war. Die Datenqualitätsoffensive zielt daher vorrangig auf die Homogenisierung der Daten und ist unabdingbar, um auch ältere, aber fachlich weiterhin wichtige Informationen im Handschriftenportal heutigen Nutzer*innen mit ihren Ansprüchen an Aussagegehalt und Recherchierbarkeit anbieten zu können. Die Qualität von Daten zeigt sich nämlich nicht nur in ihrer Korrektheit und wissenschaftlichen Relevanz, sondern auch darin, dass mit ihnen Recherchen umfassend, nachvollziehbar und zutreffend beantwortet werden können.

2. Welche Rolle nehmen Sie im Projektzusammenhang ein? Wofür sind Sie verantwortlich?

Wie eingangs gesagt, soll der gesamte Datenbestand von ManuMed in das neue Handschriftenportal überführt werden. Als Leiterin des Teilprojektes ‚Datenredaktion‘ bin ich dafür zuständig, dass diese Daten für die Übernahme erst einmal fit gemacht werden.

Dabei ist zwischen ‚Beschreibungsdaten‘ und ‚Recherchedaten‘ zu unterscheiden: Waren die Handschriftenkatalogisierer*innen für die wissenschaftliche Qualität der in ManuMed vorhandenen Beschreibungen verantwortlich, kümmert sich das Team ‚Datenredaktion‘ jetzt um die zu den Beschreibungen gehörenden Recherchedaten. Diese müssen mit dem für das Portal vorgesehenen Datenmodell und den geplanten Rechercheangeboten (Stichworte ‚Facettierung‘ und ‚Suchstrahl‘) abgestimmt und – wo nötig – mit externen Normdaten und Identifiern verknüpft werden, die ja früher nicht die gleiche Rolle spielten wie heute. Daneben muss auch die Umformung vermeintlicher Kleinigkeiten wie Fragezeichen, die aus verschiedenen Gründen und über 60 Jahre hinweg in überraschend unterschiedlicher Art und Weise hinter Werte gesetzt wurden, in ein einheitliches und eindeutig aussagekräftiges Informationsangebot geregelt und durchgeführt werden.

Aktuell organisiere ich diese Homogenisierungen und Anreicherungen für die bibliothekarisch-fachlich zentralen Informationen zu einer Handschrift, die wir im Projekt als ‚Kerndaten‘ bezeichnen. Dazu zählen neben dem Niederlassungsort, dem Namen und dem datenbankinternen Identifier der handschriftenbesitzenden Einrichtung – also der Bibliotheken, Archive oder Museen mit Handschriftenbestand – sowie der Signatur des Manuskriptes auch Angaben zu dessen Entstehungszeit, Entstehungsort, Überschrift, Status (z. B. vorhanden, verloren), Formtyp (z. B. Codex, Fragment oder Rolle), Beschreibstoff/Material, Abmessungen (Höhe x Breite), Format, Blattzahl, Schreibsprache sowie Buchschmuck und Notation.

Für all diese Angaben spreche ich mit den Projektpartnern ab, welche Struktur die Angaben aufweisen müssen, um eine gute Darstellung und Nachnutzbarkeit zu gewährleisten. Dafür analysiere ich die vorhandenen Daten, formuliere offene To-dos und stimme mit den unterstützenden Entwicklern ab, ob bei der Aufgabenbewältigung ganz oder teilweise Skripte eingesetzt und gemeinsam konzipiert werden können. Ich organisiere außerdem die Aufteilung der Aufgaben auf die vier an der Datenredaktion beteiligten Teams in Leipzig, München, Wolfenbüttel und Berlin mit ihren insgesamt 12 Mitarbeiter*innen und ihren ortsansässigen Betreuer*innen und stelle die zu bearbeitenden Daten bereit.

3. Tauchen wir ein bisschen tiefer ein: Welche Schritte gehen Sie genau, um eine hohe Qualität des zukünftigen Datenbestands sicherzustellen?

Das Vorgehen, um die Daten für die Recherche zu optimieren, ist bei jeder Informationskategorie ein anderes (von der Beseitigung von Tippfehlern einmal abgesehen). Besonders aufwendig sind jene Angaben, die im Laufe der Zeit Änderungen unterlagen oder deren Ansetzungsformen nicht standardisiert wurden, hier ein paar Beispiele:

  • Erstens der Name einer Institution. Frühere, in Beschreibungen genannte Namen einer bestandshaltenden Einrichtung werden über einen Identifier mit der aktuellen Bezeichnung verknüpft, sodass eine Institution unter allen je dokumentierten Namen recherchierbar ist.
  • Zweitens die Signaturen. Auch diese können sich verändern, darum werden die heute verwendeten Signaturen von den handschriftenbesitzenden Einrichtungen in Kürze per Umfrage erbeten, um die in den Beschreibungen genannten Daten auf den aktuellen Stand zu bringen.
  • Drittens die Ortsangaben. Niederlassungsorte der Institutionen werden mit den geografischen Normdaten der GND, der Gemeinsamen Normdatei an der Deutschen Nationalbibliothek, abgeglichen und deren Identifier übernommen.
  • Viertens die gar nicht so trivialen Zeitangaben! Die oft verbalen Bezeichnungen nach dem Muster ‚15. Jh.‘ müssen nach festen Regeln in maschinenlesbare Zahlencodes ‚1401/1500‘ übersetzt werden, um recherchiert werden zu können.
  • Fünftens die Sprachen. Die zum Teil hochdifferenzierten Angaben werden zusätzlich auf die Grundsprachen zurückgeführt, um sie besser suchbar zu machen.
  • Sechstens die Schreibstoff-Nennungen, die anhand fester Wertelisten Materialkategorien zuzuweisen sind.
  • Und schließlich siebentens Angaben zu Umfang bzw. Abmessungen, die in ein einheitliches Layout gebracht werden müssen.

All diese Glättungen sind die Voraussetzung für homogene Recherchedaten, damit Suchanfragen gut nachvollziehbare Treffer ergeben. Die Nutzer*innen werden so auf die zugehörigen Beschreibungen gelenkt, in denen die Relevanz für das jeweilige Forschungsinteresse schnell festgestellt werden kann.

Um die Daten unter den beschriebenen Aspekten an den vier Team-Standorten bearbeiten zu können, müssen sie in überschaubaren Teilbeständen aus dem Gesamtdatenbestand von ManuMed exportiert werden, um sie anschließend durch die Projektmitarbeiter*innen überprüfen und je nach Werte-Kategorie redaktionell bearbeiten, homogenisieren oder mit Normdaten anreichern zu können. Danach werden die Daten wieder in den Gesamtdatenbestand zurückimportiert, um in ManuMed im Verbund mit anderen, bereits bearbeiteten Teilbeständen betrachtet zu werden. Diese sich ständig wiederholende Choreographie bestimmt maßgeblich unseren Arbeitsalltag und inspirierte deshalb zur Überschrift dieses Blogartikels.

Zum aktuellen Zeitpunkt ist die Zusammenführung der Bibliotheksnamen weitgehend abgeschlossen und die Umfrage zur korrekten Signaturenansetzung vorbereitet. Auch die Regelwerke und Werteliste für die Bearbeitung der Kerndaten sind abgestimmt und die Skripte zur Automatisierung und Unterstützung der Bearbeitung erstellt, sodass wir heute direkt vor dem Beginn der zentralen Wertebearbeitung stehen.

Über die beschriebene Homogenisierung hinaus hat der Begriff ‚Datenqualität‘ für das Handschriftenportal aber auch einen quantitativen Aspekt, denn viele der fachlich nach wie vor wichtigen Handschriftenkataloge, die mit Förderung der DFG seit den 1960er Jahren bis etwa zur Jahrtausendwende entstanden, sind bislang nur als Image-Digitalisate unterschiedlichster Qualität in ManuMed vorhanden – nicht jedoch als recherchierbares Angebot elektronischer Daten, geschweige denn als Volltexte. Diese Lücke haben wir geschlossen: Gut 250 dieser Kataloge wurden nach einheitlichem Standard bereits digitalisiert, OCR-bearbeitet und einer Volltextauszeichnung unterzogen, in der die fachlich wichtigsten Informationen zu einer Handschrift erfasst und teilweise bereits vorbearbeitet wurden. Sie werden im Handschriftenportal von Anfang an verfügbar sein.

4. Wie gestaltet sich die Zusammenarbeit zwischen den verschiedenen Datenredaktionsteams in Berlin, Leipzig, München und Wolfenbüttel?

Die Koordination der verschiedenen anfallenden Aufgaben und des damit verbundenen, notwendigerweise exklusiven Zugriffs auf bestimmte Datenbereiche ist tatsächlich nicht trivial. Diese Aufgabe ließ sich aber bisher dank der Aufmerksamkeit und Konzentriertheit aller Beteiligten und durch Nutzung des Cloud-Dienstes der Leipziger Universität gut bewältigen.

Da die Partnerbibliotheken gleichzeitig Handschriftenzentren sind, kümmert sich im Großen und Ganzen jedes Team um die Institutionen aus dem eigenen regionalen Zuständigkeitsbereich. Die Kolleg*innen der BSB beispielsweise sind für die Kataloge, Beschreibungen und Daten bayrischer Bibliotheken verantwortlich. Von mir wird in diesem Fall – in Absprache mit den Projektpartnern – die Anleitung, wie bei einer Aufgabe vorzugehen ist, konzipiert und online bereitgestellt. Wie die Datenbestände bzw. Bibliotheksbeschreibungen im Einzelnen an den vier Standorten auf die insgesamt 12 Mitarbeiter*innen aufgeteilt werden, entscheiden die Teams eigenverantwortlich. Der Datenzugriff und die Dokumentation erfolgen über gemeinsam genutzte Ordner und Tabellen in der Cloud. All diese Schritte sind inzwischen eingespielt, bleiben aber komplex und wären nicht so gut zu bewältigen, wenn die Zusammenarbeit nicht durch Telefonate, E-Mails, Sprechstunden und Treffen aller Redaktionsmitarbeiter*innen – und in den Zeiten von Corona natürlich vorrangig VideoCalls – flankiert würde. Dabei ist mir vor allem wichtig, eine Arbeitsatmosphäre zu schaffen und zu erhalten, die eine offene Aussprache über Sachfragen und Arbeitskontingente ermöglicht und so zu vielen Verbesserungen im Arbeitsablauf führt. Nicht zuletzt haben wir im Redaktionsteam viele einander ergänzende Kompetenzen, für deren gewinnbringende Nutzung im gesamten Team der Austausch untereinander unabdingbar ist – und zu meiner Freude auch funktioniert.

5. Was war nach über einem Jahr der Entwicklungsarbeit die bisher größte Herausforderung?

Das war und ist eindeutig die Komplexität und werteabhängige Spezifik der vielen einander bedingenden, teilweise sehr kleinteiligen Arbeitsschritte, die durch unsere auf maximale Usability, Nachhaltigkeit und Performanz abzielenden Vorstellungen geprägt sind: In welcher Relation sollen die Daten zukünftig stehen – zueinander und zu anderen Datenangeboten? Wie sollen Informationen identifiziert, präsentiert und recherchiert werden? Dabei müssen alle Entscheidungen mit den vorhandenen Daten und dem Datenschema der bisher genutzten Erfassungssoftware ManuscriptumXML (MXML) abgeglichen werden, die ManuMed zugrunde liegt: Wie kann der aktuelle Datenbestand modelliert und möglichst automatisiert angereichert werden? Wo in MXML können diese bearbeiteten Daten für das Portal vorgehalten werden, ohne die in ManuMed angebotenen Beschreibungen zu verändern? – denn das wollen wir aus Gründen der Zitierbarkeit wie des Urheberrechts vermeiden. All diese Überlegungen müssen für jeden zu bearbeitenden Aspekt neu angestellt werden: für die Datierungen anders als für die Entstehungsorte, für die Abmessungen einer Handschrift anders als für die Signaturen.

6. Ein Blick in die nahe Zukunft: Stehen morgen konkrete Aufgaben im Projektkontext an? Welche sind das?

Wir werden morgen ein Schreiben an handschriftenbesitzende Einrichtungen konzipieren. Darin bitten wir um Angabe der korrekten Ansetzungen ihrer Namen und Signaturen bzw. Signaturenreihen, um im Handschriftenportal alle Kulturobjekte mit autoritativ abgesicherten, eindeutigen Bezeichnungen präsentieren zu können.

Außerdem werden wir die nächsten Schritte für den automatisierten Rücklauf bearbeiteter Werte in MXML regeln – die relevanten Einzelwerte wurden anfangs aus MXML exportiert und in Excel-Tabellen umgesetzt, wo sie in übersichtlicher Umgebung einfach bereinigt und homogenisiert werden können. Abschließend müssen sie daher wieder in ihre ursprüngliche Umgebung zurückgespielt werden, um als Teil des Gesamtdatenbestandes für die Übernahme ins Handschriftenportal zur Verfügung zu stehen. Das Skript für diese Rückführung steht bereit, nun ist die Anleitung für diesen Schritt zu formulieren.

7. Welche Ziele haben Sie sich für die nächsten sechs Monate gesetzt?

Die Ansetzungen für die Namen der handschriftenbesitzenden Einrichtungen und die Signaturen ihrer Handschriften – bzw. umfassender: ihrer Kulturobjekte – sollten überwiegend in autoritativer, homogenisierter Form vorliegen, um auf dieser Basis erste Kulturobjektdokumente erstellen zu können.

Darüber hinaus sollte die Bearbeitung fachlich zentraler Werte vom ersten Export der Daten über deren Bearbeitung bis hin zur Rückführung in den Gesamtdatenbestand von MXML in erprobten Bahnen routiniert ablaufen können – und für etwa ein Drittel der Beschreibungen erfolgt sein.

8. In einem Satz: Welches Problem wird das Handschriftenportal lösen?

Für uns in der Datenredaktion ist vor allem wichtig, dass Sie wesentlich einfacher und treffsicherer recherchieren werden, weil Sie Signaturen eindeutig ansprechen, aber auch unter alternativen Ansetzungen suchen können, und Ihnen ein genau definiertes Set fachlich relevanter Werte, das in jedem Kulturobjekt möglichst vollständig hinterlegt sein wird, in homogenisierter Form für Ihre Suchanfragen zur Verfügung steht.

0 Kommentare

Ihr Kommentar

An Diskussion beteiligen?
Hinterlassen Sie uns einen Kommentar!

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.