Technische Dokumentation

Prozessübersicht

 

In einem ersten Schritt (1.) werden sämtliche einem Quellenstück zugeordneten Daten über eine standardisierte Schnittstelle exportiert. Die Aufbereitung erfolgt über die Applikation Datenexport Elektronische Rechtsquellen DEER, die die Daten aus den Archivinformationssystemen AIS der beteiligten Archive exportiert. Identifiziert werden die Quellenstücke dabei über einen in den Metadaten hinterlegten Identifier, mit dem sie später zugleich im Portal einer bestimmten Editionseinheit zugewiesen werden und ihre Laufnummer erhalten.

Für den Export werden die Daten zu einem Dissemination Information Package DIP in Form einer ZIP-Datei aufbereitet. Ein einzelnes DIP enthält die gesamten Daten einer Editionseinheit, bestehend aus den den Quellenstücken zugeordneten Metadaten und Primärdaten (Editionstext als TEI-XML-Datei und als PDF-Druckfassung sowie optional Digitalisat und Audiodatei).

In einem zweiten Schritt (2.) wird das DIP einer Editionseinheit auf das Portal hochgeladen, entzippt und validiert. Beim Import in die Portaldatenbank (MS SQL Server) wird bei jedem Quellenstück bzw. den zugehörigen Daten geprüft, ob diese bereits in einer älteren, zu aktualisierenden Version vorhanden sind oder ob sie neu hinzukommen. Die Digitalisate der Originale werden gesondert aufbereitet (Multi-Scale-Image, Thumbnail).

Als nächstes (3.) erfolgt die Analyse der importierten Daten. Dabei werden die Editionstexte zusammen mit den Metadaten mittels der Information-Retrieval Software Lucene volltextindiziert und der Lucene Search Engine hinzugefügt. Bei den Metadaten bezieht sich die Analyse auf die einzelnen Datenfelder, beim Editionstext auf die TEI-XML-Datei als Ganzes und auf die darin enthaltenen Auszeichnungen (Tags). Auf dieser Grundlage sind im Portal später (5.) Suchabfragen nach den entsprechenden Attributen möglich.

Der administrative Bereich (4.) umfasst neben der Konfiguration der Portaldatenbank und der Datenpflege die Bereitstellung portalspezifischer Informationen.

Beim Portal «Rechtsquellen Online» handelt es sich somit nicht um eine Archivdatenbank, sondern um ein Darstellungssystem archivischer Daten gleicher Ausprägung, die von den beteiligten Archiven in einem definierten DIP-Format über eine standardisierte Schnittstelle geliefert werden.