File:Masterthesis - Langzeitarchiv für digitale Audiowerke Christoph Zimmermann mit Anhang.pdf

From PUBLIC DOMAIN PROJECT MEDIAPOOL
Jump to: navigation, search

Full report including appendix.

Abstract from this master thesis report: The Swiss Foundation Public Domain is responsible for the long time data archive of the volunteer driven Public Domain Project. The volunteers are collecting, digitizing and capturing metadata of old audio records, mainly 78 rpms (Shellac), that are out of copyright.

In the course of this master thesis a data model was developed to represent the metadata as Open Linked Data. Also a trustworthy archival storage according to OAIS was evaluated and first migration steps were undertaken. Following the semantic web (Web 3.0) standards the metadata (title, creator, publication date, images etc.) is modeled as triples (subject, predicate, object) using the ontologies Dublin Core, Schema.org, Music Ontology, Creative Commons and Logistics Core. The new data model is accessible via a web API that delivers RDF/XML or turtle. This fosters the reuse of this metadata on other websites and projects, which thereby increases the overall value of the metadata and the work of the Public Domain Project itself. This model is implemented as a set of new templates and forms using Semantic MediaWiki (SMW). SMW allows the value of a data field to be shown on other wiki pages with a semantic query. A data field may have data validation or can have only a limited set of values. These features simplify data entry and reduce errors significantly.

A trustworthy storage system for the digitized audio files must fulfill digital preservation requirements defined by the OAIS model. A new system structure was evaluated and a migration strategy was defined. As a first step the operating system of the file server was replaced by Gentoo GNU/Linux because it stores the source code of every installed software. The source code together with file format specifications etc. is called representation information and which needs to be preserved together with the audio files to guarantee the understandability of the bits on the storage media.

A document management system (DMS) for the internal document handling of the foundation was evaluated and the selected NextCloud was implemented on a new virtual machine (VM) secured with TLS and certificates from Let's encrypt.

Kompletter Bericht inklusive Anhang.

Zusammenfassung aus dieser Masterthesis: In dieser Arbeit, die zusammen mit der Schweizerischen Stiftung Public Domain durchgeführt wurde, geht es um Audiowerke wie Musik, Hörspiele, Reden etc. die digitalisiert wurden und in der digitalen Domäne langfristig erhalten werden sollen, so dass nachfolgende Generationen darauf Zugriff haben.

Dieser Masterarbeit ist eine Projektarbeit vorausgegangen, in der die Grundlagen zur digitalen Langzeiterhaltung und des OAIS Referenzmodells erarbeitet wurden. Mit einem Audit gemäss CCSDS 652.0-M-1 wurde beurteilt, wie die Erhaltungsziele des Audioarchivs, das von der Stiftung betreut wird, erfüllt werden. Abschliessend wurde eine neue Systemarchitektur für die digitale Langzeiterhaltung von Audiowerken präsentiert.

Darauf aufbauend beschäftigt sich diese Masterarbeit mit dem öffentlichen Verfügbarmachen semantisch aufbereiteter Metadaten als Open Data mit Hilfe von Semantic MediaWiki und der Bestandssicherung des digitalen Archivs des Public Domain Projekts. Im entwickelten Datenmodell werden die Metadaten als tripple (Subjekt, Prädikat, Objekt) modelliert, so wie es von den Semantic Web (Web 3.0) Standards vorgegeben wird. Dazu werden die Ontologien Dublin Core, Schema.org, Music Ontology, Creative Commons und Logistics Core eingesetzt. Auf die Metadaten kann per Web-API zugegriffen werden, zurückgeliefert wird RDF/XML oder Turtle. Dies fördert die Weiternutzung dieser Metadaten auf anderen Webseiten und Projekten, was wiederum den Wert der Metadaten und der Arbeit des Public Domain Projekts erhöht. Dieses Datenmodell wurde implementiert als Set von neuen Templates und Formularen auf Basis von Semantic MediaWiki, einer Erweiterung zur Webapplikation MediaWiki, die im Projekt für die Erfassung von Tonträgern eingesetzt wird. Semantic MediaWiki ermöglicht das Anzeigen von Datenwerten auf anderen Wikiseiten mittels semantischer Abfragen. Ein Datenfeld kann eine Datenprüfung implementieren oder nur einen begrenzen Satz von Werten zulassen. Diese Funktionen erlauben es, dass die neuen Formulare den Dateneingabeprozess wesentlich vereinfachen und Fehler signifikant reduzieren.

Eine vertrauenswürdige Speicherlösung für digitalisierte Audiodateien muss die Anforderungen für die digitale Erhaltung definiert vom OAIS Model erfüllen. Eine neue Systemstruktur wurde evaluiert und die Migrationsstrategie dahin definiert. Als erster Schritt wurde das Betriebssystem des Speicherservers durch Gentoo GNU/Linux ersetzt, weil es die Source Codes von jeder installierten Software speichert. Dieser Source Code zusammen mit Spezifikationen zu Dateiformaten etc. wird Repräsentationsinformationen genannt, welche genau so wie die Audiodateien erhalten werden müssen, um die Interpretierbarkeit der Daten auf dem Datenträger bis hin zum letzten Bit zu garantieren.


License: CC-BY

File history

Click on a date/time to view the file as it appeared at that time.

Date/TimeDimensionsUserComment
current23:35, 3 February 2017 (3.07 MB)Nuess0r (talk | contribs)Full report including appendix. Abstract from this master thesis report: ''The Swiss Foundation Public Domain is responsible for the long time data archive of the volunteer driven Public Domain Project. The volunteers are collecting, digitizing and ca...
  • You cannot overwrite this file.