Skip to main content
NACHHALTIGKEIT

Daten archivieren #

Sie sollten sich unbedingt an eines der etablierten Repositorien für Forschungsdaten wenden. Sie sind genau dafür gemacht. In Österreich gibt es bereits mehrere institutionelle Repositorien. Welches Sie nutzen sollten, ist abhängig von der Art der Daten, die Sie haben, von der Art der Nutzung und auch von Ihrer disziplinären Zugehörigkeit. Auf re3data.org. können Sie nach einem geeigneten Repositorium suchen.

Zusätzlich sollten Sie sicherstellen, dass Sie Dateiformate verwenden, die für die Langzeitarchivierung geeignet sind, und eine ausreichende Dokumentation für Ihre Daten (Metadaten) bereitstellen, damit andere Ihre Ressourcen verstehen können.

Schließlich sollten Sie nicht nur die Ablage Ihrer Daten in einem zuverlässigen Repositorium, sondern auch den offenen Zugang zu Ihren Daten in Betracht ziehen. Open Access ist für die Wiederverwendung und damit für die Langlebigkeit der Daten unerlässlich. Nur sichtbare und zugängliche Daten können wiederverwendet werden und damit an Wert gewinnen. Viele Institutionen haben sich bereits zu Open Access bekannt, darunter auch zahlreiche österreichische. Die Offen-Definition bietet weitere Details und listet konforme Lizenzen auf. Forschungslizenzen.de gibt einen umfassenden Überblick über offene und restriktive Lizenzen und bietet eine Anleitung zur Auswahl einer geeigneten Lizenz. Wenn Sie eine der weit verbreiteten Creative-Commons-Lizenzen (CC) verwenden möchten, können Sie deren Werkzeug zur Auswahl einer Lizenz nutzen.

Sehen Sie sich die FAIR-Data-Prinzipien an, um sich über empfohlene Maßnahmen zur Auffindung und Wiederverwendung von Daten zu informieren.

FAIR steht für Findable (auffindbare), Accessible (zugängliche), Interoperable (interoperable) und Reusable (wiederverwendbare) Daten und Metadaten. Die Prinzipien, die von führenden Akteur:innen in diesem Bereich (Vertreter:innen der Wissenschaft, der Industrie, von Fördereinrichtungen und wissenschaftlichen Verlagen) formuliert wurden, empfehlen und beschreiben Maßnahmen zur Förderung der Auffindung und Wiederverwendung von Daten. Die FAIR-Data-Prinzipien sind inzwischen auch Teil der offiziellen europäischen Empfehlungen (https://www.force11.org/group/fairgroup/fairprinciples).

Als Teil der CLARIAH-AT-Infrastruktur ist ARCHE in erster Linie als digitaler Datenhosting-Service für die Geisteswissenschaften in Österreich gedacht. Daher sind Daten aus allen geisteswissenschaftlichen Bereichen einschließlich der modernen und klassischen Sprachen, der Sprachwissenschaft, der Literatur, der Geschichte, der Rechtswissenschaft, der Philosophie, der Archäologie, der vergleichenden Religionswissenschaft, der Ethik, der Kunstkritik und -theorie gleichermaßen willkommen.

Ausführliche Informationen finden Sie in der Sammlungsstrategie.

Wenn Sie Fragen haben, wenden Sie sich an uns!

Siehe dazu unsere Liste der akzeptierten und bevorzugten Formate für die Archivierung.

Die Hinterlegung und Archivierung umfasst die Arbeit der Datengeber:innen sowie der ARCHE-Datenkurator:innen. Während der Einreichung der digitalen Ressourcen beim Repositorium durchlaufen die Daten einen Kuratierungsprozess, um die Qualität und Konsistenz zu gewährleisten. Wir unterstützen Sie dabei, die notwendigen Voraussetzungen für eine nachhaltige Ressourcenarchivierung zu erfüllen: Die Daten müssen mit Metadaten und in bevorzugten Formaten bereitgestellt werden, persistente Identifikatoren (PIDs) müssen vergeben werden, Fragen des geistigen Eigentums müssen geklärt und klare Aussagen über die Lizenzierung sowie die mögliche Nutzung der Ressourcen getroffen werden.

Der Einreichungsprozess beinhaltet vier Teile, die hier: im Detail ausgeführt sind:

  1. Vorbereitende Schritte Ihrerseits vor der Einreichung
  2. Die eigentliche Einreichung und Übergabe der Daten
  3. Prüfung der Daten nach Erhalt unsererseits, was zu einer weiteren Nachbesserung der Daten Ihrerseits und einer erneuten Einreichung führen kann
  4. Tatsächliche Archivierung und Veröffentlichung der Daten

Um dem ARCHE-Kuratierungsteam erste Informationen über Ihre Ressourcen zu geben, ist eine Liste von Dateien nützlich. Sie können diese von Hand oder automatisch mit Hilfe verschiedener Werkzeuge erstellen. Alle wichtigen Betriebssysteme bieten bereits Funktionen wie tree and dir unter Windows, ls unter Linux und Mac. Alternativ können Sie spezielle Werkzeuge wie DROID installieren.

Die Bereitstellung einer Lizenz für Ihre Daten macht sie wiederverwendbar und beschreibt klar die Rechte, die Sie potenziellen Nachnutzer:innen einräumen. Die Wiederverwendung von Daten mit einer Lizenz ist einfacher als ohne.

Sie sollten den offenen Zugang zu Ihren Daten in Betracht ziehen, der für die Wiederverwendung und damit für die Langlebigkeit der Daten unerlässlich ist. Nur sichtbare und zugängliche Daten können wiederverwendet und damit wertvoller gemacht werden. Viele Institutionen haben sich bereits zu Open Access bekannt, darunter auch zahlreiche österreichische. Die Offen-Definition bietet weitere Details und listet konforme Lizenzen auf. Forschungslizenzen.de gibt einen umfassenden Überblick über offene und restriktive Lizenzen und bietet eine Anleitung zur Auswahl der richtigen Lizenz. Wenn Sie eine der weit verbreiteten Creative-Commons-Lizenzen (CC) verwenden möchten, können Sie deren Werkzeug zur Auswahl einer Lizenz nutzen.

Wir empfehlen die Verwendung von CC-BY (CC - Attribution) oder CC-BY-SA (CC - Attribution-ShareAlike). Bei der Hinterlegung von Software sollte die Verwendung spezifischer Software-Lizenzen wie BSD oder GPL in Betracht gezogen werden. Sie können das Werkzeug License Selector verwenden, um eine geeignete Lizenz für Software oder Daten auszuwählen.

ARCHE nutzt das Handle-System, um den digitalen Objekten eindeutige und dauerhafte Identifikatoren zuzuweisen. Auf diese Weise hat jede Ressource eine eindeutig identifizierbare URL, die immer auf dieselben Daten verweist, egal wo sie sich in Zukunft physisch befinden könnte. Der Handle ist insbesondere für das Zitieren der Ressourcen in Publikationen gedacht. Mit zusätzlichen Informationen über Urheber:innen und Mitwirkende generiert ARCHE einen Zitiervorschlag, der zu jeder Ressource angezeigt wird.

PID steht für Persistent Identifier und ist eine eindeutige Zeichenfolge, die einem digitalen Objekt dauerhaft zugewiesen wird. Sie ist vergleichbar mit dem Konzept der ISBN-Nummern, die Printpublikationen zur Identifizierung zugewiesen werden. Eine PID hilft, ein Objekt stabil zu identifizieren und zu referenzieren, unabhängig vom tatsächlichen Speicherort. Beispiele für PID-Systeme sind URNs, DOIs oder Handles.

Jede Änderung an den Ressourcen und Metadaten wird als neue Version gespeichert. Wenn die Änderungen wesentlich sind oder beide Versionen gleichermaßen verfügbar sein sollen, sollte ein neues Objekt mit einer neuen PID erstellt werden, das mit einem Link zur vorhergehenden Version ausgestattet ist, die ihre PID beibehält.

ARCHE läuft auf den Systemen des Rechenzentrums der Österreichischen Akademie der Wissenschaften (ARZ), das eine solide organisatorische und technische Unterstützung gewährleistet. Um Datenverluste aufgrund der Beschädigung des physischen Speichers, böswilliger Bedrohungen oder anderer Notfälle zu vermeiden, ist Redundanz der Schlüssel zur Erhaltung der Daten. Regelmäßige Backups helfen uns, Daten zu schützen und wiederherzustellen.

Backups der Daten werden im Repositorium regelmäßig durchgeführt: eine tägliche Kopie wird gespeichert und innerhalb der internen ARZ NetApp Einrichtung vor Ort repliziert. Darüber hinaus verfügt der NetApp-Speicher über einen Spiegel an einem zweiten Standort. Weitere Einzelheiten sind im Abschnitt Speicherverfahren beschrieben.

Ja, falls erforderlich. Jedoch muss zumindest ein Verweis darauf, dass die Daten vorhanden waren, erhalten bleiben. Administrative Metadaten werden daher beibehalten, die anzeigen, dass die Daten selbst entfernt wurden. Die zugeordnete PID bleibt erhalten und verweist auf eine Seite, die die Metadaten anzeigt.

Entsprechend der Befürwortung der Forschungsinfrastrukturen und der allgemeinen Entwicklung in Bezug auf Open Access ermutigen wir die Datenproduzent:innen nachdrücklich, so offen wie möglich zu sein: Öffentlich zugängliche Daten haben eine bessere Chance, von Kolleg:innen genutzt zu werden, was sich positive auf die Reputation und den Zitationsindex auswirkt. Öffentliche Förderorganisationen verlangen von den Forschenden zunehmend, nicht nur die Ergebnisse ihrer Forschung, sondern auch die Forschungsdaten zu veröffentlichen.

Wir sind uns jedoch bewusst, dass der Open-Access-Ansatz nicht in allen Fällen möglich ist. Fragen des geistigen Eigentums sowie ethische und strategische Überlegungen können restriktivere Zugangsmodalitäten erfordern. Wir helfen Ihnen bei der Auswahl der für Ihre Bedürfnisse richtigen Lizenz. Bei Bedarf bieten wir auch die Möglichkeit, Daten einfach nur zu archivieren, ohne dass die Öffentlichkeit Zugriff hat.

Die Hinterlegung und Speicherung selbst sind kostenlos. Die Ablage wird als Teil der Forschungsinfrastruktur als Dienstleistung für die Gemeinschaft betrieben. Wenn die Daten weiterverarbeitet und umfangreich kuratiert werden müssen, können wir den Kuratierungsaufwand in Rechnung stellen.

...im Aufbau...

...im Aufbau...

VERFÜGBARKEIT

Daten suchen und nutzen #

Die Ressourcen werden auf der Website von ARCHE veröffentlicht und können über die Webschnittstelle durchsucht werden.

Darüber hinaus werden Metadaten der Ressourcen über OAI-PMH zum “Harvesting” angeboten, was die Verbreitung über zusätzliche Kanäle wie das Virtual Language Observatory, den zentralen Metadatenkatalog von CLARIN, ermöglicht.

Im Allgemeinen gelten die Nutzungsbedingungen apply to the use of the resources and services provided by the ARCHE. Additionally, resource-specific licences apply as stated in the description for every resource.

Nein. Alle Ressourcen stehen kostenlos zur Verfügung.

Es kommt darauf an. Es gibt drei grundlegende Zugangsmöglichkeiten: öffentlich, akademisch und eingeschränkt.

Öffentliche Ressourcen sind ohne weitere Einschränkungen zugänglich. Akademischer Zugang bedeutet, dass Sie einer akademischen Institution angegliedert sein müssen (z.B. Mitglied einer Universität sind). Dies wird in erster Linie über das sogenannte Federated (oder Shibboleth) Login geprüft (siehe nächste Frage). Wenn Sie sich nicht über Shibboleth einloggen können, aber dennoch eine akademische Person sind bzw. Sie akademische Motive für die Nutzung einer Ressource haben, nehmen Sie bitte Kontakt mit uns auf.

Einige der Ressourcen sind nur auf der Grundlage einer besonderen Vereinbarung verfügbar. Dies wird durch den „eingeschränkten“ Zugriffsmodus angezeigt, der normalerweise bedeutet, dass Sie ein Registrierungsformular ausfüllen und eine Sonderlizenz akzeptieren müssen. Im schlimmsten Fall ist die Ressource überhaupt nicht online verfügbar. In diesem Fall müssen Sie sich mit uns in Verbindung setzen, um herauszufinden, ob und wie Sie Zugang zu der Ressource erhalten können.

Shibboleth, AAI (Authentication and Authorisation Infrastructure) oder SSO (Single-Sign-On) bezieht sich auf eine Architektur, bei der sich Dienstanbietende zur Authentifizierung der Nutzer:innen auf Identitätsanbietende verlassen. D.h. wenn Nutzer:innen einen bestimmten Dienst wie ARCHE nutzen wollen, für den sie sich authentifizieren müssen, werden sie an ihre Heimatinstitution (z.B. Universität) weitergeleitet, wo sie sich mit ihren institutionellen Zugangsdaten anmelden können. Im Erfolgsfall teilt die Heimatinstitution dem Anbietenden mit, dass sie zur Nutzung des Dienstes berechtigt sind. Kurz gesagt, Sie können sich mit Ihrem institutionellen Konto bei verschiedenen Diensten anmelden, ohne sich jedes Mal separat registrieren zu müssen.

Dies ähnelt der in der „kommerziellen“ Welt bekannten OpenId-Initiative (Anmeldung auf einer coolen Webseite mit Ihrem Google- oder Facebook-Konto).

Da diese „Föderierte Identität“ von akademischen Institutionen eingerichtet wurde, wird implizit angenommen, dass eine Person, die sich über Shibboleth anmelden kann, eine akademische Person ist.

Das Open Archival Information System / Offenes Archiv-Informations-System (OAIS) ist ein Referenzmodell, das vom Consultative Committee for Space Data Systems / Beratendes Komitee für Datensysteme in der Raumfahrt (CCSDS) entwickelt wurde und aus einer Reihe von Empfehlungen für Archivierungssysteme besteht, die auf die langfristige Bewahrung und Pflege von digitalen Informationen ausgerichtet sind.

Innerhalb von OAIS wird ein Funktionsmodell beschrieben, das aus sechs funktionalen Einheiten besteht. Innerhalb dieser Einheiten werden Informationspakete ausgetauscht, die entweder die ursprünglich eingereichten Informationen (Submission Information Package, SIP), die für die Archivierung vorbereiteten Informationen (Archival Information Package, AIP) oder die zur Verbreitung aufbereiteten Informationen (Dissemination Information Package) enthalten.

Weitere Informationen finden Sie in den Publikationen des CCSDS, wie z.B. im Magenta Book.

SIP steht für Submission Information Package und stellt das Informationspaket dar, das an ARCHE für die Einreichung und Archivierung geliefert wird. Das SIP enthält die zu speichernden Daten sowie alle notwendigen Metadaten über das Paket und seinen Inhalt.

Wenn Sie ein SIP einreichen, stellen Sie bitte sicher, dass die Daten in einem für die Langzeitarchivierung geeigneten Format vorliegen und dass dem Paket ausreichend Metadaten beigefügt sind.

AIP steht für Archival Information Package. Es enthält die Metadaten und die über das SIP eingereichten Daten, Informationen zur Erhaltung und andere während des Einreichungsprozesses angesammelte Dokumentationen. Die Daten aus dem SIP müssen möglicherweise konvertiert werden, um ein AIP mit Daten zu erstellen, das für die Langzeitarchivierung geeignet ist.

DIP steht für Dissemination Information Package. Ein DIP kann von einem oder mehreren AIPs abgeleitet werden und dient dazu, die Daten und Metadaten den Nutzer:innen zu präsentieren. Der Inhalt eines DIPs wird in Lieferformaten präsentiert, die sich von den im AIP verwendeten Archivformaten unterscheiden können. Die Lieferformate sind auf die verfügbare Bandbreite und die Anforderungen der Nutzer:innen zugeschnitten. Eine einzelne Datei kann in verschiedenen Lieferformaten verfügbar sein.

EMPFEHLUNGEN

Praxishinweise für Datengebende #

...im Aufbau...

...im Aufbau...

...im Aufbau...

...im Aufbau...

...im Aufbau...

  • Text & PDF
    • Unicode character encoding:
      UTF steht für Unicode Transformation Format und ist ein Satz von Zeichenkodierungen für den Unicode-Zeichensatz. UTF-8 verwendet ein Byte (d. h. acht Bit) zur Kodierung der Zeichen. Andere UTF-Kodierungen wie UTF-16 oder UTF-32 verwenden mehr als ein Byte pro Zeichen und können mit dem höchstwertigen Byte an erster (big-endian) oder letzter Stelle (little-endian) gespeichert werden. Daher wird eine Byte Order Mark (BOM) benötigt, die durch das Nicht-Zeichen U+FEFF dargestellt wird. Da UTF-8 byte-orientiert ist, ist eine BOM nicht notwendig und sollte vermieden werden. Ein Vorteil bei der Verwendung von UTF-8 ist, dass die ersten 128 Zeichen von ASCII erhalten bleiben und auf die gleiche Weise kodiert werden. Siehe die offizielle FAQ-Seite zu UTF-8, UTF-16, UTF-32 & BOM und die IT-Empfehlungen von IANUS für weitere Informationen zu diesem Thema und zur Kodierung im Allgemeinen.
  • Tabellen & Datenbanken
  • Rasterbilder
  • Vektorbilder
  • Geodaten
  • 3D-Grafiken & Audio/Video
  • Allgemein

...im Aufbau...

...im Aufbau...

...im Aufbau...

...im Aufbau...

...im Aufbau...

...im Aufbau...

...im Aufbau...

...im Aufbau...

...im Aufbau...

...im Aufbau...

FORTSCHRITT

Technische Basis #

Als wir 2017 die Implementierung von ARCHE planten, schien Fedora Commons nach einer gründlichen Evaluierung mehrerer bestehender Lösungen das am besten geeignete System zu sein, da es für den Betrieb von Repositorien auf der ganzen Welt und insbesondere auch für mehrere CLARIN-Zentren weit verbreitet ist. Allerdings wurde angekündigt, dass die bis dahin (und ab 2020 immer noch) am weitest verbreitete Version von Fedora (Version 3) das Ende ihrer Lebensdauer erreicht hat und nicht mehr weiterentwickelt wird. So lag es nahe, die neue Version zu übernehmen. Die Version 4 von Fedora Commons wurde komplett neugestaltet und implementiert, wobei viele bewährte Konzepte aufgegeben und technologische Entscheidungen getroffen wurden, die sich im Nachhinein als sehr problematisch herausstellten. Einige dieser Entscheidungen wurden in einer Zwischenversion 5 wieder rückgängig gemacht, und derzeit (2020) wird an Version 6 gearbeitet, für die eine stabile Veröffentlichung für Anfang 2021 erwartet wird.

In der Zwischenzeit wurden die Probleme in unserer Lösung immer größer. Zwar konnten wir diese umgehen, aber das kostete uns Zeit bei der Entwicklung von Umgehungslösungen. Außerdem verschlechterte sich die Leistung von Fedora schnell mit der wachsenden Datenmenge im Repositorium, was die Aufnahme größerer Datensätze nahezu unmöglich machte.

In den drei Jahren haben wir viele Erfahrungen mit den von uns kuratierten und aufgenommenen Daten gesammelt und konnten so herausarbeiten, welche Funktionen für uns in einer Repositoriumslösung entscheidend sind.

Als wir die schwierige Entscheidung trafen, unsere auf Fedora 4 basierende Lösung aufzugeben, sahen wir uns noch einmal andere bestehende Lösungen an und prüften, ob eine von ihnen die von uns erwarteten Funktionen bietet. Wir kamen zu dem Schluss, dass keine der Lösungen unseren Anwendungsfall vollständig abdeckt. Obwohl alle Lösungen die Möglichkeit zur Anpassung und Erweiterung bieten, sind sie mit komplexen Komponenten ausgestattet, die als Blackboxen betrachtet werden müssen, auch wenn sie Open-Source sind. Dies würde vermutlich zu ähnlichen Erfahrungen führen, die wir mit Fedora 4 gemacht haben und die wir vermeiden wollten.

Daher beschlossen wir, entgegen aller üblichen Ratschläge und bewährten Praktiken, eine maßgeschneiderte Lösung von Grund auf zu entwickeln, die unseren spezifischen Bedürfnissen entspricht. Wir haben uns bemüht, sie so allgemein wie möglich zu gestalten, damit sie in einer Vielzahl von Szenarien und Anwendungsfällen eingesetzt werden kann.

Das System basiert auf einem sehr konservativen Technologie-Stack: einfaches, streng objektorientiertes PHP mit einer PostgreSQL-Datenbank zur Speicherung der Metadaten. Die Gesamtarchitektur ist sauber in mehrere Komponenten unterteilt, mit einer klaren Funktion und gut definierten APIs, die ihre jeweiligen Funktionen offenlegen.

Wir haben alle Funktionen beibehalten, so dass sich sowohl die Benutzeroberfläche als auch die APIs genau so verhalten wie zuvor, nur um eine Größenordnung schneller und mit einem um eine Größenordnung geringeren Ressourcenverbrauch.

 

Vorschläge zur Vertiefung finden Sie in der Linksammlung Weiterführende Informationen.