Plan de préservation de Borealis

Introduction

Borealis, le dépôt Dataverse canadien, est un dépôt de données de recherche numériques ouvert aux membres des universités et institutions de recherche participantes au Canada, avec une infrastructure fournie par les Bibliothèques de l’Université de Toronto (UTL) en Ontario, Canada. Le plan de préservation de Borealis décrit les objectifs, les rôles et responsabilités, les stratégies et les actions de préservation des fichiers numériques téléversés et stockés dans le dépôt. Le logiciel Dataverse à code libre est un outil développé et maintenu par l’Institute of Quantitative Social Science (IQSS) de l’Université Harvard, avec l’aide des membres de la communauté Dataverse du monde entier. Le plan de préservation complémente les stratégies, les politiques et les procédures de curation et de préservation que les établissements participants peuvent également avoir en place pour les ensembles de données de leurs collections institutionnelles dans Borealis.

Définitions

Archivematica : un outil de traitement libre basé sur des normes préétablies pour créer des paquets bien formés pour le stockage de préservation. Archivematica exécute des fonctions d’identification, de validation et de caractérisation de format de fichier basées sur la signature; il peut normaliser les copies de fichiers aux formats de préservation et d’accès; et il génère des fichiers de métadonnées de préservation en utilisant les normes METS et PREMIS.

BagIt: un ensemble de conventions de formatage qui guident la création de sommes de contrôle et la vérification de la fixité des collections de fichiers. Les fichiers contenus dans un répertoire au format BagIt (communément appelé « sac ») incluent un manifeste de sommes de contrôle qui peut être utilisé pour assurer la fixité du contenu du répertoire après le transfert ou le stockage.

Préservation au niveau du bit: un type de stratégie de préservation numérique. Cette stratégie vise à garantir que les fichiers stockés conservent leur fixité et qu’ils sont stockés à plusieurs endroits pour les protéger contre la perte ou la corruption accidentelle. La préservation au niveau du bit ne garantit aucune forme d’utilisabilité/accessibilité future basée sur le contenu ou le format des fichiers en question.

Somme de contrôle : une chaîne numérique ou alphanumérique unique produite en exécutant un algorithme de génération de somme de contrôle sur un fichier. Lorsque le contenu du fichier est modifié de quelque manière que ce soit, la valeur de la somme de contrôle change, indiquant que le du fichier n’est plus fixe et qu’il doit donc être remplacé à partir d’une bonne copie. Les algorithmes de somme de contrôle comprennent MD5, SHA-1 et SHA-256.

Ensemble de données : un ensemble de données est un conteneur pour un groupe de fichiers liés. Par exemple, un ensemble de données peut inclure les données sources originales, le code et la documentation liés à une seule étude ou publication. Un ensemble de données doit également inclure des métadonnées ajoutées pour décrire les fichiers, y compris un titre, un ou plusieurs auteurs, une description et un sujet.

Dataverse : l’application logicielle libre de dépôt de données de recherche à partir de laquelle Borealis est hébergé et exploité. Dataverse est développé par l’Institute for Quantitative Social Science (IQSS) de l’Université Harvard.

Préservation numérique : « la série d’activités gérées nécessaires pour assurer un accès continu aux documents numériques aussi longtemps que nécessaire » (Glossaire DPC). Les activités de préservation numérique peuvent inclure une surveillance active et continue des fichiers et des formats, des vérifications régulières de la fixité et l’actualisation des supports de stockage.

Fixité : la qualité de savoir qu’un fichier numérique n’a pas été altéré ou modifié. La fixité est établie à l’aide d’une somme de contrôle. L’information de fixité peut aider à établir l’intégrité des fichiers en démontrant que les fichiers sont restés physiquement inchangés au fil du temps.

Ontario Library Research Cloud (OLRC) : un réseau de stockage en nuage communautaire à cinq nœuds maintenu par Scholars Portal que Borealis utilise dans le cadre de ses opérations. L’OLRC utilise le logiciel OpenStack Swift pour connecter cinq nœuds de stockage situés à l’Université de Toronto, à l’Université de Guelph, à l’Université d’Ottawa, à l’Université York et à l’Université Queen’s. Toutes les données stockées dans l’OLRC sont répliquées sur trois des cinq nœuds pour plus de fiabilité et d’intégrité. Si l’une de ces copies devient illisible, une nouvelle copie est créée par le système à partir des deux bonnes copies restantes. Le service OLRC comprend également l’accès à DuraCloud pour une gestion avancée de la préservation des paquets stockés dans l’OLRC. Pour plus d’information sur la sécurité de l’OLRC, consultez la Fiche d’information sur l’infrastructure technologique et la sécurité.

Pergélisol : un service de préservation numérique hébergé offert par Scholars Portal aux membres du Conseil des bibliothèques universitaires de l’Ontario (CBUO). Pergélisol associe Archivematica à l’OLRC pour fournir un accès à une infrastructure technique, un soutien technique et de la formation permettant aux membres du CBUO de traiter activement des objets numériques pour une préservation et un accès à long terme.

Objectifs

Les objectifs des activités de préservation d’UTL pour le dépôt Borealis sont de :

  1. Garantir un niveau minimal d’assurance de fixité pour tous les fichiers téléversés avec un compte enregistré.
    • La priorité de cette stratégie est de protéger contre la perte de données sous la forme d’une suppression, d’une corruption ou d’une modification accidentelle du contenu soumis par les utilisatrices et utilisateurs au fil du temps.
    • Communément appelée « préservation au niveau du bit », cette stratégie ne garantit aucune forme d’utilisabilité/accessibilité basée sur le contenu intellectuel ou le format des fichiers en question, mais se concentre sur la surveillance de l’intégrité de l’ensemble du dépôt et la correction de toute erreur pouvant survenir, d’une manière uniforme, évolutive et efficace.
  2. Stocker les fichiers téléversés à l’aide d’une stratégie de stockage de préservation sécurisée, fiable et évolutive.
  3. Installer et maintenir toutes les fonctionnalités de préservation qui sont au cœur de l’application Dataverse, ce qui se traduit par des métadonnées de préservation sélectionnées et une conversion de format pour les téléversements de données tabulaires.
    • Comme décrit à la section « Stratégies : niveau 1 » ci-dessous, l’application Dataverse permet la prise en charge de la préservation du contenu intellectuel des fichiers de données grâce à l’identification du format des fichiers et la conversion de format pour les fichiers de données tabulaires.
  4. Soutenir les établissements participants qui souhaitent exporter des paquets indépendants de fichiers d’ensembles de données et leurs métadonnées à partir de leurs collections institutionnelles dans Borealis. Voir « Stratégies : niveau 2 » ci-dessous pour plus de détails.

Rôles et responsabilités

Utilisateurs : responsables du téléversement des fichiers de données et des métadonnées dans le dépôt Borealis, ainsi que de la visualisation et du téléchargement des fichiers de données et des métadonnées accessibles dans le dépôt. Les utilisatrices et utilisateurs doivent respecter les Conditions d’utilisation ainsi que toutes les politiques et procédures régissant leur utilisation du service, comme établi par les établissements participants.

Établissements participants : responsables de l’administration de l’utilisation de Borealis dans leur établissement. Les établissements souscrivent à Borealis via des ententes consortiales et se voient attribuer un espace de stockage et des droits administratifs permettant au personnel de gérer leur collection institutionnelle dans le dépôt Borealis. Les établissements sont responsables de la surveillance des données téléversées dans leur collection institutionnelle en établissant des politiques de collecte et des directives de dépôt, en administrant les comptes et les droits d’utilisation et en gérant les décisions de retrait et de droit d’auteur. Les établissements peuvent également valider la qualité et l’exhaustivité des données déposées au moyen d’activités de curation, y compris l’identification des formats de fichier préférés pour le dépôt ou le soutien au dépôt avec des conseils sur la conversion de formats de fichiers. Les établissements pour lesquels le contenu dans Borealis constitue une partie de leurs collections numériques institutionnelles peuvent également élaborer et mettre en œuvre des politiques et procédures de préservation supplémentaires pour leurs collections, sous-collections ou des ensembles de données sélectionnés dans Borealis.

Bibliothèques de l’Université de Toronto : responsables de la maintenance technique et de l’administration du logiciel et du service du dépôt Borealis. UTL garantit que l’application Dataverse est fonctionnelle, sécurisée et mise à jour. UTL maintient également l’infrastructure de stockage connectée pour les ensembles de données, assure la liaison avec les répondants institutionnels et met à la disposition des établissements participants des guides et des formations. UTL n’exerce aucun contrôle sur la qualité, l’exhaustivité ou le format des fichiers téléversés dans Borealis, mais aidera à identifier et à résoudre les problèmes de fixité en collaboration avec les établissements participants au fur et à mesure qu’ils surviennent.

Stratégies

Niveau 1

Description : Le premier niveau de préservation combine deux grands ensembles d’activités : la préservation au niveau du bit grâce à une vérification régulière et indépendante de la fixité et un stockage sécurisé dans l’OLRC, et la maintenance des fonctionnalités de prise en charge de la préservation qui font partie de l’application Dataverse. Comme prestataire technique, UTL n’est pas directement responsable de la validation du contenu ou de la qualité des fichiers téléversés dans la plateforme. Ce niveau de préservation répond aux objectifs 1, 2 et 3, à savoir que les fichiers téléversés sont à l’abri de la perte et que des fonctions de préservation minimales sont exécutées comme préalable aux stratégies de préservation supplémentaires.

Portée : Tous les fichiers de données téléversés dans Borealis depuis un compte enregistré. Cela comprend les fichiers associés aux ensembles de données provisoires et en accès restreints ainsi que les différentes versions des fichiers téléversés. Cela ne comprend pas les fichiers générés par l’application Dataverse elle-même, par exemple les dérivés, les vignettes et les fichiers de métadonnées de citation.

Durée : UTL maintiendra les activités de préservation de niveau 1 tant qu’un établissement est abonné au service Borealis. Comme indiqué dans l’entente d’accès et de service signée entre l’Université de Toronto et les établissements participants, UTL s’engage à conserver les dépôts de données pendant 6 mois après la résiliation de l’entente. Cependant, UTL prendra en charge tous les processus d’exportation d’ensembles de données requis par les abonnés.

Activités :

  • Stockage principal de tous les fichiers de données dans l’OLRC
  • Sauvegarde quotidienne de tous les fichiers sur bande à l’aide d’IBM Tivoli Storage Manager (TSM)
    • Pour les fichiers actifs :
      • Sept versions d’un fichier sont disponibles pour restauration pendant 30 jours.
      • Si un fichier n’a pas été modifié depuis plus de 30 jours, la version la plus récente du fichier est conservée en permanence dans la sauvegarde.
      • Les six versions précédentes d’un fichier sont supprimées après 30 jours.
    • Pour les fichiers supprimés :
      • La version la plus récente d’un fichier supprimé est disponible pour restauration pendant 60 jours.
    • Deux copies de la sauvegarde sur bande sont conservées sur place et une copie est conservée hors site.
  • Validations régulières de fixité indépendante
    • Pour chaque fichier téléversé dans l’application Dataverse, une somme de contrôle MD5 est automatiquement générée et stockée dans la base de données.
    • L’API native de Dataverse lance l’appel d’API pour la validation physique des fichiers des ensembles de données pour télécharger un fichier à partir de l’espace de stockage et valider sa somme de contrôle par rapport à la valeur stockée dans la base de données.
    • UTL exécute cet appel d’API sur tous les fichiers ayant un identifiant de fichier tous les 30 jours.
    • L’enregistrement de chaque contrôle de fixité (à la fois positif et négatif) est stocké dans une base de données MySQL interne.
    • Toutes les erreurs identifiées au cours de ce processus seront triées pour correction en récupérant une copie des fichiers concernés à partir de la sauvegarde ou de la communication avec l’établissement participant, le déposant ou la déposante.
  • Maintenance des fonctionnalités supplémentaires de soutien à la préservation disponibles dans le cadre de l’application Dataverse :
    • Identification du format de fichier à l’aide de JHOVE
    • Transformation des formats de données tabulaires en fichiers de données textuelles tabulaires non propriétaires (.TAB) à l’ingestion
    • Génération des UNF (Universal Numeric Fingerprints) pour les fichiers de données tabulaires
      • Les UNF sont conçus pour valider le contenu sémantique des données tabulaires, quel que soit leur format, et sont attribués à l’ensemble de données et aux fichiers de données.
      • L’application Dataverse fournit les UNF lorsque l’ingestion des données tabulaires a réussi; ainsi les UNF (et les fichiers .TAB dérivés) ne nécessitent pas de vérifications ultérieures, sauf si cette valeur est manquante. Dans un tel cas, l’application Dataverse vous informe de l’échec de l’ingestion.

Niveau 2

Description : Ce niveau de préservation est destiné aux établissements participants qui nécessitent un traitement de préservation avancé ou l’exportation de paquets de préservation indépendants pour inclusion dans des collections numériques institutionnelles avec espace de stockage supplémentaire aux fins de préservation. Des fonctions de préservation avancées peuvent être exécutées lorsque Borealis est associé à l’outil de traitement de la préservation Archivematica. Archivematica peut créer des paquets de préservation indépendants d’ensembles de données dans n’importe quel dépôt Dataverse et son flux de travail comprend des fonctions supplémentaires telles que l’identification du format de fichier basée sur la signature, la validation du format de fichier, la caractérisation et la normalisation. Les paquets indépendants créés par Archivematica sont ensuite envoyés vers l’espace de stockage de préservation de votre choix. Alternativement, les établissements peuvent choisir de créer et d’accepter des exportations de paquets à partir de n’importe quelle application Dataverse au format BagIt. De l’information supplémentaire sur ces caractéristiques et fonctionnalités se retrouve ci-dessous et dans le Guide d’administration.

Portée : Les établissements participants sont chargés de déterminer quels ensembles de données doivent recevoir un traitement et une exportation supplémentaires. Toute personne responsable de l’administration, de la curation ou toute autre personne désignée dans les établissements participants peuvent sélectionner le contenu complet de leurs collections institutionnelles ou un sous-ensemble en fonction de critères d’évaluation et de sélection internes.

Activités :

  • UTL assistera les établissements participants dans la configuration et la maintenance des connexions aux instances d’Archivematica.
    • Si les établissements participants utilisent Pergélisol, la connexion fonctionnelle entre Borealis et Archivematica sera établie dans le cadre des activités de soutien technique de Pergélisol.
    • Les ensembles de données traités via Pergélisol doivent se conformer aux fonctionnalités et aux limites de ce service.
    • Si les établissements participants utilisent un autre service Archivematica hébergé, ou une version hébergée localement d’Archivematica, UTL fournira des conseils et une consultation sur la configuration pour connecter Borealis et Archivematica.
  • UTL aidera les établissements participants souhaitant exporter des paquets au format BagIt depuis Borealis :
    • BagIt contiennent les fichiers téléversés (sauf dans le cas des téléversements de données tabulaires, où seule la version .TAB convertie est conservée dans le sac), et des métadonnées sous la forme d’un fichier de mappage OAI-ORE sérialisé en format JSON-LD et d’un fichier au format DataCite XML.
    • Les paquets BagIt de l’application Dataverse sont conformes au profil BagIt de la Research Data Alliance.
    • Les exportations sont effectuées au niveau de l’ensemble de données à l’aide d’un appel d’API et sont effectuées par les personnes responsables de l’administration ou de la curation ou toute autre personne désignée ou sous leur direction dans les établissements participants.
    • Les sacs peuvent être déposés à l’emplacement précisé ou dans l’espace du système de fichiers dans DuraCloud, selon les besoins.

Remerciements

Merci à l’ancien Groupe de travail sur les politiques de Dataverse Nord pour la création d’un cadre de politique initial pour Borealis qui a éclairé la structure et l’approche du présent document. Le rapport Préservation pour Dataverse au Canada : Recommandations fournit des exigences clés pour les stratégies de préservation décrites ci-dessus. D’autres sources d’inspiration ont été la Texas Digital Library Digital Preservation Policy et la Harvard Dataverse Preservation Policy.

Publié le 23 juin 2022