Borealis, le dépôt Dataverse canadien, est un dépôt de données de recherche numériques ouvert aux membres des universités et institutions de recherche participantes au Canada, avec une infrastructure fournie par les Bibliothèques de l’Université de Toronto (UTL) en Ontario, Canada. Le plan de préservation de Borealis décrit les objectifs, les rôles et responsabilités, les stratégies et les actions de préservation des fichiers numériques téléversés et stockés dans le dépôt. Le logiciel Dataverse à code libre est un outil développé et maintenu par l’Institute of Quantitative Social Science (IQSS) de l’Université Harvard, avec l’aide des membres de la communauté Dataverse du monde entier. Le plan de préservation complémente les stratégies, les politiques et les procédures de curation et de préservation que les établissements participants peuvent également avoir en place pour les ensembles de données de leurs collections institutionnelles dans Borealis.
Archivematica : un outil de traitement libre basé sur des normes préétablies pour créer des paquets bien formés pour le stockage de préservation. Archivematica exécute des fonctions d’identification, de validation et de caractérisation de format de fichier basées sur la signature; il peut normaliser les copies de fichiers aux formats de préservation et d’accès; et il génère des fichiers de métadonnées de préservation en utilisant les normes METS et PREMIS.
BagIt: un ensemble de conventions de formatage qui guident la création de sommes de contrôle et la vérification de la fixité des collections de fichiers. Les fichiers contenus dans un répertoire au format BagIt (communément appelé « sac ») incluent un manifeste de sommes de contrôle qui peut être utilisé pour assurer la fixité du contenu du répertoire après le transfert ou le stockage.
Préservation au niveau du bit: un type de stratégie de préservation numérique. Cette stratégie vise à garantir que les fichiers stockés conservent leur fixité et qu’ils sont stockés à plusieurs endroits pour les protéger contre la perte ou la corruption accidentelle. La préservation au niveau du bit ne garantit aucune forme d’utilisabilité/accessibilité future basée sur le contenu ou le format des fichiers en question.
Somme de contrôle : une chaîne numérique ou alphanumérique unique produite en exécutant un algorithme de génération de somme de contrôle sur un fichier. Lorsque le contenu du fichier est modifié de quelque manière que ce soit, la valeur de la somme de contrôle change, indiquant que le du fichier n’est plus fixe et qu’il doit donc être remplacé à partir d’une bonne copie. Les algorithmes de somme de contrôle comprennent MD5, SHA-1 et SHA-256.
Ensemble de données : un ensemble de données est un conteneur pour un groupe de fichiers liés. Par exemple, un ensemble de données peut inclure les données sources originales, le code et la documentation liés à une seule étude ou publication. Un ensemble de données doit également inclure des métadonnées ajoutées pour décrire les fichiers, y compris un titre, un ou plusieurs auteurs, une description et un sujet.
Dataverse : l’application logicielle libre de dépôt de données de recherche à partir de laquelle Borealis est hébergé et exploité. Dataverse est développé par l’Institute for Quantitative Social Science (IQSS) de l’Université Harvard.
Préservation numérique : « la série d’activités gérées nécessaires pour assurer un accès continu aux documents numériques aussi longtemps que nécessaire » (Glossaire DPC). Les activités de préservation numérique peuvent inclure une surveillance active et continue des fichiers et des formats, des vérifications régulières de la fixité et l’actualisation des supports de stockage.
Fixité : la qualité de savoir qu’un fichier numérique n’a pas été altéré ou modifié. La fixité est établie à l’aide d’une somme de contrôle. L’information de fixité peut aider à établir l’intégrité des fichiers en démontrant que les fichiers sont restés physiquement inchangés au fil du temps.
Ontario Library Research Cloud (OLRC) : un réseau de stockage en nuage communautaire à cinq nœuds maintenu par Scholars Portal que Borealis utilise dans le cadre de ses opérations. L’OLRC utilise le logiciel OpenStack Swift pour connecter cinq nœuds de stockage situés à l’Université de Toronto, à l’Université de Guelph, à l’Université d’Ottawa, à l’Université York et à l’Université Queen’s. Toutes les données stockées dans l’OLRC sont répliquées sur trois des cinq nœuds pour plus de fiabilité et d’intégrité. Si l’une de ces copies devient illisible, une nouvelle copie est créée par le système à partir des deux bonnes copies restantes. Le service OLRC comprend également l’accès à DuraCloud pour une gestion avancée de la préservation des paquets stockés dans l’OLRC. Pour plus d’information sur la sécurité de l’OLRC, consultez la Fiche d’information sur l’infrastructure technologique et la sécurité.
Pergélisol : un service de préservation numérique hébergé offert par Scholars Portal aux membres du Conseil des bibliothèques universitaires de l’Ontario (CBUO). Pergélisol associe Archivematica à l’OLRC pour fournir un accès à une infrastructure technique, un soutien technique et de la formation permettant aux membres du CBUO de traiter activement des objets numériques pour une préservation et un accès à long terme.
Les objectifs des activités de préservation d’UTL pour le dépôt Borealis sont de :
Utilisateurs : responsables du téléversement des fichiers de données et des métadonnées dans le dépôt Borealis, ainsi que de la visualisation et du téléchargement des fichiers de données et des métadonnées accessibles dans le dépôt. Les utilisatrices et utilisateurs doivent respecter les Conditions d’utilisation ainsi que toutes les politiques et procédures régissant leur utilisation du service, comme établi par les établissements participants.
Établissements participants : responsables de l’administration de l’utilisation de Borealis dans leur établissement. Les établissements souscrivent à Borealis via des ententes consortiales et se voient attribuer un espace de stockage et des droits administratifs permettant au personnel de gérer leur collection institutionnelle dans le dépôt Borealis. Les établissements sont responsables de la surveillance des données téléversées dans leur collection institutionnelle en établissant des politiques de collecte et des directives de dépôt, en administrant les comptes et les droits d’utilisation et en gérant les décisions de retrait et de droit d’auteur. Les établissements peuvent également valider la qualité et l’exhaustivité des données déposées au moyen d’activités de curation, y compris l’identification des formats de fichier préférés pour le dépôt ou le soutien au dépôt avec des conseils sur la conversion de formats de fichiers. Les établissements pour lesquels le contenu dans Borealis constitue une partie de leurs collections numériques institutionnelles peuvent également élaborer et mettre en œuvre des politiques et procédures de préservation supplémentaires pour leurs collections, sous-collections ou des ensembles de données sélectionnés dans Borealis.
Bibliothèques de l’Université de Toronto : responsables de la maintenance technique et de l’administration du logiciel et du service du dépôt Borealis. UTL garantit que l’application Dataverse est fonctionnelle, sécurisée et mise à jour. UTL maintient également l’infrastructure de stockage connectée pour les ensembles de données, assure la liaison avec les répondants institutionnels et met à la disposition des établissements participants des guides et des formations. UTL n’exerce aucun contrôle sur la qualité, l’exhaustivité ou le format des fichiers téléversés dans Borealis, mais aidera à identifier et à résoudre les problèmes de fixité en collaboration avec les établissements participants au fur et à mesure qu’ils surviennent.
Description : Le premier niveau de préservation combine deux grands ensembles d’activités : la préservation au niveau du bit grâce à une vérification régulière et indépendante de la fixité et un stockage sécurisé dans l’OLRC, et la maintenance des fonctionnalités de prise en charge de la préservation qui font partie de l’application Dataverse. Comme prestataire technique, UTL n’est pas directement responsable de la validation du contenu ou de la qualité des fichiers téléversés dans la plateforme. Ce niveau de préservation répond aux objectifs 1, 2 et 3, à savoir que les fichiers téléversés sont à l’abri de la perte et que des fonctions de préservation minimales sont exécutées comme préalable aux stratégies de préservation supplémentaires.
Portée : Tous les fichiers de données téléversés dans Borealis depuis un compte enregistré. Cela comprend les fichiers associés aux ensembles de données provisoires et en accès restreints ainsi que les différentes versions des fichiers téléversés. Cela ne comprend pas les fichiers générés par l’application Dataverse elle-même, par exemple les dérivés, les vignettes et les fichiers de métadonnées de citation.
Durée : UTL maintiendra les activités de préservation de niveau 1 tant qu’un établissement est abonné au service Borealis. Comme indiqué dans l’entente d’accès et de service signée entre l’Université de Toronto et les établissements participants, UTL s’engage à conserver les dépôts de données pendant 6 mois après la résiliation de l’entente. Cependant, UTL prendra en charge tous les processus d’exportation d’ensembles de données requis par les abonnés.
Activités :
Description : Ce niveau de préservation est destiné aux établissements participants qui nécessitent un traitement de préservation avancé ou l’exportation de paquets de préservation indépendants pour inclusion dans des collections numériques institutionnelles avec espace de stockage supplémentaire aux fins de préservation. Des fonctions de préservation avancées peuvent être exécutées lorsque Borealis est associé à l’outil de traitement de la préservation Archivematica. Archivematica peut créer des paquets de préservation indépendants d’ensembles de données dans n’importe quel dépôt Dataverse et son flux de travail comprend des fonctions supplémentaires telles que l’identification du format de fichier basée sur la signature, la validation du format de fichier, la caractérisation et la normalisation. Les paquets indépendants créés par Archivematica sont ensuite envoyés vers l’espace de stockage de préservation de votre choix. Alternativement, les établissements peuvent choisir de créer et d’accepter des exportations de paquets à partir de n’importe quelle application Dataverse au format BagIt. De l’information supplémentaire sur ces caractéristiques et fonctionnalités se retrouve ci-dessous et dans le Guide d’administration.
Portée : Les établissements participants sont chargés de déterminer quels ensembles de données doivent recevoir un traitement et une exportation supplémentaires. Toute personne responsable de l’administration, de la curation ou toute autre personne désignée dans les établissements participants peuvent sélectionner le contenu complet de leurs collections institutionnelles ou un sous-ensemble en fonction de critères d’évaluation et de sélection internes.
Activités :
Merci à l’ancien Groupe de travail sur les politiques de Dataverse Nord pour la création d’un cadre de politique initial pour Borealis qui a éclairé la structure et l’approche du présent document. Le rapport Préservation pour Dataverse au Canada : Recommandations fournit des exigences clés pour les stratégies de préservation décrites ci-dessus. D’autres sources d’inspiration ont été la Texas Digital Library Digital Preservation Policy et la Harvard Dataverse Preservation Policy.