Fiche d’information sur l’infrastructure technologique et la sécurité de Borealis

Présentation

Borealis, le dépôt Dataverse canadien, est un dépôt de données de recherche numériques ouvert aux membres des universités et institutions de recherche participantes au Canada, avec une infrastructure fournie par les Bibliothèques de l’Université de Toronto (UTL) en Ontario, Canada. UTL s’engage à maintenir un environnement de technologie de l’information (TI) qui protège de manière appropriée la disponibilité, la confidentialité, la protection et l’intégrité de tout le contenu et des renseignements personnels. La fiche d’information sur l’infrastructure technologique et la sécurité de Borealis contient de l’information générale, y compris sur l’infrastructure technologique, la sécurité de l’application, de stockage et la sauvegarde.

Renseignements généraux

Comptes utilisateurs et accès

Tout membre du public peut rechercher, visualiser et télécharger des données sans restriction d’accès, sans compte utilisateur.

La création d’un compte utilisateur est obligatoire pour visualiser et télécharger des données en accès restreint.

La création d’un compte utilisateur affilié à un établissement participant est obligatoire pour créer des collections et des ensembles de données et pour téléverser des données et des métadonnées.

Toute personne sans affiliation institutionnelle peut créer un compte standard sur le service. Les personnes ayant une affiliation institutionnelle peuvent créer un compte standard ou créer un compte institutionnel si leur établissement s’est inscrit au profil d’entité d’aide à la recherche et aux études (R&S) par l’intermédiaire de la Fédération canadienne d’accès (FAC), un service de gestion d’identité pour les établissements de recherche au Canada géré par CANARIE. Les comptes institutionnels utilisent l’architecture de connexion Shibboleth (authentification unique).

Ententes avec les établissements participants

UTL a conclu des ententes avec des consortiums régionaux de bibliothèques universitaires et d’autres institutions de recherche pour fournir Borealis en tant que service à plus de 50 établissements postsecondaires participants au Canada.

Les établissements participants :

  • reçoivent un espace de stockage initial (entre 1 To et 10 To, selon l’entente avec l’établissement), sous la forme d’une collection institutionnelle, avec la possibilité d’augmenter cet espace au besoin;
  • disposent d’un accès administratif à leur collection institutionnelle, ce qui permet au personnel de soutien désigné de visualiser et de gérer toutes les collections et tous les ensembles de données au sein de leur collection institutionnelle;
  • adoptent, maintiennent et appliquent des politiques et des procédures liées à leur collection institutionnelle et aux données qu’elle contient; et
  • reçoivent du soutien technique de Borealis.

UTL s’engage à fournir tous les services décrits dans l’entente de services avec chaque établissement participant jusqu’à un maximum de six (6) mois après la résiliation de l’entente.

Analytiques d’utilisation

La plateforme d’analytique web ouverte Matomo permet de suivre et d’analyser le trafic sur le site web. Un tableau de bord détaillé à restriction IP est disponible pour le personnel de Borealis, qui fournit de l’information en temps réel et longitudinale concernant le trafic vers les sites web du fournisseur de services. Les données analytiques de Matomo sont stockées sur des serveurs locaux et ne sont partagées avec aucun tiers.

En plus du tableau de bord, Matomo génère un rapport d’analytique mensuel qui comprend le détail des visites sur la page web principale, ainsi que des visites sur la page de métriques, l’outil de curation de données et l’explorateur de données.

En plus des données d’analytiques d’utilisation fournies par Matomo, un rapport de métriques peut être consulté par toute personne utilisant le service. Le rapport de métriques inclut le nombre de téléchargements par mois, le nombre d’ensembles de données dans les 15 principales collections, la taille des 15 principales collections, la distribution des types de fichiers téléchargés et la distribution des catégories de sujets utilisées pour décrire des ensembles de données. Ces mesures peuvent être consultées pour l’ensemble du service, ou par chaque collection et peuvent être téléchargées dans une feuille de calcul pour une analyse plus approfondie.

Pour plus d’information sur la manière dont les renseignements personnels sont collectés, stockés et éliminés, veuillez vous reporter à l’énoncé sur la protection des renseignements personnels.

Moissonnage de métadonnées

Toutes les métadonnées associées aux collections et aux ensembles de données publiés peuvent être moissonnées par d’autres dépôts numériques et moteurs de recherche, conformément aux conditions d’utilisation. La plateforme Dataverse prend en charge les API ouvertes et le protocole OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting), qui permet aux collections et ensembles de données publiés d’être moissonnés par d’autres systèmes et dépôts numériques aux fins de découverte des données à l’échelle internationale.

Les métadonnées de Borealis sont régulièrement repérées et republiées par le Dépôt fédéré des données de recherche (DFDR), le moteur de recherche d’ensembles de données de Google, DataCite, le Data Citation Index de Clarivate, Mendeley Data et Harvard Dataverse.

Borealis travaille également avec le Shared Access Research Ecosystem (SHARE) pour intégrer des ensembles de données publics dans des services ouverts de découverte sur le web. Le système de notification SHARE est une initiative basée sur l’enseignement supérieur qui renforce l’effort d’identification, de découverte et de suivi des résultats de la recherche.

Infrastructure technique

Le logiciel Dataverse de Borealis est hébergé par UTL et utilise une suite de technologies, notamment :

  • Systèmes d’exploitation Linux CentOS et Ubuntu
  • Serveur d’application Payara
  • PostgreSQL pour la base de données d’application
  • Environnement d’exécution Java et langage de code d’application
  • Solr pour l’indexation
  • Serveur SMTP pour l’envoi de courriels pour les réinitialisations de mot de passe et autres notifications
  • Service d’identifiant persistant : prise en charge du DOI et du handle
  • Shibboleth pour l’authentification des comptes utilisateurs, connecté à la Fédération canadienne d’accès (CAF)
  • Stockage d’objets Openstack Swift avec émulation S3 d’Amazon Web Services pour tous les stockages de données Dataverse (OLRC)
  • Chef, Jenkins et Ansible pour l’installation et le déploiement
  • Machines virtuelles KVM Qemu fonctionnant sur des serveurs Dell r730xd avec disques SSD
  • HAProxy pour l’équilibrage de charge et serveur web Apache
  • Nagios, pile ELK, Grafana, Munin et PHP Server Monitor pour surveiller les services et la santé des serveurs et analyser les journaux
  • Outils intégrés :
    • R pour ingérer des fichiers .RData sous forme de données tabulaires et exporter des données tabulaires sous forme de fichiers .RData
    • ImageMagick pour générer des vignettes
    • JHOVE pour l’identification du format de fichier
    • Intégration de Dropbox pour le téléchargement de fichiers à partir de l’API Dropbox
    • jq pour l’analyse de la sortie JSON utilisée par le script d’installation
  • Outils externes pour l’exploration, l’analyse et la curation des données sur la plateforme publique :
    • Outil Metrics pour les métriques des collections et ensembles de données
    • Prévisualisateur de fichiers pour afficher certains types de fichiers directement dans le navigateur web
    • Explorateur de données pour répertorier les variables dans un fichier tabulaire et rechercher, créer un graphique et effectuer une analyse de tabulation croisée
    • Outil de curation des données pour afficher des statistiques récapitulatives pour les variables et pour créer et modifier les métadonnées de niveau variable dans des fichiers tabulaires.

À propos du développement de Dataverse et surveillance

Le logiciel Dataverse est pris en charge et développé par l’Institute for Quantitative Social Science (IQSS) de l’Université de Harvard. Une équipe dédiée soutient le développement continu de l’application, ainsi que le soutien des développeurs de la communauté, des experts en curation et préservation des données et des utilisatrices et utilisateurs.

Les nouvelles versions du logiciel Dataverse sont continues. Le développement du logiciel est régi par une feuille de route stratégique incluant et intégrant les commentaires des membres de la communauté.

La version actuelle du logiciel Dataverse de Borealis se trouve dans le coin inférieur droit de chaque page de la plateforme. Des renseignements spécifiques sur la version actuelle de Dataverse sont disponibles sur GitHub.

Normes du logiciel Dataverse

Borealis utilise une variété de normes largement utilisées dans la communauté pour l’exportation de métadonnées :

  • Dublin Core
  • DDI (Data Documentation Initiative Codebook 2.5)
  • DDI HTML Codebook (une version HTML plus lisible par l’humain de l’exportation de métadonnées DDI Codebook 2.5, ajoutée dans Logiciel Dataverse version 4.16)
  • DataCite 4
  • OAI-ORE (ajouté dans le logiciel Dataverse version 4.11)
  • OpenAIRE (ajouté dans le logiciel Dataverse version 4.14)
  • Schema.org JSON-LD (ajouté dans le logiciel Dataverse version 4.8.4)

Normes supplémentaires pour les fonctionnalités et les données de l’application accès/dépôt utilisées :

  • OAI-PMH pour le moissonnage afin d’améliorer la découverte des données à l’échelle internationale
  • API SWORD pour le dépôt de données à partir d’autres applications
  • Prise en charge des fichiers WC3 Provenance JSON (ajouté dans la version 4.9 du logiciel Dataverse)
  • Une suite robuste et bien documentée d’API pour interagir avec l’application et la gérer
  • Possibilité d’exporter des sacs OAI-ORE conformes à RDA (ajouté dans la version 4.11 du logiciel Dataverse)

Sécurité de l’application

Toutes les installations Dataverse respectent les normes définies dans les sections Sécuriser votre installation et Ports réseau du guide d’installation de Dataverse, traitant entre autres de la sécurité de l’application. Ces pages incluent de la documentation sur la sécurisation des terminaux Solr et API, le forçage du protocole HTTPS et l’utilisation de serveurs mandataires, le tout pour garantir que l’application est correctement protégée contre les menaces externes. Le personnel de Borealis agit rapidement lorsqu’il reçoit des avis de sécurité Dataverse de l’IQSS.

L’installation de Borealis du logiciel Dataverse est située sur des serveurs à l’Université de Toronto. Les centres de données de l’Université de Toronto respectent à la fois la Politique sur les technologies de l’information et la Politique sur la sécurité de l’information et la protection des actifs numériques.

Tous les actifs numériques de l’Université de Toronto doivent respecter la norme de sécurité de l’information, qui fournit un ensemble de contrôles de base et de normes minimales pour la sécurité de l’information à l’Université. Ces normes sont approuvées par le Conseil de sécurité de l’information de l’Université et sont alignées sur le National Institute of Standards and Technology (NIST) 800-171 pour la protection des données. Ces normes comprennent également un plan de réponse en cas d’incident de sécurité.

Le service de sécurité de l’information et d’architecture d’entreprise de l’Université de Toronto, conformément à la politique sur les actifs numériques, a également élaboré une procédure pour signaler un incident ou un évènement de sécurité de l’information et un ensemble de lignes directrices pour la communauté de l’Université de Toronto afin d’atténuer les risques associés à sécurité de l’information. Ces lignes directrices comprennent des recommandations et des exigences pour la protection des centres de données à l’Université de Toronto.

Authentification des comptes utilisateurs

Borealis a des méthodes d’authentification à distance et locales activées.

  • L’authentification à distance utilise des protocoles d’authentification gérés via l’architecture d’authentification unique Shibboleth par l’intermédiaire de la Fédération canadienne d’accès (FAC), un service de gestion d’identité pour les établissements de recherche canadiens géré par CANARIE. L’authentification à distance est activée pour les utilisatrices et utilisateurs si l’établissement est inscrit à la catégorie d’entité R&S.
  • Pour les comptes d’authentification locaux, les mots de passe sont stockés sous forme de hachages salés et utilisent des algorithmes de hachage. Ils utilisent également des exigences de mot de passe fort (ajoutées dans la version 4.8 du logiciel Dataverse).

Signalement des problèmes de sécurité

Pour communiquer les problèmes liés à la sécurité concernant Borealis, informez le fournisseur de services.

Stockage et sauvegarde

À propos de l’Ontario Library Research Cloud

L’Ontario Library Research Cloud (OLRC) est une collaboration entre les bibliothèques universitaires de l’Ontario, par l’intermédiaire du Conseil des bibliothèques universitaires de l’Ontario (CBUO), pour créer un réseau informatique et de stockage à grande capacité réparti géographiquement en utilisant des technologies d’infonuagique ouvertes, éprouvées et évolutives.

Vous trouverez plus d’information sur le matériel et les logiciels de l’OLRC dans le guide d’utilisation de l’OLRC. À tout moment, toutes les données contenues dans Borealis sont stockées sur au moins trois (3) des cinq (5) nœuds de l’OLRC pour assurer un accès continu et une récupération efficace des données en raison de problèmes techniques, de catastrophes naturelles ou d’autres évènements dommageables.

Accès à l’OLRC

Les données stockées dans l’OLRC ne sont accessibles que par des adresses IP spécifiques et désignées. Seul le personnel d’administration des systèmes a un accès direct aux données de Borealis stockées dans l’OLRC.

L’OLRC utilise ORION (le réseau de recherche de l’enseignement supérieur de l’Ontario) et GTANet (le réseau communautaire de la recherche, de l’éducation, de la santé et du secteur public dans la région du Grand Toronto) pour connecter les cinq (5) nœuds de stockage au moyen d’un réseau privé virtuel. L’accès à l’OLRC est contrôlé par des serveurs mandataires situés à l’Université de Toronto, via ORION. Toutes les connexions au serveur mandataire utilisent le protocole SSL, sont authentifiées et sont limitées aux adresses IP autorisées.

Propriété des données

La propriété des données dans l’OLRC suit les mêmes conditions d’utilisation que Borealis. En d’autres termes, alors que les données publiées dans Borealis sont stockées sur l’OLRC, elles demeurent la propriété des personnes qui les ont publiées, conformément aux conditions de licence fournies.

Centres de données de l’OLRC

L’OLRC compte cinq (5) nœuds de stockage de données à l’Université York, à l’Université de Guelph, à l’Université Queen’s, à l’Université d’Ottawa et à l’Université de Toronto. Chacune de ces universités a mis en place son nœud OLRC dans l’un de ses centres de données institutionnels existants. La sécurité associée à chaque centre de données est basée sur les meilleures pratiques et les politiques informatiques créées et appliquées par les établissements hôtes. Chaque centre de données dispose également de systèmes d’alimentation et de refroidissement redondants pour éviter la perte ou l’endommagement des données en raison de problèmes d’alimentation électrique.

Sécurité des centres de données

Au minimum, chaque centre de données n’est accessible, au moyen d’une carte-clé sécurisée, qu’au personnel de soutien institutionnel informatique qualifié et approuvé. Chaque centre de données a également mis en place des protocoles de sécurité habituels tels que des pare-feu pour limiter le trafic entrant et sortant vers des ports spécifiques et vers/depuis des domaines spécifiques. Toutes les données stockées sur l’OLRC, y compris toutes les données de Borealis, sont chiffrées au repos.

Les données stockées sur l’OLRC sont contenues dans un VLAN privé qui connecte les nœuds configurés (c’est-à-dire les cinq (5) établissements actuels). Le VLAN est exploité par ORION et lui seul peut ajouter ou supprimer l’accès au réseau privé sous la direction de l’équipe d’administration système.

Maintenance et mises à jour de sécurité

L’équipe d’administration système maintient à jour tous les logiciels et systèmes d’exploitation de l’OLRC et actualise régulièrement le matériel. Elle reçoit des alertes régulières concernant les menaces de sécurité critiques et applique les correctifs dès que possible. Toutes les mises à jour logicielles sont testées dans un environnement de développement avant d’être déployées dans l’environnement de production.

Sauvegardes des données

Toutes les données stockées dans Borealis sont synchronisées sur un disque NSF (Network File System) chaque nuit. À partir de cet emplacement, toutes les données sont envoyées au stockage sur bande Tivoli Storage Manager (TSM) du centre de données de l’Université de Toronto. La politique de sauvegarde TSM stipule que :

  • jusqu’à 9 versions de chaque fichier sont stockées jusqu’à 30 jours;
  • si un fichier est supprimé, la dernière version est stockée jusqu’à 60 jours; et
  • deux copies de la sauvegarde sur bande sont conservées sur site et une copie est conservée hors site.

Pour plus d’information sur les stratégies et les activités de préservation des données, veuillez consulter le plan de préservation de Borealis.

Publié le 23 juin 2022