Données polaires: Les grands défis d’un paradigme en transformation
Auteure : Ann Balasubramaniam
Contexte
Nos régions polaires changent rapidement et les gouvernements, les entreprises et le public canadien s’y intéressent de plus en plus, de sorte qu’il est essentiel de disposer d’un accès accru et opportun aux données polaires, afin que les décisions puissent se prendre en toute connaissance de cause. Il faut des changements et de déceler les enjeux ou problèmes existants ou naissants découlant des stresseurs environnementaux, politiques et socioéconomiques. Puisqu’un vaste éventail de personnes et de groupes peuvent bénéficier de l’accès aux données polaires de base (c.-à-d. responsable de l’élaboration des politiques, industrie, chercheurs et collectivités ou organisations nordiques), on songe de plus en plus à créer une infrastructure permettant de mieux gérer les données polaires, d’en garantir l’interexploitabilité et la diffusion conformément aux politiques sur les données ouvertes et l’accès ouvert. Malgré les progrès technologiques récents dans le partage en ligne et la découverte de données, les politiques, les protocoles et l’infrastructure de conservation et de communication publique des données polaires, qui en facilitent l’utilisation, l’interprétation et la vérification, sont encore en phase de consolidation et de mise au point.
Les nombreux projets de recherche de l’Année polaire internationale 2007-2008 (AP) ont permis de réunir, grâce au travail d’une multitude de chercheurs de par le monde, une masse de données sur nos régions polaires. Pour sauvegarder cet héritage, on a établi des portails Internet de données ou les a élargis pour accepter et publier des métadonnées (descriptions écrites d’ensembles de données), stocker les ensembles de données dans des formats standards et offrir une interface utilisable pour y avoir accès1. Ainsi, le Polar Data Catalogue (PDC, https://www.polardata.ca), dépôt Internet canadien de données polaires, fonctionne en partenariat avec des organismes et programmes fédéraux (Pêches et Océans Canada, Environnement Canada, Ressources naturelles Canada et Affaires autochtones et Développement du Nord Canada) et divers réseaux (Circumpolar Biodiversity Monitoring Programme, le Centre d’études nordiques de l’Université Laval et la Veille mondiale de la cryosphère de l’Organisation météorologique mondiale) afin de faciliter l’accès aux données polaires, de publier les métadonnées, de gérer les volumes importants de données et d’afficher les ensembles de données pour usage public2. Malgré l’existence de ces dépôts de données et le fait que, pendant de nombreuses années, la collectivité scientifique circumpolaire se soit trouvée à l’avant-plan du partage et de la gestion des données, il demeure nombre de problèmes qui nuisent à la facilité d’utilisation et au succès des portails de données polaires et freinent l’accès aux données polaires.
Défis:
- Silos des portails de données et besoin d’interexploitabilité
- Politiques de données normalisées et nécessité de partenariats
- Paradigmes de propriété des données : qui est « propriétaire » des données subventionnées publiquement
Il existe plus d’une douzaine de grands portails de données polaires en service au Canada et des douzaines d’autres à l’étranger. Subventionnés et gérés de façon indépendante, ils ont été mis au point individuellement pour combler des niches importantes dans leurs réseaux de recherches spécialisées. Et de nombreux portails existent en tant que centres indépendants de données, qui n’ont que peu d’échanges, ou aucun, avec les autres. En 2015, le PDC a consulté au-delà de 200 personnes, notamment des chercheurs, des résidants du Nord, des gestionnaires de données et des scientifiques fonctionnaires et constaté que, pour la majorité, les répondants souhaitaient un meilleur accès aux données polaires en facilitant l’interexploitabilité entre portails de données4. Les portails de données doivent lier leurs enregistrements de métadonnées afin que les utilisateurs puissent faire une recherche sur les données disponibles peu importe le portail de données à partir duquel ils effectuent leurs interrogations. Afin de faciliter ce niveau de coordination entre les portails de données, il faut recourir à des métadonnées et formats de données normalisés, mettre au point et en place des politiques de partage des données et consacrer des ressources supplémentaires à l’infrastructure, au temps du personnel et à la formation des utilisateurs1,2,3.
Par l’adoption de pratiques exemplaires de gestion des données, on veille à ce que, avant que les données soient présentées à un portail, elles passent par un mécanisme d’assurance-qualité et correspondent à un format de données que le portail peut absorber. L’adoption de normes internationales fixant le format des données et des métadonnées favorise un meilleur accès aux données et à l’information2. Pour parvenir à l’interexploitabilité entre portails de données, il faut établir des partenariats, des ententes officielles sur les formats des métadonnées et des archives de données et les procédures de communication de l’information. Jusqu’à maintenant, PDC a établi des partenariats avec plus de 15 portails de données polaires au Canada et à l’étranger et mène des essais de synchronisation des formats de métadonnées et du partage des enregistrements de métadonnées4. Parmi les partenaires de PDC, mentionnons le Northwest Territories Discovery Portal, le Centre de recherche du Yukon, le Centre de données arctiques de l’institut météorologique de Norvège, le British Antarctic Survey et le National Snow and Ice Data Center des États-Unis2. De plus, PDC a partagé ses métadonnées avec le dépôt émergent de données d’Environnement Canada4. Ces efforts visant à établir des liens entre les portails existants et à construire un réseau de partage sont des pas en avant importants pour créer une plateforme favorisant une véritable accessibilité des données polaires.
Avant qu’il puisse y avoir vraiment ouverte et partage des données polaires, des pourparlers s’imposent pour discuter d’ententes de licence de données (afin de protéger les sujets humains et éviter que la communication de données empiète sur certains droits), de même que des droits des chercheurs à conserver des enregistrements de données5. Puisqu’une bonne part de la recherche polaire dépend des subventions gouvernementales et des partenariats publics, on s’attend qu’il serait subséquemment tout naturel et éthique, pour les chercheurs polaires, que les données soient offertes de façon ouverte1. Par contre, le partage des données est souvent compliqué par les droits de propriété intellectuelle et la nécessité, pour le chercheur, de prouver sa productivité en publiant dans les revues à comité de lecture. De nombreux scientifiques estiment qu’ils devraient avoir le droit de « détenir » les données en exclusivité jusqu’à leur publication pour que leurs longues heures de travail soient reconnues5. Pour régler cette question, les portails de données offrent ce qui suit : i) conférer aux données déposées un identificateur numérique stable permettant aux utilisateurs des données de reconnaître officiellement les créateurs de ces données, lorsqu’elles sont réutilisées dans des publications, et ii) faire équipe avec des périodiques de données se spécialisant dans les journaux de données à comité de lecture afin de produire un identifiant officiel d’objet numérique (DOI) attribué à l’ensemble de données6. L’efficacité des efforts déployés pour faire en sorte que les données puissent être citées et convaincre les scientifiques de verser leurs données dans les dépôts dépendra de la mesure dans laquelle les citations fondées sur les données seront intégrées dans les critères mesurant la productivité d’un chercheur5,6. De plus, il serait plus facile aux chercheurs de déposer les données si le partage des données est favorisé par les exigences des organismes subventionnaires et s’il existe des protocoles clairs de distribution des données exclusives et des politiques non ambigües de partage des données4,5. Dans la collectivité de la recherche polaire, les ensembles de données sont de plus en plus considérés comme des héritages tout aussi précieux que les articles dans les revues à comité de lecture. Ainsi, des discussions s’imposent pour résoudre les droits sur les données, la valeur de la publication des données et la valeur de la citation des données réutilisées.
Les données polaires, comme toutes les autres données, sont à l’aube d’un changement technologique qui transforme le point d’accès, antérieurement limité aux publications professionnelles, rapports de thèse et disques durs de réseaux isolés. L’Internet permet aux gestionnaires des données polaires de créer des plateformes d’accès sur le Web et cette perspective prometteuse remet en question les paradigmes actuels de gestion et de partage des données. Il faut des solutions aux multiples difficultés, notamment celles énoncées précédemment, pour faire en sorte que l’archivage des données rattrape le retard par rapport à la technologie disponible et propulse l’utilisation des données polaires dans le domaine public. Il sera beaucoup question de ces enjeux au deuxième forum international sur les données polaires dont le thème est : International Collaboration for Advancing Polar Data Access and Preservation (http://www.polar-data-forum.org). Le forum aura lieu du 27 au 29 octobre 2015 à Waterloo (Ontario), au Canada, et réunira un éventail international de gestionnaires des données polaires, de chercheurs, d’étudiants et de scientifiques en début de carrière dans le domaine polaire, de gens du Nord et de représentants d’organismes gouvernementaux pour accélérer les progrès dans la gestion des données polaires par l’établissement de mesures claires visant les problèmes cibles4. Compte tenu de la directive actuelle du gouvernement du Canada concernant les données ouvertes, et dont l’objet est que les données soient « implicitement ouvertes » afin de répondre aux attentes des citoyens et de l’industrie, les discussions visant à mieux gérer les données polaires sont particulièrement pertinentes. Moyennant un appui suffisant, les portails canadiens de données polaires, par exemple le PDC, ont la possibilité de créer l’infrastructure nécessaire pour gérer les données ouvertes.
Bibliographie:
1) Communiqué « Polar Data Activities in Global Data Systems: Recommendations and Observations Arising From the ‘International Polar Data Forum.’ » [Page consultée le 20 août 2015 à l’adresse : https://www.icsu-wds.org/events/files/international-polar-data-forum-communique.pdf]2) Friddell J.E., E.F. LeDrew et W.F. Vincent (2014). The Polar Data Catalogue: Best Practices For Sharing and Archiving Canada’s Polar Data. Data Science Journal. 13:1 – 7.
3) Friddell J.E., E.F. LeDrew et W.F. Vincent (2014). The Polar Data Catalogue: Data Management for Polar and Cryospheric Sciences. 70th Eastern Snow Conference. Huntsville (Ontario).
4) Friddell J.E. (2015), Communication personnelle.
5) Parsons, M., Ø. Godøy, E. LeDrew, T. Bruin, B. Danis, S. Tomlinson et D. Carlson (2011). A conceptual framework for managing very diverse data for complex, interdisciplinary science. Journal of Information Science 37-6: 555-569.
6) Kratz J.E., C. Strasser (2015). Researcher Perspectives on Publication and Peer Review of Data. PLoS ONE 10(2): e0117619. doi:10.1371/journal.pone.0117619