Survol des données ouvertes et liées
Cette ressource donne un aperçu des avantages qu’offrent l’ouverture et la sémantisation des données, ainsi que des défis que cela comporte. Elle décrit aussi les obstacles que pourraient avoir à surmonter les institutions qui s’engagent dans ce processus.
Sur cette page
- Liste des abréviations
- Données ouvertes et liées : une courte introduction
- Données ouvertes liées pour les institutions culturelles
- Bibliographie sommaire
Liste des abréviations
- .CSV : Valeurs séparées par des virgules
- .JSON : Notation objet issue de JavaScript
- API : Interface de programmation d’application
- CIDOC CRM : Modèle conceptuel de référence du Comité international sur la documentation du Conseil international des musées
- DOL : Données ouvertes et liées
- RCIP : Réseau canadien d’information sur le patrimoine
- RDF : Resource Description Framework
- SPARQL : SPARQL Protocol and RDF Query Language
- URI : Identificateur de ressource uniforme
Données ouvertes et liées : une courte introduction
Les méthodologies de données ouvertes et liées (DOL) constituent une approche de plus en plus préconisée par le monde patrimonial afin de structurer, de diffuser, d’échanger et d’utiliser les données muséales. Cette approche repose sur deux principes essentiels :
- les données doivent être accessibles sous licence ouverte (c’est-à-dire avec le moins possible de restrictions légales entravant leur réutilisation par de tierces parties) ;
- les données doivent être liées entre elles sur la base de standards communs et prédéfinis (modèles et vocabulaires).
En somme, les DOL sont des informations partagées sous licence ouverte (avec plus ou moins de restrictions) connectées entre elles grâce à des principes et technologies définis par le World Wide Web Consortium (Identificateur de ressource uniforme (URI), Resource Description Framework (RDF), point d’entrée SPARQL Protocol and RDF Query Language (SPARQL), etc.). L’usage de vocabulaires communs afin de catégoriser et d’identifier adéquatement les données constituant ces contenus, de pair avec des modèles de données standardisés, permet d’accroître les possibilités d’utilisation de diverses applications informatiques. Celles-ci peuvent ainsi analyser, interpréter, réutiliser et contextualiser ces mêmes informations de manière croisée, même si elles sont initialement issues de sources différentes. Ainsi, l’information détenue par plusieurs établissements au sujet d’un même élément peut être fédérée et utilisée aisément et au bénéfice de tous, ce qui favorise l’émergence de nouvelles connaissances interinstitutionnelles.
Ceci permet de réduire le travail entourant plusieurs facettes de la gestion numérique des collections en mobilisant l’expertise et les mises à jour faites par d’autres équipes dont l’autorité est établie.
L’utilisation des DOL permet ainsi de répartir le fardeau de la gestion des données en :
- facilitant la recherche pour les praticiens ;
- favorisant une documentation ouverte et enrichie des contenus patrimoniaux ;
- contribuant à la présentation et à la mise en valeur des contenus par les professionnels patrimoniaux, par les chercheurs et par le public.
Plusieurs ressources externes peuvent être consultées au sein de notre bibliothèque Zotero (interface en anglais seulement).
Données ouvertes liées pour les institutions culturelles
Le Réseau canadien d’information sur le patrimoine (RCIP) travaille actuellement à la création d’un modèle destiné aux collections canadiennes d’artefacts. Son volet consacré aux personnes et aux groupes est en cours d’élaboration et sera testé prochainement. Le volet Objets de ce modèle pour les collections est conçu de manière à pouvoir s’aligner sur le modèle de linked.art (en anglais seulement) pour les institutions artistiques.
Si, en tant qu’institution, vous désirez sémantiser vos données, le RCIP sera heureux de collaborer avec vous à ce sujet et de vous conseiller du mieux qu’il le peut. De manière générale, vous devriez prendre en considération les principaux éléments suivants :
- Utilisation de licences ouvertes pour vos données : vous pouvez choisir les données qui seront accessibles, et différentes licences peuvent être appliquées à différentes données (bien qu’une licence ouverte soit toujours préférable dans le cas des DOL). Par exemple, vous pouvez décider de rendre accessibles sous forme de DOL toutes les informations relatives à un objet sans fournir l’image de cet objet.
- Nettoyage de vos données : les données désordonnées sont des données publiables qui ne seront pas aussi précises sémantiquement. Il existe des outils pour semi-automatiser ce processus de nettoyage (OpenRefine et l’extension du Getty, par exemple). Le RCIP peut vous conseiller à ce sujet, si nécessaire. Gardez à l’esprit que si vous souhaitez publier des DOL riches, le processus de nettoyage des données doit être intégré à un modèle sémantique adapté à vos besoins. Cela dépendra en grande partie de la valeur sémantique que vous souhaitez atteindre.
- L’élaboration d’un modèle sémantique pour le secteur du patrimoine culturel est le plus souvent basée sur le Modèle conceptuel de référence du Comité international sur la documentation du Conseil international des musées (CIDOC CRM), et ce sera le cas avec le modèle du RCIP. La façon la plus simple pour une institution de sémantiser ses données est d’utiliser un modèle préexistant plutôt que de créer son propre modèle. Vous êtes invités à utiliser le modèle du RCIP dès qu’il sera disponible; si vous souhaitez utiliser le modèle linked.art, le RCIP se fera un plaisir de vous mettre en contact avec les personnes concernées.
- La publication de données sémantisées et enrichies ne les rend pas consultables pour autant. Par conséquent, si vous souhaitez mettre les données à la disposition du public en ligne, l’élaboration d’interfaces est la prochaine étape importante d’une stratégie de données numériques pour votre institution. Dans la plupart des cas, le modèle que vous utilisez ou élaborez ne doit pas être déterminé par les affichages visuels (interfaces) que vous avez prévus. Il doit plutôt être sélectionné ou élaboré en fonction de vos besoins et de vos cas d’usage (comme des questions des experts d’un domaine spécifique qui pourraient éventuellement devenir des requêtes).
Vous trouverez ci-dessous une liste des avantages et des défis que nous avons identifiés dans le cadre de notre recherche. Gardez à l’esprit que de nombreux défis peuvent être atténués par l’utilisation d’une approche stratégique.
Avantages
Les DOL offrent un certain nombre d’avantages, notamment en ce qui concerne l’accessibilité et la visibilité en ligne. Les DOL sont un ensemble d’outils et de principes dont les institutions patrimoniales peuvent tirer profit, car elles peuvent :
- Augmenter le taux de découvrabilité :
- Des institutions et de leurs collections;
- Des artefacts et des acteurs (personnes et groupes) représentés dans le jeu de données;
- De toute personne qui contribue ouvertement.
- Favoriser des données plus nuancées (en ligne et hors ligne) :
- En générant de nouvelles connaissances;
- En créant de nouveaux résultats que les auteurs et les propriétaires originaux des données ne recherchaient pas initialement;
- En révélant des erreurs qui auraient pu passer inaperçues.
- Contribuer à une meilleure connaissance et à une compréhension accrue des données :
- En aidant à disséminer plus rapidement et plus largement de nouvelles idées qui, à leur tour, déclenchent de nouvelles études et génèrent de nouvelles connaissances;
- En diffusant ces connaissances grâce à leur réutilisation et à leur publication, de manière à ce qu’elles puissent être utilisées immédiatement dans l’enseignement;
- En permettant aux groupes de défense des citoyens et aux chercheurs d’analyser les données et de produire ainsi de l’information nouvelle et de meilleure qualité.
- Diminuer les ressources financières et humaines nécessaires aux tâches quotidiennes :
- En répartissant la maintenance des données à travers le réseau lorsqu’il s’agit de rechercher, de rassembler et de présenter des données sur le patrimoine;
- En limitant le risque d’utiliser des métadonnées qui ne sont plus à jour.
- Offrir des possibilités de mobiliser les parties prenantes ainsi que les citoyens :
- Les chercheurs et les universitaires pourraient être intéressés par les microdonnées;
- Les décideurs et le public pourraient être intéressés par les agrégats de plus haut niveau;
- L’information est accessible pour un plus grand nombre de personnes, y compris des gens qui n’auraient autrement pas accès aux institutions et à leurs bases de données, entre autres;
- Les citoyens et les autres personnes peuvent se familiariser avec les collections. Cela permet aux musées d’avoir une portée et un impact sur la société beaucoup plus grands, notamment en tant que contributeurs à une société ouverte, bien informée et créative. Il s’agit d’un avantage important, étant donné que le public exige de plus en plus de transparence de la part des musées;
- Les institutions peuvent elles-mêmes utiliser les jeux de données pour mobiliser davantage leur propre public.
- Normaliser les données, ce qui :
- Diminue le risque de perte de données à la suite de conversions multiples;
- Permet la manipulation et l’analyse des données, et les rend ainsi plus facilement utilisables et visualisables;
- Rend l’information sur le patrimoine plus accessible aux moteurs de recherche.
- Encourager le développement socioéconomique :
- En adoptant des principes de transparence et de responsabilité lorsqu’il s’agit de mobiliser le public;
- En donnant aux organisations à but lucratif et sans but lucratif un accès étendu aux données les plus récentes afin qu’elles puissent les réutiliser et s’appuyer ensuite sur celles-ci;
- En offrant une meilleure documentation et de meilleures statistiques lors de demandes de financement privé ou public (ou lors de l’évaluation de telles propositions de la part d’organismes publics).
Les institutions qui entrent dans le domaine du libre accès le font généralement pour les raisons suivantes :
- Le coût élevé de la gestion des droits et des autorisations pour les œuvres d’art soumises à des droits d’auteur est comparable ou supérieur à celui du paiement des droits pour ces œuvres (bien que cela dépende fortement de la collection);
- En raison de la culture du remixage sur Internet, c’est maintenant un aspect que le public attend des musées;
- Les principes de libre accès sont considérés comme une nécessité pour l’accomplissement des mandats que se donnent les organisations au XXIe siècle;
- Le libre accès favorise la mobilisation de la communauté et élargit la portée et le potentiel de croissance des collections en ligne.
Défis
- C’est l’utilisation du catalogue de données par des personnes qui lui donne sa valeur; celle-ci repose davantage sur la mobilisation des utilisateurs que sur la disponibilité des données :
- Les utilisateurs doivent être en mesure de découvrir les données auxquelles ils s’attendent et être outillés pour les utiliser;
- Un travail rigoureux pourrait perdre sa valeur parce qu’il est plus long à produire et qu’il faut beaucoup plus de ressources pour le promouvoir qu’un contenu « bruyant » (comme une grande controverse ou une discussion sur un contenu non ciblé).
- Le passage aux DOL suppose un changement de paradigme lorsqu’il s’agit d’évaluer et de commenter les données :
- Ce changement exige d’acquérir une nouvelle expertise ou de créer des réseaux de conseillers qui connaissent bien les DOL;
- Les institutions craignent souvent de perdre leur capacité à vendre des images, et ainsi, de se priver de revenus importants et de compromettre leur indépendance financière (les revenus générés par les images sont toutefois généralement minimes, surtout au Canada, où le marché est relativement restreint; en outre, il est possible d’ouvrir seulement certaines données et d’exclure les images, si nécessaire);
- Les personnes considérées comme ayant une autorité et des connaissances sur l’information (par opposition aux données, qui restent strictement sous la responsabilité de leur institution hôte) peuvent changer à mesure que de nouveaux renseignements sont générés;
- La décentralisation de l’information suppose de soumettre les données à l’examen du public et de remettre en question l’autorité des institutions, en particulier dans le cas de données contradictoires ou problématiques pour des jeux de données de nature délicate.
- Le catalogue doit être conçu en fonction du profil des futurs utilisateurs, ce qui peut impliquer :
- Une réévaluation des besoins de la communauté à la suite d’un changement dans le paysage de la gestion des données (où les utilisateurs des données ne seront plus uniquement des catalogueurs);
- La nécessité de non seulement structurer et classer les données, mais aussi de les organiser de manière sensée et cohérente (en effet, non seulement l’information doit être récupérable, mais il faut également que son chemin d’accès et que son emplacement dans la structure aient du sens);
- Un processus transparent de production de données et de contribution aux données où les utilisateurs s’attendent à avoir accès à de l’information originale, à pouvoir examiner l’information et à disposer d’un moyen de la manipuler eux-mêmes.
- Il existe un risque que les utilisateurs interprètent ou présentent les données de façon erronée, que ce soit de manière délibérée ou par manque de compréhension :
- Cela pourrait générer des débats intenses sans qu’une autorité unique puisse établir qui est bien informé et qui ne l’est pas. Cependant, l’inverse est également vrai, car l’ouverture des données les expose à l’examen d’un ensemble plus large d’experts dont l’institution hôte n’avait peut-être pas connaissance;
- Tout le monde doit pouvoir utiliser, réutiliser et redistribuer les données facilement, mais des dispositions permettant de communiquer avec les contributeurs de données (à tous les stades, à savoir la production, le stockage et la distribution) doivent également être proposées aux utilisateurs.
- L’ouverture des données n’est généralement pas une priorité pour les parties prenantes :
- Le maintien, le nettoyage et l’ouverture des données peuvent nécessiter beaucoup de ressources;
- Les institutions craignent de s’exposer à des critiques en cas de jeux de données problématiques, incomplets ou inexacts;
- La conversion d’un jeu de données existant en un portail de DOL peut être une tâche intimidante, d’autant plus que les technologies de l’information et les systèmes de gestion ont été créés sans tenir compte d’une utilisation publique ou des groupes qui sont maintenant susceptibles de mobiliser les données.
Lignes directrices sur la faisabilité
Dans une entrevue avec Jason Bailey, Neal Stimler a suggéré qu’on adopte le processus suivant pour procéder à l’ouverture des données (Bailey, 2019 : 1-2) :
- Effectuer une évaluation approfondie des droits en utilisant des ressources pertinentes telles que (plusieurs sources sont en anglais seulement) :
- Consulter un conseiller juridique agréé.
- Créer des outils pour fournir un accès libre-service à grande échelle aux données et aux ensembles de biens numériques. Ces outils prennent généralement les formes suivantes :
- Une collection d’un musée sur un site Web;
- Une interface de programmation d’application (API) publique;
- Un dépôt de données disponible sur GitHub aux formats « valeurs séparées par des virgules » (.CSV) et « notation objet issue de JavaScript » (.JSON). Les données offertes doivent être assujetties aux mêmes autorisations et cadres juridiques que les ensembles d’images associées. L’API est destinée aux développeurs d’applications et aux partenaires, tandis que les données en format .CSV et .JSON sont principalement destinées aux chercheurs et aux universitaires.
- Veiller à ce que le contenu en libre accès soit hébergé en partenariat avec des plateformes d’agrégation essentielles telles que Wikidata, Wikimedia Commons et Internet Archive.
- Veiller à ce que les décisions soient évaluées et prises en tenant compte des considérations culturelles et éthiques du libre accès, en collaboration avec les communautés concernées et les universitaires.
- Constituer un groupe de travail ou une équipe de projet à l’interne dans les secteurs pertinents de l’organisation. Ce groupe est généralement dirigé par un chef de projet responsable de la vision du projet qui a un pouvoir de décision définitif. Il est fortement recommandé d’établir des partenariats avec des organisations alliées engagées auprès des utilisateurs d’une institution et travaillant directement avec Creative Commons pour mettre en œuvre des pratiques exemplaires.
Pour plus d’information sur les DOL, incluant un aperçu des pratiques exemplaires quant à la publication des DOL, veuillez consulter les documents de travail du RCIP à ce sujet (Plusieurs sources sont en anglais seulement).
Bibliographie sommaire
(Plusieurs sources sont en anglais seulement)
Bailey, Jason. 2019. « Solving Art’s Data Problem - Part One, Museums ». Artnome (blog). 29 avril 2019. https://www.artnome.com/news/2019/4/29/solving-arts-data-problem-part-one-museums.
Data, Open Art. 2018. « Museums: Interactive Map with Wikidata ». Open Data Art (blog). 16 décembre 2018.
Edson, Michael Peter. 2019. « Wikimania 2019 Keynote Address ». Keynote présenté à Wikimania 2019, Stockholm, SE, avril 29.
Goldman, Kathryn. 2018. « Open Access Images of Public Domain Work ». Creative Law Center (blog). 2018.
Hyland, Bernadette, Ghislain A. Atemezing, et Boris Villazón-Terrazas. 2014. « Best Practices for Publishing Linked Data ». W3C Working Group Note. 9 janvier 2014.
Kela, Riitta. 2019. « Opening Collections as Open Data: Challenges and Possibilities ». Dans Documenting Culture: A Culture of Documentation. International Council of Museums (ICOM). Tokyo, JP.
McCarthy, Douglas. 2019. « Licensing Policy and Practice in Open Glam ». Medium, 30 mai 2019.
Oomen, Johan, Enno Meijers, et Wilbert Helmus. 2016. « Network Digital Heritage: Towards A Distributed Network of Heritage Information ». International Conference on Digital Preservation (IPRES). Amsterdam, NL: Dutch Digital Heritage Network.
Open GLAM. 2020. « Declaration on Open Access for Cultural Heritage ». 21 janvier 2020.
Open Knowledge Foundation. 2012. « Resources ». OpenGLAM. 27 novembre 2012.
Openness: Politics, Practices, Poetics. 2017. Living Archives (format PDF). Malmö, SE: Malmö University.
Sanderhoff, Merete, éd. 2014. Sharing Is Caring: Openness and Sharing in The Cultural Heritage Sector. Traduit par Néné La Beet et René Lauritsen. Copenhagen, DK: Statens Museum for Kunst.
Schrier, Bill. 2014. « Government Open Data: Benefits, Strategies, and Use ». The Evans School Review, Alumni Perspective, 4 (1): 12-27.
Stimler, Neal, et Louise Rawlinson. 2019. « Where Are The Edit and Upload Buttons? Dynamic Futures for Museum Collections Online ». Dans MuseWeb. Boston, MA: MuseWeb 2019.
Stinson, Alex. 2018. « Wikidata in Collections: Building a Universal Language for Connecting GLAM Catalogs ». Medium (blog). 9 avril 2018.
Vathana, Anly, et Dev Pramil Audsin. 2013. « An Open Analysis on Open Data (format PDF) ». Submission paper. Dans Open Data on the Web, 4. London, GB: W3C.
Wallace, Andrea. 2017. « Access and the Digital Surrogate: Openness as a Philosophy ». Présenté à National Digital Forum, Wellington, NZ, novembre 27.
Détails de la page
- Date de modification :