Avantages des données ouvertes pour la santé publique

RMTC

Volume 45–10, le 3 octobre 2019 : Science Ouverte / Données Ouvertes

Éditorial

Tirer profit des données ouvertes en santé publique

P Huston1, VL Edge1, E Bernier1

Affiliation

1 Bureau du conseiller scientifique en chef, Agence de la santé publique du Canada, Ottawa, ON

Correspondance

victoria.edge@canada.ca

Citation proposée

Huston P, Edge VL, Bernier  E. Tirer profit des données ouvertes en santé publique. Relevé des maladies transmissibles au Canada 2019;45(10):277–82. https://doi.org/10.14745/ccdr.v45i10a01f

Mots-clés : accès libre, science ouverte, données ouvertes, science de la santé publique, mégadonnées

Résumé

Les données ouvertes font partie d'un vaste mouvement mondial qui non seulement fait progresser la science et la communication scientifique, mais transforme également la société moderne et la manière dont les décisions sont prises. Ce qui a commencé par un appel à la science ouverte et l’expansion des revues en ligne s'est étendu aux données ouvertes, en partant du principe que si les rapports sur les données sont ouverts, alors les données générées ou associées devraient l'être aussi. Le domaine des données ouvertes a connu un certain nombre de progrès au cours de la dernière décennie, en grande partie sous l'impulsion des gouvernements. L'un des avantages réels des données ouvertes, à part le fait que les bases de données individuelles peuvent être utilisées plus largement, est que ces données peuvent également être exploitées, partagées et combinées avec d'autres données. Les données ouvertes facilitent la collaboration scientifique, enrichissent la recherche et renforcent la capacité d'analyse pour éclairer les décisions. Dans les domaines de la santé humaine et environnementale, par exemple, la capacité d'accéder à diverses données et de les combiner peut optimiser la détection précoce des signaux, améliorer l'analyse et l'évaluation, aider à l'élaboration des programmes et des politiques, accroître la participation du public, favoriser la transparence et améliorer la reddition des comptes. Néanmoins, il reste des problèmes à résoudre. D'énormes ressources sont nécessaires pour que le virage technologique vers des bases de données ouvertes et interopérables soit accessible avec des protocoles et une terminologie communs. Parmi les producteurs et les utilisateurs de données, ce changement implique également un virage culturel : on passe du concept des bases de données comme une propriété intellectuelle restreinte à un concept des données comme un bien commun. Il est nécessaire de tenir compte des considérations juridiques et éthiques lors de ce virage. Enfin, parallèlement aux efforts visant à modifier l'infrastructure et à aborder les questions culturelles, juridiques et éthiques, il est important de partager l'information de façon équitable et efficace. Bien qu'il existe un grand potentiel de partage ouvert, ponctuel, équitable et simple des données, la pleine réalisation de la myriade d'avantages des données ouvertes dépendra de l'efficacité avec laquelle ces problèmes seront résolus.

Introduction

En juin 2013, le Canada et les autres pays du G8 ont adopté la Charte du G8 sur les données ouvertesNote de bas de page 1. Les données ouvertes font partie d'un vaste mouvement mondial qui non seulement fait progresser la science et la communication scientifique, mais transforme également la société moderne et la manière dont les décisions sont prises. Ce mouvement mondial est sans doute l'une des avancées les plus importantes de ce siècle en matière d'activités fondées sur des données probantes. Les données ouvertes ont été définies comme des « données structurées qui sont lisibles par machine, librement partagées, utilisées et réutilisées sans restriction »Note de bas de page 2. Les deux principaux critères pour les données ouvertes exigent qu'elles soient librement accessibles en ligne et dans un format permettant leur réutilisation.

Cet article présente un bref historique des données ouvertes et explore les avantages potentiels, les problèmes et l'état actuel des données ouvertes dans le domaine de la santé publique, en mettant l'accent surtout sur les maladies infectieuses.

Un peu d'histoire

L'ouverture et le partage des découvertes ont été au cœur de la science depuis que la méthode scientifique a été décrite pour la première fois par AristoteNote de bas de page 3. Toutefois, historiquement, ni les rapports scientifiques ni les données sur lesquelles ils étaient fondés n'ont été facilement accessibles. La recherche scientifique était publiée dans des revues dont l'accès exigeait des abonnements payants (ou était un avantage d’une adhésion payante à une association), et les bases de données étaient considérées comme la propriété privée et intellectuelle de ceux qui les avaient développées. Les bases de données étaient, et sont souvent encore, créées et stockées de différentes manières, analysées par différentes méthodes, et peuvent donc être très complexes à accéder.

Robert Merton, considéré comme le fondateur de la sociologie des sciences, a commencé à mettre an avant l'idée, dans les années 1970, que la recherche devrait être librement accessible à tous. Il a affirmé que l'une des « normes mertoniennes » dans l'éthique de la science moderne était que chaque chercheur doit contribuer au « pot commun » et renoncer aux droits de propriété intellectuelle pour permettre au savoir d'avancerNote de bas de page 4.

Le mouvement de la science ouverte a été rendu possible grâce à l'expansion des revues en ligne dans les années 1990, qui reflétait l'intention initiale de la science de favoriser la transparence et la collaboration dans la recherche et la communication scientifiqueNote de bas de page 5. Le mouvement de la science ouverte était motivé par le constat que la recherche était souvent payée avec des fonds publics et que, par conséquent, les contribuables ne devraient pas payer pour en avoir accès aux résultats. Cela s’est traduit par un large soutien et une demande de libre accès aux publications scientifiques et à la tendance actuelle, pour les auteurs et les revues, à adopter la licence Creative Commons qui permet aux usagers de lire et d'utiliser gratuitement les publications scientifiques avec l’attribution appropriéeNote de bas de page 6. Nous sommes toujours en pleine transition, ayant à la fois des revues en libre accès et des revues par abonnement.

Les partisans des aspects éthiques de la science ouverte sont allés plus loin en favorisant un accès plus général aux données générées ou collectées. Les données ouvertes reposent sur l'idée que non seulement les résultats et les rapports de recherche doivent être ouverts, mais aussi les données sous-jacentes qui les étayent. La lauréate du prix Nobel, Elinor Orstrom, a défini les données ouvertes comme étant un nouveau genre de « bien public ». L'idée est que, contrairement à d'autres genres de biens publics, l'utilisation des données ouvertes n'épuise pas le stock commun, mais l'enrichit potentiellementNote de bas de page 7.

Comme dans le cas des activités de science ouverte en général, la capacité à produire et à partager un énorme volume de données a rapidement pris de l’importance grâce aux énormes progrès réalisés dans les technologies et l’informatique. Nous sommes maintenant à une époque où le volume de données produites quotidiennement est stupéfiantNote de bas de page 8. Forcément, la demande en volume de stockage de données ne cesse de croître, parallèlement à l'évolution constante de nouveaux générateurs de données plus sophistiqués. Les plateformes numériques, les capteurs sans fil, les applications de réalité virtuelle et les milliards de téléphones mobiles offrent de plus en plus d’énormes volumes de donnéesNote de bas de page 9. La tendance vers les données ouvertes est un phénomène mondial, qui favorise les opportunités et les tendances innovantes en analyse de données, notamment les « mégadonnées », l'intelligence artificielle et l'apprentissage automatique. On demande de plus en plus que les données soient « ouvertes par défaut ». Par conséquent, les gouvernements proposent de plus en plus d'ensembles de données ouvertes sur leurs sites WebNote de bas de page 10Note de bas de page 11. Le désir, la demande et les attentes en matière de données ouvertes deviennent la nouvelle norme.

Le potentiel des données ouvertes pour la santé publique

On sait depuis longtemps que la surveillance de la santé de la population est l'un des piliers de la santé publique. Malgré cela, l'utilisation et le développement de nouvelles technologies pour recueillir, analyser et partager les données de surveillance se font attendre, ce qui nuit à l'efficacité de l’élaboration de politiques et de mesures en santé publiqueNote de bas de page 12. Les données ouvertes sont un moyen efficace de répondre au besoin de renforcer la surveillance de la santé publique.

Le Système de surveillance des facteurs de risque comportementaux (SSFRC) est un exemple précoce d'un système de surveillance de la santé publique renforcé par l'utilisation de données ouvertes. Développé pour la première fois dans 15 États des États-Unis en 1984, il est utilisé désormais dans tous les États et territoires des États-Unis. Les responsables de la santé publique ont utilisé le SSFRC pour surveiller les urgences en santé publique et y réagir en temps réel, par exemple pour élaborer des mesures d’intervention en santé publique contre les effets de l'ouragan Katrina en 2005 ou pour surveiller l'utilisation du vaccin contre la grippe H1N1 pendant la pandémie de grippe en 2009. Actuellement, les données du SSFRC sont intégrées dans le plan d'intervention d'urgence en cas de menaces à la santé publique liées à la sécheresseNote de bas de page 13. Son accès est complètement libre depuis 2014Note de bas de page 14.

Le Canada dispose également d'un certain nombre de bases de données en ligne, dont plusieurs sont gérées par l'Agence de la santé publique du Canada (ASPC). L'infobase de données sur la santé publiqueNote de bas de page 15, par exemple, offre des outils faciles à utiliser pour accéder et visualiser de données sur les maladies chroniques, la santé mentale, les facteurs de risque et de protection et les déterminants de la santé associés. En utilisant la fonction de recherche et en sélectionnant les critères dans les menus déroulants, les utilisateurs de l'Infobase de données sur la santé publique peuvent consulter des données provenant de différentes sources dans divers formats.

Dans ce numéro du Relevé des maladies transmissibles au Canada, Totten et coll. décrivent les mises à jour récentes du Système canadien de surveillance des maladies à déclaration obligatoire (SSMDN) et de son site Web interactifNote de bas de page 16. Fondé en 1924, le SSMDN est le fruit d'une collaboration fédérale-provinciale-territoriale qui fournit les données les plus récentes sur les principales maladies infectieuses au Canada. Au fil des ans, il a évolué pour inclure un site Web public interactif qui permet à quiconque de créer facilement des figures et des tableaux personnalisés pour plusieurs maladies et de tenir compte des tendances par âge, sexe et année. Actuellement, ces informations peuvent être exportées au format PDF ou Excel, mais il sera bientôt possible de télécharger les bases de données dans des logiciels statistiques.

PulseNet Canada (PNC), dirigé par le Laboratoire national de microbiologie (LNM) de l’ASPC, est un autre exemple. Ce système met en évidence le développement réussi d'une science analytique de pointe, qui permet une surveillance moléculaire en temps réel et la détection des épidémies de maladies d'origine alimentaire, telles que la salmonelle et la listeriaNote de bas de page 17. Le LNM utilise la technologie de séquençage du génome entier (SGE) pour la surveillance en laboratoire. L'ASPC est en train de publier toutes les données SGE sur les souches d’éclosions provenant du Canada, générées par PNC, dans la base de données en ligne GenBankNote de bas de page 18 du National Centre for Biotechnology Information. Ces efforts appuient les données ouvertes et facilitent le partage de données en temps réel avec les partenaires internationaux, provinciaux et fédéraux ainsi qu'avec l'industrie afin d'améliorer les enquêtes sur les éclosions, de mieux comprendre les modes de transmission des infections émergentes et de renforcer l'approche « Une seule santé » de la surveillance.

L’un des avantages de plus en plus évidents des données ouvertes, à part le fait qu’une base de données peut être utilisée plus largement, est que ces données peuvent être exploitées, partagées et combinées avec d'autres ensembles de données. Cela crée de nouvelles possibilités de collaboration et de partenariats scientifiques. Par exemple, les données de surveillance d'une maladie sexuellement transmissible ont été associées au nombre de visites aux messages de santé publique sur les sites de réseaux sociaux pour évaluer l'efficacité de la lutte contre les éclosions de maladies infectieusesNote de bas de page 19. Des données satellitaires ouvertes sur les indicateurs météorologiques et environnementaux ont été utilisées pour aider à prévoir les risques accrus d'inondations, d'incendies et de phénomènes météorologiques extrêmes afin de déclencher et de guider les efforts d'atténuationNote de bas de page 20.

Certains des nombreux avantages potentiels des données ouvertes pour la santé publique sont résumés dans l'encadré ci-dessous.

Encadré : Résumé des avantages potentiels des données ouvertes pour la santé publique

  • Accroît les possibilités de collaboration et de partenariats scientifiques
  • Enrichit la capacité de recherche et d'analyse
  • Améliore la détection précoce des menaces pour la santé et l'environnement
  • Améliore l'analyse des options et la surveillance de l’intervention en temps réel
  • Guide les interventions et les décisions stratégiques
  • Améliore la capacité d'évaluation et les indicateurs de rendement
  • Augmente la possibilité de participation du public
  • Favorise la transparence et améliore la reddition des comptes

Les problèmes des données ouvertes

Les possibilités offertes par les données ouvertes sont vastes et prometteuses, mais de nombreux problèmes doivent être résolus pour en tirer réellement parti. On peut les regrouper en trois domaines clés : réaliser le virage technologique; réaliser le virage social et culturel qui inclut non seulement les normes sociales, mais aussi les questions juridiques et éthiques; et éviter les pièges.

Réaliser le virage technologique

Les données ouvertes nécessitent des ressources importantes pour mettre en place des bases de données à usage public et combinables. Une infrastructure technologique appropriée est nécessaire, notamment des logiciels, des ordinateurs de grande capacité et des solutions en nuage pour stocker et analyser de grands volumes de données. Les données ouvertes exigent également des normes claires pour assurer la transparence en ce qui concerne la source, la manière dont les données sont générées et leurs limites, ainsi que pour assurer l’évaluation des données combinables. Enfin, une formation est nécessaire pour développer différents types d'expertise en systèmes et en analyse. Certaines bases de données, comme le SSMDN, peuvent facilement générer des graphiques et des tendances assez simples. Cependant, avec l'utilisation de bases de données plus complexes, la combinaison de bases de données ou l'utilisation de grands volumes de données, l'analyse est devenue plus sophistiquée et cela nécessite le développement de capacités analytiques.

Réaliser le virage social et culturel

Bien que l'appel aux données ouvertes ait commencé comme un mouvement populaire, on hésite encore à rendre certaines bases de données disponibles gratuitement. Tout le monde ne veut pas ou ne peut pas partager ses données. Le développement d'excellentes bases de données exige beaucoup de temps, de travail, de ressources et de compétences. Si les gens partagent leurs bases de données créées avec des efforts importants, obtiendront-ils une reconnaissance appropriée? Il doit y avoir une certaine motivation à passer du temps à développer une base de données sans craindre que son utilisation ne permette qu'à d'autres d'obtenir le crédit pour l'analyse et la publication de ces données. Il y a aussi la crainte légitime que des données ouvertes puissent être utilisées de façon inappropriée, si l'objectif pour lequel les données ont été recueillies et les limites des données ne sont pas bien compris.

L'hésitation à partager les données est aussi souvent liée à des questions juridiques et éthiques. À qui appartiennent ces données? Existe-t-il un soutien législatif pour le partage des données? La protection de la vie privée et de la confidentialité suscite des préoccupations, surtout en ce qui concerne les bases de données sur les soins de santé et la santé publique. On reconnaît que l'appel à l'ouverture et à la transparence doit être tempéré par la nécessité de respecter la vie privée et la confidentialité. En règle générale, des protocoles rigoureux sont en place pour garantir la non-identifiabilité, mais que faire si cela n'est pas fait correctement ou si les efforts pour assurer la confidentialité peuvent être contournés? Cette incertitude souligne la nécessité d’avoir des normes et des politiques claires.

L'équité est un sujet de préoccupation. Sans l'infrastructure ou l'expertise nécessaires pour accéder aux données et les utiliser, sont-elles vraiment ouvertes à tous? Cela soulève également un certain nombre de questions. Quelles sont la nature et l'étendue des données recueillies? Quels sont les intérêts mis en avant? Ces aspects et d'autres concernant l'équité seront explorés au cours de la Semaine internationale du libre accès de cette année, dont le thème est « Ouvert à qui? L'équité dans le savoir ouvert »Note de bas de page 21. L'équité fait l'objet d'initiatives internationales, telles que les partenariats pour un gouvernement ouvert, qui aident à soutenir les scientifiques et d'autres gouvernements moins nantis en ressourcesNote de bas de page 22.

Éviter les pièges

Le mouvement pour des données ouvertes présente deux pièges évidents à gérer. Le premier est la nécessité d'un langage, de définitions, de principes et d'outils communs - une compréhension commune de la gestion des données et des pratiques exemplaires pour les ententes de partage des données. Cette approche commune est particulièrement importante dans les situations où plusieurs disciplines sont concernées, où les hypothèses, les méthodologies et les pratiques sont souvent différentes et où des termes identiques ou similaires peuvent avoir des sens différents.

Deuxièmement, compte tenu de l'importance accordée à l'infrastructure, à la gestion et à la capacité d'analyse, il faut veiller à ce que des efforts soient déployés pour communiquer efficacement les résultats de la recherche axée sur les données. La croissance sans précédent de la création de données nous incite à recueillir plus de données qu’il nous est possible d’analyser d'une manière compréhensible. Pour que l'utilisation de l’analyse des données ouvertes soit optimale, il est nécessaire de trouver des moyens de présenter les données de manière à ce qu'elles soient à la fois succinctes et compréhensibles. Avec le volume croissant de données disponibles, elles sont souvent combinées dans différentes disciplines, ce qui exige une plus grande créativité pour leur synthèse, non seulement par des tableaux et des figures, mais aussi par des résumés visuels, des infographies, des tableaux de bord, etc.

Discussion

Les données ouvertes représentent un énorme changement fondamental dans notre façon de mener des recherches, de prendre des décisions, d'élaborer des stratégies et d'évaluer nos interventions. Le public s'attend de plus en plus à ce que les chercheurs et les gouvernements montrent et partagent les données et l'information générées par les fonds publics. Rendre les données ouvertes et accessibles présente des avantages intéressants. Mais les problèmes à résoudre pour y parvenir sont considérables et ne doivent pas être sous-estimés.

Alors, où en sommes-nous pour ce qui est de résoudre ces problèmes et de tirer parti des avantages des données ouvertes en santé publique? En ce qui concerne le virage technologique, il y a eu beaucoup de progrès, mais la technologie et l'infrastructure appropriées sont encore en cours d'élaboration à tous les paliers de gouvernement. Certains domaines de la science de la santé publique, comme la bio-informatique, ont une grande avance quant aux activités actuelles et à la planification future des technologies et des infrastructures. D'autres domaines sont moins bien développés. Par ailleurs, le virage socioculturel est toujours en cours et plusieurs hésitent encore à partager leurs données.

Pour répondre aux préoccupations concernant les obligations juridiques et contractuelles, il faudra apporter des modifications législatives prudentes et réfléchies dans certains domaines. Par exemple, un plan fédéral récent visant à promouvoir l’ouverture des données a montré la nécessité de mettre à jour la Loi sur la statistiqueNote de bas de page 23. Dans le domaine de la santé publique, en particulier, des travaux sont en cours pour trouver un équilibre entre les données ouvertes et les limites réglementaires, et pour répondre aux préoccupations en matière de protection de la vie privée et de confidentialité. Éviter les nombreux pièges potentiels, développer un langage commun et appliquer les pratiques exemplaires en matière de partage de données : nous n’en sommes qu’aux débuts. Au Canada, l'Entente multilatérale sur l’échange de renseignements (EMER) deviendra probablement un document historique qui définit les pratiques exemplaires en matière d'échange d'information sur la surveillance de la santé publique entre les gouvernements fédéral, provinciaux et territoriaux; toutefois, les détails de cette entente sont toujours en cours d'élaborationNote de bas de page 24. Par exemple, l’EMER comprend l’attribution appropriée, une caractéristique de la licence Creative Commons, mais qui n'a pas été une caractéristique répandue des données ouvertes. L’EMER comprend également des mesures de protection visant à promouvoir et à assurer une utilisation appropriée des données. Ces caractéristiques ont grandement contribué à rassurer les créateurs des bases de données que leurs travaux seront reconnus et utilisés de manière appropriée.

Pour ce qui est de la communication efficace des résultats, beaucoup de progrès ont été réalisés depuis les débuts, lorsque les ensembles de données étaient simplement placés sur Internet sans aucune explication. Si, depuis toujours, la nécessité de rendre les communications scientifiques accessibles est une nécessité, elle est devenue encore plus pressante avec la révolution des données en cours. Nous devons trouver d'autres moyens de résumer les données et de rendre les messages clés toujours plus succincts et mémorables.

Les données ouvertes étant encore en plein développement dans le domaine de la santé publique, quelles sont les prochaines étapes? Lorsque l'on considère l'augmentation de la demande de données ouvertes par rapport aux ressources limitées, il est nécessaire de mieux comprendre la nature, l’ampleur, et l'utilisation des données ouvertes. Des données de santé publique de qualité, fiables et librement accessibles seraient utiles aux étudiants et aux chercheurs (du premier cycle au niveau postdoctoral), aux gouvernements fédéral, provinciaux et territoriaux, aux organismes sans but lucratif, aux professionnels de la santé et de la santé publique, ainsi qu'aux journalistes. L'idée de « bien public » dérivée des données ouvertes est intéressante en principe, mais est-elle réellement utilisée et dans quelle mesure? Il serait également intéressant d'évaluer si un meilleur accès aux données sur la santé accroît l'engagement en matière de santé personnelle et publique. De plus, les projets novateurs qui demandent le soutien et la participation du public à la création ou à l'analyse de données ouvertes, par des activités comme l’externalisation ouverteNote de bas de page 25 ou les marathons de programmationNote de bas de page 26, pourraient étendre le champ d’application et les ressources de santé publique.

Conclusion

Les technologies et la science continueront de contribuer à la production explosive de données. Les possibilités que ces données créent ont captivé l'imagination du monde scientifique. La tendance mondiale à adopter la science ouverte et les données ouvertes reflète le désir inhérent de nombreux intervenants de travailler en collaboration pour aborder des questions complexes, en reconnaissant les avantages de perspectives multiples, l'optimisation des ressources, l'avancement des méthodologies de recherche et les avantages de données solides et ponctuelles pour éclairer les décisions prises dans plusieurs domaines. Le domaine de la santé publique a commencé à récolter les nombreux avantages escomptés de l'ouverture et de la transparence des données, et les travaux se poursuivent pour résoudre les problèmes importants liés à la transition réussie vers cette « nouvelle normalité ». Restez à l’écoute.

Déclaration des auteurs

Tous les auteurs ont conceptuellement développé le manuscrit ensemble. P. H. en a rédigé la première version, V. L. E. et E. B. ont contribué aux ébauches subséquentes et tous ont approuvé la version finale. P. Huston était rédactrice en chef du Relevé des maladies transmissibles au Canada au moment de la rédaction du présent document, mais elle s'est récusée de toutes les décisions rédactionnelles concernant le manuscrit. M. Deilgat, le nouveau rédacteur en chef a pris les décisions éditoriales concernant le manuscrit.

Conflit d'intérêt

Aucun.

Licence Creative Commons
Cette œuvre est mise à disposition selon les termes de la Licence Creative Commons Attribution 4.0 International

Détails de la page

Date de modification :