Un cadre éthique lors de l’utilisation d’applications d’intelligence artificielle

RMTC

Volume 46–6, le 4 juin 2020 : Intelligence artificielle en santé publique

Aperçu

Un appel à un cadre éthique lors de l’utilisation des données des médias sociaux pour des applications d’intelligence artificielle dans la recherche en santé publique

Jean-Philippe Gilbert1, Victoria Ng2, Jingcheng Niu3, Erin E. Rees2

Affiliations

1 Université Laval, Québec, QC

2 Agence de la santé publique du Canada, Ottawa, ON

3 University of Toronto, Toronto, ON

Correspondance

jean-philippe.gilbert.5@ulaval.ca

Citation proposée

Gilbert J-P, Ng V, Niu J, Rees EE. Un appel à un cadre éthique lors de l’utilisation des données des médias sociaux pour des applications d’intelligence artificielle dans la recherche en santé publique. Relevé des maladies transmissibles au Canada 2020;46(6):191–6. https://doi.org/10.14745/ccdr.v46i06a03f

Mots-clés : éthique, recherche éthique, médias sociaux, intelligence artificielle

Résumé

Les progrès de l’intelligence artificielle (IA), plus précisément du sous-domaine de l’apprentissage automatique, et ses applications aux données Internet de source ouverte, telles que les médias sociaux, progressent plus rapidement que la gestion des questions éthiques liées à leur utilisation dans la société. Un cadre éthique aide les scientifiques et les décideurs politiques à considérer l’éthique dans leurs domaines de pratique, à légitimer leur travail et à protéger les membres du public générateur de données. Une question centrale pour faire avancer le cadre éthique est de savoir si les gazouillis, les publications Facebook et autres données de médias sociaux de source ouverte générées par le public représentent ou non de données humaines. Le présent document a pour but de mettre en évidence les problèmes éthiques auxquels le secteur de la santé publique sera ou est déjà confronté lors de l’utilisation des données des médias sociaux dans la pratique. Les problèmes comprennent le consentement éclairé, la confidentialité, l’anonymisation et la recherche d’un équilibre entre ces problèmes et les avantages de l’utilisation des données des médias sociaux pour le bien commun. Les cadres éthiques actuels doivent fournir des orientations pour permettre de résoudre les problèmes découlant de l’utilisation des données issues des médias sociaux dans le secteur de la santé publique. Des discussions dans ce domaine devraient avoir lieu, alors que l’application des données de source ouverte est encore relativement nouvelle, et suivre la cadence, car d’autres problèmes découlent de l’évolution technologique en cours.

Introduction

Les progrès technologiques rapides de l’intelligence artificielle (IA), et plus particulièrement du traitement du langage naturel (TLN) utilisant des techniques d’apprentissage automatique, permettent un accès et une utilisation faciles des données massives de source ouverte. Le TLN permet aux ordinateurs d’analyser des ensembles de données du discours en langage naturel (c’est-à-dire, un texte non structuré pour une analyse quantitative).

En santé publique, l’épidémiologie numérique est devenue un nouveau domaine qui se concentre sur l’utilisation de données du secteur de la santé non public telles que les données Internet de source ouverte (e.g. Google Trends, les médias) et les données des réseaux sociaux (e.g. Twitter et Facebook), alors que l’épidémiologie traditionnelle utilise les données collectées à des fins de soins de santé, telles que la déclaration des maladies à déclaration obligatoire par les professionnels de la santé, pour contribuer aux données de surveillance des cas de maladie.

Les chercheurs et les décideurs reconnaissent le potentiel des données épidémiologiques numériques pour améliorer l’alerte précoce des menaces pour la santé publiqueNote de bas de page 1Note de bas de page 2Note de bas de page 3. Odlum et YoonNote de bas de page 4 ont utilisé le TLN pour évaluer les données de Twitter et ont indiqué que les gazouillis liés à Ebola ont augmenté dans les jours précédant l’alerte officielle de l’épidémie d’Ebola de 2014 en Afrique. Yousefinaghani et coll.Note de bas de page 5 ont montré que 75 % des notifications d’épidémie de grippe aviaire en temps réel étaient repérables sur Twitter; un tiers des notifications d’épidémie ont été signalées sur Twitter plus tôt que les rapports officiels. Ces observations soutiennent l’utilisation de volumes de données Twitter pour prédire la survenue d’épidémies, de même que pour prévoir le nombre de cas prévus. Cela a également été démontré avec les données de Google TrendsNote de bas de page 1Note de bas de page 6. En outre, le peaufinement des données des médias sociaux par une répartition en diverses catégories pertinentes à la maladie, en utilisant le TLN pour classer les gazouillis en types de symptômes (e.g. fièvre, vomissements), ou en concentrant l’analyse sur des termes de recherche spécifiques de Google Trends, contribue à augmenter la précision des prévisions d’occurrence d’épidémie et des estimations des prévisions.

La recherche qui utilise des données de participants humains nécessite une approbation éthique. Un processus d’examen mené par un organisme gouvernemental ou un comité universitaire indépendant des chercheurs permet d’évaluer si l’utilisation de ces données garantit la sécurité, la dignité et les droits des participants. Les chercheurs doivent démontrer au comité d’éthique de la recherche (CER) que leur étude minimise les préjudices aux participants et respecte leur autonomie, génère et maximise les avantages (e.g. pour la société, la science, les participants) et qu’ils agissent avec intégrité, équité et transparence pour tous les intervenants (e.g. les participants, les bénéficiaires de la recherche). Cependant, dans le cadre d’un examen systématique de l’utilisation de Twitter pour la recherche en santé, seulement 32 % des études ont obtenu l’approbation éthiqueNote de bas de page 7.

Il s’agit d’un exemple de technologie évoluant plus rapidement que la politique, dans la mesure où la disponibilité de nouvelles sources de données, telles que celles des médias sociaux, a dépassé la nécessité d’évaluer l’éthique de leur utilisation. Cela a donné lieu à des études comportant des démarches éthiques douteuses, ce qui entache tous les domaines qui utilisent des données massives. Un exemple est l’étude « Tastes, Ties, and Time » en 2007, où les chercheurs ont publié un ensemble de données anonymisé d’un groupe d’étudiants universitaires et métadonnées contenant des renseignements sur l’ensemble de données; l’ensemble de données était identifiable à partir de métadonnéesNote de bas de page 8. De même, en 2012, des preuves de contagion émotionnelle en ligne ont été recherchées, sans consentement préalable, en manipulant le flux de nouvelles Facebook de milliers de personnes pour voir si cela modifiait les sentiments dans les publications de ces personnesNote de bas de page 9.

Dans cet article, nous explorons les problèmes liés aux cadres éthiques traditionnels en relation avec la recherche fondée sur l’IA, en particulier dans le domaine de la santé publique et de l’épidémiologie numérique. Nous présentons ensuite des cadres éthiques qui permettent aux scientifiques et aux décideurs politiques d’utiliser les données des médias sociaux et leurs applications.

Éthique contemporaine

Dans la science contemporaine, les chercheurs ont besoin d’une approbation éthique pour pouvoir utiliser des données humaines. Ce critère est le principal problème de la recherche fondée sur les données massives. Il soulève une question apparemment simple : Un message ou un gazouillis représente-t-il des données humaines ou des données textuelles?Note de bas de page 10. Plusieurs questions et points de vue découlent de cette question et donnent lieu à un débat nécessaire étant donné que la popularité de l’utilisation des données issues des médias sociaux augmente dans plusieurs domaines scientifiques, y compris l’épidémiologie numérique.

Actuellement, les études qui utilisent les données des médias sociaux sont généralement perçues comme n’entrant pas dans le cadre de l’évaluation des comités d’éthique, car ces données ne sont généralement pas considérées comme des données humainesNote de bas de page 11Note de bas de page 12. De nombreux chercheurs, décideurs et praticiens supposent qu’ils peuvent utiliser des données de source ouverte, par exemple, des gazouillis, des messages publics sur Facebook, des photos publiques sur Instagram et des questions Google Trends, dont l’accès n’exige pas de mot de passeNote de bas de page 8Note de bas de page 13. Cependant, pour de nombreux utilisateurs des médias sociaux, publier publiquement ne revient pas à donner leur consentement pour que le message soit utilisé à des fins de rechercheNote de bas de page 8Note de bas de page 11Note de bas de page 12. Cette question n’est pas couverte par les mécanismes d’examen éthique existantsNote de bas de page 14.

De plus, la facilité d’accès aux données des réseaux sociaux (en l’absence de règles éthiques et en utilisant la capture rapide de données à l’aide de l’IA) signifie que le nombre de points de données est souvent beaucoup plus important que dans les ensembles de données épidémiologiques traditionnels. Par conséquent, les décisions concernant l’utilisation et les répercussions des données des médias sociaux peuvent potentiellement affecter plus de personnesNote de bas de page 14. Par exemple, le nombre de personnes réidentifiées par accident ou par malveillance dans une base de données Twitter n’est limité que par les ressources utilisées pour compiler et analyser la base de données, ce qui est bien inférieur aux systèmes de surveillance traditionnelsNote de bas de page 14.

Consentement éclairé

Le consentement éclairé, tel qu’il existe dans l’éthique contemporaine, est mal adapté aux données des médias sociaux. Premièrement, il est presque impossible d’obtenir le consentement éclairé des personnes dont les données contribuent à l’épidémiologie numérique, car les ressources sont souvent insuffisantes pour contacter un nombre aussi élevé de personnes, lesquelles peuvent vivre n’importe Note de bas de page 15.

Deuxièmement, pour obtenir un consentement éclairé, les scientifiques doivent confirmer l’identité des utilisateurs des médias sociauxNote de bas de page 16. Il n’y a aucun moyen de s’assurer que la personne qui se cache derrière le profil de médias sociaux est bien celle qu’elle prétend être ou de confirmer si le message sur les réseaux sociaux n’a pas été généré par un agent numérique (c.-à-d. un « robot » responsable de messages sur les réseaux sociaux générés par ordinateur). En raison de cette complication, certains chercheurs considèrent que le consentement aux conditions et modalités de service d’une plateforme de médias sociaux, que les utilisateurs doivent donner pour utiliser la plateforme, est un substitut au consentement éclairéNote de bas de page 16. Cependant, les utilisateurs ne lisent souvent pas les conditions et modalités de service ou ne les comprennent pas bienNote de bas de page 17Note de bas de page 18Note de bas de page 19; celles-ci ne stipulent pas non plus les conditions dans lesquelles les données seront utilisées pour la recherche, ce qui remet en question la légitimité et l’intégrité de l’utilisation des conditions et modalités de service comme substitut d’un consentement éclairé. De nombreux « participants » à l’épidémiologie numérique ne savent pas que leurs données ont été collectées ou utiliséesNote de bas de page 20.

Problèmes de confidentialité et d’anonymisation

Nous dépendons de plus en plus de la technologie pour structurer et analyser les données qui prolifèrent dans nos sociétés numériques. L’exploration de données aide les chercheurs à trouver des patrons de données complexes et peu intuitifs. Cependant, les méthodes d’exploration de données peuvent également révéler des renseignements confidentiels à partir de données de médias sociaux apparemment inoffensives, par exemple, des affiliations politiquesNote de bas de page 12Note de bas de page 21. De plus, Wang et coll.Note de bas de page 22 ont déclaré être en mesure de déterminer l’orientation sexuelle des personnes en traitant des photos de personnes tirées d’un site de rencontres.

Un ensemble de données anonymisé est l’exigence minimale pour protéger l’identité des sujets en sciences socialesNote de bas de page 23 ou en épidémiologie traditionnelleNote de bas de page 20. Selon la Règle commune, également connue sous le nom de « 45 CFR 46 Subpart A », le principal règlement pour la recherche humaine du Department of Health and Human Services des États-UnisNote de bas de page 24, 17 identificateurs doivent être supprimés pour considérer un ensemble de données anonymisé. Il s’agit notamment du nom, du lieu de résidence, de toutes les dates à l’exception de l’année et des identifiants biométriquesNote de bas de page 25. Les Instituts de recherche en santé du Canada (IRSC), le Conseil de recherches en sciences naturelles et en génie du Canada (CRSNG) et le Conseil de recherches en sciences humaines du Canada (CRSH) précisent des identifiants similairesNote de bas de page 26. Cependant, la suppression des 17 identificateurs que préconise la Règle commune ne suffit souvent pas à garantir l’anonymisation d’un ensemble de données. En effet, les données des médias sociaux sont très complexes (c.-à-d. qu’elles ont une grande dimensionnalité). De nombreux attributs non traditionnels peuvent permettre l’identification, comme la ré-identification par l’évaluation de la structure des réseaux sociaux (c.-à-d. les connexions humaines) à partir de multiples plateformes de médias sociauxNote de bas de page 15Note de bas de page 27. Les progrès liés aux algorithmes d’IA et à la puissance de calcul pour extraire des informations et évaluer les modèles signifient qu’il n’est plus possible d’avoir des bases de données anonymesNote de bas de page 28Note de bas de page 29. De nombreux exemples dans la littérature scientifique démontrent ce problème en réidentifiant un ensemble de données anonymisé, puis publiéNote de bas de page 12Note de bas de page 21.

Le bien commun

Le bien commun prend ses racines dans la vision utilitariste de l’éthique. Dans cette vision, le bien commun que la recherche peut générer est considéré par rapport au préjudice potentiel pour les personnes. Un certain niveau de préjudice peut être toléré s’il en résulte une « moralité positive ». Dans le contexte des médias sociaux, le préjudice est principalement une atteinte à la vie privéeNote de bas de page 30. Les gens sont plus disposés à sacrifier leur droit à la vie privée s’ils estiment que l’utilisation de leurs données bénéficiera au bien communNote de bas de page 31Note de bas de page 32. Pour les utilisateurs de médias sociaux les plus enthousiastes dans l’étude de Mikal et coll.Note de bas de page 31, [traduction] « c’est cool quand c’est des choses […] comme la grippe, parce que c’est ainsi que [les décideurs en santé publique] savent comment acheminer les vaccins. » De même, pour les utilisateurs des médias sociaux de l’étude de Golder et coll.Note de bas de page 32, cela [traduction] « pourrait donner une voix aux patients et à d’autres groupes, permettre de découvrir les vrais problèmes actuels et d’améliorer les soins aux patients ». Les facteurs qui influencent la disposition des personnes à partager leurs données pour le bien commun comprennent le type de recherche et les affiliations des chercheurs (c.-à-d. l’université, l’entreprise, le gouvernement)Note de bas de page 32Note de bas de page 33Note de bas de page 34.

En fin de compte, bien que la majorité des personnes soient d’accord avec le concept de bien commun, il n’y a pas de seuil convenu pour lequel une atteinte à la vie privée peut et doit être tolérée pour la recherche en santé publique.

Nouveaux cadres éthiques

De nouveaux cadres qui répondent aux nouveaux défis éthiques concernant l’utilisation de l’IA pour la recherche ont été proposés par l’Association of Internet Researchers (AoIR)Note de bas de page 35 et Zook et coll.Note de bas de page 36 (tableau 1).

Tableau 1 : Cadres éthiques proposés
Auteurs Lignes directrices
AoIRNote de bas de page 35
  1. Protéger les populations vulnérables
  2. Évaluer les dommages potentiels des études de recherche au cas par cas
  3. Considérer les données d’humains comme étant humaines
  4. Équilibrer les droits de toutes les parties concernées (c.-à-d. le droit à la vie privée du sujet et le droit de faire des recherches pour le scientifique)
  5. La variabilité temporelle des considérations éthiques doit être résolue lorsqu’elle se produit
  6. Discuter des problèmes éthiques avec des professionnels qualifiés lorsqu’ils surviennent
Zook et coll.Note de bas de page 36
  1. Reconnaissez que les données sont des personnes et peuvent causer du tort
  2. Reconnaissez que la confidentialité est plus qu’une valeur binaire
  3. Protégez contre la réidentification de vos données
  4. Pratiquez le partage éthique des données
  5. Tenez compte des forces et des limites de vos données; « grand » ne signifie pas automatiquement « mieux »
  6. Discutez des choix éthiques difficiles
  7. Développez un code de conduite pour votre organisation, communauté de recherche ou industrie
  8. Concevez vos données et systèmes de façon à assurer leur vérifiabilité
  9. Interagissez avec les conséquences plus larges des données et des pratiques d’analyse
  10. Sachez quand enfreindre ces règles

Suivre un cadre peut aider à légitimer la recherche pour la populationNote de bas de page 37. Étant donné que le cadre de l’AoIRNote de bas de page 35 est accepté dans la littérature scientifique, l’Association étant l’une des organisations les plus citées en termes d’éthique et de données massives, les scientifiques pourraient vouloir utiliser ce cadre plutôt que le cadre moins connu de Zook et coll. Cependant, le cadre de Zook et coll.Note de bas de page 36 est moins restrictif et plus facile à suivre.

De nombreux points de ces lignes directrices sont déjà des considérations que les scientifiques de la santé publique doivent aborder (e.g. la protection de la population vulnérable, les préjudices potentiels de l’étude, le processus d’anonymisation). Les scientifiques de la santé publique utilisent déjà fréquemment des données hautement confidentielles. La principale différence entre les données des médias sociaux et les données traditionnelles est la façon dont les données sont accessibles; l’intention initiale pour laquelle les données sont produites; et la capacité limitée des utilisateurs de médias sociaux à fournir un consentement éclairé. Les données représentent toujours des humains, et peuvent entraîner des conséquences involontaires telles que l’identification de la personne qui est à l’origine du contenu de médias sociaux. Les scientifiques de la santé publique ont l’obligation de protéger les personnes à l’origine de leurs données tout en équilibrant cela avec le bien commun; il est extrêmement difficile de se mettre d’accord sur cette décision subjective.

Discussion

À mesure que la technologie progresse rapidement et que davantage de recherches sont effectuées sur l’IA et les données des médias sociaux, un cadre éthique établi est essentiel pour empêcher une mauvaise utilisation des données des médias sociaux dans les applications de santé publique. Les chercheurs en santé publique, en informatique et en éthique doivent se réunir pour développer un cadre qui aidera les scientifiques à mener une recherche responsable. De façon générale, les cadres existants ont été développés pour être utilisés dans tous les domaines scientifiques. Les décisions liées à la santé publique peuvent toutefois avoir des répercussions importantes sur la population, allant jusqu’à restreindre la liberté de circulation des personnes en cas de maladie hautement infectieuse, par exempleNote de bas de page 20.

Le CER est un élément important du processus visant à garantir que la recherche respecte le cadre éthique. Ce qui est associé à l’utilisation de données de médias sociaux de source ouverte est le fait que les gens ne savent pas que leurs données sont utilisées ou n’ont pas la possibilité de consentir à leur utilisation. Ainsi, le CER fournit les moyens de défendre la sécurité, la dignité et les droits des participants comme stipulé dans le cadre éthique.

Le CER et le cadre éthique sont également nécessaires pour remédier aux limites des données des médias sociaux. De nombreuses plateformes de médias sociaux sont disponibles, et la prédominance de leur utilisation peut varier selon l’emplacement. Par exemple, Twitter et Facebook sont largement utilisés dans les pays occidentaux, mais interdits en République populaire de Chine; le gouvernement chinois autorise l’utilisation de Sina Weibo et de WeChat comme équivalents respectifs de Twitter et Facebook. De plus, les données démographiques d’utilisation peuvent varier selon les applications. Les générations plus âgées ont tendance à utiliser Twitter et Facebook, tandis que les générations plus jeunes ont tendance à utiliser Snapchat, Instagram et TikTok. C’est ce que l’on appelle la fossé numériqueNote de bas de page 38. Certains profils peuvent être sous-représentés (e.g. les enfants et les personnes âgées), selon les plateformes de médias sociaux.

Conclusion

Les questions éthiques liées à l’utilisation des données des médias sociaux pour les applications d’IA dans la recherche en santé publique se concentrent sur la question de savoir si ces données sont considérées comme humaines. Les cadres éthiques actuels sont inadéquats pour la santé publique. Pour éviter toute utilisation abusive des données des médias sociaux, nous soutenons que le fait de considérer les données des médias sociaux comme humaines faciliterait un processus de CER qui garantit la sécurité, la dignité et les droits des fournisseurs de données des médias sociaux. Nous sommes d’avis en outre qu’il faut accorder davantage d’attention à l’équilibre entre le bien commun et l’atteinte à la vie privée. La collaboration entre les chercheurs en éthique et les épidémiologistes numériques est nécessaire pour développer des comités d’éthique, des directives et pour superviser la recherche dans le domaine.

Déclaration des auteurs

  • J. P. G. — Rédaction – ébauche originale, administration de projet, conceptualisation
  • V. N. — Rédaction – révision et édition, conceptualisation, supervision
  • N. J. — Rédaction – révision et édition, conceptualisation, supervision
  • E. E. R. — Rédaction – révision et édition, conceptualisation, supervision

Conflit d’intérêts

Aucun.

Remerciements

Les auteurs tiennent également à remercier S. de Montigny, N. Barrette et P. Gachon pour leurs commentaires.

Financement

Ce travail est soutenu par l’Agence de la santé publique du Canada.

Licence Creative Commons
Cette œuvre est mise à disposition selon les termes de la Licence Creative Commons Attribution 4.0 International
Signaler un problème ou une erreur sur cette page
Veuillez sélectionner toutes les cases qui s'appliquent :

Merci de votre aide!

Vous ne recevrez pas de réponse. Pour toute question, contactez-nous.

Date de modification :