Le traitement du langage naturel (TLN), une sous-zone d’intelligence artificielle

RMTC

Volume 46–6, le 4 juin 2020 : Intelligence artificielle en santé publique

Aperçu

Défis et possibilités en matière de santé publique rendus possibles grâce aux progrès du traitement des langues naturelles

Oliver Baclic1, Matthew Tunis1, Kelsey Young1, Coraline Doan2, Howard Swerdfeger2, Justin Schonfeld3

Affiliations

1 Centre de l’immunisation et des maladies respiratoires infectieuses, Agence de la santé publique du Canada, Ottawa, ON

2 Centre de données, des partenariats et d’innovation, Agence de santé publique du Canada, Ottawa, ON

3 Laboratoire national de microbiologie, Agence de santé publique du Canada, Winnipeg, MB

Correspondance

oliver.baclic@canada.ca, justin.schonfeld@canada.ca

Citation proposée

Baclic O, Tunis M, Young K, Doan C, Swerdfeger H, Schonfeld J. Défis et possibilités en matière de santé publique rendus possibles grâce aux progrès du traitement des langues naturelles. Relevé des maladies transmissibles au Canada 2020;46(6):182–90. https://doi.org/10.14745/ccdr.v46i06a02f

Mots-clés : traitement des langues naturelles, TLN, intelligence artificielle, apprentissage automatique, santé publique

Résumé

Le traitement des langues naturelles (TLN) est un sous-domaine de l’intelligence artificielle consacré à la compréhension et à la création du langage. Les progrès récents des technologies du TLN permettent d’analyser rapidement des textes en grande quantité, créant ainsi des possibilités de recherche en santé et de prise de décisions éclairées par des données probantes. L’analyse et l’extraction de données à partir de la documentation scientifique, des rapports techniques, des dossiers de santé, des médias sociaux, des enquêtes, des registres et d’autres documents peuvent appuyer les fonctions essentielles de la santé publique, notamment l’amélioration des systèmes de surveillance existants (e.g. en identifiant plus rapidement les maladies et les facteurs de risque ou les populations à risque), les stratégies de prévention des maladies (e.g. en évaluant plus efficacement la sécurité et l’efficacité des interventions) et les efforts de promotion de la santé (e.g. en fournissant la capacité d’obtenir des réponses d’expert à toute question liée à la santé). Le TLN est en train de devenir un outil important qui peut aider les autorités de la santé publique à réduire le fardeau de l’inégalité et de l’iniquité en matière de santé parmi la population. Le présent document a pour but de fournir des exemples notables des applications et des défis possibles découlant de l’utilisation du TLN en santé publique.

Introduction

On s’intéresse de plus en plus au déploiement de stratégies de l’intelligence artificielle (IA) pour atteindre les résultats en matière de santé publique, en particulier en réponse à la pandémie mondiale de la maladie à coronavirus de 2019 (COVID-19), où de nouveaux ensembles de données, des outils de surveillance et des modèles émergent très rapidement.

L’objectif de ce manuscrit est de fournir un cadre pour l’examen des approches du traitement des langues naturelles (TLN) en matière de santé publique fondées sur des applications historiques. Cet aperçu comprend une brève introduction à l’IA et au TLN, suggère des possibilités où le TLN peut être appliqué pour résoudre les problèmes de santé publique et décrit les défis liés à l’application du TLN dans un contexte de santé publique. Des articles particuliers ont été choisis pour souligner l’ampleur des applications possibles du TLN en santé publique ainsi que les défis et les risques non négligeables inhérents à l’intégration de l’IA et du TLN dans l’analyse de la santé publique et l’appui à la décision.

Intelligence artificielle et traitement des langues naturelles

La recherche en IA a produit des modèles qui peuvent interpréter une radiographieNote de bas de page 1Note de bas de page 2, détecter des battements de cœur irréguliers à l’aide d’une montre intelligenteNote de bas de page 3, identifier automatiquement les rapports de maladies infectieuses dans les médiasNote de bas de page 4, déterminer les facteurs de risque cardiovasculaire à partir d’images rétiniennesNote de bas de page 5 et trouver de nouvelles cibles pour les médicaments existantsNote de bas de page 6Note de bas de page 7. Le succès de ces modèles s’appuie sur l’entraînement de centaines, de milliers et parfois de millions de points de données contrôlés, étiquetés et structurésNote de bas de page 8. La capacité de l’IA de fournir des analyses constantes, soutenues et rapides des données offre le potentiel de transformer l’approche de la société en matière de promotion de la santé, de prévention et de gestion des maladies. Les systèmes d’IA peuvent « lire » et trier environ tous les 1,3 million d’articles de recherche indexés par PubMed chaque annéeNote de bas de page 9; « examiner » les commentaires de 1,5 milliard d’utilisateurs de Facebook ou « surveiller » 500 millions de gazouillis de personnes souffrant de maladies mentales tous les jours, de maladies d’origine alimentaire ou de grippeNote de bas de page 10Note de bas de page 11; et interagir en même temps avec chaque personne qui cherche des réponses à ses questions, préoccupations, problèmes et défis en matière de santéNote de bas de page 12.

Le TLN est un sous-domaine de l’IA qui se consacre au développement d’algorithmes et à la construction de modèles capables d’utiliser le langage de la même manière que les humainsNote de bas de page 13. Il est couramment utilisé dans les assistants virtuels comme « Siri » et « Alexa » ou dans les recherches et traductions Google. Le TLN permet d’analyser et d’extraire des renseignements des sources non structurées, d’automatiser la réponse aux questions et de mener une analyse des sentiments et à la synthèse du texteNote de bas de page 8. Les langues naturelles (communication) étant le principal moyen de collecte et d’échange de connaissances en santé publique et en médecine, le TLN est la clé pour libérer le potentiel de l’IA dans les sciences biomédicales.

La plupart des plateformes modernes du TLN sont construites sur des modèles affinés au moyen des techniques d’apprentissage automatiqueNote de bas de page 14Note de bas de page 15. Les techniques d’apprentissage automatique sont fondées sur quatre composantes : un modèle, des données, une fonction de perte, qui est une mesure qui montre à quel point le modèle convient aux données; et un algorithme pour former (améliorer) le modèleNote de bas de page 16. Les récentes percées dans ces domaines ont permis d’améliorer considérablement les modèles TLN qui sont alimentés par un apprentissage profond, un sous-domaine de l’apprentissage automatiqueNote de bas de page 17.

L’innovation dans les différents types de modèles, tels que les modèles basés sur un réseau de neurones récurrents (RNR), les modèles basés sur un réseau de neurones convolutif (RNC) et les modèles axés sur l’attention, a permis aux systèmes du TLN modernes de saisir et de modéliser des relations et des concepts linguistiques plus complexes qu’une simple présence de mots (c’est-à-dire la recherche de mots clés)Note de bas de page 18. Cet effort a été soutenu par des approches d’intégration des vecteurs pour traiter à l’avance les données qui encodent les mots avant qu’ils n’alimentent un modèle. Ces approches reconnaissent que les mots existent dans un contexte (e.g. la signification des mots « patient », « tir » et « virus » varient selon le contexte) et les traitent comme des points dans un espace conceptuel plutôt que comme des entités isolées. Le rendement des modèles a également été amélioré par l’avènement du transfert d’apprentissage, c’est-à-dire en prenant un modèle formé pour exécuter une tâche et en l’utilisant comme modèle de départ pour la formation sur une tâche connexe. Les progrès réalisés en matière de matériels et l’augmentation des ensembles de données gratuites et accessibles annotées ont également amélioré les rendements des modèles de TLN. De nouveaux outils d’évaluation et de mises au banc d’essai, tels que GLUE, superglue et BioASQ, nous aident à mieux comprendre le type et la portée de l’information que ces nouveaux modèles peuvent saisirNote de bas de page 19Note de bas de page 20Note de bas de page 21.

Possibilités

La santé publique vise à atteindre des résultats optimaux en matière de santé au sein des différentes populations et entre elles, principalement en élaborant et en mettant en œuvre des interventions qui ciblent les causes modifiables de la mauvaise santéNote de bas de page 22Note de bas de page 23Note de bas de page 24Note de bas de page 25Note de bas de page 26. Le succès dépend de la capacité de quantifier efficacement le fardeau des maladies ou des facteurs de risque de maladies au sein de la population et d’identifier ensuite les groupes qui sont touchés de manière disproportionnée ou à risque, d’identifier des pratiques exemplaires (c.-à-d. des stratégies de prévention optimale ou thérapeutiques) et évaluer les résultatsNote de bas de page 27. Ce modèle de prise de décision fondé sur des données probantes est mieux représenté par le concept de PICO (patient/problème, intervention/exposition, comparaison, résultat). PICO fournit une stratégie optimale d’identification des connaissances pour encadrer des questions précises cliniques ou relatives à la santé publique et y répondreNote de bas de page 28. La prise de décisions fondées sur des données probantes est généralement fondée sur un examen et une synthèse exhaustifs et systématiques des données conformément aux éléments du cadre de PICO.

Aujourd’hui, l’information est produite et publiée (e.g. la documentation scientifique, les rapports techniques, les dossiers de santé, les médias sociaux, les enquêtes, les registres et d’autres documents) à un rythme sans précédent. En fournissant la capacité d’analyser rapidement des textes non structurés ou semi-structurés en grande quantité, le TLN ouvre d’immenses possibilités de recherches textuelles et de prise de décisions fondées sur des données probantesNote de bas de page 29Note de bas de page 30Note de bas de page 31Note de bas de page 32Note de bas de page 33Note de bas de page 34. Le TLN est en train de devenir un outil potentiellement puissant pour appuyer l’identification rapide des populations, des interventions et des résultats d’intérêt qui sont nécessaires à la surveillance des maladies, à la prévention des maladies et à la promotion de la santé. Par exemple, l’utilisation de plateformes de TLN capables de détecter des caractéristiques particulières d’individus (population/problème, par exemple, un état de santé ou un facteur prédisposant de risque biologique, comportemental, environnemental ou socio-économique) dans des dossiers médicaux non structurés ou des textes sur les médias sociaux peut être utilisée pour améliorer les systèmes de surveillance existants avec des données probantes réelles. Une étude récente a démontré la capacité des méthodes de TLN à prédire la présence de dépression avant son apparition dans le dossier médicalNote de bas de page 35. La capacité de procéder à l’extraction en temps réel de textes de publications scientifiques à la recherche d’un concept particulier de PICO donne aux décideurs l’occasion de formuler rapidement des recommandations sur la prévention ou la gestion des maladies qui sont fondées sur les données probantes les plus récentes lorsqu’il est essentiel de fournir des conseils en temps opportun, par exemple pendant une éclosion. Les plateformes de question-réponse et les robots conversationnels de TLN sont également susceptibles d’améliorer les activités de promotion de la santé en faisant participer des personnes et en fournissant un soutien ou des conseils personnalisés. Le tableau 1 donne des exemples d’applications potentielles du TLN en santé publique qui ont démontré au moins un certain succès.

Tableau 1 : Exemples d’applications existantes et potentielles du traitement des langues naturelles en santé publique
Type d’activité Objectif en matière de santé publique Exemple d’utilisation du TLN
Identification des populations à risque ou des conditions d’intérêt Mesurer en permanence l’incidence et la prévalence des maladies et des facteurs de risque des maladies (e.g. la surveillance) Analyse de textes non structurés ou semi-structurés tirés de dossiers de santé électroniques ou de médias sociauxNote de bas de page 36Note de bas de page 37Note de bas de page 38Note de bas de page 39Note de bas de page 40Note de bas de page 41Note de bas de page 42
Identifier les populations vulnérables et à risque Analyse des comportements à risque à l’aide des médias sociauxNote de bas de page 43Note de bas de page 44Note de bas de page 45
Détermination des interventions médicales Élaborer des recommandations ou des interventions optimales Examen et analyse systématiques automatisés des renseignements contenus dans les publications scientifiques et les données non publiéesNote de bas de page 46Note de bas de page 47Note de bas de page 48Note de bas de page 49Note de bas de page 50
Déterminer les pratiques exemplaires Identification des interventions prometteuses en matière de santé publique au moyen de l’analyse de la littérature grise ou celle revue par les pairs disponible en ligneNote de bas de page 51
Identification des résultats en matière de santé à l’aide de données probantes réelles Évaluer les avantages des interventions médicales Analyse de textes non structurés ou semi-structurés tirés de dossiers de santé électroniques, de médias en ligne et de publications pour déterminer l’incidence des recommandations et des interventions en matière de santé publiqueNote de bas de page 52Note de bas de page 53
Déterminer les résultats négatifs imprévus liés aux interventions Analyse de textes non structurés ou semi-structurés tirés de dossiers de santé électroniques, de médias sociaux et de publications pour identifier les événements indésirables potentiels découlant des interventionsNote de bas de page 54Note de bas de page 55Note de bas de page 56Note de bas de page 57Note de bas de page 58
Production et transfert des connaissances Appuyer la recherche en santé publique Analyse et extraction des renseignements tirés des dossiers de santé électroniques et des publications scientifiques aux fins de la production de connaissancesNote de bas de page 59Note de bas de page 60Note de bas de page 61Note de bas de page 62
Appuyer le processus décisionnel fondé sur des données probantes Utilisation de robots conversationnels, de systèmes de questions-réponses et de résumés de textes pour fournir des renseignements personnalisés aux personnes qui demandent des conseils pour améliorer leur santé et prévenir des maladiesNote de bas de page 63Note de bas de page 64Note de bas de page 65
Analyse de l’environnement et connaissance de la situation Procéder à des évaluations des risques pour la santé publique et fournir une connaissance de la situation Analyse du contenu en ligne pour la détection et l’atténuation des événements critiques en temps réelNote de bas de page 66Note de bas de page 67Note de bas de page 68Note de bas de page 69Note de bas de page 70
Surveiller les activités qui peuvent avoir une incidence sur la prise de décisions en matière de santé publique Analyse des décisions des intervenants nationaux et internationauxNote de bas de page 71

Défis

Malgré les progrès récents, il reste encore des obstacles qui empêchent l’utilisation généralisée des technologies de TLN.

À l’instar d’autres techniques d’intelligence artificielle, le TLN dépend fortement de la disponibilité, de la qualité et de la nature des données d’entraînementNote de bas de page 72. L’accès et la disponibilité des ensembles de données annotées de façon appropriée (pour utiliser efficacement l’apprentissage supervisé ou semi-surveillé) sont essentiels à la formation et à la mise en œuvre de modèles de TLN robustes. Par exemple, l’élaboration et l’utilisation d’algorithmes capables de procéder à une synthèse systématique de la recherche publiée sur un sujet particulier ou à une analyse et une extraction de données des dossiers de santé électroniques nécessitent un accès illimité aux bases de données des éditeurs ou des soins primaires et des hôpitaux. Bien que le nombre d’ensembles de données biomédicales gratuits et accessibles et de modèles préalablement entraînés ait augmenté ces dernières années, la disponibilité de ceux qui traitent des concepts de santé publique demeure limitéeNote de bas de page 73.

La capacité d’éviter une distorsion à l’égard des données (c.-à-d. en fournissant la capacité d’inspecter, d’expliquer et d’ajuster les données d’un point de vue éthique) représente un autre point important de la formation et de l’utilisation des modèles du TLN dans le secteur de la santé publique à prendre en considération. Le fait de ne pas tenir compte des distorsions lors de l’élaboration (e.g. annotation des données), du déploiement (e.g. utilisation de plateformes préalablement formées) et de l’évaluation des modèles de TLN pourrait compromettre les extrants du modèle et renforcer l’iniquité existante en matière de santéNote de bas de page 74. Toutefois, il est important de noter que même lorsque les ensembles de données et les évaluations sont ajustés en fonction des distorsions, cela ne garantit pas les mêmes incidences dans l’ensemble des strates moralement pertinentes. Par exemple, l’utilisation des données sur la santé disponibles sur les plateformes de médias sociaux doit prendre en compte des groupes d’âge et des groupes socio-économiques précis qui les utilisent. Un système de surveillance entraîné sur les données de Facebook est susceptible d’être biaisé au profit des données de santé et des bizarreries linguistiques spécifiques à une population plus âgée comparé à un système entraîné sur les données de SnapchatNote de bas de page 75. Récemment, de nombreux outils élaborés suivant un modèle agnostique sont conçus pour évaluer et corriger l’inégalité dans les modèles d’apprentissage automatique, conformément aux efforts déployés par le gouvernement et les milieux universitaires afin de définir le développement inacceptable de l’intelligence artificielleNote de bas de page 76Note de bas de page 77Note de bas de page 78Note de bas de page 79Note de bas de page 80Note de bas de page 81.

À l’heure actuelle, l’un des principaux obstacles au développement des systèmes de TLN en santé publique est l’accès limité aux donnéesNote de bas de page 82Note de bas de page 83. Au Canada, les données sur la santé sont généralement contrôlées à l’échelle régionale et, en raison de problèmes de sécurité et de confidentialité, on hésite à fournir un accès illimité à ces systèmes et à les intégrer à d’autres ensembles de données (e.g. couplage de données). Il y a aussi des défis à relever en ce qui concerne la perception du public de la protection de la vie privée et de l’accès aux données. Une récente enquête auprès des utilisateurs des médias sociaux a révélé que la majorité d’entre eux considérait que l’analyse de leurs données sur les médias sociaux pour identifier des problèmes de santé mentale était « gênante et exposante » et qu’ils n’approuveraient pas celaNote de bas de page 84.

Avant que des activités de santé publique clés relatives au TLN ne puissent être réalisées à grande échelle, comme l’analyse en temps réel des tendances nationales des maladies, les administrations devront déterminer conjointement une portée raisonnable et l’accès aux sources de données pertinentes à la santé publique (e.g. les dossiers de santé et les données administratives). Afin de prévenir les violations de la vie privée et l’utilisation abusive des données, les applications futures du TLN dans l’analyse des données personnelles sur la santé dépendent de la capacité d’intégrer la confidentialité différentielle dans les modèlesNote de bas de page 85, pendant la période de formation et l’après-déploiement. L’accès aux données importantes est également limité par les méthodes actuelles, qui permettent l’accès aux publications des textes intégraux. La réalisation de l’extraction et de la synthèse des connaissances entièrement automatisées propres à PICO exigera un accès illimité aux bases de données des journaux ou à de nouveaux modèles de stockage des donnéesNote de bas de page 86.

Enfin, comme pour toute nouvelle technologie, il faut tenir compte de l’évaluation et de l’évaluation des modèles de TLN pour s’assurer qu’ils fonctionnent comme prévu et qu’ils suivent le rythme auquel les opinions éthiques de la société évoluent. Ces technologies de TLN doivent être évaluées pour s’assurer qu’elles fonctionnent comme prévu et qu’elles tiennent compte des distorsionsNote de bas de page 87. Bien qu’aujourd’hui de nombreuses approches affichent des scores équivalents ou supérieurs à ceux de l’homme sur les tâches d’analyse textuelle, il est important de ne pas assimiler les scores élevés à la compréhension réelle de la langue. Il est toutefois tout aussi important de ne pas considérer le manque de compréhension réelle d’une langue comme un manque d’utilité. Les modèles ayant une compréhension « relativement faible » peuvent encore être très efficaces pour les tâches d’extraction, de classification et de prédiction des renseignements, en particulier avec la disponibilité croissante des données étiquetées.

Traitement des langues naturelles et la maladie à coronavirus de 2019 (COVID-19)

Depuis l’apparition de la COVID-19, le TLN a joué un rôle primordial dans les efforts fournis lors de l’intervention pour lutter contre les éclosionsNote de bas de page 88Note de bas de page 89. Le TLN a été rapidement utilisé pour analyser la grande quantité de renseignements textuels qui ont été consultés au moyen de l’accès illimité aux journaux, aux prépublications et aux médias numériques revus par les pairsNote de bas de page 90. Le TLN a été largement utilisé pour aider les communautés médicale et scientifique à trouver des réponses aux questions de recherche clés, à résumer les données probantes, à répondre aux questions, à suivre la désinformation et à surveiller le sentiment de la populationNote de bas de page 91Note de bas de page 92Note de bas de page 93Note de bas de page 94Note de bas de page 95Note de bas de page 96Note de bas de page 97.

Conclusion

Le TLN crée des occasions extraordinaires d’améliorer la prise de décisions éclairées par des données probantes en santé publique. Nous prévoyons que des applications plus larges du TLN mèneront à la création de systèmes de surveillance plus efficaces, qui seront en mesure d’identifier les maladies et les conditions à risque en temps réel. De même, grâce à la capacité d’analyser et de synthétiser de grands volumes de renseignements presque instantanément, le TLN doit faciliter des activités ciblées de promotion de la santé et de prévention des maladies, ce qui entraînera possiblement une réduction des maladies à l’échelle de la population et une plus grande équité en matière de santé. Cependant, ces possibilités ne sont pas sans risques : les modèles biaisés, les données biaisées, la perte de la confidentialité de données et la nécessité de maintenir et de mettre à jour les modèles pour refléter l’évolution de la langue et du contexte de la communication publique présentent tous des défis qui existent déjà et qui devront être relevés. Nous encourageons les communautés de la santé publique et de la science informatique à collaborer afin d’atténuer ces risques, de veiller à ce que la pratique de la santé publique ne prenne pas de retard par rapport à ces technologies ou de rate les opportunités de promotion de la santé, ainsi que de surveillance et de prévention des maladies dans ce paysage en évolution rapide.

Déclaration des auteurs

  • O. B. — Rédaction — ébauche initiale, révision et modification, et conceptualisation
  • M. T. — Rédaction — ébauche initiale, révision et modification, et conceptualisation
  • K. Y. — Rédaction — révision et modification, et conceptualisation
  • C. D. — Rédaction — révision et modification
  • H. S. — Rédaction — révision et modification
  • J. S. — Rédaction — ébauche initiale, révision et modification, et conceptualisation

Conflit d’intérêts

Aucun.

Remerciements

Nous remercions J. Nash et J. Robertson qui ont eu la gentillesse d’offrir leurs commentaires et leurs suggestions.

Financement

Ce travail est appuyé par l’Agence de la santé publique du Canada. La recherche entreprise par J. S. a été financée par l’Initiative de recherche et de développement en génomique du gouvernement fédéral canadien.

Licence Creative Commons
Cette œuvre est mise à disposition selon les termes de la Licence Creative Commons Attribution 4.0 International
Signaler un problème ou une erreur sur cette page
Veuillez sélectionner toutes les cases qui s'appliquent :

Merci de votre aide!

Vous ne recevrez pas de réponse. Pour toute question, contactez-nous.

Date de modification :