Les notes cliniques des dossiers médicaux sont de précieuses sources de données sur la santé humaine. Cependant, leur exploitation pour la recherche médicale peut être complexe en raison de leur provenance diverse et de leur présentation différente.
“Il n’y a pas de standardisation dans la façon dont les données sont organisées et classées dans les systèmes de dossiers médicaux”, déclare Sunyang Fu, Ph.D., chercheur en informatique biomédicale à la Mayo Clinic.
Le traitement du langage naturel pour structurer les données médicales
Le traitement du langage naturel (NLP) est une discipline liée à l’intelligence artificielle (IA) qui apprend aux ordinateurs à comprendre le langage humain. Les scientifiques conçoivent des algorithmes NLP pour transformer des informations disparates en données structurées et formatées de manière standardisée, facilitant ainsi leur analyse. Les études utilisant le NLP montrent un potentiel bénéfique pour les patients, affirme le Dr Fu, mais il y a un problème : lors de la publication de leurs recherches en NLP, les scientifiques ne partagent pas toujours toutes les instructions “comment faire”, parfois en raison de la protection des algorithmes en tant que propriété intellectuelle. Cela rend difficile pour d’autres chercheurs de valider ou de reproduire une étude, l’un des critères de la bonne science.
Une tendance préoccupante et l’importance de la transparence
L’absence d’instructions “comment faire” devient une tendance préoccupante, observe le Dr Fu. Une revue récemment publiée, dont le Dr Fu est le premier auteur, a révélé un large éventail de pratiques de rapport incohérentes dans la recherche observationnelle assistée par NLP. Dans des articles de revues publiés entre janvier 2009 et septembre 2021, les chercheurs ont constaté que de nombreuses études ne décrivaient pas la méthodologie utilisée pour développer un algorithme, ni ne rapportaient la conception de l’évaluation de l’étude. De plus, plus de la moitié des études ne rapportaient pas le type de dictionnaire, de lexique ou d’autre modèle linguistique utilisé, et près des trois quarts ne décrivaient pas les techniques utilisées pour normaliser les données afin d’améliorer l’intégrité des données et de réduire la redondance.
Recommandations pour l’adoption de normes NLP axées sur l’éthique et la transparence
Les chercheurs plaident pour le développement et l’adoption généralisée de normes NLP centrées sur les personnes, à valeur ajoutée et basées sur des preuves. Ils formulent également des recommandations pour le domaine, axées sur la transparence et la rigueur scientifique. Par exemple, pour remédier aux incohérences dans les rapports, ils recommandent que les scientifiques spécifient le type de modèle linguistique et les techniques de normalisation des données utilisées et fournissent des références et un accès à tout processeur de texte générique ou modèles statistiques.
Encourager les communautés ouvertes de NLP et une approche collaborative de la science
L’équipe de recherche encourage également le développement de communautés ouvertes de NLP et une approche collaborative de la science. Pour protéger l’intégrité de la recherche observationnelle assistée par NLP, le Dr Hongfang Liu, directrice de l’informatique biomédicale au Centre de recherche clinique et translationnelle de la Mayo Clinic, affirme que davantage de recherches doivent être menées dans des environnements ouverts, collaboratifs et fiables.
Les chercheurs soulignent le succès d’efforts ouverts et collaboratifs, tels que le National COVID Cohort Collaborative, qui ont permis à des équipes de chercheurs de mobiliser rapidement des outils et des bonnes pratiques pour répondre aux besoins urgents en matière de santé publique.
En conclusion, pour garantir que les études basées sur le traitement du langage naturel soient rigoureuses, éthiques et transparentes, il est essentiel d’adopter des normes NLP basées sur l’évidence et centrées sur les personnes, tout en favorisant un environnement collaboratif et ouvert dans le domaine de la recherche médicale.