Les modèles d’intelligence artificielle générative mettent efficacement en évidence les déterminants sociaux de la santé dans les notes des médecins
L’endroit où nous vivons et travaillons, notre âge et les conditions dans lesquelles nous avons grandi peuvent influencer notre santé et entraîner des disparités, mais ces facteurs peuvent être difficiles à saisir et à traiter pour les cliniciens et les chercheurs.
Une nouvelle étude menée par des chercheurs du Mass General Brigham démontre que les grands modèles linguistiques (LLM), un type d’intelligence artificielle (IA) générative, peuvent être formés pour extraire automatiquement des informations sur les déterminants sociaux de la santé (SDoH) à partir des notes des cliniciens, ce qui pourrait augmenter efforts pour identifier les patients qui pourraient bénéficier d’un soutien en ressources.
Résultats publiés dans npj Médecine Numérique montrent que les modèles finement réglés pouvaient identifier 93,8 pour cent des patients présentant un SDoH indésirable, alors que les codes de diagnostic officiels incluaient cette information dans seulement 2 pour cent des cas. Ces modèles spécialisés étaient moins sujets aux biais que les modèles généralistes tels que GPT-4.
« Notre objectif est d’identifier les patients qui pourraient bénéficier d’un soutien en matière de ressources et de travail social et d’attirer l’attention sur l’impact sous-documenté des facteurs sociaux sur les résultats de santé », a déclaré l’auteur correspondant Danielle Bitterman, MD, membre du corps professoral de l’intelligence artificielle en médecine. (AIM) au Mass General Brigham et médecin au département de radio-oncologie du Brigham and Women’s Hospital.
« Les algorithmes capables de réussir des examens médicaux majeurs ont reçu beaucoup d’attention, mais ce n’est pas ce dont les médecins ont besoin en clinique pour mieux prendre soin des patients chaque jour. Des algorithmes capables de détecter ce que les médecins peuvent manquer dans le volume toujours croissant de les dossiers médicaux seront plus pertinents sur le plan clinique et donc plus puissants pour améliorer la santé. »
Les disparités en matière de santé sont largement liées aux SDoH, notamment en matière d’emploi, de logement et d’autres circonstances non médicales qui ont un impact sur les soins médicaux. Par exemple, la distance entre un patient atteint d’un cancer et un centre médical majeur ou le soutien dont il bénéficie d’un partenaire peut influencer considérablement les résultats. Bien que les cliniciens puissent résumer les SDoH pertinents dans leurs notes de visite, ces informations vitales sont rarement systématiquement organisées dans le dossier de santé électronique (DSE).
Pour créer des LM capables d’extraire des informations sur SDoH, les chercheurs ont examiné manuellement 800 notes de cliniciens provenant de 770 patients atteints de cancer ayant reçu une radiothérapie au service de radio-oncologie du Brigham and Women’s Hospital. Ils ont étiqueté les phrases faisant référence à un ou plusieurs des six SDoH prédéterminés : statut d’emploi, logement, transport, statut parental (si le patient a un enfant de moins de 18 ans), relations et présence ou absence de soutien social.
Utilisant cet ensemble de données « annoté », les chercheurs ont formé les LM existants pour identifier les références au SDoH dans les notes des cliniciens. Ils ont testé leurs modèles en utilisant 400 notes cliniques de patients traités par immunothérapie au Dana-Farber Cancer Institute et de patients admis dans les unités de soins intensifs du centre médical Beth Israel Deaconess.
Les chercheurs ont découvert que les LM affinés, en particulier les LM Flan-T5, pouvaient identifier de manière cohérente de rares références à SDoH dans les notes des cliniciens. La « capacité d’apprentissage » de ces modèles était limitée par la rareté de la documentation SDoH dans l’ensemble de formation, où les chercheurs ont constaté que seulement 3 % des phrases dans les notes du clinicien contenaient une quelconque mention de SDoH.
Pour résoudre ce problème, les chercheurs ont utilisé ChatGPT, un autre LM, pour produire 900 exemples synthétiques supplémentaires de phrases SDoH qui pourraient être utilisées comme ensemble de données de formation supplémentaire.
L’une des critiques majeures adressées aux modèles d’IA générative dans le domaine des soins de santé est qu’ils peuvent potentiellement perpétuer les préjugés et accroître les disparités en matière de santé. Les chercheurs ont découvert que leur LM affiné était moins susceptible que le GPT-4 d’OpenAI, un LM généraliste, de modifier sa détermination concernant un SDoH en fonction de la race/origine ethnique et du sexe des individus.
Les chercheurs affirment qu’il est difficile de comprendre comment les biais se forment et se déconstruisent, tant dans les modèles humains que informatiques. Comprendre les origines des biais algorithmiques est un travail permanent pour les chercheurs.
« Si nous ne surveillons pas les biais algorithmiques lorsque nous développons et mettons en œuvre de grands modèles de langage, nous pourrions aggraver les disparités existantes en matière de santé par rapport à ce qu’elles sont actuellement », a déclaré Bitterman. « Cette étude a démontré que le réglage fin des LM peut être une stratégie pour réduire les biais algorithmiques, mais des recherches supplémentaires sont nécessaires dans ce domaine. »