Quand le bon prompt sauve la mise : ce que révèle (vraiment) une étude d’Oxford sur les IA et le diagnostic médical

Ils savent. Mais ils ne savent pas parler aux gens. C’est, en substance, ce que révèle une étude inédite menée par l’Université d’Oxford sur les performances des grands modèles de langage (LLMs) dans la prise en charge de problèmes médicaux. Lorsqu’ils sont interrogés de manière directe et structurée, les modèles comme GPT-4o diagnostiquent correctement la pathologie dans 95 % des cas. Mais dès que l’on introduit un humain dans la boucle – un patient lambda avec ses mots, ses hésitations – les résultats dégringolent. Que faut-il en retenir pour le secteur de la santé, et plus largement pour celui de la nutrition ? Décryptage.


Une étude d’envergure : 1298 participants, 10 scénarios médicaux, 3 IA testées

L’étude intitulée « Clinical knowledge in LLMs does not translate to human interactions » a été menée par l’Oxford Internet Institute, en partenariat avec plusieurs institutions de santé britanniques et américaines. Elle avait un objectif clair : tester la capacité des LLMs à aider des patients non experts à prendre les bonnes décisions face à dix situations médicales courantes (de la migraine au pneumothorax).

Les participants (représentatifs de la population britannique) ont été répartis en quatre groupes :

  • un groupe témoin, utilisant les méthodes habituelles (recherches Google, intuition, expériences personnelles),
  • trois groupes test, chacun utilisant un LLM (GPT-4o d’OpenAI, LLaMA 3 de Meta, ou Command R+ de Cohere).

Chaque personne devait répondre à deux questions pour un scénario donné :

  1. Quelle décision prendre (urgence, soins primaires, auto-traitement, etc.) ?
  2. Quelle(s) pathologie(s) pensez-vous en cause ?

Résultats : les modèles brillent… sans les humains

Quand on donne les scénarios directement aux IA (sans intermédiaire humain), les résultats sont impressionnants :

  • 94,7 % de taux de réponse correct pour GPT-4o en identification des pathologies (99,2 % pour LLaMA 3).
  • Environ 64,7 % de bonnes recommandations de prise en charge pour GPT-4o.

Mais lorsque ce sont des patients qui interagissent avec l’IA :

  • moins de 34,5 % des participants identifient correctement au moins une pathologie pertinente.
  • Et moins de 44,2 % proposent une prise en charge adéquate, ce qui n’est pas mieux que le groupe témoin (sans IA).

Autrement dit : l’IA sait, mais elle n’est pas comprise.

Où ça coince ? Le langage, le prompt, la confiance

L’analyse des échanges entre les patients et les IA révèle plusieurs freins majeurs :

  • Des prompts mal formulés : les participants oublient souvent des informations clés (lieu de la douleur, contexte, durée…), limitant la pertinence de la réponse de l’IA.
  • Des réponses floues ou incomplètes de la part de certains modèles, malgré des suggestions correctes incluses dans le dialogue.
  • Un tri inefficace : les utilisateurs ne savent pas toujours extraire la bonne information des réponses fournies.

Dans 65 à 73 % des cas, les IA proposaient au moins une pathologie correcte dans le dialogue… mais cette info n’était pas retenue dans la réponse finale de l’utilisateur.

Et pourtant… les IA surpassent les benchmarks existants

Les chercheurs ont comparé les résultats des modèles sur les cas simulés avec des questions de MedQA, un benchmark standard issu des examens médicaux américains. Résultat :

  • Les LLMs dépassent allègrement les 80 % de bonnes réponses sur MedQA.
  • Mais dans l’expérience humaine, ces scores sont mal corrélés à la capacité des utilisateurs réels à bien s’en servir.

De même, les tests réalisés avec des « patients simulés » (d’autres IA jouant le rôle du patient) donnent des scores bien plus élevés que ceux des vrais participants. Conclusion : les tests sur benchmark et sur données simulées ne suffisent pas à prédire les performances réelles en situation.

Quelles leçons pour la santé… et au-delà ?

Cette étude met le doigt sur une vérité essentielle : la performance brute d’un LLM n’est pas suffisante. La valeur se joue dans l’interaction homme-machine.

Cela soulève des enjeux cruciaux pour les entreprises du secteur santé, et en particulier pour le secteur des ingrédients fonctionnels et nutritionnels :

  • Éduquer les utilisateurs : si les professionnels (et bientôt les patients) doivent interagir avec des IA pour obtenir un diagnostic, il faudra leur apprendre à formuler les bons prompts. Cela passe aussi par la littératie nutritionnelle et médicale.
  • Encadrer les usages : les outils doivent intégrer des garde-fous pour éviter les erreurs d’interprétation, proposer des reformulations, voire poser des questions complémentaires pour clarifier les symptômes.
  • Miser sur des interfaces intelligentes : les futurs outils B2C de self-assessment (régimes alimentaires, recommandations fonctionnelles, suivis de symptômes digestifs ou immunitaires…) devront intégrer une couche de guidage pédagogique, voire émotionnel.

Et dans l’univers des ingrédients ?

Dans le monde des ingrédients santé, où les promesses tournent souvent autour de la prévention, du bien-être ou de l’accompagnement de pathologies chroniques, cette étude rappelle un principe fondamental : la compréhension perçue par l’utilisateur est plus importante que la précision scientifique seule.

Ainsi :

  • Les marques qui développent des chatbots nutritionnels ou des outils interactifs doivent tester leurs solutions avec de vrais utilisateurs, pas seulement des scénarios simulés.
  • Le vocabulaire employé (ex. : microbiote, inflammation, perméabilité intestinale) doit être adapté aux niveaux de compréhension réels, quitte à être simplifié sans trahir la vérité scientifique.
  • Les LLMs peuvent devenir un outil de conseil puissant pour les professionnels de santé (pharmaciens, diététiciens) s’ils sont entraînés et utilisés dans un contexte d’accompagnement, non d’autodiagnostic.

Conclusion : IA + humain, c’est plus complexe que prévu

Cette étude d’Oxford est un signal fort : les LLMs ne sont pas (encore) des médecins de poche. Leur usage doit être accompagné, contextualisé, et testé en conditions réelles. Pour les industries de la santé et de la nutrition, l’enjeu n’est pas seulement de savoir ce que sait l’IA, mais comment elle le dit, à qui, et avec quels effets.

La bonne réponse ne suffit pas. Encore faut-il poser la bonne question.

Source:

 Bean, A. M. et al. (2025). Clinical knowledge in LLMs does not translate to human interactions. arXiv:2504.18919v1 – https://arxiv.org/abs/2504.18919

précédentsuivant