Los modelos de Inteligencia Artificial (IA) obtienen grandes resultados en pruebas médicas estándar, pero su rendimiento es bajo cuando se simulan conversaciones reales con los pacientes, esto lo ha observado un grupo de investigadores de la Facultad de Medicina de Harvard y la Universidad de Stanford, ambas en Estados Unidos.
El estudio está publicado en 'Nature Medicine' y para realizarlo han diseñado un marco de evaluación de razonamiento conversacional para pruebas de medicina, CRAFT-MD, y lo han implementado en cuatro modelos de lenguaje para observar como se desempeñaban en entornos que imitan las interacciones reales.
Para ello utilizaron 2.000 viñetas clínicas que presentaban afecciones comunes y 12 especialidades médicas.
Tras observar el comportamiento de los modelos de lenguaje, vieron que los resultados a preguntas de examen médico eran buenos, pero al participar en conversaciones que imitaban la realidad el desempeño empeoraba.
Para hacer frente a esta brecha, los investigadores creen que es necesario realizar evaluaciones más realistas que midan mejor los modelos de IA clínica y mejorar la capacidad de las herramientas de realizar diagnósticos. La herramienta CRAFT-MD podría ayudar a optimizar el desempeño de los modelos en la clínica.
El profesor adjunto de informática biomédica en la Facultad de Medicina de Harvard, Pranav Rajpurkar explica que "Cuando cambiamos de pruebas estandarizadas a estas conversaciones naturales, incluso los modelos de IA más sofisticados muestran caídas significativas en la precisión del diagnóstico".
Con todo esto, el estudio ofrece recomendaciones que incluyen el uso de preguntas abiertas y conversacionales que reflejen las interacciones no estructuradas entre médico y paciente en la IA, evaluar los modelos según su capacidad de extraer información esencial, diseñar modelos que puedan seguir diferentes conversaciones, crear de modelos de IA que puedan integrar datos textuales y no textuales, y desarrollar agentes de IA que puedan reconocer señales no verbales.
Por otra parte recomiendan que la evaluación incluya la presencia de expertos humanos. En CRAFT-MD se superó a los evaluadores humanos, dado que procesaron 10.000 conversaciones en 48-72 horas, más 15 a 16 horas de evaluación de expertos.
Estos enfoques requieren 500 horas de simulaciones conversacionales y 650 horas de evaluación. Además, la presencia de evaluadores de IA elimina el riesgo de exponer a los pacientes a herramientas de IA no verificadas.