Nel presente studio, i ricercatori hanno valutato il ragionamento diagnostico tramite GPT-3.5 e GPT-4 per domande cliniche di tipo aperto, ipotizzando che i modelli GPT potessero superare la catena di pensiero convenzionale con prompt di ragionamento diagnostico.
Il team ha utilizzato il dataset rivisto MedQA United States Medical Licensing Exam (USMLE) e la serie di casi del New England Journal of Medicine (NEJM) per confrontare la catena di pensiero convenzionale con vari prompt logici diagnostici modellati sulle procedure cognitive di formazione della diagnosi differenziale, ragionamento analitico, inferenze bayesiane e ragionamento intuitivo.
I ricercatori hanno anche valutato le prestazioni di GPT-4 su 310 casi recentemente pubblicati nella rivista NEJM. Hanno escluso 10 casi che non avevano diagnosi finali definitive o che superavano la lunghezza massima del contesto per GPT-4. Hanno confrontato la catena di pensiero convenzionale con i migliori prompt CoT di ragionamento diagnostico clinico (ragionamento per diagnosi differenziale) sul dataset MedQA.
Lo studio rivela che i prompt di GPT-4 potrebbero imitare il ragionamento clinico degli operatori sanitari senza compromettere l’accuratezza diagnostica, il che è cruciale per valutare l’accuratezza delle risposte dei modelli linguistici su larga scala (LLM), migliorandone così l’affidabilità per la cura dei pazienti.
GPT-3.5 ha risposto correttamente al 46% delle domande di valutazione con prompt standard di ragionamento clinico e al 31% con prompt non basati su catene di pensiero. Tra i prompt associati al ragionamento diagnostico clinico, GPT-3.5 ha ottenuto i migliori risultati con ragionamenti di tipo intuitivo (48% rispetto al 46%).
Complessivamente, i risultati dello studio hanno dimostrato che GPT-3.5 e GPT-4 hanno migliorato le capacità di ragionamento ma non l’accuratezza. GPT-4 ha ottenuto risultati simili con i prompt convenzionali e quelli di tipo intuitivo, ma peggiori con quelli analitici e per la diagnosi differenziale.
Savage T, Nayak A, Gallo R, et al. (2024). Diagnostic reasoning prompts reveal the potential for large language model interpretability in medicine. npj Digit. Med. doi: 10.1038/s41746-024-01010-1. https://www.nature.com/articles/s41746-024-01010-1