Neurochirurgisches Oral Board Exam: ChatGPT-4 übertrifft GPT-3.5 und Google Bard in der Leistung

Die auf dem Preprint-Server von medRxiv veröffentlichte Studie hat die überlegene Leistung von GPT-4, dem neuesten Sprachmodell von OpenAI, gegenüber GPT-3.5 und Google Bard in einem neurochirurgischen Oral Board Exam aufgezeigt. Die Studie wurde von Forschern in den Vereinigten Staaten durchgeführt, die die Leistung der drei allgemeinen Large Language Models (LLMs) bei Fragen höherer Ordnung bewerteten, die das mündliche Board-Examen der American Board of Neurological Surgery (ABNS) darstellen.
Das ABNS Neurochirurgisches Oral Board Exam gilt als eine strengere Bewertung als seine schriftliche Entsprechung und wird von Ärzten zwei bis drei Jahre nach Abschluss des Facharztes durchgeführt. Es umfasst drei Sitzungen von jeweils 45 Minuten, und seine Bestehensrate hat seit 2018 nicht mehr als 90% überschritten. Die Studie bewertete die Leistung von GPT-3.5, GPT-4 und Google Bard anhand eines 149-Fragen-Moduls, das das Neurochirurgisches Oral Board Exam nachahmt.
Alle drei in dieser Studie bewerteten LLMs haben gezeigt, dass sie in der Lage sind, medizinische Board-Prüfungen mit Multiple-Choice-Fragen zu bestehen. Es wurden jedoch keine vorherigen Studien durchgeführt oder die Leistung mehrerer LLMs bei vorwiegend höheren Fragen in einem medizinischen Subspezialitätsbereich mit hohem Einsatz wie der Neurochirurgie getestet oder verglichen.
Die Studie ergab, dass GPT-4 auf dem 149-Fragen-Modul einen Score von 82,6% erreichte, ChatGPT’s Score von 62,4% übertraf. Zusätzlich zeigte GPT-4 eine bessere Leistung als ChatGPT in der Unter-Spezialität der Wirbelsäule, mit einem Score von 90,5% im Vergleich zu ChatGPT’s 64,3%. Google Bard generierte korrekte Antworten für 44,2% der Fragen, während GPT-3.5 und GPT-4 niemals die Antwort auf eine textbasierte Frage verweigerten.
Die Studienergebnisse unterstreichen die dringende Notwendigkeit, dass Neurochirurgen über aufkommende LLMs und ihre unterschiedlichen Leistungsniveaus für potenzielle klinische Anwendungen informiert bleiben. Mit Fortschritten im Bereich der KI könnten neurochirurgische Auszubildende LLMs für die Vorbereitung auf das Examen nutzen und sich darauf verlassen, um neue klinische Erkenntnisse zu gewinnen und als Gesprächshilfe zur Probe verschiedener klinischer Szenarien zu dienen, die für die Prüfung herausfordernd sind.
Es besteht jedoch ein dringender Bedarf, mehr Vertrauen in LLM-Systeme aufzubauen, daher sollten die strenge Validierung ihrer Leistung in immer höheren und offenen Szenarien fortgesetzt werden. Dies würde eine sichere und effektive Integration dieser LLMs in klinische Entscheidungsprozesse gewährleisten. Die Studie hebt die Bedeutung von Methoden zur Quantifizierung und Verständnis von Halluzinationen hervor, und letztendlich werden nur die LLMs, die Halluzinationen minimieren und erkennen, in die klinische Praxis integriert.
Die Studienergebnisse legen auch nahe, dass Muster von Multiple-Choice-Prüfungen in der medizinischen Ausbildung obsolet werden könnten, während verbale Bewertungen an Bedeutung gewinnen werden. Darüber hinaus stellt die Studie fest, dass GPT-4 reduzierte Halluzinationsraten aufwies und die Fähigkeit hatte, anspruchsvolle Konzepte wie die Feststellung der medizinischen Sinnlosigkeit zu navigieren. Es hatte jedoch Schwierigkeiten in anderen Szenarien, wie der Berücksichtigung von individuellen Patientenmerkmalen, z.B. der Fragilität.
Zusammenfassend hat die auf dem Preprint-Server von medRxiv veröffentlichte Studie gezeigt, dass GPT-4 in einem neurochirurgischen Oral Board Exam GPT-3.5 und Google Bard übertrifft. Die Ergebnisse der Studie unterstreichen die Notwendigkeit einer rigorosen Validierung der Leistung von Sprachmodellen in immer höheren und offenen Szenarien. Darüber hinaus betont die Studie die Bedeutung, dass Neurochirurgen über aufkommende Sprachmodelle und ihre unterschiedlichen Leistungsniveaus für potenzielle klinische Anwendungen informiert bleiben.