ChatGPT besteht die Prüfung zum Radiologiegremium – ScienceDaily


Laut zwei neuen Forschungsstudien, die in veröffentlicht wurden, hat die neueste Version von ChatGPT eine Prüfung im Radiologie-Board-Stil bestanden, die das Potenzial großer Sprachmodelle hervorhob, aber auch Einschränkungen aufdeckte, die die Zuverlässigkeit beeinträchtigen Radiologieeine Zeitschrift der Radiological Society of North America (RSNA).

ChatGPT ist ein Chatbot mit künstlicher Intelligenz (KI), der mithilfe eines Deep-Learning-Modells Muster und Beziehungen zwischen Wörtern in seinen umfangreichen Trainingsdaten erkennt und auf der Grundlage einer Eingabeaufforderung menschenähnliche Antworten generiert. Da die Trainingsdaten jedoch keine Quelle der Wahrheit enthalten, kann das Tool sachlich falsche Antworten generieren.

„Die Verwendung großer Sprachmodelle wie ChatGPT nimmt explosionsartig zu und wird weiter zunehmen“, sagte der Hauptautor Rajesh Bhayana, MD, FRCPC, ein Abdominalradiologe und Technologieleiter an der University Medical Imaging Toronto, Toronto General Hospital in Toronto, Kanada. „Unsere Forschung liefert Einblicke in die Leistung von ChatGPT im radiologischen Kontext und verdeutlicht das unglaubliche Potenzial großer Sprachmodelle sowie die aktuellen Einschränkungen, die es unzuverlässig machen.“

ChatGPT wurde kürzlich zur am schnellsten wachsenden Verbraucheranwendung in der Geschichte gekürt, und ähnliche Chatbots werden in beliebte Suchmaschinen wie Google und Bing integriert, die Ärzte und Patienten für die Suche nach medizinischen Informationen nutzen, bemerkte Dr. Bhayana.

Um seine Leistung bei Prüfungsfragen des Radiologieausschusses zu bewerten und Stärken und Grenzen zu erkunden, testeten Dr. Bhayana und Kollegen zunächst ChatGPT auf Basis von GPT-3.5, der derzeit am häufigsten verwendeten Version. Die Forscher verwendeten 150 Multiple-Choice-Fragen, die auf Stil, Inhalt und Schwierigkeitsgrad der Prüfungen des Canadian Royal College und des American Board of Radiology abgestimmt waren.

Die Fragen enthielten keine Bilder und wurden nach Fragetyp gruppiert, um einen Einblick in die Leistung zu erhalten: Denken niedrigerer Ordnung (Wissenserinnerung, Grundverständnis) und Denken höherer Ordnung (Anwenden, Analysieren, Synthetisieren). Die Denkfragen höherer Ordnung wurden weiter nach Typ unterteilt (Beschreibung der Bildgebungsbefunde, klinisches Management, Berechnung und Klassifizierung, Krankheitsassoziationen).

Die Leistung von ChatGPT wurde insgesamt sowie nach Fragetyp und Thema bewertet. Das Vertrauen in die Sprache der Antworten wurde ebenfalls bewertet.

Die Forscher fanden heraus, dass ChatGPT auf Basis von GPT-3.5 69 % der Fragen richtig beantwortete (104 von 150), was nahe der Bestehensnote von 70 % liegt, die vom Royal College in Kanada verwendet wird. Das Modell schnitt bei Fragen, die ein Denken niedrigerer Ordnung erforderten, relativ gut ab (84 %, 51 von 61), hatte jedoch Probleme bei Fragen, die ein Denken höherer Ordnung erforderten (60 %, 53 von 89). Insbesondere hatte es Probleme mit Fragen höherer Ordnung, die die Beschreibung von Bildbefunden (61 %, 28 von 46), die Berechnung und Klassifizierung (25 %, 2 von 8) und die Anwendung von Konzepten (30 %, 3 von 10) betrafen. Angesichts des Mangels an radiologiespezifischer Vorschulung war die schlechte Leistung bei Fragen zum Denken höherer Ordnung nicht überraschend.

GPT-4 wurde im März 2023 in begrenzter Form für zahlende Benutzer veröffentlicht und behauptet insbesondere, dass es im Vergleich zu GPT-3.5 über verbesserte erweiterte Argumentationsfunktionen verfügt.

In einer Folgestudie beantwortete GPT-4 81 % (121 von 150) derselben Fragen richtig, übertraf damit GPT-3.5 und übertraf die Bestehensschwelle von 70 %. GPT-4 schnitt bei Fragen zum Denken höherer Ordnung deutlich besser ab als GPT-3.5 (81 %), insbesondere bei Fragen zur Beschreibung von Bildbefunden (85 %) und zur Anwendung von Konzepten (90 %).

Die Ergebnisse deuten darauf hin, dass die behaupteten verbesserten erweiterten Denkfähigkeiten von GPT-4 zu einer verbesserten Leistung im radiologischen Kontext führen. Sie schlagen außerdem ein verbessertes kontextbezogenes Verständnis der radiologiespezifischen Terminologie, einschließlich Bildbeschreibungen, vor, was für die Ermöglichung zukünftiger nachgelagerter Anwendungen von entscheidender Bedeutung ist.

„Unsere Studie zeigt eine beeindruckende Verbesserung der Leistung von ChatGPT in der Radiologie über einen kurzen Zeitraum und unterstreicht das wachsende Potenzial großer Sprachmodelle in diesem Zusammenhang“, sagte Dr. Bhayana.

GPT-4 zeigte keine Verbesserung bei Denkfragen niedrigerer Ordnung (80 % gegenüber 84 %) und beantwortete 12 Fragen falsch, die GPT-3.5 richtig beantwortete, was Fragen hinsichtlich seiner Zuverlässigkeit bei der Informationsbeschaffung aufwirft.

„Wir waren zunächst überrascht von den genauen und sicheren Antworten von ChatGPT auf einige anspruchsvolle radiologische Fragen, dann aber auch von einigen sehr unlogischen und ungenauen Behauptungen“, sagte Dr. Bhayana. „Angesichts der Funktionsweise dieser Modelle sollten die ungenauen Antworten natürlich nicht besonders überraschend sein.“

Die gefährliche Tendenz von ChatGPT, ungenaue Reaktionen hervorzurufen, die als Halluzinationen bezeichnet werden, kommt bei GPT-4 seltener vor, schränkt aber derzeit noch die Anwendbarkeit in der medizinischen Ausbildung und Praxis ein.

Beide Studien zeigten, dass ChatGPT konsequent eine selbstbewusste Sprache verwendete, auch wenn sie falsch war. Dies ist besonders gefährlich, wenn man sich ausschließlich auf Informationen verlässt, betont Dr. Bhayana, insbesondere für Anfänger, die sichere falsche Antworten möglicherweise nicht als ungenau erkennen.

„Für mich ist dies die größte Einschränkung. Derzeit wird ChatGPT am besten verwendet, um Ideen zu wecken, den Prozess des medizinischen Schreibens zu starten und Daten zusammenzufassen. Wenn es zum schnellen Abrufen von Informationen verwendet wird, muss es immer auf Fakten überprüft werden“, sagt Dr . sagte Bhayana.

Weitere Artikel