KI (ChatGPT) besteht Physikum mit der Note 3

**MEDI-LEARN** · 19.04.2023 12:11

KI (ChatGPT) besteht Physikum mit der Note 3
In einem Experiment haben wir alle Physikumsfragen aus Frühjahr 2017 in das Eingabefenster von ChatGPT eingegeben.

Interessanterweise hat ChatGPT die Fragen ohne weitere Erklärung als Multiple-Choice-Fragen erkannt, beantwortet und sogar kommentiert!

Von den 318 gestellten Fragen wurden mit ChatGPT 72,5% richtig beantwortet.

Das entspricht der Note 3. Zum Vergleich: Die menschlichen Examenskandidaten erreichten einen Schnitt von 70 %.

ChatGPT konnte auch Bildfragen richtig beantworten, sofern man die Bild-Url in das Eingabefenster kopierte. Die Bildfragen wurden jedoch deutlich schlechter beantwortet.

Eine nach Fächern differenzierte Auswertung der von ChatGPT gegebenen Antworten zeigt folgende Teilleistungen:
Physik: 56,3%
Chemie: 50,0%
Biochemie: 82,1%
Physiologie: 62,9%
Biologie: 90,0%
Histologie: 47,4%
Anatomie: 67,2%
Psychologie: 93,3%

Erschreckend waren die suggerierte Sicherheit falscher Aussagen (siehe dazu nachfolgendes Beispiel 1).

Verblüffend waren die Sinnerkennung der meisten Fragen und die damit verbundenen Kommentierung (siehe dazu nachfolgendes Beispiel 2)

BEISPIEL 1
Frage Nr. 43, Frühjahr 2017, Tag 2; richtige Lösung: D, ChatGPT Antwort: A
74% der Examenskandidaten beantworten die Frage richtig.

Input:
Innen an der vorderen Bauchwand lassen sich Plica umbilicalis lateralis, Plica umbilicalis medialis und Plica umbilicalis mediana voneinander unterscheiden.
In der Plica umbilicalis medialis liegt beim Feten hierbei

(A) der Urachus
(B) die A. epigastrica inferior
(C) die A. epigastrica superior
(D) die A. umbilicalis
(E) die V. umbilicalis

ChatGPT output:
Die richtige Antwort lautet (A) der Urachus.

Der Urachus ist ein embryonales Organ, das später zum Medianumbilikalband reduziert wird. Während der Entwicklung ist der Urachus in der Plica umbilicalis medialis lokalisiert. Die Plica umbilicalis mediana ist eine Verlängerung des Urachus vom Nabel bis zur Harnblase. Die Plica umbilicalis lateralis enthält die A. epigastrica inferior, während die A. epigastrica superior in der Plica umbilicalis medialis verläuft. Die A. umbilicalis und V. umbilicalis sind Gefäße, die den Fetus mit der Plazenta verbinden und später beim Erwachsenen zu Ligamentum teres hepatis bzw. Ligamentum teres uteri werden.

BEISPIEL 2
Frage Nr. 140, Frühjahr, Tag 2; ; richtige Lösung: E, ChatGPT Antwort: E

49 % der Examenskandidaten beantworten die Frage richtig

Input:
Ein Doktorand untersucht im Rahmen seiner Arbeit 100 Patienten und 200 gesunde Kontrollpersonen. Er setzt einen Screening-Test ein, der 90 Patienten korrekt und 60 Kontrollpersonen fälschlicherweise als krank identifiziert. Die übrigen 10 Patienten und 140 Kontrollpersonen werden im Test als gesund ausgewiesen.
Welche der folgenden Aussagen trifft zu?
(A) Der negative prädiktive Wert beträgt 0,7.
(B) Der positive prädiktive Wert beträgt 0,7.
(C) Die Produkt-Moment-Korrelation zwischen dem Screening-Ergebnis und dem tatsächlichen Vorhandensein der Erkrankung beträgt 0,7.
(D) Die Sensitivität beträgt 0,7.
(E) Die Spezifität beträgt 0,7.

ChatGPT output:
Um die Antwort auf diese Frage zu bestimmen, müssen wir verschiedene Kennzahlen aus den gegebenen Daten berechnen. Wir verwenden die folgenden Begriffe:
TP: Anzahl der korrekt als krank identifizierten Patienten (true positives)
FP: Anzahl der fälschlicherweise als krank identifizierten Kontrollpersonen (false positives)
TN: Anzahl der korrekt als gesund identifizierten Kontrollpersonen (true negatives)
FN: Anzahl der fälschlicherweise als gesund identifizierten Patienten (false negatives)
Aus den gegebenen Daten können wir ableiten:
TP = 90
FP = 60
TN = 140
FN = 10

Jetzt können wir die gefragten Kennzahlen berechnen:

Der negative prädiktive Wert (NPV) gibt an, wie wahrscheinlich es ist, dass eine Person tatsächlich gesund ist, wenn der Test sie als gesund identifiziert hat. NPV = TN / (TN + FN) = 140 / (140 + 10) = 0,933. Die Antwort (A) ist falsch.

Der positive prädiktive Wert (PPV) gibt an, wie wahrscheinlich es ist, dass eine Person tatsächlich krank ist, wenn der Test sie als krank identifiziert hat. PPV = TP / (TP + FP) = 90 / (90 + 60) = 0,6. Die Antwort (B) ist falsch.

Die Produkt-Moment-Korrelation gibt an, wie stark der Zusammenhang zwischen dem Screening-Ergebnis und dem tatsächlichen Vorhandensein der Erkrankung ist.

Da die Daten binär sind, können wir die phi-Koeffizienten berechnen, die der Produkt-Moment-Korrelation entsprechen. phi = (TP * TN - FP * FN) / sqrt((TP + FP) * (TP + FN) * (TN + FP) * (TN + FN)) = (90 * 140 - 60 * 10) / sqrt((90 + 60) * (90 + 10) * (140 +
60) * (140 + 10)) = 0,473. Die Antwort (C) ist falsch.

Die Sensitivität gibt an, wie gut der Test tatsächlich kranke Personen identifiziert. Sensitivität = TP / (TP + FN) = 90 / (90 + 10) = 0,9. Die Antwort (D) ist falsch.

Die Spezifität gibt an, wie gut der Test tatsächlich gesunde Personen identifiziert. Spezifität = TN / (TN + FP) = 140 / (140 + 60) = 0,7. Die Antwort (E) ist richtig.

Daher ist die korrekte Antwort (E) "Die Spezifität beträgt 0,7."

**Anne1970** · 20.04.2023 02:49

Interessant wäre zu erfahren, welche Version verwendet wurde. Schon ChatGPT4 oder genauer die Version GPT 4 (verändert nach Aufklärung

) ?

**Jens** · 20.04.2023 13:28

Der Test wurde am 17.04.23 gemacht, das dürfte also die 4er Version sein.

**Thomas24** · 20.04.2023 14:00

Die 3 er Version hat ja schon im Februar das USMLE bestanden. Zwar nur mittelmäßig, aber immerhin. Die Leistungsfähigkeit wird ja nur zunehmen.

**jijichu** · 20.04.2023 14:01

Zitat von Jens

Der Test wurde am 17.04.23 gemacht, das dürfte also die 4er Version sein.

Man muss manuell von 3.5 (Default) auf 4 umstellen, also ist nicht garantiert, dass es die 4er Version ist.

Thema: KI (ChatGPT) besteht Physikum mit der Note 3

Aktive Benutzer in diesem Thema

Themen-Optionen

MEDI-LEARN bei Facebook