KI (ChatGPT) besteht Physikum mit der Note 3
In einem Experiment haben wir alle Physikumsfragen aus Frühjahr 2017 in das Eingabefenster von ChatGPT eingegeben.
Interessanterweise hat ChatGPT die Fragen ohne weitere Erklärung als Multiple-Choice-Fragen erkannt, beantwortet und sogar kommentiert!
Von den 318 gestellten Fragen wurden mit ChatGPT 72,5% richtig beantwortet.
Das entspricht der Note 3. Zum Vergleich: Die menschlichen Examenskandidaten erreichten einen Schnitt von 70 %.
ChatGPT konnte auch Bildfragen richtig beantworten, sofern man die Bild-Url in das Eingabefenster kopierte. Die Bildfragen wurden jedoch deutlich schlechter beantwortet.
Eine nach Fächern differenzierte Auswertung der von ChatGPT gegebenen Antworten zeigt folgende Teilleistungen:
Physik: 56,3%
Chemie: 50,0%
Biochemie: 82,1%
Physiologie: 62,9%
Biologie: 90,0%
Histologie: 47,4%
Anatomie: 67,2%
Psychologie: 93,3%
Erschreckend waren die suggerierte Sicherheit falscher Aussagen (siehe dazu nachfolgendes Beispiel 1).
Verblüffend waren die Sinnerkennung der meisten Fragen und die damit verbundenen Kommentierung (siehe dazu nachfolgendes Beispiel 2)
BEISPIEL 1
Frage Nr. 43, Frühjahr 2017, Tag 2; richtige Lösung: D, ChatGPT Antwort: A
74% der Examenskandidaten beantworten die Frage richtig.
Input:
Innen an der vorderen Bauchwand lassen sich Plica umbilicalis lateralis, Plica umbilicalis medialis und Plica umbilicalis mediana voneinander unterscheiden.
In der Plica umbilicalis medialis liegt beim Feten hierbei
(A) der Urachus
(B) die A. epigastrica inferior
(C) die A. epigastrica superior
(D) die A. umbilicalis
(E) die V. umbilicalis
ChatGPT output:
Die richtige Antwort lautet (A) der Urachus.
Der Urachus ist ein embryonales Organ, das später zum Medianumbilikalband reduziert wird. Während der Entwicklung ist der Urachus in der Plica umbilicalis medialis lokalisiert. Die Plica umbilicalis mediana ist eine Verlängerung des Urachus vom Nabel bis zur Harnblase. Die Plica umbilicalis lateralis enthält die A. epigastrica inferior, während die A. epigastrica superior in der Plica umbilicalis medialis verläuft. Die A. umbilicalis und V. umbilicalis sind Gefäße, die den Fetus mit der Plazenta verbinden und später beim Erwachsenen zu Ligamentum teres hepatis bzw. Ligamentum teres uteri werden.
BEISPIEL 2
Frage Nr. 140, Frühjahr, Tag 2; ; richtige Lösung: E, ChatGPT Antwort: E
49 % der Examenskandidaten beantworten die Frage richtig
Input:
Ein Doktorand untersucht im Rahmen seiner Arbeit 100 Patienten und 200 gesunde Kontrollpersonen. Er setzt einen Screening-Test ein, der 90 Patienten korrekt und 60 Kontrollpersonen fälschlicherweise als krank identifiziert. Die übrigen 10 Patienten und 140 Kontrollpersonen werden im Test als gesund ausgewiesen.
Welche der folgenden Aussagen trifft zu?
(A) Der negative prädiktive Wert beträgt 0,7.
(B) Der positive prädiktive Wert beträgt 0,7.
(C) Die Produkt-Moment-Korrelation zwischen dem Screening-Ergebnis und dem tatsächlichen Vorhandensein der Erkrankung beträgt 0,7.
(D) Die Sensitivität beträgt 0,7.
(E) Die Spezifität beträgt 0,7.
ChatGPT output:
Um die Antwort auf diese Frage zu bestimmen, müssen wir verschiedene Kennzahlen aus den gegebenen Daten berechnen. Wir verwenden die folgenden Begriffe:
TP: Anzahl der korrekt als krank identifizierten Patienten (true positives)
FP: Anzahl der fälschlicherweise als krank identifizierten Kontrollpersonen (false positives)
TN: Anzahl der korrekt als gesund identifizierten Kontrollpersonen (true negatives)
FN: Anzahl der fälschlicherweise als gesund identifizierten Patienten (false negatives)
Aus den gegebenen Daten können wir ableiten:
TP = 90
FP = 60
TN = 140
FN = 10
Jetzt können wir die gefragten Kennzahlen berechnen:
Der negative prädiktive Wert (NPV) gibt an, wie wahrscheinlich es ist, dass eine Person tatsächlich gesund ist, wenn der Test sie als gesund identifiziert hat. NPV = TN / (TN + FN) = 140 / (140 + 10) = 0,933. Die Antwort (A) ist falsch.
Der positive prädiktive Wert (PPV) gibt an, wie wahrscheinlich es ist, dass eine Person tatsächlich krank ist, wenn der Test sie als krank identifiziert hat. PPV = TP / (TP + FP) = 90 / (90 + 60) = 0,6. Die Antwort (B) ist falsch.
Die Produkt-Moment-Korrelation gibt an, wie stark der Zusammenhang zwischen dem Screening-Ergebnis und dem tatsächlichen Vorhandensein der Erkrankung ist.
Da die Daten binär sind, können wir die phi-Koeffizienten berechnen, die der Produkt-Moment-Korrelation entsprechen. phi = (TP * TN - FP * FN) / sqrt((TP + FP) * (TP + FN) * (TN + FP) * (TN + FN)) = (90 * 140 - 60 * 10) / sqrt((90 + 60) * (90 + 10) * (140 +
60) * (140 + 10)) = 0,473. Die Antwort (C) ist falsch.
Die Sensitivität gibt an, wie gut der Test tatsächlich kranke Personen identifiziert. Sensitivität = TP / (TP + FN) = 90 / (90 + 10) = 0,9. Die Antwort (D) ist falsch.
Die Spezifität gibt an, wie gut der Test tatsächlich gesunde Personen identifiziert. Spezifität = TN / (TN + FP) = 140 / (140 + 60) = 0,7. Die Antwort (E) ist richtig.
Daher ist die korrekte Antwort (E) "Die Spezifität beträgt 0,7."