PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : KI (ChatGPT) besteht Physikum mit der Note 3



MEDI-LEARN
19.04.2023, 12:11
KI (ChatGPT) besteht Physikum mit der Note 3
In einem Experiment haben wir alle Physikumsfragen aus Frühjahr 2017 in das Eingabefenster von ChatGPT eingegeben.

Interessanterweise hat ChatGPT die Fragen ohne weitere Erklärung als Multiple-Choice-Fragen erkannt, beantwortet und sogar kommentiert!

Von den 318 gestellten Fragen wurden mit ChatGPT 72,5% richtig beantwortet.

Das entspricht der Note 3. Zum Vergleich: Die menschlichen Examenskandidaten erreichten einen Schnitt von 70 %.

ChatGPT konnte auch Bildfragen richtig beantworten, sofern man die Bild-Url in das Eingabefenster kopierte. Die Bildfragen wurden jedoch deutlich schlechter beantwortet.

Eine nach Fächern differenzierte Auswertung der von ChatGPT gegebenen Antworten zeigt folgende Teilleistungen:
Physik: 56,3%
Chemie: 50,0%
Biochemie: 82,1%
Physiologie: 62,9%
Biologie: 90,0%
Histologie: 47,4%
Anatomie: 67,2%
Psychologie: 93,3%

Erschreckend waren die suggerierte Sicherheit falscher Aussagen (siehe dazu nachfolgendes Beispiel 1).

Verblüffend waren die Sinnerkennung der meisten Fragen und die damit verbundenen Kommentierung (siehe dazu nachfolgendes Beispiel 2)

BEISPIEL 1
Frage Nr. 43, Frühjahr 2017, Tag 2; richtige Lösung: D, ChatGPT Antwort: A
74% der Examenskandidaten beantworten die Frage richtig.

Input:
Innen an der vorderen Bauchwand lassen sich Plica umbilicalis lateralis, Plica umbilicalis medialis und Plica umbilicalis mediana voneinander unterscheiden.
In der Plica umbilicalis medialis liegt beim Feten hierbei

(A) der Urachus
(B) die A. epigastrica inferior
(C) die A. epigastrica superior
(D) die A. umbilicalis
(E) die V. umbilicalis

ChatGPT output:
Die richtige Antwort lautet (A) der Urachus.

Der Urachus ist ein embryonales Organ, das später zum Medianumbilikalband reduziert wird. Während der Entwicklung ist der Urachus in der Plica umbilicalis medialis lokalisiert. Die Plica umbilicalis mediana ist eine Verlängerung des Urachus vom Nabel bis zur Harnblase. Die Plica umbilicalis lateralis enthält die A. epigastrica inferior, während die A. epigastrica superior in der Plica umbilicalis medialis verläuft. Die A. umbilicalis und V. umbilicalis sind Gefäße, die den Fetus mit der Plazenta verbinden und später beim Erwachsenen zu Ligamentum teres hepatis bzw. Ligamentum teres uteri werden.

BEISPIEL 2
Frage Nr. 140, Frühjahr, Tag 2; ; richtige Lösung: E, ChatGPT Antwort: E

49 % der Examenskandidaten beantworten die Frage richtig

Input:
Ein Doktorand untersucht im Rahmen seiner Arbeit 100 Patienten und 200 gesunde Kontrollpersonen. Er setzt einen Screening-Test ein, der 90 Patienten korrekt und 60 Kontrollpersonen fälschlicherweise als krank identifiziert. Die übrigen 10 Patienten und 140 Kontrollpersonen werden im Test als gesund ausgewiesen.
Welche der folgenden Aussagen trifft zu?
(A) Der negative prädiktive Wert beträgt 0,7.
(B) Der positive prädiktive Wert beträgt 0,7.
(C) Die Produkt-Moment-Korrelation zwischen dem Screening-Ergebnis und dem tatsächlichen Vorhandensein der Erkrankung beträgt 0,7.
(D) Die Sensitivität beträgt 0,7.
(E) Die Spezifität beträgt 0,7.

ChatGPT output:
Um die Antwort auf diese Frage zu bestimmen, müssen wir verschiedene Kennzahlen aus den gegebenen Daten berechnen. Wir verwenden die folgenden Begriffe:
TP: Anzahl der korrekt als krank identifizierten Patienten (true positives)
FP: Anzahl der fälschlicherweise als krank identifizierten Kontrollpersonen (false positives)
TN: Anzahl der korrekt als gesund identifizierten Kontrollpersonen (true negatives)
FN: Anzahl der fälschlicherweise als gesund identifizierten Patienten (false negatives)
Aus den gegebenen Daten können wir ableiten:
TP = 90
FP = 60
TN = 140
FN = 10

Jetzt können wir die gefragten Kennzahlen berechnen:

Der negative prädiktive Wert (NPV) gibt an, wie wahrscheinlich es ist, dass eine Person tatsächlich gesund ist, wenn der Test sie als gesund identifiziert hat. NPV = TN / (TN + FN) = 140 / (140 + 10) = 0,933. Die Antwort (A) ist falsch.

Der positive prädiktive Wert (PPV) gibt an, wie wahrscheinlich es ist, dass eine Person tatsächlich krank ist, wenn der Test sie als krank identifiziert hat. PPV = TP / (TP + FP) = 90 / (90 + 60) = 0,6. Die Antwort (B) ist falsch.

Die Produkt-Moment-Korrelation gibt an, wie stark der Zusammenhang zwischen dem Screening-Ergebnis und dem tatsächlichen Vorhandensein der Erkrankung ist.

Da die Daten binär sind, können wir die phi-Koeffizienten berechnen, die der Produkt-Moment-Korrelation entsprechen. phi = (TP * TN - FP * FN) / sqrt((TP + FP) * (TP + FN) * (TN + FP) * (TN + FN)) = (90 * 140 - 60 * 10) / sqrt((90 + 60) * (90 + 10) * (140 +
60) * (140 + 10)) = 0,473. Die Antwort (C) ist falsch.

Die Sensitivität gibt an, wie gut der Test tatsächlich kranke Personen identifiziert. Sensitivität = TP / (TP + FN) = 90 / (90 + 10) = 0,9. Die Antwort (D) ist falsch.

Die Spezifität gibt an, wie gut der Test tatsächlich gesunde Personen identifiziert. Spezifität = TN / (TN + FP) = 140 / (140 + 60) = 0,7. Die Antwort (E) ist richtig.


Daher ist die korrekte Antwort (E) "Die Spezifität beträgt 0,7."

Anne1970
20.04.2023, 02:49
Interessant wäre zu erfahren, welche Version verwendet wurde. Schon ChatGPT4 oder genauer die Version GPT 4 (verändert nach Aufklärung :grins:) ?

Jens
20.04.2023, 13:28
Der Test wurde am 17.04.23 gemacht, das dürfte also die 4er Version sein.

Thomas24
20.04.2023, 14:00
Die 3 er Version hat ja schon im Februar das USMLE bestanden. Zwar nur mittelmäßig, aber immerhin. Die Leistungsfähigkeit wird ja nur zunehmen.

jijichu
20.04.2023, 14:01
Der Test wurde am 17.04.23 gemacht, das dürfte also die 4er Version sein.


Man muss manuell von 3.5 (Default) auf 4 umstellen, also ist nicht garantiert, dass es die 4er Version ist.

TaraTamm
21.04.2023, 09:33
Interessant wäre zu erfahren, welche Version verwendet wurde. Schon ChatGPT4?

Es gibt gar kein „ChatGPT 4“. Es gibt ChatGPT (das entspricht GPT 3,5) und es gibt GPT 4 (diese Version heißt nicht ChatGPT).

Von daher muss man eigentlich davon ausgehen, dass hier die Version 3,5 verwendet wurde. Allerdings wird erwähnt, dass auch Bilder analysiert wurden und das kann nur GPT 4.

Wäre der Post von GPT geschrieben worden und nicht von der Medi-Learn Redaktion, dann wären solche Inkonsistenzen nicht aufgetreten ;)

Anne1970
21.04.2023, 10:14
Tja: war ein Test: du hast ihn bestanden. Dann kann ich ja meine Frage redigieren.

anignu
15.05.2023, 22:00
@nora922: ich mag chatGPT auch...

berland
24.07.2023, 10:33
Das wundert mich nicht. Von solchen Berichten habe ich schon viel gelesen. Bald brauchen Schüler und Studenten gar nicht mehr lernen, wenn alle AI´s nutzen

Haffi
17.01.2024, 15:01
Das wundert mich nicht. Von solchen Berichten habe ich schon viel gelesen. Bald brauchen Schüler und Studenten gar nicht mehr lernen, wenn alle AI´s nutzen

Das wird auch Zeit, dass dieses angestaubte Modell sein Ende findet.