PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Studie zu GPT-4 und GPT-3 in medizinischen Examina



MEDI-LEARN
28.03.2024, 10:06
Im Rahmen einer Studie von MEDI-LEARN (Chat GPT besteht Physikum mit Note 3 (https://www.medi-learn.de/humanmedizin/include/Jump.php?ID=8769)) hatten wir mit GPT-3.5 gearbeitet, mittlerweile wurde auch GPT-4 in medizinischen Examina (M2, 2. Staatsexamen) getestet:

Eine aktuelle Studie (Comparison of the Performance of GPT-3.5 and GPT-4 With That of Medical Students on the Written German Medical Licensing Examination: Observational Study; Meyer et al; JMIR MEDICAL EDUCATION (https://www.medi-learn.de/humanmedizin/include/Jump.php?ID=8767)) untersucht die Leistungsfähigkeit von GPT-3.5 und GPT-4 im Vergleich zu Medizinstudierenden bei der deutschen ärztlichen Prüfung.

Die Studie stellt fest, dass GPT-4 mit durchschnittlich 85% signifikant besser abschneidet und sich gegenüber GPT-3.5 um 27% verbessert hat.

GPT-4 zeigte besonders bei Fragen zur Inneren Medizin und Chirurgie Stärken, hatte jedoch Schwächen im akademischen Forschungsbereich.

Die Ergebnisse deuten darauf hin, dass GPT-4 das Potenzial hat, die medizinische Ausbildung und Patientenversorgung zu verbessern, vorausgesetzt, die Ergebnisse werden kritisch von medizinisch geschultem Personal bewertet.

Die Studie unterstreicht die Notwendigkeit weiterer Untersuchungen zur Sicherheit und Genauigkeit von ChatGPT für die Allgemeinbevölkerung.

Hier geht es zur Studie: https://mededu.jmir.org/2024/1/e50965 (https://www.medi-learn.de/humanmedizin/include/Jump.php?ID=8767)

P.S.: Im Rahmen der Kurse von MEDI-LEARN Repetitorien werden bereits Prüfungssimulationen mit KI durchgeführt - klick hier MEDI-LEARN Kurse (https://www.medi-learn.de/humanmedizin/include/Jump.php?ID=8766)

davo
28.03.2024, 12:45
Ein interessantes Ergebnis. Zeigt letztlich aber auch, wie anspruchsvoll die ärztliche Tätigkeit im Vergleich zur Beantwortung von MC-Fragen ist.

OldBones
14.06.2024, 09:30
Chatbots auf LLM-Basis können eben gut MC ... das ist keine Kunst.

Nur versteht ein LLM-Chatbot nichts inhaltlich, sondern vergleicht nur die Wahrscheinlichkeit, mit der ein oder mehrere Strings im Vergleich sich vektoriell annähern.


Bevor man mit LLM-Chatbots arbeitet, sollte man sie im Detail verstanden haben.

Die ix hat ein gutes Sonderheft dazu herausgebracht:
https://shop.heise.de/ix-special-kuenstliche-intelligenz-2023/PDF


Für den Alltagsgebrauch sind alle LLM-Chatbos, erhöhte "Trefferwahrscheinlichkeit" hin oder her, unbrauchbar.
Sie können lediglich als Anregung oder für ein Brainstorming dienen.


Wann immer jemand eine Frage einem LLM-Chatbot stellt und absolut nicht weiß, welche Antwort herauskommen wird, hat derjenige schon verloren, da er oder sie die Antwort ohnehin intensiv gegenprüfen muss.


Super sind LLM-Chatbots für freies Brainstorming bei bestehenden Problemen oder wenn die Lösung für ein Problem bekannt ist, aber nicht der Weg dorthin.


Ansonsten sind sie unnütz, da sie keinerlei Kontextverständnis haben.
Für ein LLM ist es egal, ob man über Medizin oder Backrezepte spricht - es sind alles nur vektorielle Vergleiche von Textstrings.