teaser bild

Benutzername:

Passwort:

Jetzt registrieren

Passwort futsch!?

;-)

Itemstatistiken von Key-Feature-Fragen

MEDI-LEARN

[email protected]

Abstract
Mit dem Anspruch, eine größere inhaltliche Diversität in der Prüfung zu erreichen, wurden im Frühjahr 2018 erstmals Fragen im Key-Feature-Format im 2. Abschnitt der Ärztlichen Prüfung verwendet. Auf Grundlage von 3966 Prüfungsergebnissen des MEDI-LEARN-Examensservices, hat sich gezeigt, dass dieses Format in Schwierigkeit und Trennschärfe den bisherigen Fallfragen entspricht.

Hintergrund
Erstmals wurden in diesem Examen (M2 F18) Fallstudien im sog. „Key-Feature-Format“ verwendet. Das IMPP schreibt hierzu:
„Eine solche Fallstudie im Key-Feature-Format schildert eine klinische Situation oder ein klinisches Problem, an das sich dann drei bis fünf Fragen anschließen, die sog. Schlüsselkompetenzen prüfen. Ein Key-Feature kann aber auch einen schwierigen Knotenpunkt bei der Identifikation eines Problems oder im Management (sog. Weichenstellung eines Problems darstellen. Damit wird mit diesen Key-Feature-Fragen die Kompetenz der klinischen Entscheidungsfindung und nicht nur das Erinnern von reinen Fakten im klinischen Kontext geprüft. Somit wird die Anwendung von Wissen auf einen bestimmten klinischen Fall geprüft. Mit diesem Ansatz lässt sich eine größere inhaltliche Diversität in unseren Prüfungen erreichen.“

Diese Key-Feature-Fragen sind jedoch nicht ganz unproblematisch, da sie zum einen Folgefehler nach sich ziehen können und zum anderen u.U. auch retroaktiv („von hinten“) lösbar sind. D.h. zuvor gestellte Fragen könnten durch Informationen aus Folgefragen gelöst werden.

Außerdem stellen solche Folgefragen den Prüfling vor ein Dilemma:
Soll er alle Folgefragen konsistent beantworten, d.h. soll er der unter Frage eins von ihm gewählten Diagnose A treu bleiben und bei Frage zwei die hierfür adäquate Therapie A’ vorschlagen und damit auf „Alles oder Nichts“ setzten (0 oder 2 Punkte) oder soll er sein Risiko minimieren und bei Frage eins auf Diagnose A und bei Frage zwei auf Therapie B’ setzten. Aber wie ist das wiederum zu bewerten? Der Student, der für die Diagnose A auch die richtige Therapie A wählt, bekommt bei falscher Diagnose A keinen Punkt, der Student, der für die falsche Diagnose A auch noch die falsche Therapie B nennt, bekommt einen Punkt?

Bei EDV gestützten Prüfungen wird dieses Problem gelöst, indem nach Beantwortung von Frage eins die richtige Diagnose genannt wird, bevor dann nach der Therapie gefragt wird. „Zurückblättern“ ist selbstverständlich nicht möglich. So begegnet man dem Problem von Folgefehlern und der retroaktiven Lösung.

Nun sind die ärztlichen Prüfungen noch nicht EDV-gestützt, so dass das IMPP vor Einführung der Fallstudien 2005 diese damals sog. „sequentielle Fragenform“ auch für das Paper-and-Pencil-Format evaluiert hat, in dem nach der Fallschilderung zunächst Fragen nach diagnostischen Maßnahmen und der Verdachtsdiagnose gestellt wurden. Anschließend hat man die Aufgabenhefte Hefte und Antwortbögen eingesammelt und in den neu ausgeteilten Aufgabenheften zunächst die richtige Diagnose genannt. Erst danach wurde nach angemessenen therapeutischen Maßnahmen gefragt.

Es hat sich gezeigt, dass diese Form der sequentiellen Fragestellung (heute: „Key-Feature-Format“) der damals sog. „sternförmigen Fragestellung“ nicht überlegen war. Die sequentiell gestellten Fragen waren damals nur unwesentlich schwieriger als die sternförmig gestellten, was sich aber auch durch die Reihenfolge der damaligen Prüfung erklären lassen könnte. Die sequentiellen Fragen wurde am Ende der im abhängigen Versuchsdesign durchgeführten Prüfung gestellt, ohne dass die Reihenfolge ausbalanciert wurde, so dass die Konzentrationsfähigkeit der Probanden mit der Frageform konfundiert war.

Das IMPP setzt daher Fallstudien mit sternförmiger Fragestellung ein, in denen jede Frage für sich steht und weder Folgefehler noch retroaktives Lösen der Fragen möglich sind.

Nun wurden im Frühjahr 2018 doch sequentielle Fallfragen gestellt, ohne dass ein EDV-System oder das zwischenzeitliche Einsammeln und Neuverteilen der Aufgabenhefte Folgefehler oder retroaktives Lösen der Fragen verhindern hätte.

Uns interessierte daher, wie sich dieses Format unter den gegebenen Bedingungen aus testtheoretischer Sicht bewährt hat.

Fragestellung
Unterscheiden sich Fragen im Key-Feature-Format hinsichtlich Schwierigkeit und Trennschärfe von Fragen im traditionellen Format?

Stichprobe
Datenquelle ist der MEDI-LEARN-Examensservice. In diesem Rahmen geben die Examenskandidaten online auf dem MEDI-LEARN-Portal ihre im Examen gewählten Lösungen ein. Auf Grundlage der von MEDI-LEARN-Dozenten erstellten Lösungen erhalten die Studenten so noch vor Bekanntgabe der offiziellen Ergebnisse eine recht genaue Hochrechnung der eigenen Examensleistung. Im Frühjahr 2018 haben 3966 Studenten diesen Service in Anspruch genommen. Auf Grundlage dieser Stichprobe, die erfahrungsgemäß ca. 3/4 aller Examenskandidaten umfasst, lassen sich recht gute Vorhersagen auch hinsichtlich der Itemstatistiken berechnen.

Methode
Zunächst wurden Einzel- von Fallfragen unterschieden. Von den Fallfragen wurden alle Folgefragen von Fällen mit fünf und weniger Folgefragen als „Key-Feature-Fragen“, die übrigen auf Fälle bezogenen Folgefragen als „No-Key-Feature-Fragen“ klassifiziert.

Der Schwierigkeitsindex (S) einer Frage ergibt sich aus dem Anteil richtiger Lösungen (hier Übereinstimmung mit dem MEDI-LEARN-Ergebnis).

Der Trennschärfekoeffizient (T) errechnet sich durch den punktbiserialen Korrelationskoeffizienten zwischen dem Ergebnis der Frage und dem Gesamtergebnis. Eine hohe Trennschärfe bedeutet, dass diese Fragen vorwiegend von Studenten mit einem guten Gesamtergebnis richtig und von Studenten mit einem schlechten Gesamtergebnis falsch beantwortet wurden. Eine Trennschärfe von 0 besagt, dass diese Frage unabhängig von Gesamtergebnis richtig bzw. falsch beantwortet wurde. Fragen mit negativer Trennschärfe werden sogar von „schwächeren“ Kandidaten häufiger richtig beantwortet als von „guten“ Kandidaten. Mit der Trennschärfe der Fragen erhöht sich nach klassisch testtheoretischen Kriterien die Reliabilität und die davon abhängende Validität und somit die Gesamtgüte eines Testverfahrens.

Unterschiede der Fragenklassen wurden zweiseitig mit einem T-Test für unabhängige varianzhomogene (homoskedastisch) Gruppen auf Signifikanz geprüft. Angegeben wird jeweils p(t). Wenn p(t) < 0,05 wird, so wäre der getestet Unterschied mit einer Irrtumswahrscheinlichkeit von 5% signifikant.

Ergebnis
Von den 142 Einzelfragen wurden im Mittel 75,3% richtig beantwortet. Sie waren damit etwas schwieriger als die 178 Fallfragen, von denen im Mittel 77,1% richtig beantwortet wurden. Dieser Unterschied ist jedoch nicht signifikant (p(t)=0,45)

Hinsichtlich der Trennschärfe schneiden die Einzelfragen gegenüber den Fallfragen etwas besser ab. Die mittlere Trennschärfe der Einzelfragen liegt bei 0,259 gegenüber 0,247 bei den Fallfragen, aber auch dieser Unterschied liegt mit einem p(t) = .27 noch im Bereich der zufälligen Streuung.

Innerhalb der Fallfragen entsprechen die Fragen im Key-Feature denen im No-Key-Feature-Format hinsichtlich der Trennschärfe und Schwierigkeit. Die Schwierigkeit differiert mit einem p(t)= .91 und die Trennschärfen mit einem p(t)=.33 im zufälligen Bereich, so dass diese geringen Differenzen als zufällig angenommen werden können.

Fragentyp

Anzahl der Fragen

Schwierigkeits-index

Trennschärfe

Alle

320

0,766

0,249

Einzelfragen

142

0,753

0,259

alle Fallfragen

178

0,771

0,247

No key Feature

117

0,770

0,242

Key_Feature

61

0,773

   
     0,257

 


Zusammenfassung
Es lässt sich zusammenfassend sagen, dass sich hinsichtlich Schwierigkeit und Trennschärfe in der untersuchten Stichprobe weder Einzel- von Fallfragen noch innerhalb der Fälle die Key-Feature- von den No-Key-Feature-Fragen unterschieden.