ROC-Kurven-Analyse

Statistik-Support für Studenten

Dr. Thomas Keller, ACOMED-statistik, Leipzig

Nun ist es an der Zeit, endlich ROC-Kurven zu zeigen:

ROC-Kurven für NSE bei SCLC und NSCLC-Patienten

Abb. 1: ROC-Kurven für die NSE-Werte (NSE: Tumormarker Neuronen-spezifische Enolase) von Patienten mit Bronchialkarzinom bzw. benignen Lungenerkrankungen. Links: Patienten mit kleinzelligem BCa (SCLC), rechts: Patienten mit nichtkleinzelligem BCa (NSCLC). Angegeben sind die ROC-Kurve (rote Kreise), sowie die Diagonale (schwarze Linie).

Der diagnostische Test weist Trennschärfe auf, wenn sich die Kurve signifikant von der Diagonalen (links unten - rechts oben) unterscheidet. Im Idealfall (100%ige Trennschärfe) liegt die Kurve auf der linken bzw. oberen Begrenzungs-Seite des umschließenden Quadrates. Je größer also der Abstand der ROC-Kurve von der Diagonalen, desto besser die Trennschärfe des Tests. In Abb.1 wird dies deutlich. NSE, ein (relativ) spezifischer Marker für das kleinzellige Bronchialkarzinom, zeigt für SCLC einen deutlich größeren Abstand zur Diagonale als für NSCLC.

Ein Maß für die Güte des Tests ist die Fläche unter der ROC-Kurve (AUC: Area under Curve). Die Fläche kann Werte zwischen 0,5 und 1 annehmen, wobei ein höherer Wert die bessere Güte anzeigt. AUC berechnet man am einfachsten mit der Trapezmethode, die im allgemeinen die Fläche gut abschätzt.

Weitere Hinweise zur ROC-Kurve:

Die Fläche unter den ROC-Kurven folgt derselben Statistik wie nichtparametrische, vergleichende Rang-Tests (Wilcoxon-Statistik). Die Signifikanz einer AUC ggü. der Diagonalen ist also einfach mit dem üblichen Test (Mann-Whitneys U-Test) auszurechnen. Auch die AUC lässt sich direkt aus dieser Statistik schätzen: AUC=U/(N1*N2), U- Testgröße der Wilcoxon-Statistik, N1 und N2 - Gruppenumfänge).
Deshalb sind ROC-Kurven nicht nur für quantitative Merkmale geeignet, sondern auch für qualitative Merkmale, die sich ordnen lassen (Ordinalskala), wie z.B. Befunde von Röntgenbildern, Scores etc.
Vergleiche von ROC-Kurven (Test auf Unterschied von AUC) sind komplex. Entscheidend ist zunächst, ob die ROC-Kurven am selben Patientengut erhoben wurden oder nicht (verbundene vs. nicht verbundene Stichproben). Bei sich überschneidenden ROC-Kurven ist es sinnvoll, sie für ausgewählte Spezifitätsbereiche zu vergleichen.
Ein Ausweg aus der Komplexität ist die Verwendung von Vierfelder-Tafeln für entweder gleiche Spezifitäten oder Sensitivitäten. (Die Werte für Sens oder Spez müssen aber prospektiv ausgewählt sein.) Diese Tafeln kann man dann mit Hilfe des McNemar-Tests (verbundene Stichprobe) oder des Chi²-Tests (unverbundene Stichprobe) vergleichen.
Will man den Wert der Durchführung eines zusätzlich zu einem Test T1 durchgeführten diagnostischen Tests (T2) einschätzen, so vergleicht man die ROC-Kurven von T1 mit T2a (= T1+T2) mit Hilfe der angegebenen Verfahren.
Will man den Wert der Durchführung eines zusätzlich zu einem Test T1 durchgeführten diagnostischen Tests (T2) einschätzen, so vergleicht man die ROC-Kurven von T1 mit T2a (= T1+T2) mit Hilfe der angegebenen Verfahren.

Literatur: (wird seit 20 Jahren zitiert, tatsächlich gut, aber nicht einfach zu lesen:) Hanley JA, McNeil BJ. (1982):The meaning and use of the area under the Receiver Operating Characteristic (ROC) curve. Radiology 143; 29-36

Boyd JC (1997): Mathematical tools for demonstrating the clinical usefulness of biochemical markers. Scand J Clin Lab Invest 57 (Suppl227); 46-63

Köbberling J, Richter K, Trampisch HJ, Windeler J: Methodologie der medizinischen Diagnostik. Entwicklung, Beurteilung und Anwendung von Diagnoseverfahren in der Medizin. Springer-Verlag Berlin Heidelberg New-York (1991)

Unter http://www.acomed-statistik.de finden Sie weiterführende Hinweise, Tools und Links.

Weiter
auf Seite