PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Frage zu Datenauswertung



Mäx
09.09.2009, 08:04
Hallo Leute,

ich werte grad nochmal die Daten meiner Diss aus und habe zwei kleine Fragen. Zur Info: Schreib in der KJP! Wir machen eine dreizeitige Longitudinalstudie zum Langzeitverlauf von frühen psychischen Störungen. Stichprobenumfang: ca. 120 Kinder.

1)
Ich würde gerne prüfen, ob sich bei den Jungen die Mittelwerte von zwei bestimmten Skalen des verwendeten Fragebogens signifikant voneinander unterscheiden (z.B. um die Frage zu klären, ob Jungen zu T1 signifikant häufiger aggressive Störungen als depressive Störungen haben)? Wie teste ich das am schlauesten? Ist der t-Test für abhängige Stichproben hier die richtige Wahl?

2)
Was für Infos aus den Analysen sollte ich für den Leser angeben? Vor allem arbeite ich mit den verschiedenen Formen des t-Test. Sprich: Müssen da z.B. die Freiheitsgrade angegeben werden? Worauf kann man verzichten?

Ich danke für Hilfe!

THawk
09.09.2009, 16:49
ad 1)
Sofern die Daten normalverteilt sind (z.B. zu prüfen mit dem Kolmogorov-Smirnoff-Test oder diesen QQ-Diagrammen) dürfte der t-Test für deine Daten passen (also für verbundene Stichproben, schließlich sind es die gleichen Kinder, die getestet wurden, es werden nur die Häufigkeiten zweier verschiedener Merkmale verglichen).
Bei deiner These (wenn du wirklich "häufiger" schreibst) testest du einseitig. Wenn du die These nicht so eng fassen kannst, also eher fragst: "Ist das eine häufiger als das andere", bzw. "unterscheidet sich das Auftreten der beiden Erkrankungen signifikant" müsstest du zweiseitig testen.

ad b) Interessant ist eigentlich nur p-Wert, bzw. das Niveau (also entweder p=0,02 oder p<0,05) sowie die Fallzahl. Aus der Fallzahl ergibt sich schließlich direkt die Anzahl der Freiheitsgerade (=n-1). Zumindestens bei diesen einfachen Analysen. Bei Varianzanalysen gibt man schon wieder mehr Daten an. Solltest du vorher eine vernünftige Fallzahlplanung gemacht haben, solltest du auch eine Aussage zu der Power deine Studie treffen können (damit kenne ich mich aber selbst nicht gut aus). Das würde man dann irgendwo im Methodenteil einflechten.

Viel Erfolg,
Lar

Mäx
10.09.2009, 09:05
Bei deiner These (wenn du wirklich "häufiger" schreibst) testest du einseitig. Wenn du die These nicht so eng fassen kannst, also eher fragst: "Ist das eine häufiger als das andere", bzw. "unterscheidet sich das Auftreten der beiden Erkrankungen signifikant" müsstest du zweiseitig testen.
Normalverteilt sind die Daten. SPSS wirft mir beim t-Test für gepaarte Stichproben ja automatisch die zweiseitige Signifikanz aus. Einen Wert für einseitig sehe ich dort gar nicht. Demnach sollte es passen! Werd das in Kürze mal mit meinem Betreuer besprechen.


Interessant ist eigentlich nur p-Wert, bzw. das Niveau (also entweder p=0,02 oder p<0,05) sowie die Fallzahl. Aus der Fallzahl ergibt sich schließlich direkt die Anzahl der Freiheitsgerade (=n-1). Zumindestens bei diesen einfachen Analysen.
Ich teste ja immer wieder die gleichen Kinder, somit hab ich auch identische Fallzahlen für Jungen und Mädchen. Sollte man das immer angeben?


Bei Varianzanalysen gibt man schon wieder mehr Daten an.
Eine simple ANOVA hab ich auch gemacht. Sollte man da alles angeben, was SPSS einem auswirft? Kann mit diesen ganzen Quadratsummen etc. mal gerade gar nix anfangen. Man liest das ja wirklich oft in Doktorarbeiten, aber erklären tuts selten jemand... Überhaupt glaub ich, dass viele Mediziner nicht wissen oder wissen wollen, was sie tun... Mmmh ich schweife ab. STOP! :-wow


Solltest du vorher eine vernünftige Fallzahlplanung gemacht haben, solltest du auch eine Aussage zu der Power deine Studie treffen können (damit kenne ich mich aber selbst nicht gut aus). Das würde man dann irgendwo im Methodenteil einflechten.
Das sind Dinge, mit denen ich mich nach meiner Auswertung beschäftige. Werd da mal ne Biomathematikerin drauf ansprechen!

Würd mich nochmal über eine Antwort freuen! Besten Dank im Voraus!

Gruß

THawk
10.09.2009, 17:24
Okay, ich bin ja nun auch wirklich kein Biomathematiker, aber ein paar Sachen will ich mal versuchen klarzustellen, soweit ich davon Ahnung habe.


Normalverteilt sind die Daten. SPSS wirft mir beim t-Test für gepaarte Stichproben ja automatisch die zweiseitige Signifikanz aus. Einen Wert für einseitig sehe ich dort gar nicht. Demnach sollte es passen! Werd das in Kürze mal mit meinem Betreuer besprechen.
Ein- oder zweiseitig entscheidet nicht SPSS für dich, sondern musst du entsprechend der Hypothese, die du testest, selber festlegen. SPSS gibt nur zweiseitig aus, das einseitige Signifikanzniveau ist aber immer die Hälfte des zweiseitigen. Wie gesagt, die Formulierung deiner Hypothese entscheidet. Wenn du sagst "Die Häufigkeit in Gruppe A ist anders als in Gruppe B" musst du 2-seitig testen, da die Häufigkeit von A ja größer (sozusagen die erste Seite) oder kleiner (die zweite Seite) sein kann. Wenn du sagst "Es ist in Gruppe A häufiger als in Gruppe B" musst du 1-seitig testen, weil du nur eine Abweichung in die eine Richtung untersuchst. Hier ist es leichter, signifikante Ergebnisse zu erhalten (s.o.), aber du musst halt wirklich sicher sein, dass diese Einschränkung der Hypothese zutreffend ist.
Und nur zur Sicherheit - SPSS prüft im t-Test nicht auf Normalverteilung. Das musst du extra machen.



Ich teste ja immer wieder die gleichen Kinder, somit hab ich auch identische Fallzahlen für Jungen und Mädchen. Sollte man das immer angeben?
Wenn es wirklich immer identische Fallzahlen sind (setzt voraus, dass du wirklich jede Variable bei allen Kindern füllen konntest), würde ich es nur im Methodenteil (Überschrift Statistische Methoden o.ä.) entsprechend erwähnen.



Eine simple ANOVA hab ich auch gemacht. Sollte man da alles angeben, was SPSS einem auswirft? Kann mit diesen ganzen Quadratsummen etc. mal gerade gar nix anfangen. Man liest das ja wirklich oft in Doktorarbeiten, aber erklären tuts selten jemand... Überhaupt glaub ich, dass viele Mediziner nicht wissen oder wissen wollen, was sie tun... Mmmh ich schweife ab. STOP! :-wow
Bei normaler ANOVA glaube ich nicht. Aber da bin ich nicht ganz sicher. Bzgl. der Ahnung was sie tun stimmen wir überein ;-)



Das sind Dinge, mit denen ich mich nach meiner Auswertung beschäftige. Werd da mal ne Biomathematikerin drauf ansprechen!

Sich Gedanken über die Power erst nach der Auswertung zu machen ist aus rein statistischer Sicht, naja, sinnlos. Du musst die Power festlegen und den zu erwartenden Unterschied zwischen den Gruppen sowie das gewünschte signifikanzniveau. Daraus kannst du dann die benötigte Fallzahl berechnen. Eigentlich sollte das aber schon von deinen Betreuern gemacht worden sein, da es zwingend im Ethikantrag enthalten sein muss. (Dass es häufig anders gemacht wird ist klar).

So, ich hoffe, das hat dich ein wenig weitergebracht? Ich finds gut, dass du dir über die Statistik Gedanken machst. Ich fand es ganz interessant, wenn man erstmal den Anfang geschafft hat.

Mäx
11.09.2009, 07:41
Ein- oder zweiseitig entscheidet nicht SPSS für dich, sondern musst du entsprechend der Hypothese, die du testest, selber festlegen.
Mmmh, ich weiß ja eigentlich schon anhand der Mittelwerte für die verschiedenen Skalen, welches Verhalten im Mittel häufiger ist. Weiter will ich ja nur testen, ob dieser Unterschied signifikant ist. Dann wäre das doch einseitig. Oder lieg ich mit dieser Annahme falsch?


SPSS prüft im t-Test nicht auf Normalverteilung. Das musst du extra machen.
Danke für den Tipp. Inzwischen weiß ich Bescheid, wie man das testet. Meine Variablen sind tatsächlich normalverteilt.


Wenn es wirklich immer identische Fallzahlen sind (setzt voraus, dass du wirklich jede Variable bei allen Kindern füllen konntest), würde ich es nur im Methodenteil (Überschrift Statistische Methoden o.ä.) entsprechend erwähnen.
Wir haben für alle fehlenden Werte eine Datenimputation durch das Programm NORM gemacht, so dass wir keinerlei Missing Data haben. Ist in der psychologischen Forschung sehr verbreitet.



Sich Gedanken über die Power erst nach der Auswertung zu machen ist aus rein statistischer Sicht, naja, sinnlos. Du musst die Power festlegen und den zu erwartenden Unterschied zwischen den Gruppen sowie das gewünschte signifikanzniveau. Daraus kannst du dann die benötigte Fallzahl berechnen. Eigentlich sollte das aber schon von deinen Betreuern gemacht worden sein, da es zwingend im Ethikantrag enthalten sein muss. (Dass es häufig anders gemacht wird ist klar).
Also als Signifikanzniveau ist auch bei uns immer von 5% die Rede. Wie kann ich daraus die Fallzahl berechnen? Ethikantrag? Im Rahmen meiner Arbeit noch nie davon gehört?!


So, ich hoffe, das hat dich ein wenig weitergebracht? Ich finds gut, dass du dir über die Statistik Gedanken machst. Ich fand es ganz interessant, wenn man erstmal den Anfang geschafft hat.
Ja hat mich weitergebracht! Danke!
Ich empfinde die statistische Auswertung auch als absolutes Prunkstück jeder Doktorarbeit. Das ist schließlich das einzige, was wir selbst verzapft haben. Das ganze drumrum ist eigentlich nur Zugabe.
Dass es bei Medizinern oft anders ist, brauch hier eigentlich nicht extra erwähnt werden. Ich krieg manchmal echt Augenschmerzen, wenn ich den Ergebnisteil in medizinischen Dissertationen sehe. Nicht unbedingt die statistische Auswertung selbst, sondern vor allem Seitenlayout, Sprache und Tabellendarstellungen. Aber gut, muss jeder selbst wissen?!

Grüße und nochmal Danke!

THawk
11.09.2009, 17:03
Mmmh, ich weiß ja eigentlich schon anhand der Mittelwerte für die verschiedenen Skalen, welches Verhalten im Mittel häufiger ist. Weiter will ich ja nur testen, ob dieser Unterschied signifikant ist. Dann wäre das doch einseitig. Oder lieg ich mit dieser Annahme falsch?


:-)
Das ist von der Herangehensweise nicht zulässig, allerdings zugegebenermaßen häufig so gemacht. Dein Vorgehen ist: Ich werte aus, schaue wo was gutes rauskommt und überlege mir dann am Ende die Fragestellung dazu. Das ist aber genau falsch herum (bzw., man kann es so machen, muss dann allerdings "post-hoc-Analysen" machen; wenn man es so macht, sind die Aussagen aber nicht bewiesen).
Das korrekte Vorgehen: Du überlegst dir erst eine Hypothese (z.B. A und B unterscheiden sich) -> Dann ist die Nullhypothese das Gegenteil (im Bsp. A und B sind gleich) -> Dann sammelst du Daten und wertest diese aus (z.B. t-test) -> Dann sagt dir das Signifikanzniveau (d.h. der p-Wert), ob du die Nullhypothese ausschließen kannst und wie hoch deine Irrtumswahrscheinlichkeit ist (genau das wird im p-Wert ausgedrückt). Bei einem p = 0,04 hast du eine Irrtumswahrscheinlichkeit von 4%, dass du einen Unterschied als bewiesen ansiehst wo keiner ist.

So, und jetzt konkret:
Du hast keine blasse Ahnung, ob Autos von Audi oder VW häufiger kaputt sind. Du untersuchst von beiden Firmen 300 Autos und findest heraus, dass 30 Audis und 50 VWs kaputt gegangen sind. Jetzt darfst du aber theoretisch aus dieser Untersuchung keinen stastische Signifikanz ableiten, weil du nie eine Beobachtung mit der gleichen Datenmenge beweisen kannst.
Korrekt wäre: Entweder hast du oder jemand anders Voruntersuchungen gemacht oder dein Eindruck ist, dass Audis weniger Probleme machen. Deine Hypothese lautet: "Audis gehen seltener kaputt als VWs" (Nullhypothese: "Audis gehen gleich häufig oder häufiger kaputt als VWs"). Nun prüfst du 300 Autos, findest das o.g. Ergebnis und machst einen einseitigen t-Test. So wäre es korrekt.
Wenn du nur weißt, dass entweder Audi oder VW weniger Probleme machen, würdest du eine andere Hypothese formulieren "Audis gehen seltener oder häufiger kaputt als VW" (Nullhypothese: "Audis und VWs gehen gleich häufig kaputt"). In diesem Fall müsstest du zweiseitig testen. Da du dich vorher nicht so eng festgelegt hast, ist es auch schwieriger, das gewünschte Signifikanzniveau zu erreichen.

Lange Rede, kurzer Sinn: Fragestellungen, bzw. Hypothesen muss man vor der Datenerhebung festlegen und dementsprechend die Auswertungen gestalten. Nach den Datenerhebungen entsprechende Trends aus den Daten zu suchen und dann die Signifikanzen zu rechnen ist statistisch verboten.



Wir haben für alle fehlenden Werte eine Datenimputation durch das Programm NORM gemacht, so dass wir keinerlei Missing Data haben. Ist in der psychologischen Forschung sehr verbreitet.

Ah, interessant. Ich hab wirklich keine Ahnung von psychologischer Forschung. Aber der Vorteil ist, dass die Psychologen von Studienplanung und Statistik wirklich Ahnung haben!



Also als Signifikanzniveau ist auch bei uns immer von 5% die Rede. Wie kann ich daraus die Fallzahl berechnen? Ethikantrag? Im Rahmen meiner Arbeit noch nie davon gehört?!

Da würde ich mal deine Betreuer fragen. Kann sein, dass für so eine Fragebogen-Studie kein Ethikvotum notwendig ist, damit kenne ich mich auch wieder zu wenig aus.



Ja hat mich weitergebracht! Danke!
Ich empfinde die statistische Auswertung auch als absolutes Prunkstück jeder Doktorarbeit. Das ist schließlich das einzige, was wir selbst verzapft haben. Das ganze drumrum ist eigentlich nur Zugabe.
Dass es bei Medizinern oft anders ist, brauch hier eigentlich nicht extra erwähnt werden. Ich krieg manchmal echt Augenschmerzen, wenn ich den Ergebnisteil in medizinischen Dissertationen sehe. Nicht unbedingt die statistische Auswertung selbst, sondern vor allem Seitenlayout, Sprache und Tabellendarstellungen. Aber gut, muss jeder selbst wissen?!

Grüße und nochmal Danke!
Die Augenschmerzen hatte ich auch schon mal ;-)
Viel Spaß weiterhin bei der Arbeit! Ich hoffe, das da oben war einigermaßen verständlich. Außerdem hoffe ich, dass ich es korrekt erklärt habe, manche Sachen sind einfach total doof zu behalten (z.B. die Unterscheidung von Fehlern 1. und 2. Ordnung habe ich nicht behalten!).

Lars

Mäx
13.09.2009, 13:59
:-)
Das ist von der Herangehensweise nicht zulässig, allerdings zugegebenermaßen häufig so gemacht. Dein Vorgehen ist: Ich werte aus, schaue wo was gutes rauskommt und überlege mir dann am Ende die Fragestellung dazu. Das ist aber genau falsch herum (bzw., man kann es so machen, muss dann allerdings "post-hoc-Analysen" machen; wenn man es so macht, sind die Aussagen aber nicht bewiesen).
Ich denke, dass in unserem Fall eine solche post-hoc-Analyse Sinn macht, da wir eine so weit gefasste Studie gemacht haben, dass vorab allenfalls nur vage Hypothesen aufgestellt werden konnten. Zudem habe ich nun in meiner Arbeit gar keine derart konkrete Fragestellung... Muss da in der nächsten Woche mal mit meinem Betreuer drüber sprechen.


Das korrekte Vorgehen: Du überlegst dir erst eine Hypothese (z.B. A und B unterscheiden sich) -> Dann ist die Nullhypothese das Gegenteil (im Bsp. A und B sind gleich) -> Dann sammelst du Daten und wertest diese aus (z.B. t-test) -> Dann sagt dir das Signifikanzniveau (d.h. der p-Wert), ob du die Nullhypothese ausschließen kannst und wie hoch deine Irrtumswahrscheinlichkeit ist (genau das wird im p-Wert ausgedrückt). Bei einem p = 0,04 hast du eine Irrtumswahrscheinlichkeit von 4%, dass du einen Unterschied als bewiesen ansiehst wo keiner ist.
Gut soweit leuchtet das ja ein. Allerdings: Nur weil ich eine Hypothese vorab aufstelle, heißt es doch eigentlich nicht, dass die Wahrscheinlichkeit kleiner ist, einen zufälligen Effekt als signifikant auszuweisen (wie es ja von einer post-hoc-Analyse heißt), oder?


Ah, interessant. Ich hab wirklich keine Ahnung von psychologischer Forschung. Aber der Vorteil ist, dass die Psychologen von Studienplanung und Statistik wirklich Ahnung haben!
Ich bin ja auch Mediziner und blick bei Psychologen auch nicht immer so ganz durch. Sie haben ihre eigene Art der Forschung. Wenig läuft mit klassischen Diagnosen, viel mehr mit so genannten Dimensionen... Ist nicht immer einfach.

All in all: Alles ganz schön kompliziert. Ich lass das ganze den Rest des Sonntages nochmal sacken!

Gruß
max

Mäx
14.09.2009, 14:17
Eine weitere Frage direkt noch hinterher:

Ich würde gerne testen, inwieweit ein hoher Score in einer Skala, die zu T1 die psychische Gesamtauffälligkeit misst, mit hohen Werten für andere Skalen zu T3 korrelliert?!
Verständlich? Falls ja, wie könnte ich das erreichen?

Gruß und Danke