Warum H0 bei p-Wert verwerfen?

2 Antworten

Wieso sollte ein kleiner p-Wert etwas "schlechtes" sein? In der Statistik ist nichts "gut" oder "schlecht". Etwas ist halt wahrscheinlich oder nicht so wahrscheinlich.

Die Nullhypothese besagt, dass es keinen Unterschied gibt. Wenn du nun eine Stichprobe ziehst mit einem Unterschied, der so groß ist, dass du du unter der Annahme, dass es es in der Grundgesamtheit keinen Unterschied gibt, nur mit einer Wahrscheinlichkeit von 5% einen so großen (oder größeren) Unterschied in deiner Stichprobe bekommst, dann verwirfst du die Nullhypothese. Dann gehst du davon aus, dass es eben schon einen Unterschied gibt. Sind das nur 3% oder noch weniger, dann ist das ja noch deutlicher.

Daran ist doch nichts "schlecht". Die Nullhypothese zu verwerfen, ist doch eigentlich genau das, was du willst. Du hast doch irgendeine Vermutung, dass es da einen Unterschied gibt, und den willst du nachweisen. Wenn der p-Wert dann über 5% liegt, dann hast du den Unterschied ja gerade nicht nachgewiesen.

Woher ich das weiß:Studium / Ausbildung

AllShallBleed 
Beitragsersteller
 17.08.2022, 09:50

„schlecht“ im Sinne von die Nullhypothese verwerfend. Aber darum geht‘s mir ja nicht. Mir geht‘s ja darum, dass ich nicht so ganz verstehe, dass wenn ich von 0,05 als Signifiknzniveau ausgehe - also 5% Wahrscheinlichkeit doch einen Unterschied zu finden - weshalb ich dann die Nullhypothese verwerfen kann, wenn ich bei einer Stichprobe für p einen Wert unterhalb von 0,05 erziele. Das versteh ich halt irgendwie nicht. Weil wenn der p-Wert ja kleiner als 0,05 ist, dann hieße das ja, dass ich mit einer noch geringeren Wahrscheinlichkeit als von den ursprünglich ausgegangenen 5% einen Unterschied finden werde.

Aber überall steht, dass je kleiner der p-Wert in der Stichprobe ist, desto eher kann man die Nullhypothese verwerfen.

Schnittchenfan  17.08.2022, 10:08
@AllShallBleed

Signifikanzniveau von 5% heißt, dass du mit einer Wahrscheinlichkeit von maximal 5% eine Stichprobe mit einer so großen Abweichung (oder größer) bekommst, wenn es in der Grundgesamtheit keinen Unterschied gibt.

Das heißt natürlich auch, dass du dich mit einem 5%-Risiko irren kannst. Du verwirfst die Nullhypothese, obwohl sie richtig ist. Also du sagst, dass da ein Unterschied ist, obwohl in Wirklichkeit da gar keiner ist.

Du willst doch nur dort einen Unterschied "finden", wo auch wirklich einer ist. Je kleiner du das Signifikanzniveau festlegst, desto niedriger ist das Risiko, dass du dich da irrst. Natürlich kann es auch andersrum laufen, dass du keinen Unterschied findest, wo in Wirklichkeit einer ist. Also die Nullhypothese nicht verwirfst, obwohl sie falsch ist. Je niedriger du hier die Schwelle für den p-Wert setzt, desto seltener wirst du (falsche) Nullhypothesen verwerfen, also desto seltener wirst du einen tatsächlich vorhandenen Unterschied nachweisen können.

Da musst du jetzt also einen Kompromiss finden zwischen dem Irrtumsrisiko, dass du die Nullhypothese verwirfst, obwohl sie wahr ist, und dem Risiko, dass du die Nullhypothese nicht verwirfst, obwohl sie falsch ist. Mit höherem p-Wert steigt das Risiko, dass du eine wahre Nullhypothese verwirfst, aber es sinkt das Risiko, dass du eine falsche Nullhypothese nicht verwirfst. Mit niedrigerem p-Wert ists genau andersrum.

Du kannst natürlich auch als Signifikanzniveau 3% oder 1% oder noch niedriger festlegen. Oder auch höher. Das mit den 5% hat sich halt als guter Kompromiss etabliert. Kannst dir ja die Folgen überlegen, was bei den jeweiligen Irrtümern passiert. Wenn es z.B. beim Verwerfen der wahren Nullhypothese um Menschenleben geht (Arzneimittelstudien etc.), wird man eher ein niedrigeres Signifikanzniveau wählen.

Schnittchenfan  17.08.2022, 10:41
@AllShallBleed

Wenn da ein Unterschied ist, dann wirst du ihn schon mit mehr als 5% Wahrscheinlichkeit finden. Die 5% beziehen sich auf das Risiko, dass du fälschlicherweise einen Unterschied findest, obwohl da gar keiner ist. Wenn der p-Wert noch kleiner ist, dann ist das Risiko, dass du einen Unterschied gefunden hast, der in Wirklichkeit gar nicht da ist, noch geringer. Du kannst also bei kleinerem p-Wert noch sicherer sein, dass da wirklich ein Unterschied da ist.

AllShallBleed 
Beitragsersteller
 17.08.2022, 10:43
@Schnittchenfan

Soweit habe ich das Ganze auch verstanden, die Frage die sich mir jetzt halt stellt, ist, dass wenn ich von einem Signifikanzniveau von 0,05 als Standard arbeite, mir jetzt meine Stichprobe ziehe und für diese Stichprobe meinen p-Wert errechne - es gilt nach wie vor die Annahme, dass H0 korrekt ist - weshalb ich dann bei Erhalt meines p-Wertes für diese Stichprobe die H0 verwerfen kann, sollte für diese Stichprobe ein p-Wert kleiner als die 0,05 sein.

Ich gehe ja davon aus, dass H0 stimmt und ich mich mit einer Wahrscheinlichkeit von 5% irren könnte. Jetzt guck ich mir ja aus dem Pool der Gesamtdaten eine Stichprobe an, da werde ich jetzt aber natürlich nie erleben, dass es wirklich zu 100% keinen Unterschied gibt, also ermittle ich dann ja den p-Wert der Stichprobe, um eine Aussage treffen zu können, mit welcher Wahrscheinlichkeit ich aus der Gesamtdatenmenge einen Unterschied ähnlich oder extremer gleich der Stichprobe meiner Teststatistik ziehe, wenn doch eigentlich H0 zutrifft.

Wenn dieser p-Wert meiner Stichprobe aber kleiner als 0,05 ist, hieß es - jetzt mal sehr vereinfacht gesagt - dass ich die H0 verwerfen kann. Aber das versteh ich nicht so ganz, weil wenn ich als Irrtumswahrscheinlichkeit 5% im Vorfeld annehme, meine Stichprobe ziehe und für diese jetzt ein p-Wert weit unter den 5% - also < 0,05 - ermittle, dann heißt das für mich in meinem Verständnis, dass die H0 bestätigt ist bzw. ich zumindest davon ausgehen kann, denn der errechnete p-Wert meiner Stichprobe mit bsp.-weise 0,03 als Ergebnis zeigt mir ja, dass ich in dem Gesamtpool der Daten gerade mal mit 3% Wahrscheinlichkeit einen Unterschied finden werde - also nach meinem Verständnis hieße es ja eher andersrum: je kleiner der p-Wert einer Stichprobe ist, desto eher ist die H0 zu behalten. Ich bin ja ursprünglich davon ausgegangen H0 ist wahr und zu 5% geh ich davon aus, dass ich einen Unterschied finde. Wenn ich dann durch meine Teststatistik mittels der Stichprobe für diese Stichprobe einen p-Wert weit unter 5% komme, dann heißt das für mich, dass ich mich sogar nur mit einer Wahrscheinlichkeit von 3% irre - wenn ich mal das fiktive Ergebnis von p=0,03 bei dem Errechnen von p meiner Stichprobe fortführe.

Schnittchenfan  17.08.2022, 11:03
@AllShallBleed

Ok, machen wir mal ein Beispiel. Johnny steht im Wilden Westen vor Gericht, weil ihm vorgeworfen wurde, dass er im Saloon mit einem Glücksspiel die Leute abgezockt hat. Da gings darum, dass er eine Münze geworfen hat, und vorher Geld auf die jeweiligen Ergebnisse, Kopf oder Zahl, gesetzt wurde. Die Münze, mit der Johnny gespielt hat, sei gezinkt, hieß es. Und dafür droht im jetzt der Galgen. Die Münze wurde als Beweismittel sichergestellt. Leider gibt es kein Labor für Materialwissenschaften oder ähnliches, und die Dorfbewohner drängen auf ein schnelles Urteil. Gottseidank kennt der Bürgermeister, der zugleich Richter ist, einen Sachverständigen, der ist Professor für Statistik.

Und der sagt, ganz einfach, da machen wir eine Stichprobenanalyse. Wir werfen die Münze 10r Mal, und zählen einfach die Häufigkeit von Kopf oder Zahl ab. Wenn die Münze fair ist (=Nullhypothese), also Kopf und Zahl mit je 50% Wahrscheinlichkeit erscheinen, wird Johnny aus Mangel an Beweisen freigesprochen. Wenn die Nullhypothese aber verworfen werden muss, wird Johnny verurteilt und aufgehängt.

Da der Bürgermeister schon letzte Woche jemanden aufgehängt hat, und sich rausgestellt hat hinterher, dass der unschuldig war, sagt der Bürgermeister, dass er aber maximal 5% Risiko will, dass Johnny unschuldig aufgehängt wird.

Die Münze wird 10 Mal geworfen, und 7 Mal erscheint Kopf. Wird Johnny jetzt aufgehängt? Nein, weil die Wahrscheinlichkeit, dass du bei 10 Versuchen 7 Mal oder öfter Kopf wirfst, wenn die Münze fair ist, liegt bei ungefähr 17%, zumindest sagt mir mein Excel das. Und damit über den vorher festgelegten 5% Signifikanzniveau. Erwarten würdest du 5 Mal Kopf, es waren aber 7 Mal. Könnte schon sein, dass die Münze gezinkt ist. Aber mit maximal 5% Irrtumswahrscheinlichkeit nachweisen kannst du es mit diesen Daten nicht. Weil du ein Ergebnis, dass so weit oder noch weiter abweicht, mit p=17% Wahrscheinlichkeit erhalten wirst unter der Annahme, dass die Nullhypothese war ist, unter der Annahme, dass das eine ganz normale nicht gezinkte Münze ist.

Wenn jetzt 9 Mal Kopf erscheint bei den 10 Würfen, schauts anders aus. Weil die Wahrscheinlichkeit, bei einer fairen Münze bei 10 Würfen mindestens 9 Mal Kopf zu erhalten, nur ca. p=1% ist. Also unter dem vorher festgelegten 5% Niveau. Es kann jetzt sein, dass die Münze trotzdem fair ist (Nullhypothese ist wahr), und Johnny unschuldig aufgehängt wird. Aber die Wahrscheinlichkeit dafür beträgt aufgrund dieser Daten nur 1%.

Würde Johnny in beiden Fällen verurteilt, dann wäre das Risiko, dass er unschuldig aufgehängt wurde, im ersten Fall 17%, im zweiten Fall nur 1%. Im zweiten Fall, mit dem niedrigeren p-Wert, kannst du dir sicherer sein, dass die Münze gezinkt war, als im ersten Fall mit dem höheren p-Wert.

Schnittchenfan  17.08.2022, 11:07
@Schnittchenfan

Für die Nerds: Die p-Werte im Johnny-Beispiel muss man, wenn die Alternativhypothese lautet "die Münze ist gezinkt" natürlich noch verdoppeln. Den "Die Münze ist gezinkt" sagt ja noch nicht aus, in welche Richtung, Kopf oder Zahl, sie gezinkt ist. Man muss also, wenn man Mal Kopf bekommt, rechnen: "wie hoch ist die Wahrscheinlichkeit, 7 Mal oder öfter Kopf zu bekommen oder 7 Mal oder öfter Zahl zu bekommen". Um völlig korrekt zu sein :)

AllShallBleed 
Beitragsersteller
 18.08.2022, 14:18
@Schnittchenfan

Erstmal vielen Dank für deine Mühe, ein sehr schönes Beispiel!

Also war mein Denkfehler quasi darin, dass der p-Wert zwar generell aussagt, mit welcher Wahrscheinlichkeit ich mich irre, jedoch auf die Stichprobe bezogen - da ich ja dann von ausgehe das H0 korrekt ist - sie mir letztlich nicht sagt, wie wahrscheinlich es ist einen Unterschied zu ziehen, sondern mit welcher Wahrscheinlichkeit, gemessen an der Stichprobe, ich die H0 irrtümlicherweise verwerfe? Dann wäre quasi bei einem Signifikanzniveau von 0,05 jetzt der p-Wert 0,17, also darf Johnny leben. Wäre sie aber statt 0,17 bei 0,01, dann täte ich mich nur noch zu einer Wahrscheinlichkeit von 1% irren, also kommt der Sack an den Galgen und deshalb gilt es dann zu überlegen, dass wenn der p-Wert der Stichprobe unter meinem Signifikanzniveau von 0,05 liegt, die H0 zu verwerfen. Richtig?

Ganz knapp die Idee des Hypothesentests:

Du willst etwas zeigen (p von irgendwas), das kommt in H1. Jetzt nimmst du zunächst mal an (hast aber im Hinterkopf, dass das wahrscheinlich falsch ist), dass H0 (das Gegenteil stimmt) und hoffst auf ein Stichprobenergebnis, dass deiner Nullhypothese widerspricht. Aber auch bei widersprüchlichem Ergebnis könnte natürlich H0 zutreffen. Diese Wahrscheinlichkeit (H0 zu verwerfen, obwohl es stimmt, Signifikanzniveau oder maximaler Fehler erster Art, nicht verwechseln mit dem p in den Hypothesen) setzt du unter eine Schwelle und bestimmst damit den Verwerfungsbereich.

(doch nicht so knapp, wie ich anfangs dachte...)