Logistische Regression, wie interpretiere ich nicht Signifikante Koeffizienten?

Bild zum Beitrag

Hallo Zusammen, kann mir hier jemand helfen? es geht um die binäre Logistische Regression. In der Abbildung zu erkennen ist, dass die Koeffizienten der Variablen "weiblich" und "Gastkunde" nicht statistik Signifikant ist. Wie wird das hier nun Interpretiert. (Auch in Bezug auf das Odd Ratio)

Anmerkung: Bestandkunde & Gastkunde gehören in einen Variablenblock, zusammen mit Neukunde, welches meine Referenzkategorie ist.

(wurde in folgendem Forum auch diskutiert:

http://www.statistik-forum.de)

2 Antworten

Vom Beitragsersteller als hilfreich ausgezeichnet

ch56789

11.06.2019, 20:43

Ich würde insignifikante Koeffizienten genau als das interpretieren: Als insignifikante Koeffizienten. Deine Daten sind mit der Vermutung das bei diesen erklärenden Variable kein Effekt auf die abhängige Variable vorhanden ist kompatibel(für Dein gegebenes Signifikanzniveau). Die Nullhypothese (kein Effekt) kann also nicht abgelehnt werden. Das bedeutet aber nicht, dass Du damit die Nullhypothese annimmst oder sagen kannst, dass der Effekt der Variablen tatsächlich Null ist. Es bedeutet lediglich, dass, wenn es einen Zusammenhang zwischen der erklärenden und der abhängigen Variable gibt, Dein Datensatz zu klein war um ihn zu finden.

Du musst beachten, dass die angegebenen Standardfehler/Signifikanzen der Koeffizienten nicht mit den Standardfehlern/Signifikanzen der marginalen Effekte bzw. der Odds Ratio übereinstimmen müssen. (Meistens interessiert man sich allerdings für marginale Effekte bzw. Odds Ratios, weil diese wesentlich einfacher inhaltlich zu interpretieren sind.)

eao44

Beitragsersteller

12.06.2019, 06:45

Hallo ch56789 vielen Dank für die Antwort!

Kann ich denn trotzdem sagen, dass die Chance, das der Gastkunde im Gegensatz zu dem Neukunde(Referenzkategorie) bestellt, um den Faktor 1,0065 größer ist, jedoch bestehe aber kein Zusammenhang? Ich verstehe nicht so ganz wie ich das interpretieren soll wenn der koeffizient von dem Bestandskunde signifikant ist und bei Gastkunde nicht.

Kann ich da überhaupt Aussagen treffen?

eao44

Beitragsersteller

12.06.2019, 06:58

Achso, was ich noch fragen wollte, ob es eigentlich sein kann, dass Bestandskunde signifikant ist und Gastkunde nicht? Es gehört ja zu einem Variablenblock wobei Neukunde meine Referenzkategorie ist.

ch56789

12.06.2019, 18:23

@eao44

Ich würde die Größe des Schätzers (Koeffizient bzw. Odds. Ratio) nennen. Und dann würde ich sagen, dass ich keinen (siginifikanten) Unterschied in der Größe dieses Schätzers im Vergleich zur Basiskategorie festtellen kann.

Das unterschiedliche Größen in einem "Variablenblock" signifikant sind kann durchaus sein. Ein ganz einfaches (ich hoffe nicht zu einfaches) Beispiel: Stell Dir vor Deine abhängige Variable ist der Benzinverbrauch des Haushaltes und Deine erklärende Variable "Hauptfortbewegungsmittel" hat drei Ausprägungen: (1) Zu Fuss (2) Fahrrad (3) Auto. Deine Referenzkategorie ist (1) Zu Fuss. Würdest Du dann nicht ganz ähnliche Ergebnisse erwarten wie in Deinem Beispiel? Das Fahrrad hat (wie das zu Fuss gehen) keinen (bzw. keinen anderen) Einfluss auf den Benzinverbrauch. Der Effekt des Autos sollte aber deutlich sein.

eao44

Beitragsersteller

13.06.2019, 10:40

@ch56789

Vielen Dank für dein Kommentar!

Nun ist mir noch eine Frage zu dem P-Value aufgekommen.

Sagt der P-Value mir in diesem fall aus, ob es sich signifikant von meiner Referenzkategorie unterschiedet?

Ich dachte die ganze Zeit, dass der P-Value mir sagt, ob es einen signifikanten Zusammenhang zwischen der erklärenden und der abhängigen Variable gibt...

ch56789

13.06.2019, 18:55

@eao44

Am besten macht man sich das am Beispiel klar: Stell Dir vor Du regressierst den Stundenlohn auf das Geschlecht (und weitere erklärende Variablen). Stell Dir weiter vor Männer sind als 1 codiert, Frauen als 0 und der Koeffizient des Geschlecht-Dummys ist positiv. Das bedeutet dann, dass Männer im Schnitt einen höheren Stundenlohn als Frauen haben (eben um die Höhe der Dummy-Variable). Wenn der p-Wert des Koeffizientschätzers von diesem Dummy dann auch noch klein genug ist, dann ist dieser Effekt auch statistisch signifikant.

Oder etwas formaler. Stell Dir folgende Regression vor: y=b0+b1*x1+e wobei x1 ein Dummy ist. Wenn sich dann x1 von 0 auf 1 ändert, dann verändert sich y um b1.

eao44

Beitragsersteller

12.06.2019, 10:17

so wie ich das nun verstanden habe würde man das nun so interpretieren:

bspw. Chance, das Gast bestellt steigt im Gegesensatz zum Neukunden um den Faktor 1,006.

Der P-Wert> 0,05 --> nicht signifikant--> es besteht jedoch kein Zusammenhang dazu ob der Kunde bestellt wenn es sich um einen Gastkunden handel.

Anders sehe des bei den Bestandskunden aus, hier besteht ein Zusammenhang mit der abhängigen Variable und die Chance steigt hier um 2,6.

ist das richtig?

HWSteinberg

13.06.2019, 14:26

Deine Aussagen in Deinen Kommentaren über den Zusammenhang ergeben für mich wenig Sinn. Es geht doch darum, ob die Kauf-Ws gleich oder größer oder kleiner ist in einer Gruppe als in der jeweiligen Referenzgruppe.

Und Du bekommst für Gastkunden vs. Neukunden eine minimal höhere Ws, die aber tatsächlich nicht signifikant ist, sodass sie in den Grundgesamtheiten aller möglichen Gast- und Neu-Kunden auch gleich sein könnte. Und das ist überhaupt kein Widerspruch dazu, dass sich für Bestandskunden vs. Neukunden die Ws auf das 2,68-fache erhöht, bzw. in den Grundgesamtheiten aller möglichen Bestands- und Neu-Kunden ungefähr das 2 1/2 fache ist, und das mit klarer Signifikanzaussage, dass das nicht gleich 1 ist. In den 3 Gruppen unterscheiden sich also 2, 2 andere nicht, was soll daran seltsam sein?

Wahrscheinlich hast Du in Deinem Output irgendwo auch einen p-Wert dafür, dass das Merkmal Kundentyp insgesamt, über alle 3 Gruppen, Unterschiede in der Bestell-Ws aufweist, und dieser wird vermutlich auch Signifikanz zeigen, da ja zwei deutlich unterschiedlich sind. Wenn Du übrigens Gastkunde als Referenz wählen würdest, bekämst Du auch wieder eine Signifikanz und eine Nicht-Signifikanz, und wenn Du den Bestand als Referenz nehmen würdest, bekämst Du 2 Signifikanzen.

Dir muss klar sein, dass jeder Koeffizient, jede Signifikanz, immer nur im Vgl. zur Referenz steht. Eine signifikante (oder nicht-signifikante) Einzelgruppe gibt es bei der logistischen Regression und anderen kategoriellen Verfahren nicht.

eao44

Beitragsersteller

13.06.2019, 14:53

sagt der P-Wert also NUR die signifkante Unterschiede unter den Variablenblock aus?

Es können keine weitere Aussagen damit gemacht werden?

ich dachte, dass man durch den P-Wert auch allgemeine Aussagen machen kann, ob es einen starken oder schwachen Zusammenhang mit der abhängigen Variable gibt. (Bzw. ob eine unabhängige Variable überhaupt einen Einfluss auf die abhängige Variable hat.)

Vielen Dank für dein Kommentar!

HWSteinberg

15.06.2019, 16:18

@eao44

Ein p-Wert bei einem Signifikanztest über Einfluss UV -> AV ist immer nur die Ws dafür, dass das Ergebnis (der Koeffizient) der Stichprobe einen so oder noch mehr unterschiedlichen Abstand zur 0 (bei OR zur 1) haben kann, wenn in der Grundgesamtheit kein Einfluss besteht. Dazu tragen die Varianz und die Stichprobengröße bei, so kann das gleiche nicht-signifikante Ergebnis bei gleicher Varianz aber größerer Stichprobe signifikant werden; je kleiner der p-Wert, desto sicherer ist ein Zusammenhang da.

Die Frage nach starkem oder schwachem Zusammenhang kannst Du nur durch die Einschätzung Deines Koeffizienten als von 0 (bei OR als von 1) verschieden beantworten, indem Du z.B. auf Literatur / eigene Erfahrungen zurückgreifst. Ein sehr starker Zusammenhang könnte bei einem gerade noch signifikantem p-Wert doch relativ unsicher sein, umgekehrt kann ein schwacher Zusammenhang sehr sicher bestehen.

Zur Interpretation hilft Dir vielleicht auch weiter, auf Konfidenzintervalle zu gehen, die Dir z.B. sagen, dass die OR in der Grundgesamtheit mit 95%-iger WS (bei 5% Signifikanzniveau) zwischen a und b liegt und wenn 1 links von a oder rechts von b liegt, ist das Ergebnis signifikant, und je weiter weg, desto sicherer ist der Einfluss.