Welches statistische Verfahren für 2 UV und 1 AV?

1 Antwort

Eine Regression ist auf jeden Fall richtig, dass sie linear sein muss, sollte man erst mal grafisch prüfen (Scatterplot mit x/y-Achsen=UV1/AV1-Achsen und auch UV2/AV1-Achsen). Solltest Du die Möglichkeit haben, 3D-Bilder zu machen dann wäre natürlich die Darstellung in x/y/z-Achsen=UV1/UV2/AV1-Achsen optimal.

Wenn Du ein so kleines R² hast, dann erklären die beiden UVs linear nur sehr wenig der AV-Varianz (http://support.minitab.com/de-de/minitab/17/topic-library/modeling-statistics/regression-and-correlation/goodness-of-fit-statistics/r-squared/), weil es

1. entweder noch eine 3. (unbekannte, latente) Erklärungsvariable gibt - danach würde man suchen wenn die Abweichungen der Punkte entlang der Regressionsgeraden gleichmäßig sind und sich nicht irgendwo häufen oder größer werden,

2. vielleicht gar keinen Zusammenhang gibt, oder,

3. eine andere Form des Zusammenhangs, z.B. quadratisch oder allgemeiner polynomial, logarithmisch oder sonstwie, auf jeden Fall den Scatterplot nach geometrischen Formen absuchen


Abciph6 
Beitragsersteller
 01.04.2017, 17:08

Habe mal die Scatterplots ausgegeben: http://fs5.directupload.net/images/170401/ka79dls2.png

Aber vermutlich ist das Problem dann, dass UV 1 Einkommen und UV 2 Bildung zu stark miteinander korrelieren, oder? Wäre es dann der richtige Weg, einfach zwei Hypothesen daraus zu machen (UV1 -> AV1 sowie UV2 -> AV1 anstelle von UV1+UV2 -> AV1) und hier lediglich jeweils das pearson-r für die Auswertung betrachten?

Danke, der Link zum r quadrat ist super erklärt!

0
HWSteinberg  01.04.2017, 17:51
@Abciph6

Also zunächst mal solltest Du das Einkommen 60000 als Ausreißer rausschmeissen, und dann habe ich sorry vergessen, dass Du ja die Regressionsgerade einzeichnen solltest, um zu sehen, ob es passsen könnte. Und das Einkommen solltest Du auf jeden Fall logarithmieren, so bleibt ja links alles zusammengequetscht (vielleicht kann dann der 60000er drin bleiben), ebenso würde ich die Kinderanzahl logarithmieren (log(Kinderanzahl+1), damit auch die unterste Kategorie logarithmiert werden kann). Auch ist die Frage, ob man nicht die 6-12 Kinder in die eine Kategorie 6 Kinder zusammenfassen sollte, weil diese "Fast-Ausreißer" doch einen zu starken Einfluss auf die Parameterschätzung nehmen (weniger problematisch nach logarithmieren, weil das kleinere Werte auseinanderzieht und größere zusammenquetscht).

Ob man auch die Bildung logarithmieren sollte, ist aus Deinem Plot nicht ersichtlich. Ich würde das tun, wenn die Anzahlen von links nach rechts stark abnehmen, damit die wenigen rechts nicht zu stark Einfluss nehmen.

Deine Ausgangshypothese scheint mir gerade falsch zu sein, ich würde denken, je höher UV, desto niedriger AV.

Es ist schon ok, beide UVs drin zu lassen, Du bekommst halt Parameterschätzungen mit größerer Unsicherheit, und daher weniger Signifikanz. Aber in dieser Frage bin ich mir nicht ganz so sicher

1
Abciph6 
Beitragsersteller
 01.04.2017, 19:14
@HWSteinberg

Danke schonmal für die super Antwort! Meine Hypothese ist negativ formuliert, stimmt :D

Habe die Ausreiser rausgeschmissen und nochmal eine multiple Regression durchgeführt:

http://fs5.directupload.net/images/170401/ybdidc6r.png

Wie kann man denn erklären, dass die Einzelkorrelationen negativ (-,149) bzw nicht gegeben (,044) sind, aber im zusammengefassten Modell auf einmal eine zwar schwache, aber positive Korrelation von ,175 herauskommt? Und laut ANOVA alles hochsignifikant.

0
HWSteinberg  02.04.2017, 13:56
@Abciph6

R, als positive Wurzel aus R², ist niemals negativ. Und R² ist niemals eine Korrelation, es gibt den Anteil der Varianz der UV an der Gesamtvarianz an. Eher noch hängt die Korrelation mit dem Regressionskoeffizienten zusammen, den Du in Deiner Ausgabe nicht zeigst.

Und bei Deinem riesigen N wird ja jede Korrelation, die sich nur ein bisschen von 0 unterscheidet, signifikant. Du müsstest Dir eigentlich vor Durchführung der Tests überlegen, wie groß sollte die Korrelation mindestens sein, damit Du einen Einfluss konstatieren kannst.

Ein Signifikanztest prüft ja nur, ob ein Wert=0, exakt=0, ist, und wenn er beispielsweise in der Grundgesamtheit nur 0,01 aber nicht exakt 0 ist, dann findest Du immer eine Stichprobengröße, die ein Stichprobenergebnis von 0 sehr unwahrscheinlich macht (bei Symmetrie genauso unwahrscheinlich wie 0,02). Dafür gibt es Algorithmen.

Im Übrigen kann ich mir gut vorstellen, dass Logarithmieren eine bessere Varianzaufklärung (größeres R²) bringt, aber das muss auch nicht sein

0