Wie berechne ich die Regressionskoeffizienten einer multiplen Regression?

Es geht um eine multiple lineare Regression. Ich habe also eine abhängige Variable Y und mehrere unabhängige Variablen X1, X2, etc.

Dann habe ich verschiedene Regressionskoeffizienten: b0 ist der "Interzept", und dann jeweils b1, b2, etc. als Steigungen für die jeweiligen X-Variablen.

Ich finde nirgends die Formel zur berechnen von z.B. b2. Anscheinend ist die Formel anders als bei der bivariaten linearen Regression. Die wäre die, die ich im Bild hochgeladen habe.

Wenn ich diese Formel allerdings für b2 verwende, bekomme ich ein falsches Resultat. Ich habe natürlich alle X darin durch die Werte der X2 ersetzt. Außerdem ändert sich im Beispiel des Professor dann auch der Wert von b1 (wenn b2 dazu kommt). Ich weiß aber nicht, wie der Prof zu seinem Resultat kommt. Seine Rechnung ist auf jeden Fall richtig, denn Excel gibt das gleiche Resultat wieder.

Was mache ich falsch? Kann mir jemand helfen? Vielen, vielen Dank!

Bild zum Beitrag

23.07.2020, 22:32

1) Ursprüngliche Tabelle:

2) Berechnung für bivariate Regression (Jahreseinkommen + Zufriedenheit):

3) Berechnung der multiplen Regression (Jahreseinkommen + Zufriedenheit + Gesundheitsniveau):

24.07.2020, 00:13

4) Darstellung in der Ebene

1 Antwort

JCMaxwell

25.07.2020, 01:42

Ich fürchte, dass da bei dir ein Verständnisproblem vorherrscht. Dein Professor macht keine lineare Regression für drei unabhängige Variable. Es sind nur zwei unabhängige Variablen, nämlich das Jahreseinkommen und das Gesundheitsniveau. Die vierte Spalte, also der Zufriedenheitsindex, ist das, was dein Modell vorhersagen soll, also dein y. In seiner Rechnung zeigt er ja auch explizit, wie die y-Werte geschätzt werden. Beachte, dass das b0 ein konstantes Glied ist, also ein Threshold. Dieser Term wird nicht verwendet, um eine der Variablen zu Gewichten, sondern gibt in dieser graphischen Darstellung eben nur an, wie "weit oben" die Ebene liegt, ab dem die Höhe der dargestellten Punkte gemessen wird.

Du kannst die Parameter b0, b1, b2 erhalten, indem du das Optimierungsproblem

Bild zum Beitrag

löst, wobei X eine Matrix ist, die für jede Zeile deiner Tabelle die beiden Werte für Jahreseinkommen und Gesundheitsniveau enthält. Außerdem wollen wir ja das konstante Glied berücksichtigen, d.h. wir fügen dieser Matrix noch eine Spalte hinzu, die nur Einsen enthält. Multipliziert man dann einen Spaltenvektor b mit drei Einträgen von rechts an die Matrix heran, wird der letzte Eintrag dieses Vektors einfach mit 1 multipliziert. Beachte, dass in dieser Darstellung der dritte Eintrag des Vektors b gerade dem b0, also dem Threshold von oben entspricht. Der Vektor y hat gerade so viele Einträge wie es Zeilen in deiner Tabelle gibt und jeder Eintrag entspricht dem Zufriedenheitsindex der jeweiligen Instanz.

Man mag sich fragen, wie man nun aus der Zielfunktion das optimale b herausbekommt. Naja, die Theorie konvexer Optimierungsprobleme legt nahe, dass wir den Gradienten bestimmen und dann schauen müssen, für welches b dieser verschwindet. Wenn ich das tu, erhalte ich die Bedingung

Bild zum Beitrag

Aber die Gleichung auf der rechten Seite entspricht einfach nur einem linearen Gleichungssystem. Und das können wir lösen! Da wir im 21. Jahrhundert leben, machen wir das aber nicht per Hand, sondern nutzen eine der zahlreichen Bibliotheken oder Programme, die unser Werkzeugkasten so hergibt. Wenn du das per Excel machen willst, ist das vollkommen in Ordnung. Du musst auch gar nicht den Weg gehen, erst dieses lineare Gleichungssystem aufzustellen - das machen die Programme intern natürlich automatisch, wenn du einfach eine Funktion wie linear_regression() nutzt und dann deine Werte einsetzt.

Ich habe das Ganze aber mal in Python implementiert, um dir zu zeigen, dass das auch tatsächlich funktioniert. Der Code ist recht überschaubar:

import pandas as pd
import numpy as np

def linear_regression(data):
	data = data.to_numpy()
	X, y = data[:, :-1], data[:, -1]
	X = np.concatenate((X, np.ones((X.shape[0], 1))), axis=1)
	b = np.linalg.solve(np.matmul(X.T, X), np.dot(X.T, y))
	return b

if __name__ == '__main__':
	cols = {'einkommen' : [43, 24, 17, 129, 65, 21, 35, 29, 72, 14],
			'gniveau': [90, 100, 50, 95, 70, 90, 100, 80, 95, 100],
			'zufriedenheit': [6.5, 6.9, 4.9, 7.2, 5.3, 4.3, 6.1, 5.5, 8.1, 5.4]}
	df = pd.DataFrame(cols)
	b = linear_regression(df)
	print(b)

Die Ausgabe lautet

[0.01740046 0.02964865 2.65928629]

Und wenn man jetzt berücksichtigt, dass der dritte Eintrag in b eben deinem b0 von oben entspricht, scheint das Ergebnis auch präzise mit dem übereinzustimmen, was dein Professor angegeben hat.

Halbrecht

25.07.2020, 13:28

so ist es richtig , ich vermute aber , der FS möchte eine Formel so wie oben die "Schulformel" für b1 .

Ähnliche Beiträge

Multiple Regression negativer Koeffizient, aber in einfacher Regression positiv. Wie kann das sein?

In der multiplen Regression ist eine Variable negativ, wenn ich diese Variable aber als einzige unabh. Variable nutze in einer somit einfachen linearen Regression ist sie positiv. Wie kann das sein?

...zum Beitrag

Regressionsanalyse Koeffizienten nicht alle signifikant?

Hallo zusammen,

wenn einige Koeffizienten bei der multiplen Regression nicht signifikant sind heißt das dann, dass sich das nicht verallgemeinern lässt? Also kann ich dann sagen, dass in meiner Stichprobe diese Variable die abhängige in diesem Maße beeinflusst?

...zum Beitrag

Partialling out - Multiple Regression (EXCEL)?

Sehr geehrte Leser/innen der Gutefrage.net-Community,

ich wundere mich wie man in Excel, für eine Multiple Regression, die Prozedur des "Partialling out" durchführt. Ich habe online mehrere Schritte gefunden, werde jedoch aus diesen, leider, nicht schlau:
1. Regress x1 on x2, x3, ..., xk and calculate the residual ˆr1.
xi1 = ˆα0 + ˆα2xi2 + ... + ˆαk xik + ˆri1 rˆ1 = xi1 − xˆi1
2. Regress y on ˆr1. yi = λˆ 0 + λˆ 1rˆi1 + eˆi
3. The resulting slope estimate λˆ 1 is always equal to βˆ 1.

Die Multiple Regression, bei welcher ich diese Prozedur durchführen möchte, ist die folgende:
Y = 726,821 - 0,39172 * X1 - 0,607651 * X2 - 0,783681* X3 + 0,648657 * X4 + u.

Ich würde mich über ein paar hilfreiche Antworten freuen.

Ideal wäre natürlich, wenn jemand die Rechnung an einem Beispiel oder an der gegebenen Regression Schritt-für-Schritt erklären könnte.

Vielen herzlichen Dank.

Beste grüße.

...zum Beitrag

G beim Freien Fall mithilfe einer Regression bei s(t) bestimmen?

Hallo,

Für meine Hausaufgaben in Physik sollen wir die Konstante g mithilfe einer quadratischen und einer linearen Regression mit der Formel s(t)= 1/2* g* t^2 bestimmen. Kann mir da jemand helfen oder mir zumindest einen Denkansatz geben? Danke.

...zum Beitrag

Multiple Regression berechnen?

Hallo, ich werde eine multiple regression rechnen, allerdings haben meine Fragebögen eine unterschiedliche skalenlänge. Der Fragebogen für die unabhängigen variablen hat eine codierung von 0-3 und der fragebogen welches die abhängige variabel darstellt eine codierung von 0-4. Kann ich die multiple regression trotzdem rechnen ohne an den fragebögen rumzufuschen?

...zum Beitrag

Mathe/ lineare Abhängigkeit mit variable?

Es geht um 2 Aussagen welche falsch sind, ich aber nicht verstehe warum diese nicht stimmen?

Aussagen:

1) Für alle k sind die Vektoren b1 und b2 linear abhängig.

2) Für alle k sind die Vektoren b1 und b2 linear unabhängig.

ich habe beide in ein LGS gesetzt um zu schauen ob ein skalares vielfaches rauskommt, welches nicht der fall war. Aber wie kann ich herrausfinden wie es für alle Zaheln für k ist?

...zum Beitrag

Regressionsanalyse: Hypothesen mit positiven Zusammenhang formuliert, Ergebnis zeigt negativen Zusammenhang?

Hallo,

ich habe eine einfache lineare Regression durchgeführt. Meine H1 Hypothese dazu lautet: Wenn Variable a steigt, dann steigt auch Variable b. Mein p-Wert ist signifikant, aber wenn ich die Koeffizienten in die Gleichung einsetze, dann habe ich eine negative Steigung, also ein Minuszeichen vor dem Koeffizienten.

Ist meine H1 Hypothese trotzdem richtig? Also, dass wenn a steigt steigt auch b? Oder müsste man die Hypothesen dann negativ formulieren, sodass es stimmt? (Wenn a sinkt, dann sinkt auch b)

Danke im Voraus!

Liebe Grüße

...zum Beitrag

Regression mit Interaktionsterm (SPSS)?

Hallo ihr lieben, ich hätte kurz eine Frage. Ich möchte gerne eine Regressionsanalyse mit Interaktionsterm durchführen. Dafür sind allerdings einige Voraussetzungen vorgegeben, die bei mir für ein wenig Verwirrung sorgen. Die beiden Voraussetzungen, dass die Variablen metrisch skaliert und normalverteilt sein müssen, lasse ich mal kurz vorweg (ist schon gegeben). Jetzt komme ich zu der Voraussetzung das eine lineare Beziehung zwischen den Variablen (keine Multikorrelarität) gegeben sein darf. Ich habe die unabhängige Variable (Belastung) und die abhängige Variable (Drogenkonsum) schon überprüft und es kam keine signifikante Korrelation raus. Im nächsten Schritt allerdings wollte ich herausfinden ob Impulsivität den Zusammenhang zwischen Belastung und Drogenkonsum moderiert. Hier kommen wir zu meiner Frage. Ergibt die Regressionsanalyse mit Interaktionsterm überhaupt noch Sinn wenn weder Belastung und Drogenkonsum miteinander korrelieren/einen linearen Zusammenhang haben noch Impulsivität mit Drogenkonsum? Wie gehe ich dann im nächsten Schritt vor? Sage ich, dass die Rechnung dadurch nicht durchgeführt werden kann und die Hypothese sich nicht bestätigt oder müssen andere Schritte eingeleitet werden?

Vielen Dank im Voraus :)

...zum Beitrag

Dichotome unabhängige Variable als numerische UV in der Regression?

Hi, ich möchte mit R eine multiple Regression rechnen, die AV, 1 UV und 4 Kontrollvariablen sind metrisch, 2 UVs sind kategorial (dichotom, nominalskaliert). Ich will alle metrischen Variablen z-standardisieren, aber wie gehe ich mit den dichotomen UVs um? Meine Idee war, ihnen die Werte c(-1,1) zuzuweisen, sie mit >as.numeric numerisch zu machen und dann ggf ebenfalls zu standardisieren. Wäre das eine Möglichkeit? Oder sie auch nur mit -1/1 zu kodieren? Ich bin für Hilfe sehr dankbar :)

...zum Beitrag

SPSS: lineare Regression vs Allgemeines Lineares Modell Univariat?

Hallo,

ich habe eine Frage. Ich habe zwei Fragebögen die ich in SPSS auswerten soll.

Ich muss die Hypothesen Testen:

Besteht ein Einfluss von der Unabhängigen Variable auf die Abhängige Variable
Welche Unabhängige Variable hat einen stärkeren Einfluss auf die Abhängige Variable.

Alle Anworten sind 7-point likert scales (1- stimme gar nicht zu --> 7- stimme voll zu)

Nun weiß ich, dass wir sowohl mit linearer Regression arbeiten und aber auch mit dem Allgemeines Linearen Modell (Univariat) - kann mir jemand sagen welches ich jetzt nehmen soll für welche Hypothese? Bzw was der Unterschied zwischen den beiden ist, denn es kommen unterschiedliche Signifikanz/ F-Values bei der Regression vs der ALM raus. Und soll ich jede Unabhängige Variable extra auf die Abhängige Testen oder gemeinsam?

Danke!

...zum Beitrag

Java for-schleife beenden

habe folgenden code: { try {

            Scanner scan = new Scanner (System.in);

            int d1 = 3;
            int d2 = 5;
Schleife1:
            for (double a=0; a<d1 ;a++)
                {   

                System.out.println("Variable a:");
                String a1 = scan.next();
                a1 = a1.replaceAll("," , ".");


                if(!a1.matches("((-|\\+)?[0-9]+(\\.[0-9]+)?)+"))    

                {

                System.out.println("Nur Zahlen!");
                continue;

                }



                double a2 = Double.parseDouble(a1);


                for (double b=0;b<d2 ;b++)
                    {

                    System.out.println("Variable b:");
                    String b1 = scan.next();
                    b1 = b1.replaceAll("," , ".");

                    if(!b1.matches("((-|\\+)?[0-9]+(\\.[0-9]+)?)+"))

                        {

                        System.out.println("Nur Zahlen!");
                        continue;

                        }

                    double b2 = Double.parseDouble(b1); 




                    double c; 
                    c= max1(a2 , b2);
                    System.out.println(c); 

                    if (c==0)   {
                        System.out.print("Werte gleich");
                        }       

                    if(a1.matches("((-|\\+)?[0-9]+(\\.[0-9]+)?)+") && b1.matches("((-|\\+)?[0-9]+(\\.[0-9]+)?)+"))
                        {
                        break Schleife1;
                        }
                    }

                }

            }

                catch (Exception ex)
                {
                System.out.println("Bitte Zahl eingeben!");
                }

Mein Problem ist das die innere Schleife, wenn d2 erreicht wurde, also nach fünfmaliger eingabe z.b. eines buchstaben, zwar beendet wird, dann allerdings die äußere schleife wieder anfängt. was ich allerding will ist, dass wenn d2 in der inneren schleife erreicht wird, das programm komplett beendet wird.

hilfe bitte!

...zum Beitrag

WENN-Funktion (zu viele Argumente)

Moin Moin,

ich wollte für die Arbeit eine Exceltabelle erstellen.(Eine Mappe mit mehreren Blättern)

Wenn ich auf dem Blatt "Maske" ins Feld "B1" einen Namen schreib der auf den anderen Blättern auf "B1" hinterlegt ist, soll er das Feld "B2" des dazugehörigen Blattes in das Feld "B2" des Blattes "Maske" schreiben.

Es Handelt sich hierbei um verschiedene Verkaufsartikel. Jeder Artikel hat sein Eigenes Blatt.

Meine Formel sieht im Moment so aus:

=WENN(B1=Barras!B1;Barras!B2;WENN(Maske!B1=Freibourg!B1;Freibourg!B2;WENN(Maske!B1=Milano!B1;Milano!B2;WENN(B1=Dayton!B1;Dayton!B2;WENN(Maske!B1=Alaska!B1;Alaska!B2;WENN(Maske!B1='Frankfurt(1-farbig)'!B1;'Frankfurt(1-farbig)'!B2;WENN(Maske!B1='Frankfurt(2-farbig)'!B1;'Frankfurt(2-farbig)'!B2;WENN(Maske!B1=Frontera!B1;Frontera!B2;WENN(Maske!B1;Loreto!B1;Loreto!B2;WENN(Maske!B1;Mataro!B1;Mataro!B2;WENN(Maske!B1;Teresina!B1;Teresina!B2;WENN(Maske!B1=Borneo!B1;Borneo!B2;WENN(Maske!B1=Soroni!B1;Soroni!B2;WENN(Maske!B1=Trinidad!B1;Trinidad!B2;WENN(Maske!B1=Malaga!B1;Malaga!B2;WENN(Maske!B1=Stuttgart!B1;Stuttgart!B2;WENN(Maske!B1=Kisumu!B1;Kisumu!B2;WENN(Maske!B1;Manica!B1;Manica!B2;WENN(Maske!B1=Mongu!B1;Mongu!B2;WENN(Maske!B1=Beja!B1;Beja!B2;WENN(Maske!B1=Caribien!B1;Caribien!B2;WENN(Maske!B1=Toulon!B1;Toulon!B2;WENN(Maske!B1=Jamaica!B1;Jamaica!B2;WENN(Maske!B1=Java!B1;Java!B2;WENN(Maske!B1=Hagen!B1;Hagen!B2;WENN(Maske!B1=Lakewood!B1;Lakewood!B2;WENN(Maske!B1=Weyburn!B1;Weyburn!B2;WENN(Maske!B1=Sölden!B1;Sölden!B2;WENN(Maske!B1=Tulsa!B1;Tulsa!B2;WENN(Maske!B1=Lido!B1;Lido!B2;WENN(Maske!B1=Washington!B1;Washington!B2;WENN(Maske!B1=Cadiz!B1;Cadiz!B2;WENN(Maske!B1=Lerida!B1;Lerida!B2;"0"))))))))))))))))

kurz:

=WENN(B1=Barras!B1;Barras!B2;WENN(Maske!B1=Freibourg!B1;Freibourg!B2;WENN....

wenn nichts zutrifft soll er "0" ausgeben.

Nun sagt er mir "Zu viel Argumente", ist das so? kann man das umgehen oder sonst etwas tuhen?

Ich danke schon mal für die Antworten und eure Lösungsvorschläge.

MfG

kray

...zum Beitrag

Nicht erklärte Streuung/ Lineare Regression?

Hallo,

meine Frage bezieht sich auf die Streuung die nicht durch die unabhängige Variable erklärt werden kann (Residuum). Was bedeutet erklärt bzw. nicht erklärt und warum weiß man, dass diese Abweichung nicht durch die unabhängige Variable erklärt bzw. verursacht wird.

Vielen Dank im Voraus!

...zum Beitrag

Linear regression: wie kommt die Formel her?

Hier ist: y=a*x+b und man muss a und b bestimmen. Für die Ingeneure und Statistiker unter euch: Wie leitet man diese Formel her?

...zum Beitrag

Was möchtest Du wissen?

Deine Frage stellen