Warum muss man hier noch durch p(s'|s,a) teilen?
Als Erklärung wofür die ganzen Sachen stehen:
Man befindet sich in State s und nimmt Action a, p(s',r|a,s) gibt dann an, mit welcher Wahrscheinlichkeit ich in State s' lande und dafür mit Reward r belohnt werde.
Die erste Formel macht für mich Sinn, man multipliziert die Summe der Wahrscheinlichkeiten mit Reward r in State s' zu landen mit dem Reward, und das eben für alle möglichen Rewards.
Bei der 2. Formel ist allerdings gegeben, in welchem State s' wir landen. In meinem Kopf müsste dann einfach die eine Summe wegfallen, hier kommt aber noch ein 1/p(s'|s,a) dazu. Warum?
2 Antworten
Das ist eine bedingte Wahrscheinlichkeit. Insgesamt wird eine bedingte Erwartung berechnet.
Sagen wir mal, es gibt nur positive Rewards und für s' gibt es immer einen größeren Reward. Wenn man weiß, dass man s' bekommt, müsste der erwartete Reward auch größer werden. Wenn man aber nur die anderen Summanden wegließe, wäre das Ergebnis kleiner.
Die bedingte Erwartung wird größer, z.B. ist der Erwartungswert der Augenzahl beim Würfeln 1/6 + 2/6 + 3/6 + 4/6 + 5/6 + 6/6 = 3,5. Der Erwartungswert unter der Bedingung, dass man eine gerade Zahl wirft, ist dagegen (2/6 + 4/6 + 6/6)/(1/2) = 4. Man summiert also nur die Wahrscheinlichkeiten mal Augenzahl für die geraden Augenzahlen auf und teilt durch die Wahrscheinlichkeit, dass man eine gerade Zahl wirft.
Bei ungeraden Zahlen würde die Erwartung natürlich kleiner werden, aber nich um so viel kleiner, als wenn man einfach nur die Summanden weglassen würde: (1/6 + 3/6 + 5/6)/(1/2) = 3 vs. 1/6 + 3/6 + 5/6 = 1,5.
Super Beispiel, habs gecheckt :D
Ich hab grad noch gedacht, dass folgendes gilt: r(s,a) = ∑_s' r(s,a,s')
Das würde bedeuten, dann ich nicht einfach die Summen aus Formel 1 umdrehen kann.
Aber bei der Doppelsumme kann ich doch auch einfach das weiter reinziehen und dann die Summen umdrehen. Welche Regel würde das verbieten?
Wahrscheinlich gilt dann das was ich mir gedacht hab nicht 🧐
Ich hab grad noch gedacht, dass folgendes gilt: r(s,a) = ∑_s' r(s,a,s')
Da fehlt rechts noch jeweils p(s',r|a,s) als Faktor.
Aber bei der Doppelsumme kann ich doch auch einfach das weiter reinziehen und dann die Summen umdrehen.
Ja, das r kann man nach dem Distributivgesetz in die innere Summe ziehen und die Reihenfolge der Summenzeichen vertauschen; für jedes Paar (r, s') gibt es weiterhin einen Summanden, nur die Reihenfolge wird vertauscht.
Satz von Bayes.
Erstmal hast du ja für den Erwartungswert
Wir kennen aber die Wahrscheinlichhkeit p(r,s'|a,s), nämlich die Wahrscheinlichkeit, dass r und s' unter der Bedingung a, s eintrifft.
Und Bayes sagt ja:
Danke erstmal :)
Aber unter deiner Annahme macht es doch Sinn, dass das Ergebnis kleiner ist. Also dass r(s,a,s') < r(s,a) gilt. Man betrachtet ja schließlich nicht mehr alle möglichen Outcomes