Warum muss man hier noch durch p(s'|s,a) teilen?

2 Antworten

Vom Beitragsersteller als hilfreich ausgezeichnet

Das ist eine bedingte Wahrscheinlichkeit. Insgesamt wird eine bedingte Erwartung berechnet.

Sagen wir mal, es gibt nur positive Rewards und für s' gibt es immer einen größeren Reward. Wenn man weiß, dass man s' bekommt, müsste der erwartete Reward auch größer werden. Wenn man aber nur die anderen Summanden wegließe, wäre das Ergebnis kleiner.


mathesehrschwer 
Beitragsersteller
 29.07.2023, 16:46

Danke erstmal :)

Aber unter deiner Annahme macht es doch Sinn, dass das Ergebnis kleiner ist. Also dass r(s,a,s') < r(s,a) gilt. Man betrachtet ja schließlich nicht mehr alle möglichen Outcomes

0
Mathmaninoff, UserMod Light  29.07.2023, 16:52
@mathesehrschwer

Die bedingte Erwartung wird größer, z.B. ist der Erwartungswert der Augenzahl beim Würfeln 1/6 + 2/6 + 3/6 + 4/6 + 5/6 + 6/6 = 3,5. Der Erwartungswert unter der Bedingung, dass man eine gerade Zahl wirft, ist dagegen (2/6 + 4/6 + 6/6)/(1/2) = 4. Man summiert also nur die Wahrscheinlichkeiten mal Augenzahl für die geraden Augenzahlen auf und teilt durch die Wahrscheinlichkeit, dass man eine gerade Zahl wirft.

1
Mathmaninoff, UserMod Light  29.07.2023, 16:57
@Mathmaninoff, UserMod Light

Bei ungeraden Zahlen würde die Erwartung natürlich kleiner werden, aber nich um so viel kleiner, als wenn man einfach nur die Summanden weglassen würde: (1/6 + 3/6 + 5/6)/(1/2) = 3 vs. 1/6 + 3/6 + 5/6 = 1,5.

1
mathesehrschwer 
Beitragsersteller
 29.07.2023, 17:00
@Mathmaninoff, UserMod Light

Super Beispiel, habs gecheckt :D

Ich hab grad noch gedacht, dass folgendes gilt: r(s,a) = ∑_s' r(s,a,s')
Das würde bedeuten, dann ich nicht einfach die Summen aus Formel 1 umdrehen kann.
Aber bei der Doppelsumme kann ich doch auch einfach das weiter reinziehen und dann die Summen umdrehen. Welche Regel würde das verbieten?

Wahrscheinlich gilt dann das was ich mir gedacht hab nicht 🧐

1
Mathmaninoff, UserMod Light  29.07.2023, 17:15
@mathesehrschwer
Ich hab grad noch gedacht, dass folgendes gilt: r(s,a) = ∑_s' r(s,a,s')

Da fehlt rechts noch jeweils p(s',r|a,s) als Faktor.

Aber bei der Doppelsumme kann ich doch auch einfach das weiter reinziehen und dann die Summen umdrehen.

Ja, das r kann man nach dem Distributivgesetz in die innere Summe ziehen und die Reihenfolge der Summenzeichen vertauschen; für jedes Paar (r, s') gibt es weiterhin einen Summanden, nur die Reihenfolge wird vertauscht.

1

Satz von Bayes.

Erstmal hast du ja für den Erwartungswert

 Wir kennen aber die Wahrscheinlichhkeit p(r,s'|a,s), nämlich die Wahrscheinlichkeit, dass r und s' unter der Bedingung a, s eintrifft.

Und Bayes sagt ja:



Woher ich das weiß:Studium / Ausbildung – Dipl.-Math. :-)