Als Erklärung wofür die ganzen Sachen stehen:
Man befindet sich in State s und nimmt Action a, p(s',r|a,s) gibt dann an, mit welcher Wahrscheinlichkeit ich in State s' lande und dafür mit Reward r belohnt werde.
Die erste Formel macht für mich Sinn, man multipliziert die Summe der Wahrscheinlichkeiten mit Reward r in State s' zu landen mit dem Reward, und das eben für alle möglichen Rewards.
Bei der 2. Formel ist allerdings gegeben, in welchem State s' wir landen. In meinem Kopf müsste dann einfach die eine Summe wegfallen, hier kommt aber noch ein 1/p(s'|s,a) dazu. Warum?