Eligibility Traces

Controls

Episodes per run

Play speed (ms)

Discount gamma 1.00

Trace decay lambda 0.80

TD(0) alpha 0.10

TD(lambda) alpha 0.15

Trace type

episodes: 0

RMSE TD(0): -

RMSE TD(lambda): -

delta_t = R_(t+1) + gamma V(S_(t+1)) - V(S_t)

e_t(s) = gamma lambda e_(t-1)(s), then increment visited state

V(s) ← V(s) + alpha delta_t e_t(s)

With lambda = 0, TD(lambda) behaves like TD(0). With lambda = 1, updates look more Monte Carlo-like.

Run one episode to inspect TD errors and eligibility traces.

t	S_t	S_t+1	R	delta	e(A..E)

State values (A-E) True vs TD(0) vs TD(lambda)

true values TD(0) TD(lambda)

Learning curve RMSE by episode

Final eligibility traces End of latest episode