RL Importance Sampling 在计算期望的时候,需要一个概率分布p(x): Ep[f(x)]=∫xf(x)p(x)dx 但是任意分布p(x)通常难以从随机数发生器来生成,此时需要借助一个更加容易获得的辅助分布q(x)来解决问题: Ep[f(x)]=∫xf(x)p(x)dx=∫xf(x)p(x)q(x)q(x)dx=∫x[f(x)p(x)q(x)]q(x)dx 其中,p(x)q(x)为重要性权重。这样就可以通过分布q(x)进行采样了。