Importance Sampling (重要性采样)

重要性采样是我在学习强化学习的过程中遇到的一种采样方法,是为了应对当要进行采样的样本分布难以获得时的问题。重要性采样使用另一个采样来代替当前的采样

什么是采样的常见问题

  1. 抛硬币问题,通过无限多次的抛硬币实验来估计硬币正面朝上的概率
  2. 面积问题,通过向特定区域撒豆子,通过计算豆子的数量和区域总面积,来计算某一个子区域的面积

蒙特卡罗法求积分

通过在[a, b]区间内按均匀分布来进行采样求得f(x)在[a, b]区间内的平均值,然后乘上b-a得到积分

蒙特卡洛法求期望

期望就相当于在求积分的时候加入一个重要性的概念,即变量服从一个概率分布,则上述公式变为

按照p(x)的分布来产生随机数进行采样

这时,如果p(x)未知,那就无法针对p(x)进行采样来估计期望值,那怎么办呢?这时候就要借助这篇笔记的主角——重要性采样

重要性采样

这时候需要引入一个新的已知的分布q(x)然后把原来的公式更改为

这样我们就可以针对q(x)来对p(x)/q(x)*f(x)来进行采样了

这就是重要性采样。