重要性采样是我在学习强化学习的过程中遇到的一种采样方法,是为了应对当要进行采样的样本分布难以获得时的问题。重要性采样使用另一个采样来代替当前的采样
什么是采样的常见问题
- 抛硬币问题,通过无限多次的抛硬币实验来估计硬币正面朝上的概率
- 面积问题,通过向特定区域撒豆子,通过计算豆子的数量和区域总面积,来计算某一个子区域的面积
蒙特卡罗法求积分
通过在[a, b]区间内按均匀分布来进行采样求得f(x)在[a, b]区间内的平均值,然后乘上b-a得到积分
蒙特卡洛法求期望
期望就相当于在求积分的时候加入一个重要性
的概念,即变量服从一个概率分布,则上述公式变为
按照p(x)的分布来产生随机数进行采样
这时,如果p(x)未知,那就无法针对p(x)进行采样来估计期望值,那怎么办呢?这时候就要借助这篇笔记的主角——重要性采样
重要性采样
这时候需要引入一个新的已知的分布q(x)然后把原来的公式更改为
这样我们就可以针对q(x)来对p(x)/q(x)*f(x)
来进行采样了
这就是重要性采样。