MODEL-ENSEMBLE TRUST-REGION POLICY OPTIMIZATION

发表时间：2018（ICLR 2018）
文章要点：这篇文章用ensemble的方式来度量model uncertainty，然后用来调整训练，避免policy利用model训练不充分（model bias）的地方进行学习，从而影响训练效果（policy optimization tends to exploit regions where insufficient data is available to train the model, leading to catastrophic failures）。
具体的，就是训练多个model，然后每次随机选一个model来predict下一个状态，避免policy在一个model上overfitting。以及用多个model来判断更新的好坏，如果在小于70%的model上效果都不如之前的policy，就终止在model里训练，回到真实的环境里面去收集数据，进行下一个循环。
总结：也是比较早的一篇文章了，现在很多度量model uncertainty的方法都是各种ensemble。另外，文章提到预测state的差，而不是去直接预测下一个state，感觉以后可以试试。还有一些小trick，比如训练model的时候分个验证集来做early stopping，对state做normalization等等。
疑问：突然想到，有buffer的model free算法是不是可以看做model based和model free的中间体。

MODEL-ENSEMBLE TRUST-REGION POLICY OPTIMIZATION

相关

Perl语言入门--3--perl的控制结构

Django url路由分配

curl 度量时间

网络编程中URL的encode和decode

新窗口打开页面，如何获取上一个页面的 url

sublime text build system automatic ctrl/cmd+B自动选择 python2 或 python3

苹果手机使用charles抓包无法下载charles证书的问题

HttpURLConnection发送中文乱码问题解决

世界「theworld」

2-1 UI组件——布局管理器LinearLayout和RelativeLayout

解决curl 路径报错的问题

vue指定返回键的路由（点击浏览器的返回按钮/beforeRouterLeave）

标签