为何RL泛化如此难伯克利博士从认知POMDP、隐式部分可观察解读

当今强化学习（RL）的问题很多，诸如收敛效果不好。在偏弱的实验环境里，模型测试结果看起来尚可，许多问题暴露得不明显，但大量实验已经证明深度 RL 泛化很困难：尽管 RL 智能体可以学习执行非常复杂的任务，但它似乎对不同任务的泛化能力较差，相比较而言，监督深度网络具有较好的泛化能力。

有研究者认为，对于监督学习来说，发生一次错误只是分类错一张图片。而对于 MDP（马尔可夫决策过程）假设下的 RL，一次识别错误就会导致次优决策，甚至可能一直错误下去，这也是 RL 在现实世界没法用的根源。

为什么强化学习的泛化能力从根本上来说很难，甚至从理论的角度来说也很难？来自加州大学伯克利分校的博士生 Dibya Ghosh 等研究者共同撰文解释了这一现象，文章从认知 POMDP（Epistemic POMDP）、隐式部分可观察（Implicit Partial Observability）两个方面进行解释。论文共同一作 Dibya Ghosh 的研究方向是使用强化学习进行决策。之前，他曾在蒙特利尔的 Google Brain 工作。

站长网

为何RL泛化如此难伯克利博士从认知POMDP、隐式部分可观察解读

作者: dawei

联系我们

作者: dawei

相关文章

媒体融合的下半场 既要快得起来,也要慢得下来

绍兴市级媒体融合发展中如何实现 瘦身健体 突出主业?

广播电视台移动融合管理平台APP的设计及实现

超越链接 我国县级融媒体中心建设的2.0版

主流媒体建设自主可控平台的难点与对策 以芒果TV为例

元宇宙内容生态拼图

联系我们

媒体融合的下半场既要快得起来,也要慢得下来

绍兴市级媒体融合发展中如何实现瘦身健体突出主业?

超越链接我国县级融媒体中心建设的2.0版

主流媒体建设自主可控平台的难点与对策以芒果TV为例