200字范文 > 【重磅整理】180篇NeurIPS顶会《强化学习领域》Accept论文大全

【重磅整理】180篇NeurIPS顶会《强化学习领域》Accept论文大全

时间：2022-05-22 05:07:03

NeurIPS终于放榜，提交数再次创新高，与去年相比增加了38%，共计达到9454篇，总接收1900篇，其中谷歌以169篇傲视群雄，清华大学63篇，南京大学周志华教授团队3篇。论文接收率20.09%较去年有所下降，其中论文主题占比和结构图如下：

算法（29%）

深度学习（19%）

强化学习（9%）

作者：《DeepRL-Lab》 & 《》联合发布

来源：/Conferences//

/conf/neurips

强化学习完整列表

[1]. Relabeling Experience with Inverse RL: Hindsight Inference for Policy Improvement

作者: Ben Eysenbach (Carnegie Mellon University) · XINYANG GENG (UC Berkeley) · Sergey Levine (UC Berkeley) · Russ Salakhutdinov (Carnegie Mellon University)

链接：/pub/5f7fdd328de39f08283979af?conf=neurips

[2]. Generalised Bayesian Filtering via Sequential Monte Carlo

作者: Ayman Boustati (University of Warwick) · Omer Deniz Akyildiz (University of Warwick) · Theodoros Damoulas (University of Warwick & The Alan Turing Institute) · Adam Johansen (University of Warwick)

链接：/pub/5e54f1813a55acae32a25e68?conf=neurips

[3]. Softmax Deep Double Deterministic Policy Gradients

作者: Ling Pan (Tsinghua University) · Qingpeng Cai (Alibaba Group) · Longbo Huang (IIIS, Tsinghua Univeristy)

链接：/pub/5f7fdd328de39f08283979eb?conf=neurips

[4]. Breaking the Sample Size Barrier in Model-Based Reinforcement Learning with a Generative Model

作者: Gen Li (Tsinghua University) · Yuting Wei (Carnegie Mellon University) · Yuejie Chi (CMU) · Yuantao Gu (Tsinghua University) · Yuxin Chen (Princeton University)

链接：/pub/5ece3bcb91e011dc23c2259d?conf=neurips

[5]. Learning Multi-Agent Coordination for Enhancing Target Coverage in Directional Sensor Networks

作者: Jing Xu (Peking University) · Fangwei Zhong (Peking University) · Yizhou Wang (Peking University)

链接：/pub/5f7fdd328de39f08283979fd?conf=neurips

[6]. Off-Policy Imitation Learning from Observations

作者: Zhuangdi Zhu (Michigan State University) · Kaixiang Lin (Michigan State University) · Bo Dai (Google Brain) · Jiayu Zhou (Michigan State University)

链接：/pub/5f7fdd328de39f0828397a0d?conf=neurips

[7]. Can Q-Learning with Graph Networks Learn a Generalizable Branching Heuristic for a SAT Solver?

作者: Vitaly Kurin (University of Oxford) · Saad Godil (NVIDIA) · Shimon Whiteson (University of Oxford) · Bryan Catanzaro (NVIDIA)

链接：/pub/5f7fdd328de39f0828397a17?conf=neurips

[8]. DISK: Learning local features with policy gradient

作者: MichaÅ‚ Tyszkiewicz (EPFL) · Pascal Fua (EPFL, Switzerland) · Eduard Trulls (Google)

链接：/pub/5ef476b691e01165a63bbbaf?conf=neurips

[9]. Learning Individually Inferred Communication for Multi-Agent Cooperation

作者: Ziluo Ding (Peking University) · Tiejun Huang (Peking University) · Zongqing Lu (Peking University)

链接：/pub/5ee3527191e011cb3bff763f?conf=neurips

[10]. Lifelong Policy Gradient Learning of Factored Policies for Faster Training Without Forgetting

作者: Jorge Mendez (University of Pennsylvania) · Boyu Wang (University of Western Ontario) · Eric Eaton (University of Pennsylvania)

链接：/pub/5f0ed98d91e011ead96653c3?conf=neurips

[11]. Fixed-Support Wasserstein Barycenters: Computational Hardness and Fast Algorithm

作者: Tianyi Lin (UC Berkeley) · Nhat Ho (University of Texas at Austin) · Xi Chen (New York University) · Marco Cuturi (Google Brain & CREST - ENSAE) · Michael Jordan (UC Berkeley)

链接：/pub/5eff04999e795e640cf9f57a?conf=neurips

[12]. Memory Based Trajectory-conditioned Policies for Learning from Sparse Rewards

作者: Yijie Guo (University of Michigan) · Jongwook Choi (University of Michigan) · Marcin Moczulski (Google Brain) · Shengyu Feng (University of Illinois Urbana Champaign) · Samy Bengio (Google Research, Brain Team) · Mohammad Norouzi (Google Brain) · Honglak Lee (Google / U. Michigan)

链接：/pub/5f7fdd328de39f0828397a3c?conf=neurips

[13]. Almost Optimal Model-Free Reinforcement Learningvia Reference-Advantage Decomposition

作者: Zihan Zhang (Tsinghua University) · Yuan Zhou (UIUC) · Xiangyang Ji (Tsinghua University)

链接：/pub/5ea16b3491e011fa08b8f946?conf=neurips

[14]. Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping

作者: Yujing Hu (NetEase Fuxi AI Lab) · Weixun Wang (Tianjin University) · Hangtian Jia (Netease Fuxi AI Lab) · Yixiang Wang (University of Science and Technology of China) · Yingfeng Chen (NetEase Fuxi AI Lab) · Jianye Hao (Tianjin University) · Feng Wu (University of Science and Technology of China) · Changjie Fan (NetEase Fuxi AI Lab)

链接：/pub/5f7fdd328de39f0828397a60?conf=neurips

[15]. Effective Diversity in Population Based Reinforcement Learning

作者: Jack Parker-Holder (University of Oxford) · Aldo Pacchiano (UC Berkeley) · Krzysztof M Choromanski (Google Brain Robotics) · Stephen J Roberts (University of Oxford)

链接：/pub/5f7fdd328de39f0828397a66?conf=neurips

[16]. A Boolean Task Algebra for Reinforcement Learning

作者: Geraud Nangue Tasse (University of the Witwatersrand) · Steven James (University of the Witwatersrand) · Benjamin Rosman (University of the Witwatersrand / CSIR)

链接：/pub/5e1456e93a55acd652ef329a?conf=neurips

[17]. A new convergent variant of Q-learning with linear function approximation

作者: Diogo Carvalho (GAIPS, INESC-ID) · Francisco S. Melo (IST/INESC-ID) · Pedro A. Santos (Instituto Superior TÃ©cnico)

链接：/pub/5f7fdd328de39f0828397a6d?conf=neurips

[18]. Knowledge Transfer in Multi-Task Deep Reinforcement Learning for Continuous Control

作者: Zhiyuan Xu (Syracuse University) · Kun Wu (Syracuse University) · Zhengping Che (DiDi AI Labs, Didi Chuxing) · Jian Tang (DiDi AI Labs, DiDi Chuxing) · Jieping Ye (Didi Chuxing)

链接：/pub/5f7fdd328de39f0828397a78?conf=neurips

[19]. Multi-task Batch Reinforcement Learning with Metric Learning

作者: Jiachen Li (University of California, San Diego) · Quan Vuong (University of California San Diego) · Shuang Liu (University of California, San Diego) · Minghua Liu (UCSD) · Kamil Ciosek (Microsoft) · Henrik Christensen (UC San Diego) · Hao Su (UCSD)

链接：/pub/5f7fdd328de39f0828397a82?conf=neurips

[20]. Demystifying Orthogonal Monte Carlo and Beyond

作者: Han Lin (Columbia University) · Haoxian Chen (Columbia University) · Krzysztof M Choromanski (Google Brain Robotics) · Tianyi Zhang (Columbia University) · Clement Laroche (Columbia University)

链接：/pub/5f7fdd328de39f0828397a95?conf=neurips

[21]. On the Stability and Convergence of Robust Adversarial Reinforcement Learning: A Case Study on Linear Quadratic Systems

作者: Kaiqing Zhang (University of Illinois at Urbana-Champaign (UIUC)) · Bin Hu (University of Illinois at Urbana-Champaign) · Tamer Basar (University of Illinois at Urbana-Champaign)

链接：/pub/5f7fdd328de39f0828397aa6?conf=neurips

[22]. Towards Playing Full MOBA Games with Deep Reinforcement Learning

作者: Deheng Ye (Tencent) · Guibin Chen (Tencent) · Wen Zhang (Tencent) · chen sheng (qq) · Bo Yuan (Tencent) · Bo Liu (Tencent) · Jia Chen (Tencent) · Hongsheng Yu (Tencent) · Zhao Liu (Tencent) · Fuhao Qiu (Tencent AI Lab) · Liang Wang (Tencent) · Tengfei Shi (Tencent) · Yinyuting Yin (Tencent) · Bei Shi (Tencent AI Lab) · Lanxiao Huang (Tencent) · qiang fu (Tencent AI Lab) · Wei Yang (Tencent AI Lab) · Wei Liu (Tencent AI Lab)

链接：/pub/5f7fdd328de39f0828397ab4?conf=neurips

[23]. How to Learn a Useful Critic? Model-based Action-Gradient-Estimator Policy Optimization

作者: Pierluca D’Oro (MILA) · Wojciech JaÅ›kowski (NNAISENSE SA)

链接：/pub/5eaaa1d691e011fa9e15eae3?conf=neurips

[24]. Reinforcement Learning in Factored MDPs: Oracle-Efficient Algorithms and Tighter Regret Bounds for the Non-Episodic Setting

作者: Ziping Xu (University of Michigan) · Ambuj Tewari (University of Michigan)

链接：/pub/5f7fdd328de39f0828397ace?conf=neurips

[25]. HiPPO: Recurrent Memory with Optimal Polynomial Projections

作者: Albert Gu (Stanford) · Tri Dao (Stanford University) · Stefano Ermon (Stanford) · Atri Rudra (University at Buffalo, SUNY) · Christopher RÃ© (Stanford)

链接：/pub/5f3cf16291e011c89f2f16c0?conf=neurips

[26]. Promoting Coordination through Policy Regularization in Multi-Agent Deep Reinforcement Learning

作者: Julien Roy (Mila) · Paul Barde (Quebec AI institute - Ubisoft La Forge) · FÃ©lix G Harvey (Polytechnique MontrÃ©al) · Derek Nowrouzezahrai (McGill University) · Chris Pal (MILA, Polytechnique MontrÃ©al, Element AI)

链接：/pub/5f7fdd328de39f0828397b0d?conf=neurips

[27]. Bias no more: high-probability data-dependent regret bounds for adversarial bandits and MDPs

作者: Chung-Wei Lee (University of Southern California) · Haipeng Luo (University of Southern California) · Chen-Yu Wei (University of Southern California) · Mengxiao Zhang (University of Southern California)

链接：/pub/5ee8986891e011e66831c4e9?conf=neurips

[28]. Minimax Confidence Interval for Off-Policy Evaluation and Policy Optimization

作者: Nan Jiang (University of Illinois at Urbana-Champaign) · Jiawei Huang (University of Illinois at Urbana-Champaign)

链接：/pub/5e3d353b3a55ac4de4104f13?conf=neurips

[29]. Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement Learning

作者: Nathan Kallus (Cornell University) · Angela Zhou (Cornell University)

链接：/pub/5e43ccc23a55acdc32c3115d?conf=neurips

[30]. Simultaneously Learning Stochastic and Adversarial Episodic MDPs with Known Transition

作者: Tiancheng Jin (University of Southern California) · Haipeng Luo (University of Southern California)

链接：/pub/5ee3526a91e011cb3bff72ee?conf=neurips

[31]. Learning Retrospective Knowledge with Reverse Reinforcement Learning

作者: Shangtong Zhang (University of Oxford) · Vivek Veeriah (University of Michigan) · Shimon Whiteson (University of Oxford)

链接：/pub/5f0eccf691e011ead966528f?conf=neurips

[32]. Combining Deep Reinforcement Learning and Search for Imperfect-Information Games

作者: Noam Brown (Facebook AI Research) · Anton Bakhtin (Facebook AI Research) · Adam Lerer (Facebook AI Research) · Qucheng Gong (Facebook AI Research)

链接：/pub/5f7791e011d50a621c80?conf=neurips

[33]. Variance reduction for Langevin Monte Carlo in high dimensional sampling problems

作者: ZHIYAN DING (University of Wisconsin-Madison) · Qin Li (University of Wisconsin-Madison)

链接：/pub/5ee3526a91e011cb3bff74bc?conf=neurips

[34]. POMO: Policy Optimization with Multiple Optima for Reinforcement Learning

作者: Yeong-Dae Kwon (Samsung SDS) · Jinho Choo (Samsung SDS) · Byoungjip Kim (Samsung SDS) · Iljoo Yoon (Samsung SDS) · Youngjune Gwon (Samsung SDS) · Seungjai Min (Samsung SDS)

链接：/pub/5f7fdd328de39f0828397b52?conf=neurips

[35]. Mixed Hamiltonian Monte Carlo for Mixed Discrete and Continuous Variables

作者: Guangyao Zhou (Vicarious AI)

链接：/pub/5f7fdd328de39f0828397b53?conf=neurips

[36]. Self-Paced Deep Reinforcement Learning

作者: Pascal Klink (TU Darmstadt) · Carlo D’Eramo (TU Darmstadt) · Jan Peters (TU Darmstadt & MPI Intelligent Systems) · Joni Pajarinen (TU Darmstadt)

链接：/pub/5ea6adfa91e011a546871d63?conf=neurips

[37]. Efficient Model-Based Reinforcement Learning through Optimistic Policy Search and Planning

作者: Sebastian Curi (ETH ZÃ¼rich) · Felix Berkenkamp (Bosch Center for Artificial Intelligence) · Andreas Krause (ETH Zurich)

链接：/pub/5ee9f15b91e01152af022c81?conf=neurips

[38]. Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic Policies

作者: Nathan Kallus (Cornell University) · Masatoshi Uehara (Cornell University)

链接：/pub/5edf5dd891e011bc656dec73?conf=neurips

[39]. Off-Policy Evaluation and Learning for External Validity under a Covariate Shift

作者: Masatoshi Uehara (Cornell University) · Masahiro Kato (The University of Tokyo) · Shota Yasui (Cyberagent)

链接：/pub/5f7fdd328de39f0828397b7b?conf=neurips

[40]. Improving Sample Complexity Bounds for (Natural) Actor-Critic Algorithms

作者: Tengyu Xu (The Ohio State University) · Zhe Wang (Ohio State University) · Yingbin Liang (The Ohio State University)

链接：/pub/5f7fdd328de39f0828397b83?conf=neurips

[41]. Fast Epigraphical Projection-based Incremental Algorithms for Wasserstein Distributionally Robust Support Vector Machine

作者: Jiajin Li (The Chinese University of Hong Kong) · Caihua Chen (Nanjing University) · Anthony Man-Cho So (CUHK)

链接：/pub/5f7fdd328de39f0828397b88?conf=neurips

[42]. A maximum-entropy approach to off-policy evaluation in average-reward MDPs

作者: Nevena Lazic (DeepMind) · Dong Yin (DeepMind) · Mehrdad Farajtabar (DeepMind) · Nir Levine (DeepMind) · Dilan Gorur () · Chris Harris (Google) · Dale Schuurmans (Google Brain & University of Alberta)

链接：/pub/5ef3247a91e0110c353da9db?conf=neurips

[43]. Off-policy Policy Evaluation For Sequential Decisions Under Unobserved Confounding

作者: Hongseok Namkoong (Stanford University) · Ramtin Keramati (Stanford University) · Steve Yadlowsky (Stanford University) · Emma Brunskill (Stanford University)

链接：/pub/5e6cacc991e01145573c7685?conf=neurips

[44]. Self-Imitation Learning via Generalized Lower Bound Q-learning

作者: Yunhao Tang (Columbia University)

链接：/pub/5ee8986891e011e66831c293?conf=neurips

[45]. Weakly-Supervised Reinforcement Learning for Controllable Behavior

作者: Lisa Lee (CMU / Google Brain / Stanford) · Ben Eysenbach (Carnegie Mellon University) · Russ Salakhutdinov (Carnegie Mellon University) · Shixiang (Shane) Gu (Google Brain) · Chelsea Finn (Stanford)

链接：/pub/5e8da0c991e011f2de58392b?conf=neurips

[46]. An Improved Analysis of (Variance-Reduced) Policy Gradient and Natural Policy Gradient Methods

作者: Yanli Liu (UCLA) · Kaiqing Zhang (University of Illinois at Urbana-Champaign (UIUC)) · Tamer Basar (University of Illinois at Urbana-Champaign) · Wotao Yin (Alibaba US, DAMO Academy)

链接：/pub/5f7fdd328de39f0828397bdd?conf=neurips

[47]. MOReL: Model-Based Offline Reinforcement Learning

作者: Rahul Kidambi (Cornell University) · Aravind Rajeswaran (University of Washington) · Praneeth Netrapalli (Microsoft Research) · Thorsten Joachims (Cornell)

链接：/pub/5ebbc76191e0119bc4e43750?conf=neurips

[48]. Zap Q-Learning With Nonlinear Function Approximation

作者: Shuhang Chen (University of Florida) · Adithya M Devraj (University of Florida) · Fan Lu (University of Florida) · Ana Busic (INRIA) · Sean Meyn (University of Florida)

链接：/pub/5f7fdd328de39f0828397be9?conf=neurips

[49]. Reinforcement Learning with General Value Function Approximation: Provably Efficient Approach via Bounded Eluder Dimension

作者: Ruosong Wang (Carnegie Mellon University) · Russ Salakhutdinov (Carnegie Mellon University) · Lin Yang (UCLA)

链接：/pub/5f7fdd328de39f0828397bef?conf=neurips

[50]. Security Analysis of Safe and Seldonian Reinforcement Learning Algorithms

作者: Pinar Ozisik (UMass Amherst) · Philip Thomas (University of Massachusetts Amherst)

链接：/pub/5f7fdd328de39f0828397bf7?conf=neurips

[51]. RepPoints v2: Verification Meets Regression for Object Detection

作者: Yihong Chen (Peking University) · Zheng Zhang (MSRA) · Yue Cao (Microsoft Research) · Liwei Wang (Peking University) · Stephen Lin (Microsoft Research) · Han Hu (Microsoft Research Asia)

链接：/pub/5f117e0f91e011264d4477b0?conf=neurips

[52]. Learning to Communicate in Multi-Agent Systems via Transformer-Guided Program Synthesis

作者: Jeevana Priya Inala (MIT) · Yichen Yang (MIT) · James Paulos (University of Pennsylvania) · Yewen Pu (MIT) · Osbert Bastani (University of Pennysylvania) · Vijay Kumar (University of Pennsylvania) · Martin Rinard (MIT) · Armando Solar-Lezama (MIT)

链接：/pub/5f7fdd328de39f0828397c1a?conf=neurips

[53]. Belief-Dependent Macro-Action Discovery in POMDPs using the Value of Information

作者: Genevieve E Flaspohler (Massachusetts Institute of Technology) · Nicholas Roy (MIT) · John W Fisher III (MIT)

链接：/pub/5f7fdd328de39f0828397c1f?conf=neurips

[54]. Bayesian Multi-type Mean Field Multi-agent Imitation Learning

作者: Fan Yang (University at Buffalo) · Alina Vereshchaka (University at Buffalo) · Changyou Chen (University at Buffalo) · Wen Dong (University at Buffalo)

链接：/pub/5f7fdd328de39f0828397c2e?conf=neurips

[55]. Model-based Adversarial Meta-Reinforcement Learning

作者: Zichuan Lin (Tsinghua University) · Garrett W. Thomas (Stanford University) · Guangwen Yang (Tsinghua University) · Tengyu Ma (Stanford University)

链接：/pub/5ee9f15b91e01152af022d40?conf=neurips

[56]. Provably Efficient Neural GTD for Off-Policy Learning

作者: Hoi-To Wai (The Chinese University of Hong Kong) · Zhuoran Yang (Princeton) · Zhaoran Wang (Northwestern University) · Mingyi Hong (University of Minnesota)

链接：/pub/5f7fdd328de39f0828397c3e?conf=neurips

[57]. A Randomized Algorithm to Reduce the Support of Discrete Measures

作者: Francesco Cosentino (University of Oxford) · Harald Oberhauser (University of Oxford) · Alessandro Abate (University of Oxford)

链接：/pub/5eda19c991e01187f5d6d7a5?conf=neurips

[58]. Model Inversion Networks for Model-Based Optimization

作者: Aviral Kumar (UC Berkeley) · Sergey Levine (UC Berkeley)

链接：/pub/5e0c6dcc3a55acc9707f3a8e?conf=neurips

[59]. Safe Reinforcement Learning via Curriculum Induction

作者: Matteo Turchetta (ETH Zurich) · Andrey Kolobov (Microsoft Research) · Shital Shah (Microsoft) · Andreas Krause (ETH Zurich) · Alekh Agarwal (Microsoft Research)

链接：/pub/5ef3247a91e0110c353da7f7?conf=neurips

[60]. Conservative Q-Learning for Offline Reinforcement Learning

作者: Aviral Kumar (UC Berkeley) · Aurick Zhou (University of California, Berkeley) · George Tucker (Google Brain) · Sergey Levine (UC Berkeley)

链接：/pub/5edf5ddc91e011bc656defe2?conf=neurips

[61]. SAC: Accelerating and Structuring Self-Attention via Sparse Adaptive Connection

作者: Xiaoya Li (Shannon.AI) · Yuxian Meng (Shannon.AI) · Mingxin Zhou (Shannon.AI) · Qinghong Han (Shannon.AI) · Fei Wu (Zhejiang University) · Jiwei Li (Shannon.AI)

链接：/pub/5f7fdd328de39f0828397c54?conf=neurips

[62]. Variational Bayesian Monte Carlo with Noisy Likelihoods

作者: Luigi Acerbi (University of Helsinki)

链接：/pub/5ee9f15291e01152af022c64?conf=neurips

[63]. Munchausen Reinforcement Learning

作者: Nino Vieillard (Google Brain) · Olivier Pietquin (Google Research Brain Team) · Matthieu Geist (Google Brain)

链接：/pub/5f228e7491e01136299609ac?conf=neurips

[64]. A Self-Tuning Actor-Critic Algorithm

作者: Tom Zahavy (Technion) · Zhongwen Xu (DeepMind) · Vivek Veeriah (University of Michigan) · Matteo Hessel (Google DeepMind) · Junhyuk Oh (DeepMind) · Hado van Hasselt (DeepMind) · David Silver (DeepMind) · Satinder Singh (DeepMind)

链接：/pub/5f7fdd328de39f0828397c81?conf=neurips

[65]. Non-Crossing Quantile Regression for Distributional Reinforcement Learning

作者: Fan Zhou (Shanghai University of Finance and Economics) · Jianing Wang (Shanghai University of Finance and Economics) · Xingdong Feng (Shanghai University of Finance and Economics)

链接：/pub/5f7fdd328de39f0828397c85?conf=neurips

[66]. Learning Implicit Credit Assignment for Multi-Agent Actor-Critic

作者: Meng Zhou (University of Sydney) · Ziyu Liu (University of Sydney) · Pengwei Sui (University of Sydney) · Yixuan Li (The University of Sydney) · Yuk Ying Chung (The University of Sydney)

链接：/pub/5f04539691e0114d4aaa4a8a?conf=neurips

[67]. Online Meta-Critic Learning for Off-Policy Actor-Critic Methods

作者: Wei Zhou (National University of Defense Technology) · Yiying Li (National University of Defense Technology) · Yongxin Yang (University of Edinburgh ) · Huaimin Wang (National University of Defense Technology) · Timothy Hospedales (University of Edinburgh)

链接：/pub/5e6a084591e011c28fff700d?conf=neurips

[68]. Online Decision Based Visual Tracking via Reinforcement Learning

作者: ke Song (Shandong university) · Wei Zhang (Shandong University) · Ran Song (School of Control Science and Engineering, Shandong University) · Yibin Li (Shandong University)

链接：/pub/5f7fdd328de39f0828397c94?conf=neurips

[69]. Adversarial Soft Advantage Fitting: Imitation Learning without Policy Optimization

作者: Paul Barde (Quebec AI institute - Ubisoft La Forge) · Julien Roy (Mila) · Wonseok Jeon (MILA, McGill University) · Joelle Pineau (McGill University) · Chris Pal (MILA, Polytechnique MontrÃ©al, Element AI) · Derek Nowrouzezahrai (McGill University)

链接：/pub/5ef476b691e01165a63bba7b?conf=neurips

[70]. Discovering Reinforcement Learning Algorithms

作者: Junhyuk Oh (DeepMind) · Matteo Hessel (Google DeepMind) · Wojciech Czarnecki (DeepMind) · Zhongwen Xu (DeepMind) · Hado van Hasselt (DeepMind) · Satinder Singh (DeepMind) · David Silver (DeepMind)

链接：/pub/5f15691191e011d7db223a84?conf=neurips

[71]. Model-based Policy Optimization with Unsupervised Model Adaptation

作者: Jian Shen (Shanghai Jiao Tong University) · Han Zhao (Carnegie Mellon University) · Weinan Zhang (Shanghai Jiao Tong University) · Yong Yu (Shanghai Jiao Tong Unviersity)

链接：/pub/5f7fdd328de39f0828397ca3?conf=neurips

[72]. Shared Experience Actor-Critic for Multi-Agent Reinforcement Learning

作者: Filippos Christianos (University of Edinburgh) · Lukas SchÃ¤fer (University of Edinburgh) · Stefano Albrecht (University of Edinburgh)

链接：/pub/5ee7495b91e01198a507f945?conf=neurips

[73]. The LoCA Regret: A Consistent Metric to Evaluate Model-Based Behavior in Reinforcement Learning

作者: Harm Van Seijen (Microsoft Research) · Hadi Nekoei (MILA) · Evan Racah (Mila, UniversitÃ© de MontrÃ©al) · Sarath Chandar (Mila / Ã‰cole Polytechnique de MontrÃ©al)

链接：/pub/5f0594d791e011c57e3e8ca2?conf=neurips

[74]. Deep Inverse Q-learning with Constraints

作者: Gabriel Kalweit (University of Freiburg) · Maria Huegle (University of Freiburg) · Moritz Werling (BMWGroup, Unterschleissheim) · Joschka Boedecker (University of Freiburg)

链接：/pub/5f2bde0c91e011b36ba9cf3e?conf=neurips

[75]. Leverage the Average: an Analysis of KL Regularization in Reinforcement Learning

作者: Nino Vieillard (Google Brain) · Tadashi Kozuno (Okinawa Institute of Science and Technology) · Bruno Scherrer (INRIA) · Olivier Pietquin (Google Research Brain Team) · Remi Munos (DeepMind) · Matthieu Geist (Google Brain)

链接：/pub/5f7fdd328de39f0828397cfa?conf=neurips

[76]. Task-agnostic Exploration in Reinforcement Learning

作者: Xuezhou Zhang (UW-Madison) · Yuzhe Ma (University of Wisconsin-Madison) · Adish Singla (MPI-SWS)

链接：/pub/5eede0b091e0116a23aafa01?conf=neurips

[77]. Generating Adjacency-Constrained Subgoals in Hierarchical Reinforcement Learning

作者: Tianren Zhang (Tsinghua University) · Shangqi Guo (Tsinghua University) · Tian Tan (Stanford University) · Xiaolin Hu (Tsinghua University) · Feng Chen (Tsinghua University)

链接：/pub/5ef3247091e0110c353da56c?conf=neurips

[78]. Reinforcement Learning with Feedback Graphs

作者: Christoph Dann (Carnegie Mellon University) · Yishay Mansour (Google) · Mehryar Mohri (Courant Inst. of Math. Sciences & Google Research) · Ayush Sekhari (Cornell University) · Karthik Sridharan (Cornell University)

链接：/pub/5eb9222f91e0118cfef9813e?conf=neurips

[79]. Storage Efficient and Dynamic Flexible Runtime Channel Pruning via Deep Reinforcement Learning

作者: Jianda Chen (Nanyang Technological University) · Shangyu Chen (Nanyang Technological University, Singapore) · Sinno Jialin Pan (Nanyang Technological University, Singapore)

链接：/pub/5f7fdd328de39f0828397d12?conf=neurips

[80]. Towards Safe Policy Improvement for Non-Stationary MDPs

作者: Yash Chandak (University of Massachusetts Amherst) · Scott Jordan (University of Massachusetts Amherst) · Georgios Theocharous (Adobe Research) · Martha White (University of Alberta) · Philip Thomas (University of Massachusetts Amherst)

链接：/pub/5f7fdd328de39f0828397d1b?conf=neurips

[81]. Multi-Task Reinforcement Learning with Soft Modularization

作者: Ruihan Yang (UC San Diego) · Huazhe Xu (UC Berkeley) · YI WU (UC Berkeley) · Xiaolong Wang (UCSD/UC Berkeley)

链接：/pub/5efe617adfae548d33e5d7f1?conf=neurips

[82]. Weighted QMIX: Improving Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning

作者: Tabish Rashid (University of Oxford) · Gregory Farquhar (University of Oxford) · Bei Peng (University of Oxford) · Shimon Whiteson (University of Oxford)

链接：/pub/5f7fdd328de39f0828397d31?conf=neurips

[83]. MDP Homomorphic Networks: Group Symmetries in Reinforcement Learning

作者: Elise van der Pol (University of Amsterdam) · Daniel Worrall (University of Amsterdam) · Herke van Hoof (University of Amsterdam) · Frans Oliehoek (TU Delft) · Max Welling (University of Amsterdam / Qualcomm AI Research)

链接：/pub/5efcb91091e011520324588b?conf=neurips

[84]. CoinDICE: Off-Policy Confidence Interval Estimation

作者: Bo Dai (Google Brain) · Ofir Nachum (Google Brain) · Yinlam Chow (Google Research) · Lihong Li (Google Research) · Csaba Szepesvari (DeepMind / University of Alberta) · Dale Schuurmans (Google Brain & University of Alberta)

链接：/pub/5f7fdd328de39f0828397d44?conf=neurips

[85]. An Operator View of Policy Gradient Methods

作者: Dibya Ghosh (Google) · Marlos C. Machado (Google Brain) · Nicolas Le Roux (Google Brain）

链接：/pub/5ef1d38d91e011aaa05ad3eb?conf=neurips

[86]. On Efficiency in Hierarchical Reinforcement Learning

作者: Zheng Wen (DeepMind) · Doina Precup (DeepMind) · Morteza Ibrahimi (DeepMind) · Andre Barreto (DeepMind) · Benjamin Van Roy (Stanford University) · Satinder Singh (DeepMind)

链接：/pub/5f7fdd328de39f0828397d57?conf=neurips

[87]. Variational Policy Gradient Method for Reinforcement Learning with General Utilities

作者: Junyu Zhang (Princeton University) · Alec Koppel (U.S. Army Research Laboratory) · Amrit Singh Bedi (US Army Research Laboratory) · Csaba Szepesvari (DeepMind / University of Alberta) · Mengdi Wang (Princeton University)

链接：/pub/5f04450191e0114d4aaa4910?conf=neurips

[88]. A Finite-Time Analysis of Two Time-Scale Actor-Critic Methods

作者: Yue Wu (University of California, Los Angeles) · Weitong ZHANG (University of California, Los Angeles) · Pan Xu (University of California, Los Angeles) · Quanquan Gu (UCLA)

链接：/pub/5f7fdd328de39f0828397d60?conf=neurips

[89]. POLY-HOOT: Monte-Carlo Planning in Continuous Space MDPs with Non-Asymptotic Analysis

作者: Weichao Mao (University of Illinois Urbana-Champaign) · Kaiqing Zhang (University of Illinois at Urbana-Champaign (UIUC)) · Qiaomin Xie (Cornell University) · Tamer Basar (University of Illinois at Urbana-Champaign)

链接：/pub/5edf5ddc91e011bc656def77?conf=neurips

[90]. Can Temporal-Diï¬€erence and Q-Learning Learn Representation? A Mean-Field Theory

作者: Yufeng Zhang (Northwestern University) · Qi Cai (Northwestern University) · Zhuoran Yang (Princeton) · Yongxin Chen (Georgia Institute of Technology) · Zhaoran Wang (Northwestern University)

链接：/pub/5edf5ddc91e011bc656defd0?conf=neurips

[91]. Model-based Reinforcement Learning for Semi-Markov Decision Processes with Neural ODEs

作者: Jianzhun Du (Harvard University) · Joseph Futoma (Harvard University) · Finale Doshi-Velez (Harvard)

链接：/pub/5efb0d5991e011063336d659?conf=neurips

[92]. Sample Complexity of Asynchronous Q-Learning: Sharper Analysis and Variance Reduction

作者: Gen Li (Tsinghua University) · Yuting Wei (Carnegie Mellon University) · Yuejie Chi (CMU) · Yuantao Gu (Tsinghua University) · Yuxin Chen (Princeton University)

链接：/pub/5eda19d991e01187f5d6dca9?conf=neurips

[93]. Reinforcement Learning with Augmented Data

作者: Misha Laskin (UC Berkeley) · Kimin Lee (UC Berkeley) · Adam Stooke (UC Berkeley) · Lerrel Pinto (New York University) · Pieter Abbeel (UC Berkeley & covariant.ai) · Aravind Srinivas (UC Berkeley)

链接：/pub/5eabf34c91e011664ffd2a20?conf=neurips

[94]. Improved Sample Complexity for Incremental Autonomous Exploration in MDPs

作者: Jean Tarbouriech (Facebook AI Research Paris & Inria Lille) · Matteo Pirotta (Facebook AI Research) · Michal Valko (DeepMind Paris and Inria Lille - Nord Europe) · Alessandro Lazaric (Facebook Artificial Intelligence Research)

链接：/pub/5f7fdd328de39f0828397d9b?conf=neurips

[95]. EvolveGraph: Multi-Agent Trajectory Prediction with Dynamic Relational Reasoning

作者: Jiachen Li (University of California, Berkeley) · Fan Yang (University of California, Berkeley) · Masayoshi Tomizuka (University of California, Berkeley) · Chiho Choi (Honda Research Institute US)

链接：/pub/5f7fdd328de39f0828397d9f?conf=neurips

[96]. Autofocused oracles for model-based design

作者: Clara Fannjiang (UC Berkeley) · Jennifer Listgarten (UC Berkeley)

链接：/pub/5ee8986891e011e66831c4f5?conf=neurips

[97]. Off-Policy Evaluation via the Regularized Lagrangian

作者: Mengjiao Yang (Google) · Ofir Nachum (Google Brain) · Bo Dai (Google Brain) · Lihong Li (Google Research) · Dale Schuurmans (Google Brain & University of Alberta)

链接：/pub/5f05a271dfae5450341f5563?conf=neurips

[98]. Reinforcement Learning with Combinatorial Actions: An Application to Vehicle Routing

作者: Arthur Delarue (MIT) · Ross Anderson (Google Research) · Christian Tjandraatmadja (Google)

链接：/pub/5f7fdd328de39f0828397dc9?conf=neurips

[99]. MOPO: Model-based Offline Policy Optimization

作者: Tianhe Yu (Stanford University) · Garrett W. Thomas (Stanford University) · Lantao Yu (Stanford University) · Stefano Ermon (Stanford) · James Zou (Stanford University) · Sergey Levine (UC Berkeley) · Chelsea Finn (Stanford) · Tengyu Ma (Stanford University)

链接：/pub/5ecf8d2391e01149f850f4dd?conf=neurips

[100]. Variance-Reduced Off-Policy TDC Learning: Non-Asymptotic Convergence Analysis

作者: Shaocong Ma (University of Utah) · Yi Zhou (University of Utah) · Shaofeng Zou (University at Buffalo, the State University of New York)

链接：/pub/5f7fdd328de39f0828397dd0?conf=neurips

[101]. Dynamic Regret of Policy Optimization in Non-stationary Environments

作者: Yingjie Fei (Cornell University) · Zhuoran Yang (Princeton) · Zhaoran Wang (Northwestern University) · Qiaomin Xie (Cornell University)

链接：/pub/5efdacc491e01191d3d281f6?conf=neurips

[102]. DisCor: Corrective Feedback in Reinforcement Learning via Distribution Correction

作者: Aviral Kumar (UC Berkeley) · Abhishek Gupta (University of California, Berkeley) · Sergey Levine (UC Berkeley)

链接：/pub/5e71f4b391e0115656f5d1c4?conf=neurips

[103]. FLAMBE: Structural Complexity and Representation Learning of Low Rank MDPs

作者: Alekh Agarwal (Microsoft Research) · Sham Kakade (University of Washington) · Akshay Krishnamurthy (Microsoft) · Wen Sun (Microsoft Research NYC)

链接：/pub/5ef0816891e0112aee0429df?conf=neurips

[104]. Neurosymbolic Reinforcement Learning with Formally Verified Exploration

作者: Greg Anderson (University of Texas at Austin) · Abhinav Verma (Rice University) · Isil Dillig (UT Austin) · Swarat Chaudhuri (The University of Texas at Austin)

链接：/pub/5f75a66491e0111c1eb4d32c?conf=neurips

[105]. Generalized Hindsight for Reinforcement Learning

作者: Alexander Li (UC Berkeley) · Lerrel Pinto (New York University) · Pieter Abbeel (UC Berkeley & covariant.ai)

链接：/pub/5e5794b791e01154537511e1?conf=neurips

[106]. Finite-Time Analysis for Double Q-learning

作者: Huaqing Xiong (Ohio State University) · Lin Zhao (National University of Singapore) · Yingbin Liang (The Ohio State University) · Wei Zhang (Southern University of Science and Technology)

链接：/pub/5f75e75291e0111c1eb4d999?conf=neurips

[107]. Subgroup-based Rank-1 Lattice Quasi-Monte Carlo

作者: Yueming LYU (University of Technology Sydney) · Yuan Yuan (MIT) · Ivor Tsang (University of Technology, Sydney)

链接：/pub/5f7fdd328de39f0828397e13?conf=neurips

[108]. Meta-Gradient Reinforcement Learning with an Objective Discovered Online

作者: Zhongwen Xu (DeepMind) · Hado van Hasselt (DeepMind) · Matteo Hessel (Google DeepMind) · Junhyuk Oh (DeepMind) · Satinder Singh (DeepMind) · David Silver (DeepMind)

链接：/pub/5f117b6c91e011264d447765?conf=neurips

[109]. TorsionNet: A Reinforcement Learning Approach to Sequential Conformer Search

作者: Tarun Gogineni (University of Michigan) · Ziping Xu (University of Michigan) · Exequiel Punzalan (University of Michigan) · Runxuan Jiang (University of Michigan) · Joshua Kammeraad (University of Michigan) · Ambuj Tewari (University of Michigan) · Paul Zimmerman (University of Michigan)

链接：/pub/5ee7495191e01198a507f8ea?conf=neurips

[110]. Succinct and Robust Multi-Agent Communication With Temporal Message Control

作者: Sai Qian Zhang (Harvard University) · Qi Zhang (Amazon) · Jieyu Lin (University of Toronto)

链接：/pub/5f7fdd328de39f0828397e42?conf=neurips

[111]. Learning to Dispatch for Job Shop Scheduling via Deep Reinforcement Learning

作者: Cong Zhang (Nanyang Technological University) · Wen Song (Institute of Marine Scinece and Technology, Shandong University) · Zhiguang Cao (National University of Singapore) · Jie Zhang (Nanyang Technological University) · Puay Siew Tan (SIMTECH) · Xu Chi (Singapore Institute of Manufacturing Technology, A-Star)

链接：/pub/5f7fdd328de39f0828397e47?conf=neurips

[112]. Is Plug-in Solver Sample-Efficient for Feature-based Reinforcement Learning?

作者: Qiwen Cui (Peking University) · Lin Yang (UCLA)

链接：/pub/5f7fdd328de39f0828397e54?conf=neurips

[113]. Instance-based Generalization in Reinforcement Learning

作者: Martin Bertran (Duke University) · Natalia L Martinez (Duke University) · Mariano Phielipp (Intel AI Labs) · Guillermo Sapiro (Duke University)

链接：/pub/5f7fdd328de39f0828397e5c?conf=neurips

[114]. Preference-based Reinforcement Learning with Finite-Time Guarantees

作者: Yichong Xu (Carnegie Mellon University) · Ruosong Wang (Carnegie Mellon University) · Lin Yang (UCLA) · Aarti Singh (CMU) · Artur Dubrawski (Carnegie Mellon University)

链接：/pub/5ee9f15b91e01152af022d63?conf=neurips

[115]. Learning to Decode: Reinforcement Learning for Decoding of Sparse Graph-Based Channel Codes

作者: Salman Habib (New Jersey Institute of Tech) · Allison Beemer (New Jersey Institute of Technology) · Joerg Kliewer (New Jersey Institute of Technology)

链接：/pub/5f7fdd328de39f0828397e6e?conf=neurips

[116]. BAIL: Best-Action Imitation Learning for Batch Deep Reinforcement Learning

作者: Xinyue Chen (NYU Shanghai) · Zijian Zhou (NYU Shanghai) · Zheng Wang (NYU Shanghai) · Che Wang (New York University) · Yanqiu Wu (New York University) · Keith Ross (NYU Shanghai)

链接：/pub/5db80dc83a55acd5c14a24a2?conf=neurips

[117]. Task-Agnostic Online Reinforcement Learning with an Infinite Mixture of Gaussian Processes

作者: Mengdi Xu (Carnegie Mellon University) · Wenhao Ding (Carnegie Mellon University) · Jiacheng Zhu (Carnegie Mellon University) · ZUXIN LIU (Carnegie Mellon University) · Baiming Chen (Tsinghua University) · Ding Zhao (Carnegie Mellon University)

链接：/pub/5ef3247091e0110c353da540?conf=neurips

[118]. On Reward-Free Reinforcement Learning with Linear Function Approximation

作者: Ruosong Wang (Carnegie Mellon University) · Simon Du (Institute for Advanced Study) · Lin Yang (UCLA) · Russ Salakhutdinov (Carnegie Mellon University)

链接：/pub/5ef1d38d91e011aaa05ad3f3?conf=neurips

[119]. Near-Optimal Reinforcement Learning with Self-Play

作者: Yu Bai (Salesforce Research) · Chi Jin (Princeton University) · Tiancheng Yu (MIT )

链接：/pub/5ef3247a91e0110c353da776?conf=neurips

[120]. Robust Multi-Agent Reinforcement Learning with Model Uncertainty

作者: Kaiqing Zhang (University of Illinois at Urbana-Champaign (UIUC)) · TAO SUN () · Yunzhe Tao (Amazon Artificial Intelligence) · Sahika Genc (Amazon Artificial Intelligence) · Sunil Mallya (Amazon AWS) · Tamer Basar (University of Illinois at Urbana-Champaign)

链接：/pub/5f7fdd328de39f0828397ea9?conf=neurips

[121]. Towards Minimax Optimal Reinforcement Learning in Factored Markov Decision Processes

作者: Yi Tian (MIT) · Jian Qian (MIT) · Suvrit Sra (MIT)

链接：/pub/5ef476b691e01165a63bbb0e?conf=neurips

[122]. Scalable Multi-Agent Reinforcement Learning for Networked Systems with Average Reward

作者: Guannan Qu (California Institute of Technology) · Yiheng Lin (California Institute of Technology) · Adam Wierman (California Institute of Technology) · Na Li (Harvard University)

链接：/pub/5ee3527191e011cb3bff76ea?conf=neurips

[123]. Constrained episodic reinforcement learning in concave-convex and knapsack settings

作者: KiantÃ© Brantley (The University of Maryland College Park) · Miro Dudik (Microsoft Research) · Thodoris Lykouris (Microsoft Research NYC) · Sobhan Miryoosefi (Princeton University) · Max Simchowitz (Berkeley) · Aleksandrs Slivkins (Microsoft Research) · Wen Sun (Microsoft Research NYC)

链接：/pub/5ee3525f91e011cb3bff70c3?conf=neurips

[124]. Sample Efficient Reinforcement Learning via Low-Rank Matrix Estimation

作者: Devavrat Shah (Massachusetts Institute of Technology) · Dogyoon Song (Massachusetts Institute of Technology) · Zhi Xu (MIT) · Yuzhe Yang (MIT)

链接：/pub/5ee3527191e011cb3bff74ff?conf=neurips

[125]. Trajectory-wise Multiple Choice Learning for Dynamics Generalization in Reinforcement Learning

作者: Younggyo Seo (KAIST) · Kimin Lee (UC Berkeley) · Ignasi Clavera Gilaberte (UC Berkeley) · Thanard Kurutach (University of California Berkeley) · Jinwoo Shin (KAIST) · Pieter Abbeel (UC Berkeley & covariant.ai)

链接：/pub/5f7fdd328de39f0828397ed8?conf=neurips

[126]. Cooperative Heterogeneous Deep Reinforcement Learning

作者: Han Zheng (UTS) · Pengfei Wei (National University of Singapore) · Jing Jiang (University of Technology Sydney) · Guodong Long (University of Technology Sydney (UTS)) · Qinghua Lu (Data61, CSIRO) · Chengqi Zhang (University of Technology Sydney)

链接：/pub/5f7fdd328de39f0828397edb?conf=neurips

[127]. Global Convergence of Natural Primal-Dual Method for Constrained Markov Decision Processes

作者: Dongsheng Ding (University of Southern California) · Kaiqing Zhang (University of Illinois at Urbana-Champaign (UIUC)) · Mihailo Jovanovic (University of Southern California) · Tamer Basar (University of Illinois at Urbana-Champaign)

链接：/pub/5f7fdd328de39f0828397ee3?conf=neurips

[128]. Implicit Distributional Reinforcement Learning

作者: Yuguang Yue (University of Texas at Austin) · Zhendong Wang (University of Texas, Austin) · Mingyuan Zhou (University of Texas at Austin)

链接：/pub/5f0d899e91e011047aff98f9?conf=neurips

[129]. Efficient Exploration of Reward Functions in Inverse Reinforcement Learning via Bayesian Optimization

作者: Sreejith Balakrishnan (National University of Singapore) · Quoc Phong Nguyen (National University of Singapore) · Bryan Kian Hsiang Low (National University of Singapore) · Harold Soh (National University Singapore)

链接：/pub/5f7fdd328de39f0828397ef4?conf=neurips

[130]. EPOC: A Provably Correct Policy Gradient Approach to Reinforcement Learning

作者: Alekh Agarwal (Microsoft Research) · Mikael Henaff (Microsoft) · Sham Kakade (University of Washington) · Wen Sun (Microsoft Research NYC)

链接：/pub/5f7fdd328de39f0828397efc?conf=neurips

[131]. Provably Efficient Reinforcement Learning with Kernel and Neural Function Approximations

作者: Zhuoran Yang (Princeton) · Chi Jin (Princeton University) · Zhaoran Wang (Northwestern University) · Mengdi Wang (Princeton University) · Michael Jordan (UC Berkeley)

链接：/pub/5f7fdd328de39f0828397f04?conf=neurips

[132]. Decoupled Policy Gradient Methods for Competitive Reinforcement Learning

作者: Constantinos Daskalakis (MIT) · Dylan Foster (MIT) · Noah Golowich (Massachusetts Institute of Technology)

链接：/pub/5f7fdd328de39f0828397f06?conf=neurips

[133]. Upper Confidence Primal-Dual Reinforcement Learning for CMDP with Adversarial Loss

作者: Shuang Qiu (University of Michigan) · Xiaohan Wei (University of Southern California) · Zhuoran Yang (Princeton) · Jieping Ye (University of Michigan) · Zhaoran Wang (Northwestern University)

链接：/pub/5f7fdd328de39f0828397f0a?conf=neurips

[134]. Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal Sample Complexity

作者: Kaiqing Zhang (University of Illinois at Urbana-Champaign (UIUC)) · Sham Kakade (University of Washington) · Tamer Basar (University of Illinois at Urbana-Champaign) · Lin Yang (UCLA)

链接：/pub/5f10211d91e01168a7d6fc22?conf=neurips

[135]. PlanGAN: Model-based Planning With Sparse Rewards and Multiple Goals

作者: Henry Charlesworth (University of Warwick) · Giovanni Montana (University of Warwick)

链接：/pub/5ed623da91e01198019afc95?conf=neurips

[136]. Improving Generalization in Reinforcement Learning with Mixture Regularization

作者: KAIXIN WANG (National University of Singapore) · Bingyi Kang (National University of Singapore) · Jie Shao (Fudan University) · Jiashi Feng (National University of Singapore)

链接：/pub/5f7fdd328de39f0828397f27?conf=neurips

[137]. A game-theoretic analysis of networked system control for common-pool resource management using multi-agent reinforcement learning

作者: Arnu Pretorius (InstaDeep) · Scott Cameron (Instadeep) · Elan van Biljon (Stellenbosch University) · Thomas Makkink (InstaDeep) · Shahil Mawjee (InstaDeep) · Jeremy du Plessis (University of Cape Town) · Jonathan Shock (University of Cape Town) · Alexandre Laterre (InstaDeep) · Karim Beguir (InstaDeep)

链接：/pub/5f7fdd328de39f0828397f3c?conf=neurips

[138]. Fast Adaptive Non-Monotone Submodular Maximization Subject to a Knapsack Constraint

作者: Georgios Amanatidis (University of Essex) · Federico Fusco (Sapienza University of Rome) · Philip Lazos (Sapienza University of Rome) · Stefano Leonardi (Sapienza University of Rome) · Rebecca ReiffenhÃ¤user (Sapienza University of Rome)

链接：/pub/5f0c246491e0115455a34a95?conf=neurips

[139]. Planning in Markov Decision Processes with Gap-Dependent Sample Complexity

作者: Anders Jonsson (Universitat Pompeu Fabra) · Emilie Kaufmann (CNRS) · Pierre Menard (Inria) · Omar Darwiche Domingues (Inria) · Edouard Leurent (INRIA) · Michal Valko (DeepMind)

链接：/pub/5ee3526a91e011cb3bff73ff?conf=neurips

[140]. Deep Reinforcement Learning with Stacked Hierarchical Attention for Text-based Games

作者: Yunqiu Xu (University of Technology Sydney) · Meng Fang (Tencent) · Ling Chen (" University of Technology, Sydney, Australia") · Yali Du (University College London) · Joey Tianyi Zhou (IHPC, A*STAR) · Chengqi Zhang (University of Technology Sydney)

链接：/pub/5f7fdd328de39f0828397f46?conf=neurips

[141]. Robust Reinforcement Learning via Adversarial training with Langevin Dynamics

作者: Parameswaran Kamalaruban (EPFL) · Yu-Ting Huang (EPFL) · Ya-Ping Hsieh (EPFL) · Paul Rolland (EPFL) · Cheng Shi (Unversity of Basel) · Volkan Cevher (EPFL)

链接：/pub/5e4a64313a55acda1392dd45?conf=neurips

[142]. Interferobot: aligning an optical interferometer by a reinforcement learning agent

作者: Dmitry Sorokin (Russian Quantum Center) · Alexander Ulanov (Russian Quantum Center) · Ekaterina Sazhina (Russian Quantum Center) · Alexander Lvovsky (Oxford University)

链接：/pub/5eda19c991e01187f5d6d994?conf=neurips

[143]. Reinforcement Learning for Control with Multiple Frequencies

作者: Jongmin Lee (KAIST) · ByungJun Lee (KAIST) · Kee-Eung Kim (KAIST)

链接：/pub/5f7fdd328de39f0828397f5a?conf=neurips

[144]. Learning to Play Sequential Games versus Unknown Opponents

作者: Pier Giuseppe Sessa (ETH ZÃ¼rich) · Ilija Bogunovic (ETH Zurich) · Maryam Kamgarpour (ETH ZÃ¼rich) · Andreas Krause (ETH Zurich)

链接：/pub/5f0c2d0b91e0115455a34b96?conf=neurips

[145]. Contextual Games: Multi-Agent Learning with Side Information

作者: Pier Giuseppe Sessa (ETH ZÃ¼rich) · Ilija Bogunovic (ETH Zurich) · Andreas Krause (ETH Zurich) · Maryam Kamgarpour (ETH ZÃ¼rich)

链接：/pub/5f7fdd328de39f0828397f70?conf=neurips

[146]. Risk-Sensitive Reinforcement Learning: Near-Optimal Risk-Sample Tradeoff in Regret

作者: Yingjie Fei (Cornell University) · Zhuoran Yang (Princeton) · Yudong Chen (Cornell University) · Zhaoran Wang (Northwestern University) · Qiaomin Xie (Cornell University)

链接：/pub/5ef476b691e01165a63bbcb4?conf=neurips

[147]. Expert-Supervised Reinforcement Learning for Offline Policy Learning and Evaluation

作者: Aaron Sonabend (Harvard University) · Junwei Lu () · Leo Anthony Celi (Massachusetts Institute of Technology) · Tianxi Cai (Harvard School of Public Health) · Peter Szolovits (MIT)

链接：/pub/5ef3247f91e0110c353dac14?conf=neurips

[148]. Dynamic allocation of limited memory resources in reinforcement learning

作者: Nisheet Patel (University of Geneva) · Luigi Acerbi (University of Helsinki) · Alexandre Pouget (University of Geneva)

链接：/pub/5f7fdd328de39f0828397f97?conf=neurips

[149]. AttendLight: Universal Attention-Based Reinforcement Learning Model for Traffic Signal Control

作者: Afshin Oroojlooy (SAS Institute, Inc) · Mohammadreza Nazari (SAS Institute Inc.) · Davood Hajinezhad (SAS Institute Inc.) · Jorge Silva (SAS)

链接：/pub/5f7fdd328de39f0828397f98?conf=neurips

[150]. Sample-Efficient Reinforcement Learning of Undercomplete POMDPs

作者: Chi Jin (Princeton University) · Sham Kakade (University of Washington) · Akshay Krishnamurthy (Microsoft) · Qinghua Liu (Princeton University)

链接：/pub/5ef3247a91e0110c353da953?conf=neurips

[151]. Learning discrete distributions with infinite support

作者: Doron Cohen (Ben-Gurion University of the Negev) · Aryeh Kontorovich (Ben Gurion University) · Geoï¬€rey Wolfer (Ben-Gurion University of the Negev)

链接：/pub/5ea8009091e0111d387ee879?conf=neurips

[152]. Joint Policy Search for Multi-agent Collaboration with Incomplete Information

作者: Yuandong Tian (Facebook AI Research) · Qucheng Gong (Facebook AI Research) · Yu Jiang (Facebook AI Research)

链接：/pub/5f7fdd328de39f0828397fdc?conf=neurips

[153]. R-learning in actor-critic model offers a biologically relevant mechanism for sequential decision-making

作者: Sergey Shuvaev (Cold Spring Harbor Laboratory) · Sarah Starosta (Washington University in St. Louis) · Duda Kvitsiani (Aarhus University) · Adam Kepecs (Washington University in St. Louis) · Alexei Koulakov (Cold Spring Harbor Laboratory)

链接：/pub/5f7fdd328de39f0828397fe8?conf=neurips

[154]. Multi-agent active perception with prediction rewards

作者: Mikko Lauri (University of Hamburg) · Frans Oliehoek (TU Delft)

链接：/pub/5f7fdd328de39f0828397ffe?conf=neurips

[155]. RL Unplugged: A Collection of Benchmarks for Offline Reinforcement Learning

作者: Ziyu Wang (Deepmind) · Caglar Gulcehre (Deepmind) · Alexander Novikov (DeepMind) · Thomas Paine (DeepMind) · Sergio GÃ³mez (DeepMind) · Konrad Zolna (DeepMind) · Rishabh Agarwal (Google Research, Brain Team) · Josh Merel (DeepMind) · Daniel Mankowitz (DeepMind) · Cosmin Paduraru (DeepMind) · Gabriel Dulac-Arnold (Google Research) · Jerry Li (Google) · Mohammad Norouzi (Google Brain) · Matthew Hoffman (DeepMind) · Nicolas Heess (Google DeepMind) · Nando de Freitas (DeepMind)

链接：/pub/5f7fdd328de39f0828398000?conf=neurips

[156]. A local temporal difference code for distributional reinforcement learning

作者: Pablo Tano (University of Geneva) · Peter Dayan (Max Planck Institute for Biological Cybernetics) · Alexandre Pouget (University of Geneva)

链接：/pub/5f7fdd328de39f0828398002?conf=neurips

[157]. Learning to Play No-Press Diplomacy with Best Response Policy Iteration

作者: Thomas Anthony (DeepMind) · Tom Eccles (DeepMind) · Andrea Tacchetti (DeepMind) · JÃ¡nos KramÃ¡r (DeepMind) · Ian Gemp (DeepMind) · Thomas Hudson (DeepMind) · Nicolas Porcel (DeepMind) · Marc Lanctot (DeepMind) · Julien Perolat (DeepMind) · Richard Everett (DeepMind) · Satinder Singh (DeepMind) · Thore Graepel (DeepMind) · Yoram Bachrach ()

链接：/pub/5edf5ddc91e011bc656def52?conf=neurips

[158]. The Value Equivalence Principle for Model-Based Reinforcement Learning

作者: Christopher Grimm (University of Michigan) · Andre Barreto (DeepMind) · Satinder Singh (DeepMind) · David Silver (DeepMind)

链接：/pub/5f7fdd328de39f082839800d?conf=neurips

[159]. Multi-agent Trajectory Prediction with Fuzzy Query Attention

作者: Nitin Kamra (University of Southern California) · Hao Zhu (Peking University) · Dweep Kumarbhai Trivedi (University of Southern California) · Ming Zhang (Peking University) · Yan Liu (University of Southern California)

链接：/pub/5f7fdd328de39f082839801c?conf=neurips

[160]. Trust the Model When It Is Confident: Masked Model-based Actor-Critic

作者: Feiyang Pan (Institute of Computing Technology, Chinese Academy of Sciences) · Jia He (Huawei) · Dandan Tu (Huawei) · Qing He (Institute of Computing Technology, Chinese Academy of Sciences)

链接：/pub/5f7fdd328de39f082839801e?conf=neurips

[161]. POMDPs in Continuous Time and Discrete Spaces

作者: Bastian Alt (Technische UniversitÃ¤t Darmstadt) · Matthias Schultheis (Technische UniversitÃ¤t Darmstadt) · Heinz Koeppl (Technische UniversitÃ¤t Darmstadt)

链接：/pub/5f7af03891e011983cc81eee?conf=neurips

[162]. Steady State Analysis of Episodic Reinforcement Learning

作者: Huang Bojun (Rakuten Institute of Technology)

链接：/pub/5f7fdd328de39f0828398022?conf=neurips

[163]. Learning Multi-Agent Communication through Structured Attentive Reasoning

作者: Murtaza Rangwala (Virginia Tech) · Ryan K Williams (Virginia Tech)

链接：/pub/5f7fdd328de39f0828398024?conf=neurips

[164]. Information-theoretic Task Selection for Meta-Reinforcement Learning

作者: Ricardo Luna Gutierrez (University of Leeds) · Matteo Leonetti (University of Leeds)

链接：/pub/5f7fdd328de39f0828398027?conf=neurips

[165]. The Mean-Squared Error of Double Q-Learning

作者: Wentao Weng (Tsinghua University) · Harsh Gupta (University of Illinois at Urbana-Champaign) · Niao He (UIUC) · Lei Ying (University of Michigan) · R. Srikant (University of Illinois at Urbana-Champaign)

链接：/pub/5f7fdd328de39f0828398041?conf=neurips

[166]. A Unifying View of Optimism in Episodic Reinforcement Learning

作者: Gergely Neu (Universitat Pompeu Fabra) · Ciara Pike-Burke (Imperial College London)

链接：/pub/5f043bdc91e0114d4aaa480c?conf=neurips

[167]. Accelerating Reinforcement Learning through GPU Atari Emulation

作者: Steven Dalton (Nvidia) · iuri frosio (nvidia)

链接：/pub/5f7fdd328de39f0828398062?conf=neurips

[168]. Robust Deep Reinforcement Learning against Adversarial Perturbations on State Observations

作者: Huan Zhang (UCLA) · Hongge Chen (MIT) · Chaowei Xiao (University of Michigan, Ann Arbor) · Bo Li (UIUC) · mingyan liu (university of Michigan, Ann Arbor) · Duane Boning (Massachusetts Institute of Technology) · Cho-Jui Hsieh (UCLA)

链接：/pub/5f7fdd328de39f082839807f?conf=neurips

[169]. Bridging Imagination and Reality for Model-Based Deep Reinforcement Learning

作者: Guangxiang Zhu (Tsinghua university) · Minghao Zhang (Tsinghua University) · Honglak Lee (Google / U. Michigan) · Chongjie Zhang (Tsinghua University)

链接：/pub/5f7fdd328de39f0828398084?conf=neurips

[170]. Direct Policy Gradients: Direct Optimization of Policies in Discrete Action Spaces

作者: Guy Lorberbom (Technion) · Chris J. Maddison (University of Toronto) · Nicolas Heess (Google DeepMind) · Tamir Hazan (Technion) · Daniel Tarlow (Google Brain)

链接：/pub/5d1eb9e0da562961f0b1aad7?conf=neurips

[171]. Hamiltonian Monte Carlo using an adjoint-differentiated Laplace approximation

作者: Charles Margossian (Columbia) · Aki Vehtari (Aalto University) · Daniel Simpson (University of Toronto) · Raj Agrawal (MIT)

链接：/pub/5f7fdd328de39f0828398092?conf=neurips

[172]. A Unified Switching System Perspective and Convergence Analysis of Q-Learning Algorithms

作者: Niao He (UIUC) · Donghwan Lee (KAIST)

链接：/pub/5f7fdd328de39f0828398098?conf=neurips

[173]. Adaptive Discretization for Model-Based Reinforcement Learning

作者: Sean Sinclair (Cornell University) · Tianyu Wang (Duke University) · Gauri Jain (Cornell University) · Siddhartha Banerjee (Cornell University) · Christina Yu (Cornell University)

链接：/pub/5efef90a91e011ea6db8dcc9?conf=neurips

[174]. Stateful Posted Pricing with Vanishing Regret via Dynamic Deterministic Markov Decision Processes

作者: Yuval Emek (Technion - Israel Institute of Technology) · Ron Lavi (Technion) · Rad Niazadeh (Chicago Booth School of Business) · Yangguang Shi (Technion - Israel Institute of Technology)

链接：/pub/5f7fdd328de39f082839809c?conf=neurips

[175]. Provably Good Batch Off-Policy Reinforcement Learning Without Great Exploration

作者: Yao Liu (Stanford University) · Adith Swaminathan (Microsoft Research) · Alekh Agarwal (Microsoft Research) · Emma Brunskill (Stanford University)

链接：/pub/5f7fdd328de39f082839809f?conf=neurips

[176]. Off-Policy Interval Estimation with Lipschitz Value Iteration

作者: Ziyang Tang (UT Austin) · Yihao Feng (UT Austin) · Na Zhang (Tsinghua University) · Jian Peng (University of Illinois at Urbana-Champaign) · Qiang Liu (UT Austin)

链接：/pub/5f7fdd328de39f08283980bf?conf=neurips

[177]. Provably adaptive reinforcement learning in metric spaces

作者: Tongyi Cao (University of Massachusetts Amherst) · Akshay Krishnamurthy (Microsoft)

链接：/pub/5ef0816891e0112aee042a1c?conf=neurips

[178]. Stochastic Latent Actor-Critic: Deep Reinforcement Learning with a Latent Variable Model

作者: Alex Lee (UC Berkeley) · Anusha Nagabandi (UC Berkeley) · Pieter Abbeel (UC Berkeley & covariant.ai) · Sergey Levine (UC Berkeley)

链接：/pub/5d1b2f673a55ac071793c87e?conf=neurips

[179]. Inverse Reinforcement Learning from a Gradient-based Learner

作者: Giorgia Ramponi (Politecnico di Milano) · Gianluca Drappo (Politecnico di Milano) · Marcello Restelli (Politecnico di Milano)

链接：/pub/5f102be091e01168a7d6fd81?conf=neurips

[180]. Efficient Planning in Large MDPs with Weak Linear Function Approximation

作者: Roshan Shariff (University of Alberta) · Csaba Szepesvari (DeepMind / University of Alberta)

链接：/pub/5f0d8a4891e011047aff9912?conf=neurips

参考文献：

/Conferences//

/conf/neurips

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。