200字范文 > 《强化学习周刊》第6期：强化学习应用之推荐系统

《强化学习周刊》第6期：强化学习应用之推荐系统

时间：2023-09-13 04:44:41

No.06

智源社区

强化学习组

强

化

学

习

研究

观点

资源

活动

关于周刊

强化学习作为人工智能领域研究热点之一，它在推荐系统领域中的应用的研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯，智源社区强化学习小组结合领域内容，撰写为第6期《强化学习周刊》。本期周刊整理了近期强化学习在推荐系统方面相关的研究动态、最新论文、研究综述、教程、新工具等。此外，我们还整理了强化学习领域的近期会议活动信息，以飨诸位。

周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。

本期贡献者：（任黎明，刘延龙，陈斌，赟瑾）

论文推荐

强化学习的本质是让初始化的智能体(agent)在环境中探索，通过环境的反馈(reward)来不断纠正自己的行动策略(policy)，以期得到最大的reward。在推荐系统中，用户的需求会随时间动态的变化，RL agent不断探索的特性正好符合了推荐系统对动态性的要求，因此研究者们就把RL agent作为推荐系统。而为了满足用户的动态需求，agent需要进行不断探索，这样的过程其实也就是在不断尝试建模更长期的回报。这就引出了RLRS的两大优势：1.满足用户的动态的需求；2.建模更长期的回报。

强化学习在推荐系统中的应用越来越多，尤其在电商商品推荐中，一般用于连续翻页的多轮交互场景。本次推荐了7篇强化学习在推荐系统中应用的相关论文，研究内容主要涉及到商品推荐、隐私保护推荐、长期推荐系统、交互式推荐、推荐系统的公平性问题、导航任务中的子目标推荐。

标题：Reinforcement Learning with a Disentangled Universal Value Function for Item Recommendation（基于解耦通用值函数强化学习的商品推荐）了解详情

简介：本文提出了新颖的强化学习框架-GoalRec，其目标是解决由于状态/动作空间大，高变异性环境和不确定的奖励设置，而引起强化学习（RL）应用于推荐系统（RS）的挑战。该框架可以归纳出推荐者可能具有的各种目标，将环境演变和奖励分离开来；并可以预测环境动态和子信息（编码在度量中）的模型，以将不同度量编码为推荐者可能具有的各种目标的奖励方式解耦。研究结果表明了该方法的优越性。

论文链接：/pdf/2104.02981.pdf

标题：Intelligent Electric Vehicle Charging Recommendation Based on Multi-Agent Reinforcement Learning（基于多智能体强化学习的智能电动汽车充电推荐）了解详情

简介：本文以同时最小化整体CWT、平均CP和CFR为长期目标，研究了智能电动汽车的充电推荐任务。并将此问题表述为多目标MARL任务，提出了时空MARL框架Master。即将每个充电站看作一个单独的agent，提出了一个具有集中注意力的多agent actor-critic框架，来激励agent学习协调合作的策略。此外，为了提高推荐的有效性，提出了一种延迟访问策略，以在模型训练过程中整合未来的充电竞争信息。在两个真实数据集上的大量实验证明了Master相比于9个基准的有效性。

论文链接：/pdf/2102.07359.pdf

标题：Deep-Reinforcement-Learning-Based User Profile Perturbation for Privacy-Aware Recommendation（基于深度强化学习的用户信息扰动隐私保护推荐）了解详情

简介：本文提出了一种基于深度RL的用户信息扰动方案，在不依赖已知攻击模型的情况下保护推荐系统的用户隐私。该方案在攻击者和用户设备之间建立了一个隐私感知的电子推荐博弈，并给出了博弈的纳什均衡来约束所提出的用户画像扰动方案的性能。并评估了其计算复杂度。通过公共电影数据集的仿真结果表明，其性能优于基准方案。

论文链接：

/document/9209039

https://hub./view/7812

标题：A deep reinforcement learning based long-term recommender system（基于深度强化学习的长期推荐系统）了解详情

简介：推荐系统旨在最大程度地提高长期推荐的整体准确性。然而，大多数现有推荐模型都采用静态视图，而忽略了推荐是动态顺序决策过程的事实。使其无法适应新情况并遭受冷启动问题的困扰。尽管顺序推荐方法最近已引起关注，但由于长期推荐的目的是针对短期预测情况而开发的，因此尚未明确解决长期推荐的目的。为了克服这些问题，文章提出了一种基于深度强化学习的新型top-N交互式推荐系统。在其模型中，推荐过程被视为马尔可夫决策过程（MDP），其中，代理（推荐系统）和环境（用户）之间的交互是通过递归神经网络（RNN）模拟的。

论文链接：/science/article/pii/S0950705120308352

标题：A General Offline Reinforcement Learning Framework for Interactive Recommendation(交互式推荐的通用离线强化框架)了解详情

简介：本文首次对线下互动推荐学习进行全面分析。首先，将交互式推荐形式化为一个概率推理问题，然后提出了一个随机离散的强化学习算法来最大化用户的累积奖励。为了有效地进行离线学习，提出了一个通用的离线学习框架来最小化记录策略和学习策略之间的分布不匹配，包括支持约束、监督正则化、策略约束、双重约束和奖励推断。最后在两个真实世界的数据集上进行了广泛的实验，证明了所提出的方法可以取得比现有方法更好的性能。

论文链接：

/AAAI21Papers/AAAI-9385.XiaoT.pdf

标题：Towards Long-Term Fairness in Recommendation（对推荐系统中的长期公平性问题的分析与改进）了解详情

简介：公平性问题在推荐系统中重要性极高。传统上解决公平性问题的方法都基于静态的、独热的配置，模型仅基于约束公平性的优化方法来提供单次公平性解决方案，这忽视了推荐系统中的动态变化。本文对此问题提出了动态公平性学习方法——约束公平性的强化学习算法。通过将推荐问题建模为一个约束马尔可夫决策过程（CMDP）使得模型可动态调节推荐策略，在环境变化时也能满足公平性需求。最后，在几个真实世界的数据集上做了关于推荐性能、短期公平性和长期公平性的模型测试，均取得了不错的效果。

论文链接：/abs/2101.03584

标题：Where to Go Next: Learning a Subgoal Recommendation Policy for Navigation in Dynamic Environments（下一步往何处去：为动态环境中的导航任务学习子目标推荐策略）了解详情

简介：针对导航任务中的子目标推荐。本文提出适用于多智能体环境或人与智能体交互环境的方法。只有具备全局性的导航，智能体才能以局部轨迹优化方法（如MPC）来应对周边智能体的目标不直接可见的缺陷，以及环境条件持续变化等问题。本文对于协作性&非协作性智能体，都通过RL方法训练出网络进行推荐，为MPC规划器提供子目标，为局部规划器提供长期导航，可在其长期目标和与其他智能体交互上性能上持续改善。实验结果表明，该方法极大改善了导航的性能。

论文链接：/abs/2102.13073

研究综述

标题：Reinforcement learning based recommender systems: A survey基于强化学习的推荐系统：综述了解详情

简介：推荐系统（RS）成为我们日常生活中不可分割的一部分。他们帮助我们找到了我们最喜欢的商品，社交网络上的朋友以及我们喜欢的电影。传统上，推荐问题被视为简单的分类或预测问题。但是，已显示推荐问题的顺序性质。因此，可以将其公式化为马尔可夫决策过程（MDP），并可以采用强化学习（RL）方法来解决它。实际上，将深度学习与传统RL方法（即深度强化学习（DRL））相结合的最新进展使得将RL应用于具有大量状态和动作空间的推荐问题成为可能。在本文中，对基于强化学习的推荐系统（RLRS）进行了调查。首先认识到为RLRS开发的算法通常可以分为基于RL和DRL的方法。然后，基于特定的RL算法（例如Q学习，SARSA和REINFORCE）以分类的方式介绍这些基于RL和DRL的方法，这些方法用于优化推荐策略。

论文链接：/abs/2101.06286

研究动态

如何利用强化学习构建推荐系统？了解详情

简介：现在的新闻业面临着三大挑战新闻更新速度快、用户兴趣根据时间变化速度快、寻找相似的物品，可能会降低用户的兴趣。所以通过使用DeepQ-Learning框架，需要同时考虑现在和未来的reward。将用户的活跃度作为提升推荐效果的指标，这比将用户点击率作为标签所蕴含的信息量更多。将用户的隐含特征表示作为状态，新闻的特征表示作为action，用户点击率以及用户活跃度相结合作为reward。

强化学习让机器像人一样自我进化了解详情

简介：强化学习是目前深度学习领域发展最快的方向之一，其与推荐系统和排序模型的结合也有更多价值等待发掘。本文介绍了强化学习在美团“猜你喜欢”排序场景落地的工作，包括根据业务场景不断调整的MDP建模，使强化学习能够取得一定的正向收益；通过改进DDPG做数据增强，提升模型的鲁棒性和实验效率，从而取得稳定的正向收益；以及基于TensorFlow的实时DRL框架，为高效并行策略迭代提供了基础。与传统的监督学习相比，强化学习的价值主要体现在：1. 灵活的奖励塑形，支持多目标融合，为业务目标直接负责。2.充满想象空间的动作设计，不需要直接的Label，而是通过网络来生成和评价策略，适合作为监督学习的补充。3. 考虑优化长期收益对当前决策造成的影响，Agent与Environment交互频繁的场景更加能体现强化学习的价值。

新工具

南京大学X阿里巴巴 | 虚拟淘宝了解详情

简介:本工具主要用模仿学习的技术实现真实淘宝线上用户的模拟。推荐系统，计算广告在我们互联网环境中承担着极其重要的作用。在线上环境进行实验，成本较高。而常规的线下模型评估工具却不能很好的反映模型真实的线上效果。这就成了广大推荐算法落地的一个障碍，此工具直击痛点，用模仿学习的方式训练智能体还原真实用户行为。工具提出GAN-SD方法，从历史客户数据中训练，在虚拟淘宝中训练出来的策略可以有明显优于传统的监督方法的在线性能。

RecSim：一个关于推荐系统的可配置仿真平台了解详情

简介：由Google AI开发的RecSim是一个用于推荐系统中辅助RL算法学习的可配置仿真平台。RecSim允许研究者和从业者在人为设定的推荐配置中测试RL方法的限制，可支持对于从真实推荐系统中提取而来的用户行为的特定方面的模拟仿真，用户可在其中调整环境来开发、测试和比较模型和算法（尤其是针对序列用户系统交互的RL算法）。研究者已将RecSim用于推荐系统中的数个利用RL算法进行研究的关键问题，如候选推荐带来的RL问题等等。对于算法性能、稳定性、泛化性等方面RecSim都有简洁、易行的模拟和测试。

论文地址：

//11/recsim-configurable-simulation-platform.html

教程

WWW21最新「深度学习推荐系统」教程，230页PPT阐述深度强化学习、自动机器学习和GNN在推荐系统应用进展了解详情

简介：推荐系统的目标是通过利用用户和物品的交互来提高匹配的准确性，现有的大多数基于DNN的推荐系统都是基于手工制作的超参数和深度神经网络架构;本教程将全面介绍深度推荐系统中解决上述问题的先进技术的最新进展。并将全面介绍深度推荐系统中解决上述问题的先进技术的最新进展，包括深度强化学习(DRL)、自动机器学习(AutoML)和图神经网络(GNN)。通过这种方式，希望这三个领域的研究人员能够对空间有更深刻的理解和准确的洞察，激发更多的想法和讨论，促进推荐技术的发展。

活动

4月29日(美国)4月30日(中国)应用强化学习研讨会邀请了解详情

简介：近年来，强化学习在机器人技术、游戏、精准健康、电子商务和网约车等诸多行业中有许多成功的应用。会议的目标是构建一个网络研讨平台，囊括强化学习方法应用在众多领域的最新成果。这次，ARL研讨会很高兴地邀请到了来自上海纽约大学的Keith Ross教授。Keith Ross教授将在此次研讨会中展示他最近的研究“Sample Efficient DRL的最新进展”，Tony Qin将主持相关讨论。研讨会将于4月29日（星期四）美国西部时间晚上6:00 / 美国中部时间下午8:00 / 美国东部时间下午9:00 / 4月30日（星期五）北京时间上午9:00 开始。

5月3-7 多智能体顶级会议 AAMAS 了解详情

简介：作为人工智能研究领域的一大重要分支，多智能体系统经过近30年的发展日渐走向成熟，近年来备受瞩目的德州扑克 AI、星际争霸 AI 等都是多智能体系统研究的杰作。人工智能 50 多年的酝酿和发展，催生出了一大批 AI 学术顶会，而多智能体系统学术研究发表的专属殿堂级会议，就不得不提 AAMAS（International Joint Conference on Autonomous Agents and Multi-Agent Systems，智能体及多智能体系统国际会议）。

如果你正在从事或关注强化学习研究、实现与应用，欢迎加入“智源社区-强化学习-交流群”。在这里，你可以：

学习前沿知识、求解疑难困惑

分享经验心得、展示风貌才华

参与专属活动、结识研究伙伴

扫描下方二维码，加入强化学习兴趣群。

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。