200字范文 > 推荐系统 --- 推荐算法 --- 基于用户行为的推荐算法 - 协同过滤算法

推荐系统 --- 推荐算法 --- 基于用户行为的推荐算法 - 协同过滤算法

时间：2019-04-08 07:41:00

概述

历史 1992年，Goldberg、Nicols、Oki及Terry提出基本思想爱好相似的用户喜欢的东西可能也会喜欢优点共享朋友的经验，提高推荐的准确度根据爱好相似的用户喜欢的视频进行推荐，可以发现用户潜在的兴趣缺点数据冷启动不对视频的内容做分析，无法依据深层特征和属性来推荐比较复杂的视频用户打分稀疏性问题的约束随着用户和视频数量的增大、系统计算量的增大，收到算法可扩展性问题的约束

基于用户的协同过滤算法

矩阵用户 - 物品的关系矩阵算法流程第⼀步，准备⽤户向量，从这个矩阵中，理论上可以给每⼀个⽤户得到⼀个向量。向量有这么三个特点向量的维度就是物品的个数；向量是稀疏的，也就是说并不是每个维度上都有数值，原因当然很简单，这个⽤户并不是消费过所有物品，废话嘛，连我们压箱底的都给⽤户推荐了，那当然不⽤再推荐什么了；向量维度上的取值可以是简单的 0 或者 1，也就是布尔值，1 表示喜欢过，0 表示没有，当然因为是稀疏向量，所以取值为 0 的就忽略了。第⼆步，⽤每⼀个⽤户的向量，两两计算⽤户之间的相似度，设定⼀个相似度阈值或者设定⼀个最⼤数量，为每个⽤户保留与其最相似的⽤户。第三步，为每⼀个⽤户产⽣推荐结果。相似度计算如果⽤户的向量很⻓，计算⼀个相似度则耗时很久对向量采样计算。道理很简单，两个⼀百维的向量计算出的相似度是 0.7，我现在忍受⼀些精度的损失，不⽤ 100 维计算，随机从中取出 10 维计算，得到相似度是 0.72，这个算法由 Twitter 提出，叫做 DIMSUM 算法，已经在 Spark 中实现了。向量化计算。与其说这是⼀个⼩技巧，不如说这是⼀种思维⽅式。在机器学习领域，向量之间的计算是家常便饭，难道向量计算都要⽤循环实现吗？并不是，现代的线性代数库都⽀持直接的向量运算，⽐循环快很多。⼀般像常⽤的向量库都天然⽀持的，⽐如 Python 的 NumPy 。如果⽤户量很⼤，⽽且通常如此，两两计算⽤户相似度也是⼀个⼤坑第⼀个办法是：将相似度计算拆成 Map Reduce 任务，将原始矩阵 Map 成键为⽤户对，值为两个⽤户对同⼀个物品的评分之积，Reduce 阶a段对这些乘积再求和，Map Reduce 任务结束后再对这些值归⼀化；第⼆个办法是：不⽤基于⽤户的协同过滤。在计算推荐时，看上去要为每⼀个⽤户计算他和每⼀个物品的分数，⼜是⼀个⼤坑只有相似⽤户喜欢过的物品需要计算，这个⼤⼤的赞，这个数量相⽐全部物品少了很多；把计算过程拆成 Map Reduce 任务。改进思路惩罚对热⻔门物品的喜欢程度，这是因为，热⻔门的东⻄西很难反应出⽤户的真实兴趣，更可能是被煽动，或者⽆聊随便点击的情形，这是群体⾏为常⻅见特点；增加喜欢程度的时间衰减，⼀般使⽤⼀个指数函数，指数就是⼀个负数，值和喜欢⾏为发⽣时间间隔正相关即可，这很好理解，⼩时候喜欢的东⻄西不代表我现在的⼝味，⼈都是会变的，这是⼈性。

基于物品的协同过滤算法

矩阵⽤户物品的关系矩阵，矩阵元素可以是⽤户的消费⾏为，也可以是消费后的评价，还可以是对消费⾏为的某种量化如时间、次数、费⽤等；历史基于物品的协同过滤算法诞⽣于 1998 年，是由亚⻢马逊⾸先提出的，并在 2001 年由其发明者发表了相应的论⽂（ Item-Based Collaborative Filtering Recommendation Algorithms ）。优点⾸先，物品的数量，或者严格的说，可以推荐的物品数量往往少于⽤户数量；所以⼀般计算物品之间的相似度就不会成为瓶颈。其次，物品之间的相似度⽐较静态，它们变化的速度没有⽤户的⼝味变化快；所以完全解耦了⽤户兴趣迁移这个问题。最后，物品对应的消费者数量较⼤，对于计算物品之间的相似度稀疏度是好过计算⽤户之间相似度的。算法流程构建⽤户物品的关系矩阵假如矩阵的⾏表示物品，列表示⽤户的话，那么就两两计算⾏向量之间的相似度，得到物品相似度矩阵，⾏和列都是物品；相似度算法改进方向物品中⼼化。把矩阵中的分数，减去的是物品分数的均值；先计算每⼀个物品收到评分的均值，然后再把物品向量中的分数减去对应物品的均值。这样做的⽬的是什么呢？去掉物品中铁杆粉丝群体的⾮理性因素，例如⼀个流量明星的电影，其脑残粉可能会集体去打⾼分，那么⽤物品的均值来中⼼化就有⼀定的抑制作⽤。⽤户中⼼化。把矩阵中的分数，减去对应⽤户分数的均值；先计算每⼀个⽤户的评分均值，然后把他打过的所有分数都减去这个均值。这样做的⽬的⼜是什么呢？每个⼈标准不⼀样，有的标准严苛，有的宽松，所以减去⽤户的均值可以在⼀定程度上仅仅保留了偏好，去掉了主观成分。产⽣推荐结果，根据推荐场景不同，有两种产⽣结果的形式。⼀种是为某⼀个物品推荐相关物品，另⼀种是在个⼈⾸⻚页产⽣类似“猜你喜欢”的推荐结果。第⼀种属于 TopK 推荐，形式上也常常属于类似“猜你喜欢”这样的。这个过程都是离线完成后，去掉那些⽤户已经消费过的，保留分数最⾼的 k 个结果存储。当⽤户访问⾸⻚页时，直接查询出来即可。第⼆种属于相关推荐，也就是我们今天专栏题⽬所指的场景。这类推荐不需要提前合并计算，当⽤户访问⼀个物品的详情⻚页⾯时，或者完成⼀个物品消费的结果⾯，直接获取这个物品的相似物品推荐，就是“看了⼜看” 或者“买了⼜买”的推荐结果了。具体算法 Slope One 算法

对比基于用户的协同过滤算法性能适用于用户较少的场合，如果用户很多，计算用户相似度矩阵代价很大领域时效性较强，用户个性化兴趣不太明显的领域实时性用户有新行为，不一定造成推荐结果的立即变化冷启动在新用户对很少的物品产生行为后，不能立即对他进行个性化推荐，因为用户相似度表是每隔一段时间离线计算的新物品上线后一段时间，一旦有用户对物品产生行为，就可以将新物品推荐给和对它产生行为的用户兴趣相似的其他用户推荐理由很难提供令用户信服的推荐解释基于物品的协同过滤算法性能适用于物品数明显小于用户数的场合，如果物品很多（网页），计算物品相似度矩阵代价很大领域长尾物品丰富，用户个性化需求强烈的领域实时性用户有新行为，一定会导致推荐结果的实时变化冷启动新用户只要对一个物品产生行为，就可以给他推荐和该物品相关的其他物品但没有办法在不离线更新物品相似度表的情况下将新物品推荐给用户推荐理由利用用户的历史行为给用户做推荐解释，可以令用户比较信服

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。