当前位置: 首页 >> 我们的头条 >> 国,散瞳,黄金大劫案-乌塔咖啡-咖啡爱好者协会-服务业新闻报道 >> 正文

国,散瞳,黄金大劫案-乌塔咖啡-咖啡爱好者协会-服务业新闻报道

2019年05月08日 08:24:45     作者:admin     分类:我们的头条     阅读次数:164    

写在前面

本文介绍了神盾引荐体系中依据热传导模型的相关引荐模块. 神盾引荐体系是 SNG 数据中心立身 QQ 大数据构建的通用化引荐渠道. 服务于运用宝, 手Q手游引荐, 企鹅 FM 等多个运用场景, 为事务方进步收入, 进步用户体会做出巨大贡献.

代号阐明

神盾的依据热传导模型的相关引荐模块的代号是 “反浩克装甲” (Hulk Buster), 来历于”复仇者联盟2” 中钢铁侠开发用来对立绿巨人浩克的专用配备. 其以模块化思路规划, 平常运行在近地轨迹中, 有需求的时分能够涣散投射到战场组合运用.

反浩克装甲

神盾引荐的反浩克装甲起步于运用宝的引荐场景, 这以后在企鹅 FM 的相关引荐场景进步行了快速的迭代晋级. 终究取得比照原始 ItemCF 超越 25% 的作用进步.

什么是相关引荐?

在引荐体系发挥用武之处的各个场景中, 相关类的引荐是一个比较常见的场景. 其要面对的场景能够界说为:用户在找到自己喜爱的东西并进行消费的时分或许消费行为完结之后, 对用户展示一些相关的物品以便用户持续消费.

这能够是电台 app 里边的 “收听过这个电台的用户还听过…”, 也能够是书城里边的 “看了又看”, 也能够是视频网站里边的 “相关视频”. 经过相关引荐, 咱们能够为用户供给更好的阅读体会, 并把用户和更多的服务连接起来.

运用宝和企鹅 FM 的相关引荐场景

怎样引荐相关物品

本文评论的问题是依据物品相关的处理方案:针对每一个待引荐的物品核算一个类似物品列表, 然后在用户拜访的时分, 拉取类似度最高的几个物品用于展示.

这种办法的特点是每个用户的引荐效果是相同的, 是一种非个性化的处理方案. 由于所需存储资源和内容库里边的物品数量相关, 因而优点在于能够节约资源, 防止用户增加带来的本钱问题. 并且只需物品类似度模型建好了, 用户体会都能够到达令人比较满意的程度. 但这种办法只合适物品数量不会爆发式增加的场景, 例如运用宝的运用引荐, 或许视频网站的视频引荐. 别的, 其毕竟是一个非个性化引荐算法, 每个用户看到的内容都是相同的, 然后引荐作用存在较低的天花板.

神盾的相关引荐办法

1以图核算的思想做引荐体系

物品相关算法最经典的应该是 ItemCF 算法. 但在神盾的相关引荐场景中, 咱们很多运用了周涛1提出的热传导算法, 由于其在咱们很多线上试验中取得了更好的引荐作用.

但在此咱们更想着重算法背面的杂乱网络思想. 这个算法把引荐实例中的用户和待引荐物品的联络类比为二分图, 当用户对物品的行为有操作的时分, 咱们就能够在中心连一条线. 经过构建用户 - 物品二分图, 咱们能够以为被同一个用户操作过的物品是彼此相关的. 这种把问题看做一个图的研讨视角, 给咱们之后的进一步优化供给了便当.

经过把用户和物品当作网络上的节点的方法, 咱们能够更直观的考虑引荐

2离线练习先行,在线a/b test验证

ItemCF 等物品相关算法, 大多都是依据用户的行为使用核算办法核算得到, 并不是依据某个方针函数朝着最优解优化. 在实践的引荐场景中完成某个优化项的时分, 咱们通常会面对许多超参数的挑选. 例如, 要挑选多长时刻的用户行为去构建二分图, 或许热传导算法参数的挑选. 有时分囿于流量咱们或许没有办法把每一个候选调集都试一遍, 因而在实践操作中咱们会构建一个离线练习场景, 用于调试新的算法特性, 然后推到线上用 a/b test 去验证.

至于离线场景的构建, 一般是使用用户的实践流水, 看相关引荐的效果是否能够猜测用户的下一步举动. 这儿的技巧在于, 构建离线练习场景之后需求依此在线上投进几回 a/b test, 以验证线下场景的有用性.

神盾的反浩克装甲

为了取得更精准的引荐效果, 神盾引荐团队在热传导模型的根底上做了很多的尽力, 终究得到现在的代号为反浩克装甲的相关引荐模块. 下面介绍该模块的首要特性:

1热传导算法 — 均衡长尾与抢手的桥梁

▲ 引进热传导, 调整抢手和冷门物品的权重, 平衡引荐的精确度和多样性.

在热传导算法的论文中, 作者着重该算法能够平衡引荐的精确度和多样性, 能够在确保精确度的状况下, 让长尾物品的相关度靠前. 在实践操作中, 咱们能够使用算法的参数, 调整 “冷门” 和 “抢手” 物品的权重, 然后习惯不相同的场景. 例如, 咱们发现比较运用宝的 app 引荐, 企鹅 FM 的电台相关引荐应该要用一个愈加倾向冷门的权重.

热传导算法1实践上是两种能量传递形式的组合, 一个倾向于引荐盛行物品, 另一个倾向于引荐冷门物品. 图片来历2

2用户和物品的有用链接 — 防止错进错出

▲ 用户和物品的链接, 应该是建立在用户真实喜爱这个物品的根底上

在用户 - 物品的二分图上, 边的界说是第一步, 也是最重要的一步. 由于有一些用户操作或许并不代表用户真实喜爱这个物品, 盲目投入用户对物品的一切操作行为, 或许会呈现 “Garbage In Garbage Out” 的状况. 因而神盾团队在构建引荐算法时, 会剖析先行, 用数据确认什么状况下用户和物品才能够有一条链接.

以企鹅 FM 为例, 咱们核算企鹅 FM 用户收听份额 (收听时长/节目总时长) 的散布, 发现用户收听行为首要会集在两类, 一类是收听份额<10%, 一类是收听份额>90%. 咱们能够以为, 假如用户收听一个节目缺乏总时长的 10% 就中止播放了, 那么很有或许他们并不喜爱这个节目, 把这些数据投入算法或许会构成欠好的影响, 因而在构建二分图前去掉.

3物品度过滤 — 工欲善其事必先利其器

▲ 过滤用户数较低的物品, 让引荐更有掌握, 多阈值交融, 确保覆盖率.

假如一个物品只被一个用户喜爱, 依照热传导的逻辑, 这个用户喜爱的其他物品会呈现在这个物品的相关列表中. 但这样实践上很简略把不相关的东西联络在一起, 由于一个用户的爱好或许十分广泛. 因而, 有必要过滤掉一部分用户数较少的物品.

度小于必定阈值的节点将会被被阻隔在练习之外, 取阈值为2, Item3 会在练习前被舍去

以用户 - 物品二分图的视角来看, 喜爱某个物品的用户数量, 便是这个物品的度, 在咱们看来, 这个度的越大意味着它的引荐效果越有掌握. 对物品的过滤, 实践上便是把度较低的物品进行一次过滤.

支撑度过滤阈值越大, 对引荐效果的掌握也越大, 可是能够取得引荐效果的物品的数量就会越少. 为了确保覆盖率, 能够别离用两个阈值练习出两个模型, 然后用低阈值的效果给高阈值的效果做弥补.

4多特征交融 — 尺有所短, 寸有所长

交融用户和物品的特点及不同行为的行为特征, 能进步引荐的覆盖率, 处理冷启动问题, 充分发挥不同特征的数据价值.

在引荐中, 一般除了用户在运用内的行为数据之外, 咱们还能够取得其他的一些信息. 例如用户的根底画像, 或许物品的根底信息. 但热传导算法的作者并没有提出怎么把多种特征交融到模型中.

这儿咱们选用了大特征的概念3, 把特征自身当作一个节点加入到二分图中. 例如, 咱们能够把企鹅 FM 里边的专辑分类当作一个 “用户”, 专辑对某个分类的从属联络, 在二分图中能够看做某个分类 “喜爱” 这个专辑. 用户的特点仍然, 咱们能够把性别(男/女)当作一个物品, 引进到二分图中.

用户的特征被作为一个物品加入到二分图中, 物品的特征则看做一个用户, 此刻冷门 Item4 也能取得相关

这样做有一个优点, 便是能够进步引荐的覆盖率, 让一些没有用户操作过的冷门物品(或许新物品)也能够经过物品的根底特点(例如分类)连接起来. 然后能够处理冷启动问题. 但经过简略的推导能够发现, 假如有一个物品没有用户操作行为数据, 只要一个”分类”特点, 那么在热传导算法的引荐效果中, 它会给出同分类最冷门的物品, 也便是另一个没有用户操作行为的物品. 这实践上不怎样合理. 这儿的处理办法有二, 一个是引进更多的物品信息, 让物品尽或许多维度的连接起来, 另一个是做物品度过滤.

5引进时刻要素 — 世事常变,变幻即永久

▲ 使用时刻要素, 去掉时刻距离较大的两次用户行为生成的链接.

现有的模型在选定了练习时长后, 会将用户该时刻段内构成有用链接的一切物品相关在一起, 这样或许会把一些具有时效性的内容相关在一起. 以企鹅 FM 为例, 用户白日听的 DJ 摇滚和晚上的轻音乐, 躺在床上听的《鬼吹灯》和车上听的交通电台, 都有或许被链接起来.

为了处理这个问题, 咱们把用户对物品的操作时刻引进到引荐中, 然后让两个物品不再由于时刻跨度较大的行为而联络在一起, 这儿咱们选用的办法是把处在不同时刻窗口的用户看做多个节点, 然后强化同一个时刻窗口内被操作的两个物品的联络.

‍用户依据操作日期被看做成多个节点, 然后只要同一天的操作行为会把物品相关起来, 这儿 User1 被分割成 9月9日的 User1 和 9月12日的 User1

6引进CTR重排序 — 参考之资, 能够攻玉

▲ 能够使用用户对引荐效果的反应信息, 批改引荐效果.

尽管特征的丰厚和模型的优化能够很大的进步引荐的作用, 但咱们以为推出看起来不怎样精确的效果仍是很难防止的. 对此咱们的一个做法是: 把引荐的效果推给用户, 看看用户是否有点击, 关于用户喜爱点击的物品, 进步它的权重; 关于没有点击的物品, 则下降它在引荐列表中的排序.

为了使用用户的实践行为批改引荐效果, 咱们核算了每一个待引荐物品和相关物品的转化率, 然后用转化率对权重进行调整. 而这儿需求考虑的是有些相关物品限于槽位并不会被用户看到, 然后无法核算转化率, 这儿咱们使用了神盾完成的点击转化率滑润4模块, 对点击量过小的物品赋予一个预估的转化率.

7分群热传导 — 物以类聚, 人以群分

▲ 按用户特点分群, 各群别离构建热传导, 创始个性化的相关引荐模型.

在服务资源有限的状况下, 非个性化物品相关引荐能够用较少的资源为海量用户供给服务. 但当资源足够的时分, 咱们能够考虑把用户的要素考虑进去. 在神盾引荐体系中, 咱们完成了依照用户的根底信息和画像分群投进热传导的引荐逻辑. 详细的思路是针对每个集体练习一个热传导模型, 当用户建议引荐恳求的时分, 给出对应集体的引荐效果. 为了发挥 QQ 海量用户画像的价值, 神盾对用户展示的引荐效果, 能够由用户所属不同群的引荐效果进行加权取得

不止是相关引荐

本文介绍了神盾引荐团队这几个月内涵相关引荐这个场景下的作业效果. 咱们在一个简略的网络的根底上, 构建了一个多层次, 能使用多种数据源的引荐战略. 经过线上数据查验, 这个办法能够取得比照传统 ItemCF 算法超越 25% 的功能进步.

可是相关引荐并不是咱们尽力把物品更精确的链接起来的仅有意图. 核算物品相关还有其他的用途:

1、物品相关的效果能够直接或许直接的被用于个性化引荐,能够依据用户的前史行为, 找出跟用户前史最为类似的物品, 引荐给用户;也能够把物品类似度看做一个特征, 融入到其他模型中;

2、经过把物品相关起来, 咱们能够构建一个物品网络, 对物品网络的剖析, 能够让咱们愈加的了解每一个物品. 例如, 咱们测验把企鹅 FM 的电台经过物品相关构建一个电台网络,在剖析中咱们发现类似的电台会构成社团, 咱们以为这隐含了物品的根底特征.

对企鹅 FM 的音乐分类的物品相关网络进行可视化, 节点巨细与被相关次数相关, 色彩为社区发现效果

这两个运用场景, 咱们以为将能够有用进步引荐功率以至于咱们对用户的了解, 因而十分值得咱们进一步探究和研讨.

附录:引荐体系中的热传导算法简介

热传导算法是一个使用了杂乱体系中热扩散思路核算物品类似度的引荐算法. 该算法的把用户和物品看做两类不同的点, 并把用户和物品的操作看做一条边连起来, 然后生成一个二分图. 算法假定每一个物品都分配了必定的能量, 然后沿着二分图的边, 进行能量的传递, 传递后的能量状况提醒了物品的相关程度.

算法原文探讨了两种能量传递的办法, 能够导出两种不同的物品类似度核算方法:

‍‍‍‍‍‍‍‍‍‍‍‍

这儿 α和 β是两个物品, aαi=1代表用户 i与物品 α有一条边, aαi=0表明没有. 而 ki=∑αaαi是用户的度, 即连接到用户的边的数目, 类似的 kα为物品的度.

能够看到两个类似度核算方法的差异首要在系数上. kα实践上核算了该物品被多少人操作过, 必定程度上代表了物品的热度. 因而 WαβP的核算方法很好的按捺了物品 α和抢手物品的类似程度. 然后会让冷门的物品取得更高的相关得分.而真实的热传导模型, 则是经过引进操控参数 λ来完成统筹精确度和多样性:

参考文献:

1、Zhou T, Kuscsik Z, Liu J G, et al. Solving the apparent diversity-accuracy dilemma of recommender systems[J]. Proceedings of the National Academy of Sciences, 2010, 107(10): 4511-4515. :leftwards_arrow_with_hook:

2、https://www.zybuluo.com/chanvee/note/21053 :leftwards_arrow_with_hook:

原文发布于微信大众号 - 腾讯QQ大数据(qq_bigdata)

除非特别注明,本文『国,散瞳,黄金大劫案-乌塔咖啡-咖啡爱好者协会-服务业新闻报道』来源于互联网、微信平台、QQ空间以及其它朋友推荐等,非本站作者原创。 本站作者admin不对本文拥有版权,如有侵犯,请投诉。我们会在72小时内删除。 但烦请转载时请标明出处:“本文转载于『乌塔咖啡-咖啡爱好者协会-服务业新闻报道』,原文地址:http://www.untacoffee.com/articles/2063.html