• 首页 > 延展阅读 > 2016归档

    一点资讯田明军:深度融合搜索+个性化推荐背景下的兴趣引擎构架

    2016年12月05日 17:45:31   来源:中华网投资

      由InfoQ中国团队推出,面向高端技术管理者和架构师的全球架构师峰会(ArchSummit)日前在北京国际会议中心举行。来自腾讯、滴滴出行、一点资讯等互联网企业的技术专家受邀出席并做主题演讲。

      一点资讯高级技术总监田明军发表主题演讲

      在本次大会上,一点资讯高级技术总监田明军详细诠释了深度融合搜索和推荐引擎对获取用户阅读兴趣、实现信息精准分发的必要性,并以一点资讯为例,从技术框架和产品理念角度,分享了兴趣引擎将二者有机融合的心得。

      他认为,搜索和推荐两种获取信息的途径和体验缺一不可。一点资讯的兴趣引擎系统通过结合了用户搜索行为所触及的全网数据,不断学习用户的兴趣再进行推荐,并由用户主动“订阅”深化这一兴趣,建立兴趣之间的连接点,从而打通用户对信息的主动表达和被动接受两条通道,使信息获取更加高效、精准,为全方位提升用户体验打下了坚实的基础。

      以下为田明军演讲内容精编版:

      大家早上好,非常荣幸今天有机会与大家分享一点资讯关于融合搜索和推荐引擎的一些思考和实践。

      单一的搜索或推荐引擎不利于全面满足信息分发需求

      在移动互联网时代,搜索和个性化推荐都是用户获取信息的两种重要的方式:搜索通常伴随着用户的明确表达,用户输入关键词即可找到自己想要的答案;反观推荐,则是用户通过产品呈现的内容进行非目标性的兴趣浏览。但这两种体验是不能互替的,单纯根据历史浏览记录进行的个性化推荐并不能了解用户某时刻的自身想法,而另一方面,也很难根据每天一两次搜索行为总结出用户的长期规律。

      所以从产品角度来说,搜索和推荐的体验二者不可或缺、关系紧密。这也是我们致力于实现二者融合的原因。

      但需要注意的是,二者在意图表达方式、训练模型等方面存在着巨大差异,基于这些差异点,我们不能简单的用其中一种系统来实现搜索和推荐融合的目的。

      搜索和推荐的融合之路应该怎样走?

      对于融合的解决之道,一点资讯选择在搜索和推荐引擎之间加入了一个基于用户兴趣的任意关键词订阅环节。通过搜索发现用户所查询的答案同时,我们也提炼、扩充出针对用户兴趣的表达,并以此固定沉淀在用户画像里。因此,搜索让个性化推荐层面,增加了一条高效地获取用户兴趣的途径。

      反过来说,通过推荐系统把共性的有趣、有料的内容呈现给用户,通过推荐产品收集到用户更多层面的反馈,从而得到这些内容的普适性特征。基于这些特征的挖掘,我们也能够对内容有更深刻的了解。而再将搜索体验中加入并有效利用这些共性特征,也更加强化、提升了搜索的品质。

      接下来,我将从兴趣引擎的整体系统架构中,选取了几项关键技术点,阐述一点资讯将搜索和推荐内容体验真正融合的方法:

      异构索引引领检索效率提升 针对搜索+推荐深度优化

      为实现深度融合的目的,针对搜索和推荐不同的服务特点和系统性能要求,首先我们提出了异构索引结构。

      从上图可以清楚地看出异构索引的数据来源和组织形式。我们可以从图的底部可以看到,产生异性索引数据的平台一分为三:数据平台、编辑运维平台和内容平台。图片顶部则展示了不同数据的索引构建所采用的不同技术。

      内容平台方面,对外网抓取的内容和自媒体平台生产的内容,我们建立了通用的倒排索引。

      在左侧的数据平台,则通过对用户行为的挖掘,产生基于协同过滤信息的挖掘的推荐列表,以及针对不同人群放置的热文列表,这部分我们使用通用的KV数据库存储。

      中间这部分的数据来源于内容平台和编辑运维平台,体现了技术与人工的结合。这部分数据存在内容的竞争机制,变化比较灵活,使用了自建的支持排序列表的索引结构。

      大家也许会问,为什么会有这样的区分?这主要是基于优化检索性能角度的思考。根据关键词对倒排索引进行查询的方式非常成熟,完全够能够满足搜索系统的需求,然而,传统的倒排索引却很难对推荐需求的几十维以上的特征进行查询。

      在这个基础上,我们做了两个优化:一是针对稀疏的频道,实现了支持WAND(一种介于AND和OR之间的索引查询操作符)检索系统加快召回内容的效率;而对于稠密的头部频道,则通过开发频道文章索引库,维护从频道到排序内容列表的映射,将线上查询压力转移到线下,提升检索的效率。

      以unified feeder为核心的内容处理平台解决写入难题

      刚才看到方方面面的索引,接下来,我们必须要解决里面索引的写入的问题。这就需要在统一的内容处理平台,把这些内容写到异构的索引结构里面。

      我们的内容处理平台的核心之一,则是unified feeder系统,这是内容处理平台与索引系统之间传递信息的桥梁。

      在unified feeder实际工作中,首先针对不同的输入数据,我们存入了很多不同的索引库,这个工作通过统一的配置与模板中心进行管理,可以方便的维护和扩展。此外,unified feeder内部有一个checkpoint系统,在各个关键索引内容写入之后,会向checkpoint系统发送验证信号,如果任何数据写入失败,checkpoint系统会有记录,系统可以自动进行数据的重新写入。这种方式有效的解决了系统容错和异构索引数据一致性的问题。

      双层架构的自适应索引召回突破异构索引挑战

      接下来我将讲解在有了以上数据基础之后,针对上面的搜索和推荐请求,我们如何通过自适应索引召回技术,从不同的索引里面获取数据?这主要面临三个方面的技术挑战——决策需要调用的索引后端、异构索引召回效率,以及可扩展性与开发效率。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    [编号: ]
    分享到微信

    即时探行数字人注册免费试用

    新闻探行AI智能外呼系统 节省80%人力成本

    敢闯技术无人区 TCL实业斩获多项AWE 2024艾普兰奖

    近日,中国家电及消费电子博览会(AWE 2024)隆重开幕。全球领先的智能终端企业TCL实业携多款创新技术和新品亮相,以敢为精神勇闯技术无人区,斩获四项AWE 2024艾普兰大奖。

    企业IT探行AI客服 24小时无休机器人接待

    重庆创新公积金应用,“区块链+政务服务”显成效

    “以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。

    3C消费探行AI视频 快速生成真人营销视频

    “纯臻4K 视界焕新”——爱普生4K 3LCD 激光工程投影

    2024年3月12日,由爱普生举办的主题为“纯臻4K 视界焕新”新品发布会在上海盛大举行。

    研究探行AI整体解决方案 全国招募代理

    2024全球开发者先锋大会即将开幕

    由世界人工智能大会组委会、上海市经信委、徐汇区政府、临港新片区管委会共同指导,由上海市人工智能行业协会联合上海人工智能实验室、上海临港经济发展(集团)有限公司、开放原子开源基金会主办的“2024全球开发者先锋大会”,将于2024年3月23日至24日举办。