时间: 2021-08-03 08:30:06 人气: 6 评论: 0
编辑导语:在前一篇中,作者分享了关于《搜索联想词的产品定位,效果评估和召回》,本篇阐述在召回所有候选结果后,如何进行排序的问题和联想词页面的场景和动线,我们一起来了解一下。
根据用户确定的字符,在召回环节召回前K条候选联想词,如何将这些词条精准排序,就是排序需要解决的问题。在精排环节,根据业务发展的成熟度,逐步从单一因子排序过度到多因子排序。
为什么要逐步过渡呢?主要是考虑到数据积累的量级影响到数据的信任度问题。在业务发展初期,数据量小,用户交易链路后续数据对结果的影响抖动大,就单纯采用交易环节前期行为,比如采用单纯的点击量因子来排序。
根据链路衰减原则,在业务发展初期,本身数据量都很小,后续的点击,订单,GMV就更小,如果采用后端的行为,那么对结果的扰动就非常大,也就是说这些数据对评估目标是不可信任的。
等业务积累到一定阶段,点击率数据可被信任的话,可以采用点击率数据来排序,等到业务发展相对成熟,可以采用包含人气因子、收益因子、服务因子等综合模型来排序。
排序产品策略主要有如下几类,我将每种策略的优劣做简单分析,在阐明策略之前,我们还是将联想词目标重申一下:
策略1:基于推荐Query搜索次数排序,优势:简单;不足:作弊Query可能被推出,并且长尾query没机**。
策略2:基于Query静态分的下拉推荐
Query静态分拟合了Query各维度的知识:比如Query PV、IPV、UV、IUV、CTR、成交转化率、成交笔数、成交金额、召回商品数,将上述知识用LR回归的方法拟合成一个实数。
优势:根据静态分对候选Query进行排序,Query静态分不仅考虑了Query的历史PV/点击信息,而且考虑了Query的交易信息,交易良好的Query获得更多的展现机**,给予高质量候选Query以更多的展现机**和排序位置,大大降低了低质量和作弊Query的展现概率。
劣势:静态分主要依赖于历史Query自身的特征,搜索Query与候选Query之间的联系仅仅是两者的前缀相同,这种简单的共性(匹配)没有将搜索Query与候选Query紧密的结合在一起,关联性弱的候选Query如果行为表现比较好,就**排在前面,但是这种关联性弱的Query的线上表现,尤其是CTR往往很差。
策略3:基于CTR预估的下拉推荐
利用LR回归模型来预估推荐Query的CTR,在模型中充分考虑到搜索Query和候选Query之间的关系,二者之间的联系越强,候选CTR就**高,反之则**比较低,所以设计的策略用到的特征如下
优点:充分考虑到推荐Query的历史表现,推荐Query与搜索Query之间的关系
缺点:没有考虑用户的个性化偏好
策略4:结合用户个性化建模的CTR下拉推荐
策略3考虑了搜索Query和候选Query之间关系以及候选Query的历史表现,但是没有结合用户个性化信息。
将用户的年龄、性别、购买力、短期和长期Query偏好作为用户建模,在排序时候结合个性化建模推荐**取得更好的效果,在策略3的基础上增加如下用户特征:
优点就不用讲了,但是策略4只有在平台业务成熟度足够的时候,才可能开展,同时对平台研发能力有较高要求,具备用户建模、行为建模等大数据平台能力。
排序后处理:
比如在电商网站搜索“海尔”,推荐的Query有:
一般地,网站将最常用Query能结构化的尽量结构化,结构化遵循语义一致的原则,比如电商网站将品牌的多个品类(品类语义),品牌+品类的多种功能(功能语义)等结构化在一起。
前面文章我们在搜索结果页搭建场景和策划动线,文中也提及在各个页面都可以策划场景和动线,比如在联想词页面,电商网站策划了店铺导流的场景(上图中蓝色方框内),满足用户直接搜索店铺的需求,另外,策划了O2O场景(上图中的绿色方框),满足用户线下店铺极速达的需求。
大家可能**问,这种场景穿插放置位置是如何决定的?这种场景策划结合了商业变现和用户需求,根据公司变现规则来确定,按照变现收入来确定位置。
Query离线处理:
Query归一化:大小写、全半角、简繁体、无效字符比如停用词、无效空格等。
大家对文中的产品策略,以及场景和动线设计,以及搜索联想词还有哪些方面的意见和建议,欢迎评论区留言讨论。
毛新年,公众号:资深电商专家毛新年,人人都是产品经理专栏作家。起点学院讲师,2021年B端产品经理大**演讲嘉宾。主导搭建主流电商平台搜索推荐商品三大体系,熟悉电商平台策略-产品-运营-数据及研发各环节。
本文原创发布于人人都是产品经理,未经许可,禁止转载
题图来自Unsplash,基于CC0协议。