时间: 2021-08-03 09:34:45 人气: 18 评论: 0
本文主要跟讲解的是基于机器学习的个性化推荐系统,一起来看看~
需求分类:
电子商务的个性化推荐,个性化广告、个性化推荐的APP。
用户消费行为的最大化。
在召回环节,通过召回策略,初选出用户可能感兴趣的内容候,形成一个召回的一个候选集。在排序环节,结合用户特征,产品环境信息推荐内容特征,使用机器学习的模型算法,对召回后的内容进行经排序,以满足核心的业务目标。
在策略干预环节,对机器学习形成的排序进行策略干预。例如需要去做多元打散来,以及兼顾其他特定的业务目标等等。
推荐模型计算开销较大,完全依赖模型推荐成本过高,因此需要设计召回策略,从海量的数据中筛选出用于推荐的内容候选集。
历史:用户的兴趣有长线的还有即时的兴趣,长线兴趣即用户在平台上过去的一周或者过去的一月一年在平台上说表现的兴趣,即时兴趣用户在今天突然对某个的内容产生了兴趣。
相似:在我上一篇的文章中,我们可以通过基于内容的相似,或者基于协同过滤,从这两面都出发,构成内容候选集。
基于以上的两个维度,我们可以找到一个用户历史内容相似的内容的一个候选集。
(1)基于用户画像的匹配
通过用户画像对用户进行细分,去收集每一个细分领域内的关注的热点是什么,比如:IT行业、24岁、男性、本科、产品汪,你可以收集产品汪喜欢看的内容,也可以售后机24岁、男性这个画像喜欢看的内容,
基于用户画像的推荐,有两个实体:内容和用户。需要有一个联系这两者的东西,即为标签。内容转换为标签即为内容特征化,用户则称为用户特征化。
(2)排序召回
最新、最热、最近、最新光顾、人工精选。
(3)规则召回
天气、近期搜索浏览、朋友的购买、同期过往习惯等业务性策略。
(1)模型简介
机器学习本质上来说就是通过已有的数据,进行算法的选择,并基于算法和数据构建模型,最终对未来进行预测,简单的来说就是总结过去、预测未来。
什么是模型呢?
一般来说给定自变量的值,通过表达式计算就可达到因变量的值,而在机器学习中给定了自变量和因变量的值,通过机器学习,得到这表达式,也就是模型。
在CV领域,模型可以把一个自变量的输入,也就是一张图**,转化成一个分类。在NLP领域,模型可以把一个自变量的输入,一段语音,转化成文字。
而模型当中参数**有无数种组合,而我们则需要从中找到一个最优的一组参数。
(2)模型的构建
确定输出Y:
期望模型预估的什么,比如:在推荐领域我们想得到的输出是用户点击这个推荐的内容的概率有多大;在预测肿瘤的性质中,希望得到是良性还是恶性;在NLP特征工程对文本进行处理中,我们期望的输出是一段文本。
确定输入X(特征):
哪些业务因素**影响我们的结果,比如:在推荐系统中影响用户最后点击的可能有 是否与用户喜爱匹配,内容的整体热度,当前所处的地理位置,等等;在预测肿瘤是结果,可能有肿瘤的面积、形状、方向等等。
输入输出的关系X﹣Y(算法的选择):
需要根据我们想要的结果确定相应的模型,一般的结果分为两类:一类是离散型变量,一类是连续型变量。
比如:预测用户点击推送的内容的概率是多大,则是回归问题,而预测是否点击,则是分类问题。
(3)训练模型
基于已知的X和Y,收集推荐的历史数据,构建训练集和测试集。为了使我们的训练效果更好,我们需要根据内容消费行为的完成度进行有效的过滤,抛弃低完成度行为。
在训练数据集上运行模型(算法)并在测试数据集中测试效果,迭代进行数据模型的修改,进而找到最优参数。
(4)模型的评估
分类算法的评估方式有:精确度、召回率、F1指标、混淆矩阵、ROC曲线、ROC曲线下面的面积。
回归算法的评估方式有:一般使用的方法有平均方差、绝对误差、R平方值,而一般产生的结果可能有过拟合、欠拟合。
平台出于内容生态和社**责任的考量,像低俗内容的打压,标题党、低质内容打压,重要新闻的置顶、加权、强插,低级别账号内容降权都是算法本身无法完成,需要进一步对内容进行干预。
本文由 @SincerityY 原创发布于人人都是产品经理。未经许可,禁止转载
题图来自Unsplash,基于CC0协议