用户画像连载二：时尚全媒体用户画像建模

时间: 2021-07-30 09:31:29 人气: 9 评论: 0

文章分享的主要内容为用户画像要如何建模，希望本文对你有所帮助。

用户画像最终的结果是一张大宽表，一行为一个用户的用户画像，存储了用户对应的每个标签值。建模就是为每个标签制定合理的计算公式。

（请点击查看大图）

基础模型

基础数据一般有用户数据、内容实体数据、用户行为数据三类，需要根据用户行为构建相应的数据模型产出标签和权重。每一次的用户行为，可以详细描述为：什么用户，在什么时间，什么地点，发生了什么事。

什么用户：即用户识别，其目的是为了区分用户。用户识别的方式包括Cookie，注册ID，微信，微博，**，手机号等。
什么时间：在用户行为中，普遍认为近期发生的行为更能反映用户当下的特征，因此过往行为将表现为在标签权重上的衰减。
什么地点：即用户的接触点，，包含了两个潜在信息：网址和内容。内容决定标签，网址决定权重。用户在天猫浏览了iPhone6的信息和在苹果官网浏览也将存在权重的差异，因此，网址的内容反映了标签信息，网址本身则表征了标签的权重。本案例中的业务以阅读型为主，把网址权重都简化为1。
做了什么：用户的行为类型，例如访问、收藏、试用、分享、搜索等，同样反映的是标签的权重。

从上述建模方法中，我们可以简单勾画出一个用户行为的标签权重公式：

标签权重=时间衰减（何时）x网址权重（何地）x行为权重（做什么）

如果是访问行为，可以再增加访问时长的权重，10S以内权重为1，10S－30S为2，30S以上为3

最后把用户一段时间内同一个标签的权重进行累加，就获得到用户此标签的值。

根据行为的成本大小来判断标签的权重，成本越高越是真爱。例如访问页面是成本最小的，同时赋予标签的权重值就较低收藏能代表用户的喜好，权重较高。

此外这里我们假设同一个页面所附属标签和页面内容的相关度都是一样的，例如一篇文章《女人懂西装是一件很性感的事你的他穿对了吗》附带了男装、高级定制、时尚、潮流、西装 5个不同标签，其实内容和标签的相关度**有差异，可以通过编辑人工或者机器学习的方式为标签赋予不同的相关度，这样最终得出的标签权重可信度更高。

以上只是基础模型，适用于内容标签、产品分类、产品标签、品牌标签。美妆总体偏好度、用户活跃度、用户价值等标签仍需要单独建立模型。潜在需求的挖掘适用回归预测等算法模型。