时间: 2021-07-30 10:56:28 人气: 13 评论: 0
本篇是《数据分析实战|人人都是产品经理网站》系列的最后一个问题,将从作者关心的角度出发,通过详细的数据比对,分析一篇文章发表后是否能够变成爆款。
本篇将解决《数据分析实战|人人都是产品经理网站》系列的最后一个问题,将从作者关心的角度来分析,一篇文章发表后是否能够变成爆款。
这是由之前的读者变成作者后获得的一些新体**。以前是读者的时候只有看客心态,网络上的文章繁多,随便看看就好。只有那些特别好的可能**转发,可能**收藏,但看完后网页一关就还是与我无关了。
现在作为一名业余的内容创作者,每篇文章从构思准备到下笔完成可能要花半个月以上时间,期间**想象准备什么样的内容能够得到用户喜欢,反复的思考和推敲总结,酝酿写下来的文字否能将思想得到准确传递。
最后当稿子提交审核的时候,将**有更多的牵挂。每天都**上客户端看一看,今天新增了多少阅读和收藏,是不是有读者给我留言了,有没有上热门文章等等。
虽然**有一些困扰,但这种乐趣是和平时做产品、发布产品的心情是一样的。如何让自己的心血能够得到多一点点的回报将是每个作者的心愿,而其中最直接和最具体的表现则是文章的阅读量。
本篇为了能够更快的得出结论,这里再把本篇的问题和目标确定一下:
作为一名作者,投稿的文章是否**在人人都是产品经理网站(以下简称人人网)上成为爆款?
其实作者关心的问题最初是有如下几个选择的:
第一种,讨论提高文章的阅读量。你需要将一篇文章用两种不同的写法、在同一个平台、同一个时间分别投稿,也就是AB Test才能得到的结果。做产品可以这样测试,但写文章度不现实。而且讨论起来将**是个相当复杂的过程,甚至可以开一个辅导班。
第二种,讨论文章的阅读是多少是一个回归问题,但对比于第三种来说意义略小,比如预测了一篇文章的阅读量为10000,请问它在人人网上是多还是少?看过上篇的同学可以回答,10000阅读量的文章在人人网上连文章的均值都不到。
第三种,有了以上简单分析,根据前篇的数据分析,将阅读量最多的10%文章定义为爆款即可。这也建立了从阅读量到爆款之间的联系,即设定阅读量在足够多的情况下**成为爆款。
这里根据我多年的互联网经验,在各种内容平台上,有以下几个因素**直接影响到一篇文章(内容)的阅读量,当前排名不分先后:
刚刚讨论的是普遍情况,这里我们需要结合目标网站自身的实际情况做进一步分析。在人人上投稿几次之后,综合长时间在人人网的学习和观察,大约一篇文章的阅读量走势**如下图所示(其中色块的划分代表各因素在不同阶段的影响力大小):
现实世界非常复杂,影响一篇的文章阅读量的因素,我们还可以有很多的猜想。但我们不是全知全能的神,对任何事物的认知总是有限的。
心智模型则是将这些认知串联起来,以便我们在做判断的时候可以的时候得出结论。越是经验、学识丰富,就**离真相越近,相对的,则**显得愚昧无知。而鬼这样一个凭空出现的事物,则是几千年以来,人类对未知事物感到恐惧所产生的一个集合。
本章节花大篇幅描写的就是这样一个心智模型的构建过程。
回到本文梳理之前的经验与思路,可以建立一篇文章到是否能够爆款的脉络:
这是我目前能够想到的有关因素。也许还不是很精准,甚至有可能错误,但数据分析就是一个不断的假设、验证、得出结论,再修正、再重复的过程。
这样,我们的心智模型和对这个世界的认知才**越来越完善,得出结论和应对新事物时**更得心应手。
但如果大家要是觉得还有什么关键影响因素的也可以在评论中留下自己的看法。
机器学习是一种数据分析技术,让计算机执行人和动物与生俱来的活动:从经验中学习。
机器学习算法使用计算方法直接从数据中“学习”信息,而不依赖于预定方程模型。当可用于学习的样本数量增加时,这些算法可自适应提高性能。
当你遇到涉及大量数据和许多变量的复杂任务或问题,但没有现成的处理公式或方程式时,可以考虑使用机器学习。
回到本文的讨论,文章是否**成为爆款,这是一个比较典型的,分类监督学习,而最近正好也在研究XGBoost算法,可以拿来练手。所以本章节将**按照应用机器学习的开发步骤展开:
第1步,数据收集。获取对建立算法和数据模型有关的数据;
第2步,特征选择。一般原始数据都**有大量的无关项,而筛选的标准则是有助于构建之前建立的心智模型;
第3步,特征工程。指的是将原始数据转换为特征矢量,比如字符串转成数值、残缺数据的补全等;
第4步,训练算法。选择一部分数据,使用合适的机器学习算法推导出特征之间的权重;
第5步,测试算法。之前没有用于训练的数据当做测试数据,代入到推导出来的算法中,计算也推导结果,由推导结果和实际结果进行对比,可以得到我们关系式预测的正确率。当正确率满足要求可以进入到第6步,如果不满足要求则需要进入到第7步;
第6步,修正算法。一般初次结果的正确率都不**太好,可以经过各种优化,包括我们对前面心智模型的都可能**要做修改,修正后需要重新从第1步开始;
第7步,使用算法。如果验证的结果可以满足要求,则可以对新发表的文章进行预测。
虽然我们有4万多条原始数据,但不是所有的数据都有效的。而且为了能够促进我们得到最后的算法模型,也要做一些适当的取舍。这里我做了两个处理:
文章发表30天以上,是为了保证数据选择的公平性。我们的目标是将人人网上所有文章的阅读量前10%设定为爆款,那么对发表时间较短的文章肯定是不公平的,而且新发表的文章阅读量**在短时间之内急剧增长。这一点我们之前也讨论过了,具体的变化就如下图所示:
不难发现文章的平均阅读量大约在发布20天之后的才开始趋于平稳,随后还**有小幅度的上升。我们这里录入的数据都是所有的时间段的文章,所以为了公平和保险起见,只选择文章发表30天以上的文章。
而下图标识出了按以千为单位的阅读量分布,为了展示方便已将大于3万阅读量的做了归并处理。可以发现从最低的几千阅读量到最高的几万阅读量之间并没有一条比较明显界限。特别是从10千
开始到30千
这一段。
而我们将要处理的问题则是一个分类问题,需要分类的结果有比较明显的特征,或者说要区分的对象差别越大越好。比如做图像识别时,识别照**是猫是狗的难度,就要比区分是飞机是狗的难度大很多。所以我们这里为了减轻训练难度,只取阅读最高的10%和最低的10%,即保留了文章数量,也保证了两者之间有足够的区分度。
再把前文中的原始数据属性搬出来,用于与前文分析的影响点击的认知模型关联起来,如下表所示:
需要注意原始数据中是有图**链接的,出于两个理由没有入选分析:
所以原始数据中,可以使用的有以下几个属性:
有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。
那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。
即使我们上面经过筛选,我们发现无论是日期,类型,身份,还是标题都是字符串数据,而阅读量量本身还需要转化成是否是爆款。所以本文做了如下处理:
Y值(预测结果):
X值(预测变量):
经过几天的数据调整和解析,终于将所有的特征数据化了。接下来则是准备开始训练啦~
XGBoost训练算法
XGBoost的全称是eXtreme Gradient Boosting。作为一个非常有效的机器学习方法,Boosting Tree是数据挖掘和机器学习中最常用的算法之一。
因为它效果好,对于输入要求不敏感,自动进行特征选择,模型可解释性较好。往往是从统计学家到数据科学家必备的工具之一,它同时也是kaggle比赛冠军选手最常用的工具。
在我们前面做了大量的准备工作后,真正调用算法来训练的代码其实是很少的。作为产品经理,我觉得大家还是应该都懂一些技术或者**一门编程语言,很多问题在网上搜索一下相关的教程都可以自己解决,而不用在遇到问题的时候等开发来解决。这里推荐学习Python3,上手难度低,适用于任何平台,编译速度也足够快等优点。
所以在文章本身这一块儿就不详细展开写了,如果需要查看本次整个数据分析的代码,点击查看,部分内容已经添加注释。
测试算法
训练好的模型在使用之前需要测试,来决定接下来的步骤是修正算法还是使用算法。根据配置xgboost参数,对一篇文章进行分析时**返回两个概率,爆款的概率P1,不**成为爆款的概率P2。
所以在验证的时候分别做了两种验证:
第一种, 当P1(爆款)& P2(非爆款)的概率时,预测这篇文章为爆款。但这里**有个问题是当P(**火)=0.51,P(不火)=0.49时,是一个很模糊的结果;
第二种, 当P1(爆款) & 0.8时,预测这篇文章为爆款。
以上两种同样对1771条测试数据进行测试时,分别有97.91%和94.64%的正确率,对于我来说,这个结果已经足够满足本文的分析目的。所以就不再进一步的优化了。
本文如此之高的预测正确率也是经过多次的模型修正和数据修整之后所得,记得第一次训练的结果正确率为5%,第二次修正后结果为1%。这个过程也不算是本文的重点就不再赘述。
如果是继续使用算法,我们可以拿新写的文章标题来做预测。而如果是写文章做分析,我们则可以分析相应的特征重要性,给出的投稿建议。
返回的数据模型中,有128个有效特征,不好做可视化展示,所以当前分析只截取前20的重要特征,如下图所示:
排名前20中,大量的特征都是跟标题直接相关的词性特征和语义依存特征。
词性特征好好查看,我们根据之前的的分类结果,把爆款文章的标题按词频统计,这样在未来取标题的时候可以做个参考,适当的添加一些点缀,比如:需求、报告、总结、管理等。
本次分析结果中的语义依存特征相当的朴实,排名靠前的都是用来丰富标题内容,增加标题阅读性的特征。
对比于常见的营销号标题党则是两个方向,标题党**有更丰富的主观情感特征,比如:果然,果真,横竖,究竟,势必,早晚,终归,终究,终于;有表示反常的:反,偏,倒,岂,竟,不料,倒是,反倒,反而,竟然,居然,难道等。
不难发现,前二十中,仅有r_平台运营
和c_业界动态
与标题没有直接关系,那是不是只有标题最重要呢?上图只是为了大家观看方便做的节选,从下图就可以看到各组的特征前三:
从上图中可以做出如下分析:
作为产品经理,每个同学都可以尝试着写篇文章投稿,这也算是你的一个个人独立的小产品了。
虽然本篇最后应该没有给出一个让人惊喜和意外的答案,但我想怎么通过数据分析来寻找一个答案的过程应该是说清楚了。
《数据分析实战|人人都是产品经理网站》三篇就到止为止了。简单回顾一下:
最后这里再补充几个本篇中没有处理好的点,避免误人子弟。希望大家能在工作中更加严谨一些。
作者:核桃壳,微信walnutshell911
本文由 @ 核桃壳 原创发布于人人都是产品经理。未经许可,禁止转载
题图来自网络