时间: 2021-07-30 10:56:38 人气: 13 评论: 0
干货满满的上篇,不仅仅是一篇数据分析,相信你将对人人都是产品经理的网站和发展**有新认识,欢迎指导交流~
看了几年的人人都是产品经理(以下本文中简称人人),从来只是个看客和学习者。最近因为比较闲,也在总结这几年来的工作心得。近一个月前终于有了第一次投稿,如何通过小程序和微信社群来构建产品运营体系?上过人人的微信头条,每天都能有几个新的订阅用户,这些都在告诉在我这一点付出还是能够帮助到其他人的。
但我一直很好奇它具体在人人的过往文章中到底是个什么水平,我心里没有底。所以出于好奇,就有了这次数据分析的探索之旅。
学过数据分析的同学肯定在最开始都有这样的体**,手中有了锤子,看什么都像钉子。所以好久没做数据分析,手痒一下子抓取并分析了一大堆数据,远远**过了最初的目的。
所以开始构思如何写这篇文章的时候,做了如下思考:
综合考虑以上问题和文章篇幅后,大致拟出如下图所示框架:
这是两个角度,三种角色的基本思考,而本篇则**由左边开始,下篇**讲右边。
基本的数据分析工具就如下图所示:
因为不是写教程,而且过程也很简单,这里只是简单的提一下。使用Python写一个For循环请求网站的一个分页加载接口,就能够获得所有的网站文章数据(Json格式),再将所有的Json数据合并整理成相应的列表。
其中接口返回的原始数据项比较丰富,选取其中比较有价值和便于分析的,如下表示:
在获得数据后,第一时间就先看看整体的数据情况。时间有限就不去做些漂亮可视画展示啦,总览数据就如下表所示:
只看以上数据,我上一篇的数据无论是5K的阅读量还是收藏点**都还没有达到平均值,离好文章都还有一些距离,这组数据能解决我的基本困惑。但对于整体的运营情况和前文提出的一些分析目标来说还远远不够,所以还需要后文的深入分析。
了解以上,让我们正式开始。
初步分析人人主站的主要业务逻辑如下图所示。
再根据实际的数据情况,并没有直接的读者UV数据,所以仅对以下两条业务线进行分析:
相信大家在看数据总览中能看到,投稿作者的身份多达23种,依次是:站长、运营小编、官方、专栏作家、运营小哥、运营小妹、普通用户、设计小妹、运营、合作媒体、编辑、作者、萌妹子、主编、女神、男神2、临时工、特邀作者、运营哥、美少女、CV工程师、合作出版社、小编妹妹。
是不是眼花缭乱,群魔乱舞?
这里我根据后面的实际情况对相应的身份进行了些合并。
所以这里需要吐槽和需要改进的自然就是平台运营小编们对自己的角色定位了,只从命名上看得出来应该是后台的管理有些混乱,最初来一个新人就想当然的给了自己一个title。或者说人人当初有自己的培养明细写手的打算,所以预留了一些特殊的职位和身份?
OK,吐槽完作者身份后,进入到第一个问题。那就是人人上面的文章都是从哪儿来的,或者说是谁投的稿?
在对作者身份进行合并后,如下图所示的是2012~2018年,投稿数量分布热力图:
这里不仅对各时期的投稿主力看得很清楚,甚至可以清晰看到人人的主业务搭建过程:
整体来看,之前说的主业务体系目前应该是比较稳定且完整的。2018年的数据目前还不好说,但专栏作家的流失的趋势有点明显,可能需要一些激励计划。
从内容生产的角度来说,普通用户和专栏作家投稿属于UGC内容,平台运营内容属于PGC内容。PGC内容可以根据团队运营的情况来调整,而UGC内容则需要通过适当的激励手段来保持。
而且之前在数据总览中能看到这样一组数据:
如此大的偏差值,能够多次投稿的用户数量并不多,而实际的情况也如下图所示(仅普通用户和专栏作家):
那么在普通的吃瓜群从中,加了V的专栏作家是否真的有做出比普通用户更多的投稿呢?
为了接下来的分析和数据展示,将对用户的投稿数量做了出以下分组:
再加上投稿作者的身份,结果如下图所示:
虽然有些不完美,但确实是20%的用户解决了80%的问题。
最后我们来看一看用户喜欢投哪些类型的稿件,普通用户的投稿一般是兴趣始然,或者是来自自己的工作内容的总结、经验分享。所以这个分析将将可能得出产品经理们的能力变化和工作变化。
从左往右按年份来看:
不过这个分类是人人运营自己做的,很明显还是有些问题。分类来得有些晚,至少热点已经过了,或者因为没有分类可以选就在一些大项里凑合一下,将**造成文章索引困难,值得优化一下。
网站上有了内容,那就需要看看这些内容所能够带来的收益。与很多实时类的新闻不同点在于,人人是个比较专业又垂直的网站,里面的内容是**沉淀的,即使是几年前的文章也**被用户找出来进行查阅,而且有相当多的引导和内容聚合,可以将新用户直接导入到有价值的老文章上来。
所以需要注意,在接下来的文章收益里的几个数据:阅读、点**、收藏和评论都是一个累积量,不能当做PV和UV来进行参考。
有了之前对数据的说明和理解,这里将要计算的是各时间点下,不同分类的文章对阅读量的收益是如何分布的。对于网站来说,历史内容也是可以增加点击量的,而不时间的最终阅读量均值。
如下图所示:
(1)2018年,除了招聘信息,所有类型的文章的阅读量都比之前低,有以下几种可能:
具体是哪种,可能还需要直接从管理后台查看日活,月活比较说明问题。
(2)对于平台来说,只要能吸引到用户和点击量就是好内容,从上图中显而易见的:干货下载和原型设计这两个入门级的分类文章始终是最能吸引用户点击的,这种历史内容实际只能通过搜索来反馈,可以更突出一点。
(3)AI人工智能,区块链这些新技术的阅读量都出现了大量的下滑,说明大家对这些新领域并不看好。而还有很多新的发展趋势却没有体现出来,有点可惜,这一点之前已经提过了。
刚刚Q4的分析中,仅是从阅读量均值来查看。但有经验的同学肯定知道,很多标题党也可以直接收获不错的点击。所以接下来这里我们需要更严格一点,将阅读、点**、收藏、评论都放在一起进行考量。
这里再具体看一下相关的统计数据:
数值上的差距还是相当大,所以这里我们为了统计和展示方便,做了以下数据处理:
结果如下图所示:其中四条线是取值为[0,1]之间的比例,为了不与下方的投稿量过于干扰进行了放大处理,下面的bars则是当月的投稿数量。需要解释一下的是,因为高质量的文章并没有统一标准,所以这里并没有对数据进行合并,而采取的是人工观察和感性分析。
最左边的一条并不是数据出错了,而是早期站长批量导入,然后之前一直没提的就是整体投稿量一直呈现上升趋势。
高阅读量却没有相应的点**和收藏,所以这里从2015年3月和4月取几个标题,大家感受一下:
2016年1~3月则是有大量读者需要的部分,大致逻辑为首页或者近期没有用户需要的,特别是新入门的产品经理,**比较急于想要找到自己想要的,所以**使用到搜索功能,然后小白的大量相似需求**推高相应的结果,而且为了之后的阅读查找,优先点击收藏。
2016年10月的投稿量不多,但似乎文章质量普遍很好,如果是取四个值的均值来看也是全期最高的。之后新文章的数据**受到时间的影响,但整体文章质量趋于稳定,高阅读量的文章**带来高**和收藏,而新读者从评论的角度上来说更活跃一些。
根据之前的两条业务线的分析:首先由作者与投稿,其次是投稿与收益之间还能建立一条分析,最后就是作者与收益。
这里限于篇幅就只做一下整体的统计,来查看核心业务逻辑是否稳定,与之前图上的单位不同的是,下方的热力图的单位是万。
首先,可以看到,到现在2018年的时候,UGC内容带来的用户点击已经远远**过PGC内容,而且历年所有的UGC内容也已经**过PGC内容,这对内容生产的稳定发展有了基础。
其次,虽然此页面上的内容并不能直接代表网站流量,但根据2016~2018年的整体数据,可以给出以下两种解释:
以上便是本次分析的上半场,那么在之后将**是读者篇和作者篇,请大家敬请期待。
如果有数据分析大神希望可以给一些指点和建议,非常感谢。
本文由 @ 核桃壳 原创发布于人人都是产品经理。未经许可,禁止转载
题图来自 Pixabay,基于 CC0 协议