时间: 2021-07-30 09:14:47 人气: 16 评论: 0
最近放假闲来无事,自学Python爬虫技术,而又一年即将结束,便想回顾2018这一年产品人都在关注什么?于是爬取了人人都是产品经理的网站数据,看看能不能在其中发现一些有趣的东西。Enjoy~
人人都是产品经理网站(以下简称“人人”)是互联网产品经理和运营人的学习社群,于是选择爬取人人的网站数据用来分析。笔者爬取了2018年2月到2019年1月的文章发表和阅读数据,从作者和读者两个视角进行分析。
前期准备主要是数据的爬取和清洗,爬取了文章标题、阅读量、评论数、收藏量、评论数和发表时间等字段。再确定分析的目的来确定问题分析的框架,最后针对框架中的问题进行数据可视化和撰写分析报告。
为了避免爬虫对网站服务器造成负担,笔者已经在上述链接网页中已经上传所有爬取的数据,大家要数据的可以直接下载,避免大规模爬取。
本次分析的文章时间是从2018年2月到2019年1月,从作者发表文章和读者阅读两个视角进行分析。
从爬取到的数据中选择文章标题字段,按照月份为单位,提取每个月文章标题的关键字,从而得到不同月份的文章话题,也可以从中看看2018年的互联网热点变化。(进行分析的数据截取了每个月前10高频率的关键词)
关键词频率图,按照颜色深浅(方块上的数字是频数)突出词频
从以上的统计分析图可以看出文章的话题集中度:
在人人都是产品经理网站的文章中除了有关产品和运营相关内容和核心技能的分享和讨论外,作者也紧跟互联网热点问题展开讨论。
了解了作者们都在写什么话题的文章之后,我们再看看大家都在什么时候发文章呢??
(不同颜色的面积代表星期为单位的文章数量,月份对应的高度代表月份为单位的文章数量)
在月份方面,除了在2月处于中国农历春节,文章数量明显较少,春节假期过后,文章的数量明显低提高。上半年一直到8月份,文章数量在逐步地增加,特别是7、8月份明显提升,可能是因为上班族上半年的工作压力较小,能有更多有空的时间写文章,7、8月有可能部分学生放假后也能有时间写文章,这部分因为没有网站的具体用户画像,所以没有能准确的数据说明。可能是下半年的工作压力更大,文章的数量逐渐减少。
在星期方面,看每种颜色的面积,基本上符合正常的规律,星期六、日的数量相较于工作日的数量减少。在工作日中星期一到星期五,文章的数量逐渐减少。基本上是上班和上学的作息规律相同。
文章质量的指数与阅读量、收藏数、点**量和讨论数息息相关,要称得上是一篇质量好的文章,并不能仅仅从阅读量一个维度来看;为了杜绝出现标题党的可能,我需要重新定义以一个指数来衡量文章的质量,暂且称之为“干货指数”。
干货指数=(点**数+收藏数)/阅读量
由于“干货指数”除出来的数值最后很小,为了方便比较和观察,可视化的时候同时将数据扩大了1000倍。
上图是所有文章的“干货指数”(以下称指数)分布情况,通常情况下,指数越高代表的文章质量越高。
只有15%的文章指数大于15,这些文章的有较好的质量;一半左右的文章指数在5-15之间,收藏和点**数都比较正常;但是有将近38%的文章指数在5以下,这里部分文章可能存在标题文的情况,需要进一步提高网站文章的质量。
以下是“干货指数”前10的文章列表:
这类文章聚焦于真实行业中的产品设计方法和产品核心技能,文章的内容具有实际操作意义,成为大家收藏和点**的对象。大家也可以搜索一下这些文章用于学习提高产品能力。
上面从作者的视角汇总了作者们关注的话题、作者发表文章的时间和高质量文章的情况,下面我们从读者的视角来看读者们偏爱阅读哪类文章呢?
(上半部分图表,高度代表浏览量,颜色深浅代表收藏量,宽度代表点**数;下半部分图表高度代表文章数量)
通过和上下两个图表对比,我们可以得出:
前面我们分析了作者都在什么时间发表文章,下面我们来看看读者阅读的时间段和发表有没有相照应呢?
(高度代表阅读量,颜色深浅表示不同指数)
与作者发表文章相同,星期六、日相较于阅读的数量相较于工作日有明显减少。在阅读量方面,星期一的阅读量最高,一直到星期五数量一直明显逐渐下降。收藏量、点**数和评论量的趋势与浏览量大致相同。在星期一的时间大家有更多的时间阅读,互动的欲望也更高。
(图表中的点代表文章,横轴为文章点**量,纵轴为收藏量,颜色深浅为阅读量)
消费者的阅读行为主要从点**数、收藏量和讨论数量几个指数来分析。一般情况下,读者认为文章的干货足,所讲的内容更有实用价值,就**收藏文章;对于一些精彩、轻便和易阅读的文章,更容易点**。从上图中点的分布情况,大多数点分布趋向于Y轴(收藏量),读者收藏的行为要高于点**。
从上面各类型文章的数量也可以看出,产品设计、产品运营和产品经理核心技能类的文章数量确实很多,能够为读者带来一些收获。
下面看看收藏量、点**数和评论数前10的文章,看看读者更偏好那类型的文章:
从收藏量的前10文章类型来看,Prd文档、原型设计、需求文档和技术知识占据了绝大部分,这些知识都是作为产品经理需要掌握的做基础的技能。
大家也可以去网站中搜索这些文章,对需要入门产品经理的同学**有一定的帮助。
在点**数前10的文章中,除了高质量的产品分析文章之外,比较有趣的内容获得大家的青睐,例如《数据挖掘实操|用文本挖掘剖析近5000首《全唐诗》》、《高能,如何用互联网思维卖包子》等,文章内容有趣、容易阅读、能够在短时间内吸引读者的眼球。
找到评论数前10的文章后,笔者阅读这些文章的评论内容,发现大部分评论是向作者留言要Prd文档资料之类的,并没有进行有关文章内容的有效讨论。
像《拼多多现象的原罪是什么?》具有“争议性”话题的文章能够吸引读者的讨论。但是总体来说,这种有效的讨论并不是非常多。
笔者另外浏览了以下网站的另外一个模块——热门讨论,大家**在这个模块里面讨论一些时效性、具有“争议性”的话题,这可能也使读者用户更习惯在热门讨论区分享观点。
总之,更具有阅读性和有趣性的文章能够获得大家的点**;更有干货和实用技能的文章,大家更**收藏用于今后的学习。
总体来说,从网站整体点**和收藏量来看,读者收藏的行为多于点**行为,大部分文章都很有干货。
本篇文章通过对作者投稿的类型、时间、质量和读者阅读的类型、时间、阅读行为偏好地分析,挖掘其中还存在需求的文章类型,利用数据分析给作者投稿、读者阅读学习和网站文章推送给予一些指导意见。
本人刚开始学习爬虫和数据分析,如果有分析不对或有更好的观点补充,欢迎讨论或私信。
最后,希望通过这篇文章可以帮助大家回顾2018,给大家2019的工作学习能够给予一些帮助。
祝大家新年快乐!
本文由 @xunkhun 原创发布于人人都是产品经理,未经许可,禁止转载
题图来自 Unsplash,基于 CC0 协议