时间: 2021-07-30 11:12:39 人气: 5 评论: 0
即使是像知乎这样的高质量用户云集的社群,依然遍地都是『小透明』,他们只关注极少的人,他们只看很少的问题,他们并不提问、他们也并不回答、他们甚至不发出任何声音;即使发出了,也只有少数人才能听到。
经历了最新的D轮融资,知乎已经成为了估值10亿美金的独角兽。这个以高质量用户称著的互联网中文社区究竟有什么样的独特基因呢?
我们最近花了一点时间,对知乎的核心用户进行了抽样的数据分析和研究。
首先,我们不想建立庞大的爬虫系统和数据库对知乎全网用户进行分析,这样必然涉及到大量的清洗和剔除僵尸用户的工作,时间成本**很高。
那有什么简单有效的抽样方法吗?
当然有:收藏夹关注者。
我们知道,收藏夹是知乎通过用户进行知识分发的重要途径;很多重要收藏夹的创建者并不是大V,这使得知识可以通过非重要节点进行更有效的传递;与此同时,收藏夹的关注是用户的完全主动行为。这两点天然地保证了我们的研究样本基本上可视为非僵尸的具有主动意愿的核心用户。
我们从关注人数**过1万的知乎收藏夹中选取了不同类型的六个收藏夹,其总关注者约为20万人:我们整理了他们公开在其主页上的个人信息(关注、被关注、提问、回答、学校、地域等)。根据这些数据,我们可以对这些内容分类导向的知乎用户进行了一些小分析。
对了,这六个收藏夹及其对应的内容类型是这样的:
我们来看看这些知乎核心用户都有什么特征吧。
有21.8%的知友填写了“居住地”一栏。在去掉了诸如“艾泽拉斯”、“出门右拐”等神奇的地点、并在省级行政单元上汇总后,我们得到了知友在全国的地域分布情况;由于每个省市的人口基数相差极大,因此我们再将核心用户抽样数量除以2015年末的常住人口数量,就可以得到知乎在全国各省的用户密度。结果如下图所示:
可以看到,无论从知友数量还是知友密度来看,北京、广东、上海都包揽了前三。大多数地区的知友数量和知友密度排名都有3位以上的波动,尤以天津、河南、山东等地区的差异最大(注:澳门、青海等地的排名巨大变动可能是受到样本量较小的影响)。
有23.3%的知友填写了“行业”这一栏。我们将知乎的14个行业大类与全国第三次经济普查的行业分类进行了匹配(进行了一些合并和删除处理),用于计算各个行业的知友密度。结果如下图所示:
可以看到,从密度上看, “高新科技+信息传媒”以绝对优势居知友数量的第一位,“金融”紧随其后。
知乎在科技、传媒、金融行业中的渗透程度远**其他行业。
有趣的是,知友数量居第三位的“制造加工”,密度只排在第九位;知友数量居第九位的 “艺术娱乐”,密度却排到了第三位。服务业VS医疗服务、公共服务VS教育之间,也存在类似的排位对调现象。
了解了各个行业的知乎渗透度