时间: 2021-08-03 10:26:28 人气: 11 评论: 0
**社区在今年5月份陷入关站风波,把它再一次推到风口浪尖上。然而风波过后,该怎样还是怎样,这可能印证一句话“不管你是谁,都无法抹杀本能。”本项目是基于“使用PHP语言对网络数据进行采集与分析”的一次实验。可视化结果不包含淫秽**信息,营造健康上网环境从你我做起!
从 8537条主题信息中总共提取出了 576个用户,三个月中平均每个用户发表 14.8篇主题 排名第一的用户发帖数量更是达到了276篇。猜测一下,看来所有的网站都需要一部分活(ban)跃(yun)用(gong)户充实内容啊。 这里面真正的原创帖的比例能占到多少已经不重要了,内容才是王道!!
当我码完这段js代码**新浏览器查看结果的时候,整个人都不好了!!城**玩!城**玩啊!大家看排名第1和第6的关键词(女友,自拍,少妇,身材,情人,老婆), 把和自己女朋友、老婆XXOO的照**分享出来真的那么好玩儿么。另外,让我们回归到小学语文课,来,请用以上关键词造句…… 你用上面的词组成的句子就是发帖者们所热衷的事情…
可能只看这一张图是没有很大的代表性的,表面上只能看出从8月份开始主题新增数量开始大步的上涨,什么原因导致的呢, 过一**在下面看到用户新增情况图的时候就**恍然大悟,对,大量新用户的加入。
这张图代表的是11250个用户账号分别是那一年注册的,可以看出2007-2010年和2011-2014年这两个时间段相对数量还是 比较平均的,50.6%的用户是在今年注册的,难道今年大范围的开放注册了?
这张折线图和上面的那张基本展示的信息是类似的,分类精确到每个月。
从128841个图**url中提取出来的图**网**,ihostimg.com 毫无疑问遥遥领先,难道这是CL的副业?这之间到底有什么 千丝万缕的联系我先不瞎猜了,感兴趣的朋友可以自己想办法再去了解(不用梯子也可以访问!)。
另外,大家注意排名倒数第二的图**网**, sinaimg,对,就是你知道的那个新浪,sinaimg是新浪旗下的开放云存储服务, 地址在这 “新浪作为国内10多年领先掌握全国最先进的全分布式系统架构和存储技术之一的公司,为你的 XXOO私密照**存储提供一站式解决方案” 233333
**上说,只要是网站继续正常运营下去,且无论统计哪个时间段,这个图**一直保持这个状态,统计数据的基础是11250个 账号的最后一次的登陆时间,每次登陆都**用新的覆盖旧的,右边的顶点越高代表了用户重复登陆的次数越多,网站的运营越正常。
130704条回复帖的时间段分布情况,从8月份开始互动明显越来越多。单独看意义不大,只能看到最近互动增多,但是通过与 每日主题发表数量和新增用户图放在一起看,这三个趋势是成正比的,注册用户增多导致新增主题帖增多,不断的新内容产生带动了论坛的 活跃度,从而产生了更多的互动回复内容。
这张图的数据是从13074条回帖时间统计出来的,其实这张图的最终结果和我预计的还是有挺大差距的,原本我以为用户 访问的高峰期**是晚上的9点-12点,而真实的用户在线高峰期顶点确是上午的10点,10点不是大家刚刚开始投入工作的时间么。(OMG,我发现了什么)
忘记了从哪里看到过一句话:“互联网上没有垃圾信息,只有放错位置的资源”,web数据挖掘方面还是很值得研究的,开发语言也没有优劣, 用自己最熟悉的语言去解决问题就是最好的实现方式。先解决问题,再优化过程,结果最重要!此次试验仅仅针对CL的一个版块进行了表面数据 的分析,我相信,如果更用心的话还能分析出更多的其他东西。比如:将采集到的10几万张图**下载下来,是不是可以作为图像识别系统识别**图**的 训练素材?我只是采集了注册用户的用户名、注册时间、最后登陆时间等有限的几个字段,如果把用户在论坛内的等级、贡献值、回帖数量等信息也采集下来 结合其他字段进行加工和分析是不是能得出更多的有意义的结论呢?
在线版地址:http://1024data.sinaapp.com
作者简介:李焕朋,非全职开发者,开源社区文化爱好者。招标行业从业人员,业余时间喜欢研究unix系统和web数据挖掘。
来源:http://1024data.sinaapp.com