浅谈反垃圾策略:如何营造一个良好的内容环境?


时间: 2021-08-03 09:15:49 人气: 10 评论: 0

做UGC产品常碰见的难题是什么?那就是如何筛选与过滤垃圾信息,为社区塑造良好的产品调性与氛围,为用户提供良好的产品体验。本文中,笔者也结合了自己的思考,为我们介绍了信息发布的流程以及如何筛选垃圾信息的判断。

垃圾信息几乎是每个产品不可避免的问题,尤其是以UGC为主的产品。

如果无法对这群水军、营销者加以控制,那么不光产品本身氛围,甚至可能带来恶性循环。比如在一个社区里,充斥着大量低劣的广告,则新用户也很难提起兴致去参与讨论。

所以,本文主要来探讨在这种敌明我暗的互联网环境中,该如何反垃圾信息,拥护一个良好的环境,同时避免误伤到我们的真实用户。

一、什么是垃圾信息

在探讨反垃圾策略之前,我们先将互联网上的垃圾信息做下简单的归类。

1. 广告

最常见的必然是广告,只要我们的产品具有一定的用户量,那么必然像水果吸引苍蝇一样,引来不少各类营销者前来蹭流量。

他们通常**在评论区、弹幕、公屏等能够和他人交流的地方疯狂**屏。

2. 低质内容

因为太过广泛,所以这类信息其实我也不知该如何定义。

它可以理解为水贴,这类低质量的内容对用户没有什么吸引力,甚至泛滥的时候影响到了产品的内容生态、制度的公正性。

比如知乎里大量简短无意义的回答,豆瓣里被水军恶意差评过的电影等。

3. 违法信息

这类政治敏感、**等信息,不光对用户有所影响,甚至国家政策也在严控。若不能有效控制,则产品本身运营也存在风险,此前有不少APP就因此被关停整改了。

二、发布信息的流程

了解完何为垃圾信息后,我们再来看下这些信息是如何被生产出来的,以便思考该怎么样制定相应的策略防范它们的产生。

我们以一个最常见的发表评论为例:

如图所示,我画了一个相当简单的流程图:

第一步:用户触发

我们也可以称之为行为门槛,什么类型的用户才允许发表评论?

相信大家可能经常遇到这样的情况,当你看完一篇文章后,兴冲冲要发表点想法时,系统**冰冷地弹出一个窗口,让你先登录;而在登录之后,又要求你绑定手机号;绑定完后,还要等待注册时长满24小时……

诸如此类,越是成熟活跃的社区,它可能宁愿降低新用户的体验,也要保证新内容的质量。

第二步:撰写评论

可能不同的产品千差万别,但笼络地归纳起来,其实就是内容形式和限制条件。

评论内容是纯文字还是带图**?字数限制多少?图**最多允许几张?只有明确了用户将产生哪些信息,我们才能够有效地针对处理。

第三步:确认发表

这一步其实是继准入门槛之后的延伸,我把它称为内容门槛,可以对发表的评论先做一个简单的校验。

比如空内容、纯字符、大段重复等明显垃圾信息,我们可以将它拦截在这里,都无需进入审核。

第四步:评论审核

审核可以分**工、机器。

在评论量特别大的产品里,如果靠人在审核将是特别大的工作量,也很可能出现遗漏。而机器审核虽然效率高,却对一些经过包装粉饰的垃圾信息难以识别。

所以我们通常**选择两者结合,下面**进一步探讨。

第五步:展示/屏蔽

在经过重重机制之后,我们才最终得出结论:用户刚发布的这条评论是留是去。

补充一点,现在很多产品即便在判定此条评论为垃圾信息后,也不**简单粗暴地删除,而是选择对外隐藏,但对发布的用户还显示。

这样的做法当然并不是对垃圾信息的宽容,而是为了避免伤害到被误判的用户。

额外说明,在这个流程里举例是先审后发,但也有很多先发后审,或者像直播那种边审边播的场景,这里先不赘述。

三、该如何防范垃圾信息的产生

直到这里,我们可以开始探讨除了耗时耗力去逐一人工审核外,我们在产品逻辑、算法机制上如何应对这些垃圾信息吧。

我个人将反垃圾策略分为五个维度,如图所示:

1. 用户属性

顾名思义,用户属性其实就是我们这款产品对TA的一个身份定义,可以涵盖的有很多,比如:

  • 注册时长
  • 有无头像
  • 是否绑定了手机号
  • 是否充值消费过
  • ……

这些属性代表了这个用户在产品上的价值,也可以从侧面观测出TA是否真的在使用这款产品。

想也知道,那些为发广告而来的人肯定不**愿意投入太多精力在这些琐碎的过程上,所以,我们就可以在上面大做文章,比如需绑定了手机号的用户才能发布新内容等等。

同时,我们还可以建立白、黑名单机制,当某个用户频繁发垃圾信息或被举报后,我们可以禁止他再次发布内容。

2. 操作行为

根据数据观察,正常的用户和滥发垃圾信息的用户他们的操作行为有很大不同,而且有部分甚至是采用脚本或软件进行群发。

像那些发广告的人为追求效率,他们总是频繁地复制黏贴重复一个流程,每次发布新内容的时间间隔都很短,我们自然也可以在上面做相应限制。

比如,同一个设备号/IP/账号ID的用户在3分钟内最多发1条新的内容。

该如何制定这项相关的策略,其实在于我们对真、假用户的行为判定,你去想想哪些行为真的用户不屑于做,而假的用户又在频繁操作那么很快就**明白了。

像大家都知道,微信的安全策略特别高,经常封号,因为它**经常检测出那些具有频繁添加好友、地理位置不变/变动异常、时常群发等行为特质的违规用户进行处理。

3. 内容信息

通过检查内容本身来判定这条信息是否符合要求,是反垃圾中的一个最常见策略,也是机器算法不断在深入研究的一个方向,只可惜这项技术本身看着不错,但在实际应用时往往不尽如人意。

如果你曾做过防垃圾相关的工作,那么你**发现“上有政策、下有对策”。

中华汉字的文化博大精深,比如我们不希望内容信息里出现“公众号”这类带有引流特性的词语,那么很快就**衍生出“gongzhonghao”“厷众号”“gong众呺”这类夹杂着拼音、火星体的来替代。

而且这些垃圾信息在不断地被屏蔽、被封号中也在进化,广告越来越软,暗示越来越隐晦。

像淘宝在微信圈的分享文案一直是行业内的一个笑话,如果你作为微信的PM,让你去堵住这种信息,是不是也很头疼?

不过泼完冷水,我们还是要继续探讨下该用什么规则去判断这条内容信息能否过审?

我个人觉得主意有以下这两个维度:

(1)违禁词库

其实就是将所有不希望用户发布的内容穷举出来,比如“加微信”“招兼职”这类词语,当用户的内容中包括了这些词语,并达到了某个频率,我们可以将这条内容判定为垃圾信息。

(2)重复率

绝大多数情况中,垃圾信息并非偶例,而是成批出现;且因为那个用户的目的通常为一个,所以TA产生的内容**有所重复。

因为为了宣传效率,TA不太可能每次发布内容都重新编写一套话语。

所以我们通常可以将用户新发的内容将TA的历史记录做比较,若重复率极高且频繁,那TA可能正在制造大量的垃圾信息。

4. 大数据库

垃圾信息几乎是所有产品的深受其扰的问题之一,所以现在也有不少可供接入使用的反垃圾系统,它们的价值核心就在于有海量的大数据样本,且在不断扩充,对不同领域的垃圾信息都能很好的识别。

利用大数据的最大好处就是,全网共享信息,比如某个微信用户在平台A被禁了,那么平台B也能够知晓这个消息,对这个用户严防以待。

5. 抬高成本

因为垃圾信息是由人产生的,我们在看到表象的同时,也可以换个角度去思考这些人的动机。

比如说广告,一个微商为了卖出TA的产品,就希望引来客流关注,TA的动机是为了赚钱,而在发布广告信息时,TA其实也存在成本,精力和金钱。

我们规定必须绑定过手机号的用户才可以发内容,TA就需要多花两分钟去绑定;我们规定必须消费过的用户才可以点评,那TA就需要花一定的金额才能点评……

这些规定其实都是在提升滥发垃圾信息的人的成本,当TA在我们产品上发布成本大于所能获得的回报时,那么TA也没理由再继续这个行为了。

有一项应用在反垃圾邮件中比较有效的策略就是,当用户发送一封新邮件时,需要消耗TA的设备资源进行一些计算,这对于个人来说微不可察。但对于频繁发送垃圾邮件的人来说,将是不少负担。

当然,规定绝非越严越好,因为我们还得考虑正常用户,如果要求太严苛,将大多数用户拒之门外,也不是件好事。

四、举个实例

讲完枯燥的**,最后举个例子吧。

以《**阅读》产品为例,根据书籍的评论区这一功能,我们该如何防止垃圾评论的产生?

首先,还是基于原来画的那个简单的流程图,然后运用上述策略做扩展。

用户触发 – 撰写评论 – 确认发表 – 评论审核 – 展示/屏蔽

1. 首先是用户触发的门槛。为了保证多数用户的体验,可以先做个用户分群,因为垃圾信息通常是由新用户产生,所以在发布评论上,新用户的要求将比老用户更高,比如:

2. 其次,在撰写评论时,我们可以对用户做一些基本的约束,比如:

3. 然后,在确认发表时,我们需判断下是否让用户发表,进入下一流程,在这个流程上其实也可以宽松一些,比如只判断正文内容是否为空。

4. 接下来,可以调下原流程图的顺序,将原来的先审后发改为先发后审。

因为这样能够让用户发表完成后,即时看到TA的内容,体验更佳。但为了防止垃圾信息对别的用户造成影响,所以可以在此之间加入一条规则——用户发表后的内容在初次审核之前,暂时只对TA自己可见。

也就是说,当用户写了一条书评后,当TA点下“发表”,就立刻能在信息流里看到;但这个书评在未审核完成前,除TA之外的人是看不到的。

这种做法两边兼顾,既给了用户良好的反馈又防止了垃圾信息带来的影响。

5. 而审核方面,可以同时接入人工和机器审核。其实第4步所说的初审核,也是机器审核,只要初略判断用户发布的评论没大问题,就可以对外开放给其他人。机器审核的耗时较短,可能用户都不**察觉到。

6. 同时,因为考虑到人工审核是件极费人力的事情,可以再加入举报机制、黑名单机制,来帮助运营人员更快的去处理垃圾信息。

最后,附上一个完整的流程图,以便更好的理解。

关于反垃圾策略,暂时就只探讨这么多,毕竟个人经验有限,还希望对大家能有所帮助。

另外,其实上文中很多内容其实针对都是广告类的垃圾信息,并不适用于低质内容。

而在一个产品中如何提升UGC的内容质量,应该是另一套策略了。比如,定下产品调性、引入核心用户、激励政策、内容再传播等,希望有机**再一起探讨。

 

本文由 @猫丸 原创发布于人人都是产品经理。未经许可,禁止转载。

题图来自Unsplash,基于CC0协议

给作者打赏,鼓励TA抓紧创作!
---蛙鱼源码WAYUYM.COM---专业提供网站模板,网站源码下载,教程培训,程序插件,网站素材等建站资源,主要收集各类精品源码资源,包含CMS程序模板、网站源码、游戏源码、APP源码等 ,所有资源都没有水印适合搬运,我们致力于打造一个优秀的建站资源共享学习平台!

专业厂家,设备先进,技术力量雄厚,自动化生产技术先进,产品质量符合国家标准,价格合理,https://www.69shenlan.com/,具有质量保证,生产及时,交货快捷的特点。 我们的宗旨:做我们擅长的事,希望用我们的创意和创意为客户实现战略定位,塑造品牌,强化形象!
我们的要求:坚持“优质产品、优质服务、优惠价格、快速交货”的经营方针,努力开拓市场,真诚为客户服务! 我们的发展:以独特的专业和专业精神,https://www.69shenlan.com/1:1--

2年

评论