时间: 2021-08-03 09:38:25 人气: 41 评论: 0
从《纸牌屋》开始,Netflix越来越多地进入国人的视线中。关于它的用户推荐系统、“大数据分析”等等神话和传说也有不少,本文是我在查找了一些资料后,整理出来的Netflix的推荐思路和一些方法。太过技术的算法内容实在是hold不住,因此仅从逻辑上进行说明。一来整理自己的思路,二来尽可能学习些东西,分享出来欢迎各位讨论。
回顾历史,Netflix是一家典型的提前布局等风来的公司。
1997年8月,在DVD机仅推出几个月后,Reed Hasting和Marc Randolph创立了Netflix,并在1998年3月上线了全球第一家线上DVD租赁商店。以仅30名雇员拿下了925部电影,这几乎是当时所有的DVD电影存量。
1999年他们推出了全新的按月订阅的模式,用户第一次有机**享受到没有过期罚款、没有运费、手续费等等一系列烦人的东西的服务。相比Netflix之前使用的单部电影租赁的方式,新模式对用户更加友好,于是Netflix凭借着这个模式迅速在行业里建立起了口碑,老旧的单部影**租赁模式也于2000年寿终正寝。
随后的2001年,由于DVD机售价越来越低,成为当年圣诞节成为最受欢迎的礼物之一,Netflix也在2002年坐上了这趟快车,用户量得到了巨幅增长。这是Netflix创立四年迎来的第一个风口,现在看来不得不感叹其眼光之独到。
2005年,他们发现尽管没有高清内容,但Youtube的流媒体服务(可简单理解为在线播放)仍然十分受欢迎,于是放弃了自己的硬件产品Netflix Box转入其中,于2007年上线了流媒体服务。而随着日后网络带宽的提升和费用的降低,占据了先发优势的Netflix又一次收获了巨大增长。
2006年,一项名为Netflix Prize的算法大赛横空出世,Netflix拿出100万美元奖金让开发者们为他们的优化电影推荐算法。截至2012年第四季度,Netflix已在全球拥有2940万订阅用户。
2012年,Netflix开始尝试自制内容,并于2013年推出《纸牌屋》,高**的内容质量和一次放出整季内容的发行方式,让它瞬间风靡全球。
今年4月,Netflix的全球订阅用户达到1.25亿,服务**过190个国家和地区。截至今日,它的市值**越迪士尼成为全球互联网企业排名第六的公司。
回顾Netflix这21年的历史,似乎每一次转型的时机和方向都是如此准确,以至于有些“自然而然”地达成今天的高度。然而如果我们透过现象看本质,从万变中找不变的话,有一件事一定**被提到——个性化推荐。甚至可以说,“个性化推荐”就像Netflix自制的鼓风机,第三个风口是他们自己造出来的。
没有明确的资料说明Netflix在做邮寄租赁DVD的时候有没有推荐机制。但他们确实从最开始的时候,就十分重视数据,并开始收集用户数据了:他们**在邮寄的信封里附上问卷让用户给电影打分。这些打分数据是之后Netflix推荐系统的重要基石之一。
“个性化推荐”一直都是Netflix的杀手锏,数据积累和算法研发的提前让它在这方面几乎是不可被**越的,时至今日用户在Netflix上观看的80%内容都是由推荐而来的。
Netflix的推荐系统之所以能够如此高效地达成目标,我认为最大的理由是他们教**了“让机器懂电影”。在一篇名叫<How Netflix Reverse Engineerd Hollywood>的文章中(由Alexis C. Madrigal于2014年发表)。作者从Netflix的推荐分类出发,解说了他们是如何解构好莱坞进而去给用户做推荐系统的。
在Netflix的首页中你**看到一行一行的电影,每一行是一个分类,官方叫它altgenre,或者说“微分类”,每个分类中是一系列的电影。这些分类和电影都是为你量身推荐的。
在这些分类中有一些非常精准、十分有意思的标题:情感充沛的反体制纪录**(Emotional Fight-the-System Documentaries)、基于事实的皇室掠影(Period Pieces About Royalty Based on Real Life)、80年代的外国邪恶电影(Foreign Satanic Stories from the 1980s)。
那么这些类型是怎么来的呢,作者Alexis做了一件很绝的事情:
他把Netflix的所有分类全爬了下来,共有76897个分类之多。并且将这些分类的用词和语法做了深入分析,还自己开发了一个“类型生成器”,生成出了和Netflix类似的结果。他甚至给出了公式:地区+形容词+类型+故事基础+拍摄地+时代+关于(什么的内容)+适合年龄段(Region… + Adjectives… + Noun Genre… + Based On… + Set In… + From the… + About… + For Age X to Y)。
但看到这里,我们只是看到了Netflix解构好莱坞的结果,那么这一切是从哪里开始的呢?
2006年,Netflix产品副总裁Todd Yellin带领一票工程师用数月时间写了一份长达24页的名为《Netflix量子论》(Netflix Quantum Theory)的文档。专门讲述如何用“微标签”(microtag)拆解电影。
这份文档的目的是作为训练手册,让不同的人对微标签有同样的理解,以保证能够系统性地、标准统一地解构上千部电影。如今这份手册已经扩展到了36页。
这份36页的训练手册讲述了如何给一部影**的性暗示内容、血腥程度、浪漫等级、甚至情节总结等元素评级。文档还解释了如何给影**结局打标签、给主要演员的“社**接受度”打标签、给每部影**的浪漫程度打标签,更重要的是,每个标签都有从1到5的评级。
以《**胆侠》电影为例,标签**包括“四个主要角色”,至于其中Matt Murdock这个角色,**有演员名、角色名、他很“英雄”(heroic)、是个律师等等。
Netflix就是用这样的方式,解构了几乎所有的电影,用精细、准确的微标签和评级教**推荐系统去认识电影、解读电影。
更令人称道的是,给Netflix打标签真的是一份工作。Netflix组建了一只团队,付钱让他们看电影同时给这些电影打上标签。有好事的媒体采访到了一位“标签员”(tagger),让他讲述给Netflix打标签是一种什么样的体验,十分有意思。
2012年前后,Netflix的推荐系统经历了一次重大的策略变化,官方技术博客以名为<Netflix Recommendations: Beyond the 5 stars>的文章(分为1、2两部分)阐述了这种变化的前因后果:
在邮寄租赁DVD的时代,Netflix能够获得用户的评分,但是用户观看电影的过程对平台是隐形的。但是随着流媒体业务的开展,Netflix终于有机**看到用户的更多方面。于是他们认识到:
“Everything is a Recommendation.”——一切都是推荐。
由这一想法催生出的,是更加细致、深入的用户推荐。
Netflix的官方文档中把自己称为“幸运”,因为他们有大量的相关数据和能够把这些数据应用到产品中的人才。
以下是Netflix用来优化推荐系统的数据源:
除了和影**相关的数据外,用户数据是Netflix推荐系统的另一重要基石。
转型流媒体后,用户的所有行为全部在平台内完成,这给了Netflix观察用户的绝佳环境,他们不仅仅知道用户看过什么,甚至知道他们是怎么看的:什么时候看的,看了多长时间,在哪里暂停,在哪里反复,在哪里关闭等等,这些行为数据无一不是用户喜好的体现。
通过分析这些行为数据,和解构好莱坞得来的影**数据进行匹配,让Netflix的推荐精度越发准确。
去年Netflix推出了一项新的推荐功能:个性化海报推荐,具体来说就是“不同的用户看到的同一个电影的推荐海报是不一样的”。如果你喜欢动作戏,则可能你看到的海报是**中的打斗场面,如果你喜欢**中某个主演,那么你看到的是以他为主角的海报。
这一功能的源头同样是对电影内容和用户喜好的解读。认为地去创造更多的“一见钟情”,进一步提高了推荐系统的效率。
1.从官方文档透露中的信息来看,长久以来Netflix虽然对算法十分依赖,但也意识到它的不足,这种不足可能是所有的算法都躲不开的——“越推荐越相似”。因此Netflix的算法中十分关注“不同”(adversity)。新奇、多样性、新鲜度,都是推荐中考虑的因素。
尽力帮用户去“发现”兴趣,这也是Netflix的推荐目标之一。
2.关于前边提到的个性化海报推荐,官方特别地说明了对它的担忧:不希望它变成“骗”用户看电影的功能,也就是说要尽力把这个功能控制在一个度里,说白了就是不“标题党”,为了让用户去看某个电影而强行用海报勾引他。
就在我写这篇文章的前几天,Netflix又做出了两个重要改变:1. 把五星评价系统改为“喜欢/不喜欢”的评价系统;2. 取消了影**下的评论功能。
关于这两个改变网上有些解读,但我还没想清楚,就不追这个热点了。
关于Netflix可说的还有很多,最近他们还推出了另一个官方博客:Netflix Research,加上原有的the Netflix Tech Blog,有兴趣的各位可以关注一下。
参考资料:
作者:Shady,微信公众号:ShadyDesign
本文由 @Shady 原创发布于人人都是产品经理。未经许可,禁止转载
题图来自 Unsplash ,基于 CC0 协议