Netflix，为何能成为个性化推荐的王者？

时间: 2021-08-03 09:38:25 人气: 41 评论: 0

从《纸牌屋》开始，Netflix越来越多地进入国人的视线中。关于它的用户推荐系统、“大数据分析”等等神话和传说也有不少，本文是我在查找了一些资料后，整理出来的Netflix的推荐思路和一些方法。太过技术的算法内容实在是hold不住，因此仅从逻辑上进行说明。一来整理自己的思路，二来尽可能学习些东西，分享出来欢迎各位讨论。

一、坐等风来

回顾历史，Netflix是一家典型的提前布局等风来的公司。

1997年8月，在DVD机仅推出几个月后，Reed Hasting和Marc Randolph创立了Netflix，并在1998年3月上线了全球第一家线上DVD租赁商店。以仅30名雇员拿下了925部电影，这几乎是当时所有的DVD电影存量。

1999年他们推出了全新的按月订阅的模式，用户第一次有机**享受到没有过期罚款、没有运费、手续费等等一系列烦人的东西的服务。相比Netflix之前使用的单部电影租赁的方式，新模式对用户更加友好，于是Netflix凭借着这个模式迅速在行业里建立起了口碑，老旧的单部影**租赁模式也于2000年寿终正寝。

随后的2001年，由于DVD机售价越来越低，成为当年圣诞节成为最受欢迎的礼物之一，Netflix也在2002年坐上了这趟快车，用户量得到了巨幅增长。这是Netflix创立四年迎来的第一个风口，现在看来不得不感叹其眼光之独到。

2005年，他们发现尽管没有高清内容，但Youtube的流媒体服务（可简单理解为在线播放）仍然十分受欢迎，于是放弃了自己的硬件产品Netflix Box转入其中，于2007年上线了流媒体服务。而随着日后网络带宽的提升和费用的降低，占据了先发优势的Netflix又一次收获了巨大增长。

2006年，一项名为Netflix Prize的算法大赛横空出世，Netflix拿出100万美元奖金让开发者们为他们的优化电影推荐算法。截至2012年第四季度，Netflix已在全球拥有2940万订阅用户。

2012年，Netflix开始尝试自制内容，并于2013年推出《纸牌屋》，高**的内容质量和一次放出整季内容的发行方式，让它瞬间风靡全球。

今年4月，Netflix的全球订阅用户达到1.25亿，服务**过190个国家和地区。截至今日，它的市值**越迪士尼成为全球互联网企业排名第六的公司。

回顾Netflix这21年的历史，似乎每一次转型的时机和方向都是如此准确，以至于有些“自然而然”地达成今天的高度。然而如果我们透过现象看本质，从万变中找不变的话，有一件事一定**被提到——个性化推荐。甚至可以说，“个性化推荐”就像Netflix自制的鼓风机，第三个风口是他们自己造出来的。

没有明确的资料说明Netflix在做邮寄租赁DVD的时候有没有推荐机制。但他们确实从最开始的时候，就十分重视数据，并开始收集用户数据了：他们**在邮寄的信封里附上问卷让用户给电影打分。这些打分数据是之后Netflix推荐系统的重要基石之一。

“个性化推荐”一直都是Netflix的杀手锏，数据积累和算法研发的提前让它在这方面几乎是不可被**越的，时至今日用户在Netflix上观看的80%内容都是由推荐而来的。

二、解构好莱坞

Netflix的推荐系统之所以能够如此高效地达成目标，我认为最大的理由是他们教**了“让机器懂电影”。在一篇名叫<How Netflix Reverse Engineerd Hollywood>的文章中（由Alexis C. Madrigal于2014年发表）。作者从Netflix的推荐分类出发，解说了他们是如何解构好莱坞进而去给用户做推荐系统的。

在Netflix的首页中你**看到一行一行的电影，每一行是一个分类，官方叫它altgenre，或者说“微分类”，每个分类中是一系列的电影。这些分类和电影都是为你量身推荐的。

在这些分类中有一些非常精准、十分有意思的标题：情感充沛的反体制纪录**（Emotional Fight-the-System Documentaries）、基于事实的皇室掠影（Period Pieces About Royalty Based on Real Life）、80年代的外国邪恶电影（Foreign Satanic Stories from the 1980s）。

那么这些类型是怎么来的呢，作者Alexis做了一件很绝的事情：

他把Netflix的所有分类全爬了下来，共有76897个分类之多。并且将这些分类的用词和语法做了深入分析，还自己开发了一个“类型生成器”，生成出了和Netflix类似的结果。他甚至给出了公式：地区+形容词+类型+故事基础+拍摄地+时代+关于（什么的内容）+适合年龄段（Region… + Adjectives… + Noun Genre… + Based On… + Set In… + From the… + About… + For Age X to Y）。

但看到这里，我们只是看到了Netflix解构好莱坞的结果，那么这一切是从哪里开始的呢？

2006年，Netflix产品副总裁Todd Yellin带领一票工程师用数月时间写了一份长达24页的名为《Netflix量子论》（Netflix Quantum Theory）的文档。专门讲述如何用“微标签”（microtag）拆解电影。

这份文档的目的是作为训练手册，让不同的人对微标签有同样的理解，以保证能够系统性地、标准统一地解构上千部电影。如今这份手册已经扩展到了36页。

这份36页的训练手册讲述了如何给一部影**的性暗示内容、血腥程度、浪漫等级、甚至情节总结等元素评级。文档还解释了如何给影**结局打标签、给主要演员的“社**接受度”打标签、给每部影**的浪漫程度打标签，更重要的是，每个标签都有从1到5的评级。

以《**胆侠》电影为例，标签**包括“四个主要角色”，至于其中Matt Murdock这个角色，**有演员名、角色名、他很“英雄”（heroic）、是个律师等等。

Netflix就是用这样的方式，解构了几乎所有的电影，用精细、准确的微标签和评级教**推荐系统去认识电影、解读电影。

更令人称道的是，给Netflix打标签真的是一份工作。Netflix组建了一只团队，付钱让他们看电影同时给这些电影打上标签。有好事的媒体采访到了一位“标签员”（tagger），让他讲述给Netflix打标签是一种什么样的体验，十分有意思。

三、解构用户

2012年前后，Netflix的推荐系统经历了一次重大的策略变化，官方技术博客以名为<Netflix Recommendations: Beyond the 5 stars>的文章（分为1、2两部分）阐述了这种变化的前因后果：

在邮寄租赁DVD的时代，Netflix能够获得用户的评分，但是用户观看电影的过程对平台是隐形的。但是随着流媒体业务的开展，Netflix终于有机**看到用户的更多方面。于是他们认识到：

“Everything is a Recommendation.”——一切都是推荐。

由这一想法催生出的，是更加细致、深入的用户推荐。

Netflix的官方文档中把自己称为“幸运”，因为他们有大量的相关数据和能够把这些数据应用到产品中的人才。

以下是Netflix用来优化推荐系统的数据源：

数以百万计的用户评分数据（tagins），而且每天还在以百万量级增长；
作为算法基准线的项目热度（item popularity）；
包含时长、时间、设备类型的数百万播放数据（stream plays）；
用户每天**想自己的列表（queue）中添加数百万项目；
每个项目下丰富的元数据（metadata）；
每个项目的展示位置（presentation）和效果；
用户的社交数据（social）；
百万级的用户搜索数据（search terms）；
来自外部（external data）的票房或影评数据；
当然，实际上用到的数据还远不止这些。

除了和影**相关的数据外，用户数据是Netflix推荐系统的另一重要基石。

转型流媒体后，用户的所有行为全部在平台内完成，这给了Netflix观察用户的绝佳环境，他们不仅仅知道用户看过什么，甚至知道他们是怎么看的：什么时候看的，看了多长时间，在哪里暂停，在哪里反复，在哪里关闭等等，这些行为数据无一不是用户喜好的体现。

通过分析这些行为数据，和解构好莱坞得来的影**数据进行匹配，让Netflix的推荐精度越发准确。

四、推荐新姿势：个性化海报推荐

去年Netflix推出了一项新的推荐功能：个性化海报推荐，具体来说就是“不同的用户看到的同一个电影的推荐海报是不一样的”。如果你喜欢动作戏，则可能你看到的海报是**中的打斗场面，如果你喜欢**中某个主演，那么你看到的是以他为主角的海报。

这一功能的源头同样是对电影内容和用户喜好的解读。认为地去创造更多的“一见钟情”，进一步提高了推荐系统的效率。

五、Netflix的自省

1.从官方文档透露中的信息来看，长久以来Netflix虽然对算法十分依赖，但也意识到它的不足，这种不足可能是所有的算法都躲不开的——“越推荐越相似”。因此Netflix的算法中十分关注“不同”（adversity）。新奇、多样性、新鲜度，都是推荐中考虑的因素。

尽力帮用户去“发现”兴趣，这也是Netflix的推荐目标之一。

2.关于前边提到的个性化海报推荐，官方特别地说明了对它的担忧：不希望它变成“骗”用户看电影的功能，也就是说要尽力把这个功能控制在一个度里，说白了就是不“标题党”，为了让用户去看某个电影而强行用海报勾引他。

六、后记

就在我写这篇文章的前几天，Netflix又做出了两个重要改变：1. 把五星评价系统改为“喜欢/不喜欢”的评价系统；2. 取消了影**下的评论功能。

关于这两个改变网上有些解读，但我还没想清楚，就不追这个热点了。

关于Netflix可说的还有很多，最近他们还推出了另一个官方博客：Netflix Research，加上原有的the Netflix Tech Blog，有兴趣的各位可以关注一下。

参考资料：

<Netflix Recommendations: Beyond the 5 stars (Part 1)>：https://medium.com/netflix-techblog/netflix-recommendations-beyond-the-5-stars-part-1-55838468f429
<Netflix Recommendations: Beyond the 5 stars (Part 2)>：https://medium.com/netflix-techblog/netflix-recommendations-beyond-the-5-stars-part-2-d9b96aa399f5
< How Netflix Reverse Engineered Hollywood>：https://www.theatlantic.com/technology/archive/2014/01/how-netflix-reverse-engineered-hollywood/282679/
<Netflix tagging: Yes, it’s a real job>：https://www.washingtonpost.com/news/arts-and-entertainment/wp/2015/06/11/netflix-tagging-yes-its-a-real-job/?noredirect=on&utm_term=.51f470d15c18

作者：Shady，微信公众号：ShadyDesign

本文由 @Shady 原创发布于人人都是产品经理。未经许可，禁止转载

题图来自 Unsplash ，基于 CC0 协议

给作者打赏，鼓励TA抓紧创作！

6人打赏