Joyce Zhang 就是这些人中的一个。Joyce 是宜信 CEO 唐宁从美国挖来的一位资深大数据专家,现在担任宜信大数据创新中心的 总经理。在来宜信之前,Joyce 曾经服务过 Hulu、Microsoft 等公司,主要负责的是基于大数据的推荐引擎、搜索平台、广告精准投放等技术系统的开发。Joyce 说:“一直想做些跨界的事情,而金融与大数据结合后**有很多可能性,这些可能性让我充满期待。”
问题出在哪儿?
目前,互联网金融的体量还非常小。以 P2P 网贷业务为代表,截至 11 月其规模为 2450 亿,而传统金融行业拥有的资产却是百万亿的量级。虽然在规模上的冲击几乎可以忽略不计,但这几千亿的背后却是传统金融不曾服务到的那些小微人群。当金融开 始走向普惠,问题也随之暴露出来。金融的本质在于通过风险管理实现资本价值,可传统金融的征信手法却不能完全满足互联网金融业务的风控需求,这既包括覆盖 人群的局限,也包括风控手段上的局限。我国缺失多年的社**信用体系正在加速现形。来看看下面几点:
1、在央行有征信记录的人不足全国人口 1/4
按照央行最新数据,目前央行征信系统中共有 8.4 亿人,但其中有实际征信记录的只有 3.2 亿人。也就是说,全国 13 亿多人口,有 5 亿人在征信系统中只是一个身份证号码,还有 5 亿人完全不在系统内。有征信记录的人只占到全国人口数的 23.7%,远低于美国征信体系对人口的 85% 的覆盖率。而在 P2P 蜂起之前,很多人并没有注意到这件事。
2、央行征信中心的数据不是你想用就能用
目前,可以接入央行征信中心的金融机构有银行、持牌照的第三方征信服务商以及部分地区的小贷公司(第一批于 6 月在上海获批),P2P 平台尚没有接入资格。这无疑将加大 P2P 平台的风控难度。不仅如此,P2P 平台上的贷款人信息也不能被录入央行征信系统,各家 P2P 成了一个个信息孤岛,他们手中信用数据的价值也得不到充分开发。
3、传统征信手段存在诸多局限
在数据范畴上,传统征信数据来自于借贷领域,最典型的就是信用卡消费记录,这就大大限制了征信数据的来源。 在征信思路上,传统征信是用昨天的信用记录来判断今天的信用价值,这未见得就是最合理的思路。在征信技术上,传统的方法是从线下采集信用数据,即使在 P2P 网贷业务中,也只能暂时照搬这套方法。
来看看目前国内 P2P 平台的征信逻辑:先考虑用户的数据拼图里需要哪些资料,能够电子化获取的就电子化,不能做到的,就让用户自主上传,然后通过其他线上或线下手段验证。目前,以有利、积木盒子等为代表的与线下小贷公司或担保公司合作的 P2B 网贷平台更多是通过合作的小贷公司或担保公司来获取借贷人的征信数据,主要是电话征信和实地考察征信,这都是传统金融机构的风控方式,效率比较低。当然,也有积极践行线上征信的 P2P 平台,比如宜人贷、拍拍贷。可以说,传统的线下征信技术限制了数据来源和信用评估思路,而互联网的技术、工具和思维具备了改变这一切的可能性。
其实,信用数据不仅仅是应用在金融领域中,生活中各种涉及履约的场景都需要人们的信用数据。在一个成熟的信用社**中,人们的每一项商业行为都应与他 的信用数据相挂钩,从而形成一个信用数据的良性循环。也正因为如此,很多在美国做的风生水起的商业模式搬到中国来却无法成功,比如各种短租业务,其核心问 题之一就是国内缺乏一套完善的信用评估体系。
宜信“大数据金融”的玩法
当金融遇上大数据,这个缺失已久的信用体系有了搭建的可能性,这也是唐宁成立宜信大数据中心的初衷。Joyce 将宜信在大数据金融上的探索方向描述为“金融云平台”。
顾名思义,这**是一个开放的平台架构:既能支撑宜信自己的 P2P 业务(比如宜人贷、与 eBay 合作的商通贷),也能开放给其他生态合作伙伴,让这个生态中的伙伴们共同建设、共同受益。
金融云平台拥有一般云平台的特点:分布式存储、分布式计算框架、虚拟化环境,但与一般的云平台的差别在于,这是一个基于金融业务的云平台,其中必然包含特定的业务逻辑。宜信将风控、反欺诈、获客能力等核心的金融逻辑抽象出来,作为金融云平台的内核。
金融知识图谱是平台的基础,在这个基础上能长出很多应用场景,比如获客、实时授信、产品个性化推荐、贷后管理等。
知识图谱这个概念最早是由 Google 提出的,是搜索引擎往下一阶段演进的过程中发展出来的。这其中包含两个方面:实体的画像,实体间的关系。
实体的画像其实就是我们常说的“用户画像”,很好理解。而实体间的关系是 Joyce 特别强调的一点。原来做用户画像时,画像之间是彼此独立的,但这并不符合现实生活中的场景:人并不是独立存在的,人与环境中的万物都是有关联的。如果说每 个人是知识图谱中的节点,那么人与环境所形成的关系就是两点间的线。当把“点和线”综合起来分析时,我们对个人的性格特征、信用状况、财富属性都**有更深 层、更全面的理解。
互联网技术和工具的引入使得数据采集从线下逐渐转移到了线上,也使得数据体量迅速变大。目前,宜信金融云平台所采集的数据主要是以下几类:
1、宜信已有的数据
宜信在 P2P 行业有 8 年积累,用户已过百万。实际上,只要与宜信有过接触的用户,不管是在哪个环节终止了接触,都被视为宜信的重要数据资产。他们有的曾提交过信用报告、联系人 信息、教育水平、工资单、银行流水等一系列传统征信数据,有的则仅仅留下了一些搜索和访问数据。
值得庆幸的是,宜信自成立以来便非常重视数据的电子化,因此大大减轻了将线下数据进行数字化的工作量。不过,宜信业务线众多,Joyce 告诉我们,将不同业务线里沉淀下来的数据打通也是一件很费劲的事情。
2、搜索引擎抓取
Zest Finance 的 CEO Merill 认为,信贷记录属于强变量,而当强变量缺失的时候,就可以参考多种弱变量(比如互联网上的行为数据),将这些弱变量组合起来也可以服务于信用评估。
同样是基于这种思路,宜信自己做了一个叫做“宜搜”的搜索引擎。在获得用户授权许可的情况下,搜索引擎**抓取用户在互联网上留下的电商购买数据、搜 索引擎数据、社交数据等多个维度的数据。除此之外,还有大量散落在网上的公开数据,这些数据也**被宜搜所抓取。这两类数据将通过特定的算法模型转化为信用 评估数据。
3、来自合作伙伴的数据
这里的合作伙伴既包括线上的也包括线下的,不过 Joyce 并没有透露现在正在参与合作的公司有哪些。我猜测,线下的合作机构可能包括小贷公司、租车公司、房屋中介等可能产生业务协同的机构,线上的合作对象则有更多可能性了,比如各种互联网金融服务商。
有一个绕不开的问题,那就是如何保证数据的真实性,其实这是所有的大数据分析都**遇到的问题。其实,任何人也无法保证数据完全真实、没有噪音,可以做的就是对不同的数据源进行关联和交叉验证。Joyce 说:“我们并不是在盲目的追求线上实时授信,如果没有足够的数据来做交叉验证,我们还是**采取线上线下相结合的方式。”
采集数据的目的是通过相应的数据分析和挖掘技术输出每个人的信用评估结果。在传统的数据处理领域,分析师们处理的主要是结构化数据,而如今我们面对 的是从网上抓取的大量非结构化数据,如社交网络的评论、用户上传的音视频等。这些数据存在于包括文本、图**、视频、音频等众多的数据格式中,其中蕴藏的信 息需要深度计算才可以分析出来。这就需要通过机器学习进行智能化分析。
根据过往的业务经验,Joyce 团队**给这个“挖掘机系统”预设一些规则引擎(可以理解为一些基础的算法),引导系统做出一些基本的判断和决策。比如,没有收入的人**被直接排除在借款人群之外。
但是,这都是些基础规则,而且是基于现有数据和经验生成的。一旦充入大量新数据,这些既有规则引擎则**发生变化。无论是修订现有规则还是获得新的规则,都需要通过机器学习来实现。
当然,机器学习是一个动态的过程——要通过不断加大数据变量来修正机器学习的模型。只要池子里变量的维度多到一定程度,模型就**趋于稳定。举个例 子,如果你买一支股票,你的收入就全都取决于这只股票的涨跌;但如果你分散投资 1000 支股票,从统计学角度,即使其中一只股票暴跌,也不**对你的整体资产走势产生影响。只要数学逻辑正确,采用的变量越多,模型就越准确。而且,数据维度的不 断丰富也能让机器在不断学习的过程中变得越来越智能。
宜信的第一批机器是在今年 4 月上线的,里面正跑着数以万计的变量。未来,收集和整理数据的门槛**降低,而利用机器学习进行数据分析和挖掘的能力**成为关键。
数据的价值
人人有信用,信用有价值。大数据能改变的不仅是金融行业。在一个真正市场化的社**中,各行各业都对个人信用评估有诉求,因此,基于大数据的个人信用 评估结果可以成为很多商业活动的基础。如今,通过将用户的互联网行为数据转化为 “互联网信用”后,这些数据也开始变得有价值起来。
既然数据都是有价值的,那么是否可以给数据定价?“应该理解为价值交换”,Joyce 更正了我的说法,“数据的价值刚刚被唤醒,现在谈定价、收费还为时过早。”
目前,宜信已经与一些线下机构和线上互联网服务商建立了数据合作关系,但各家的合作方式都不太一样。尤其是对于不同行业来说,服务提供商的诉求差异 巨大。Joyce 说:“我们也希望与不同合作伙伴来探讨适合彼此的价值交换方式。经过一段时间的合作,我们**逐渐建立一套针对不同数据提供商的价值交换模型和方法论。”
Joyce 好几次都提到了“数据变现”的概念。互联网行业里有很多这样的服务提供商:他们有用户、有流量、有数据,但却找不到自己的商业模式。又或者,即使有自己的商业模式,很多服务提供商手中的数据也远没有发挥什么作用。“数据变现”为他们提供了一个通过数据完成价值增值的思路。举两个例子:
- 为商家提供额外的变现渠道。以宜信与 eBay 合作的“商通贷”为例:eBay 可以专注的做自己的电商生意,而如果 eBay 上的用户或商家有分期或者融资的需求时,eBay 只需开通相应的频道,并把用户数据授权给宜信进行处理,宜信来完成用户信用的评估并完成分期产品推荐、贷款实时授信等。
- 帮商家提高用户转化率。中国有很多租赁场景都是需要交押金的,而交押金往往**影响平台的转化率。因此,宜信在与各种租赁公司尝试一种合作: 租赁公司把用户的信息给宜信,宜信再结合自己抓取的一部分数据对用户进行信用评估,给出一个“信用价值”,从而免去用户的押金,并扮演平台的担保方,甚至 能提供租后管理服务。
不是竞争对手,是盟友
国内想通过大数据做开放金融云平台的不止宜信一家,别忘了最有名的那家——蚂蚁金服。在蚂蚁金服的成立活动上,其 CFO 井贤栋曾说过:“蚂蚁金服将以小微企业和普通消费者为主要用户,建立以数据、技术、交易这三个开放平台为核心的金融生态,支持和帮助合作伙伴,共同为用户创造价值。”
这和宜信的愿景不谋而合,不过,在 Joyce 看来,谈彼此间的竞争还为时过早。在国内,通过大数据搭建信用体系这件事还处于非常早期的探索阶段,大家各自有优势,但还没有谁已经走通了这条路。“如果未来有可能,我们非常乐意与蚂蚁金服合作。”
其实,除了宜信、阿里这样打算做“生态系统”的平台,大数据金融场内的玩家还有不少。比如各种尚未走到生态系统层面的第三方大数据平台,举几个例子:国内最早提出做大数据征信的闪银(类似 Zest Finance)、从 SaaS 系统切入数据服务领域的中科柏诚、为线下 P2P 公司提供大数据服务的数信网。另外,还有一些在利用大数据支撑自身互联网金融业务的公司,比如拍拍贷(类似 Lending Club)、元宝铺(类似 Kabbage)。
但是,所有机构手中的数据都是**面的数据,尤其是对于 BAT 这样的巨头来说。这也是为什么,在 Joyce 看来,平台间的合作远比盲目的竞争更有利于行业的成长。“这个市场非常大,完全可以容纳多个开放平台同时存在。如果有更多的人愿意踏踏实实的做金融开放平 台,这对行业、乃至整个小微人群是非常有益的。”
即使是在未来的金融生态中,合作也应该大于竞争。“生态系统” 本身便是一种商业模式。金融业的生态系统长什么样?它将以云计算、大数据为底层,信用体系为基础,支撑包括支付、投融资、理财、保险、银行等在内的多种业务。
“在美国,信用是一张个人通行证。而对于中国来说,这是我们走向一个真正市场化的商业社**的过程中必然**达到的阶段。未来,我们**有多个信用评估机构,每个机构都有自己的一套信用评估体系,而大家对信用的认识能够嵌入到各行各业的商业活动中。”
这大概就是在国外大数据领域**研了 15 年后却带着团队义无反顾回到国内的 Joyce 想看到的一天吧。