自9月初开始,一场由爬虫而引起的第三方数据风控公司漩涡不断扩散。先是魔蝎科技、新颜科技相关人员被警方带走,之后聚信立、公信宝、同盾科技等纷纷被查或被卷入。
9月26日,有行业人士向零壹财经表示,此次魔蝎科技被查,可能系被蚂蚁金服举报。零壹财经向蚂蚁金服官方求证此事,蚂蚁金服未予回应。
此事目前无法核实真假,但是在这条行业传言背后,折射出掌握着数据的巨头,与爬虫公司之间隐现的矛盾与博弈。多位业内人士向零壹财经确认,互联网巨头涉及金融的隐私数据被爬、并被转卖的现象是真实存在的。
这是近几年互联网金融飞速发展中出现的新问题。此前,互联网巨头数据被爬的现象一直存在,但是由于被爬数据大多为公开数据,危害不大,巨头们一般不予追究。
但是,金融相关数据往往涉及个人财产和个人隐私,其数据保护的重要性逐渐上升,情况可能正在发生变化。
风控被抄袭
与前几年传统征信所持的观点不同,京东、淘宝等互联网巨头的数据对于金融贷款的风险控制其实是非常有用的。
传统征信人士的观点认为,京东、淘宝等电商交易数据,不是借钱还钱的信用数据,对于金融风险控制作用不大。
但是事实证明并非如此,起码在消费金融领域,京东淘宝的数据价值很大。一般来说,消费金融贷前风险控制分两个部分:反欺诈和信用评估。通俗地解释,就是有人来借钱,第一步要确定这个人身份的真假,是不是欺诈,第二步是评估是否要借给这个人,第三步是借的话,借多少钱合适。一位头部消费金融公司风控总监告诉零壹财经,在这三步当中,京东淘宝等电商数据都很有参考价值。
在第一步中,在京东淘宝买过东西的,东西都是要送到消费者手中的,所以京东淘宝的个人信息一般都是实名认证,并且经过实践验证没有问题的。这个真实性是超过通讯录的。在第二第三步中,在京东淘宝等电商网站上买过东西的消费者,金融机构可以通过消费记录判断消费者的消费水平。因此,一般做线上贷款的机构,很多都参考京东淘宝的数据,如果用户授权爬取淘宝数据,爬虫也有机会经由网页端的淘宝进入到支付宝。
消费金融行业内,有很多贷款产品的设计是参照互联网巨头的。一位风控人士告诉零壹财经,业内不少公司都会参考蚂蚁金服和微众银行的风险控制,比如友信金服旗下有一款产品“随信贷”,其申请条件是,满足以下三个条件的其中之一:芝麻分700分以上+1万以上的借呗;芝麻分700分以上+3万以上的微粒贷;征信体现有借款金额大于10万的银行贷款。
“在市场大多数机构缺乏风险定价能力的时候,参照风险定价做得较好的机构,这是业内比较通行的方法。”一位资深的消费金融风控人士告诉零壹财经,并且透露,一般来说“714”产品几乎都会使用芝麻分。这一说法也得到多位消费金融业内人士的确认。
大数据风控行业头部公司魔蝎科技有可能涉及相关业务。据媒体公开报道,9月6日,魔蝎科技遭到警方调查。魔蝎科技的一款核心产品为向放贷机构提供运营商报告,合作机构范围较广,牵涉业内大量金融机构。另据行业媒体一本财经2017年11月份的一篇报道,魔蝎科技也提供“同业爬虫”的产品,即专门爬取现金贷数据的产品,只需要提供其他现金贷平台的用户名和密码,就可以爬取用户的所有信息。
巨头对爬虫的容忍
不过,零壹财经接触的大多数大数据风控行业人士认为,蚂蚁金服举报魔蝎科技的可能性不大。
原因之一是目前的大数据风控公司的体量都不大。“魔蝎科技的体量,相对于蚂蚁金服来说太小。这么一小块业务,对蚂蚁金服的影响也没那么大。”一位风控资深人士向零壹财经表示,其他多位也持类似观点。
此外,淘宝京东等巨头对爬虫有一定程度的容忍度,因为爬虫有些时候对这些巨头的业务有帮助。
一位运营商内部技术人士亦曾服务于互联网巨头,他向零壹财经透露,爬虫有时可以帮助互联网巨头和运营商提高一些考核指标,因此他们一般都睁一眼闭一只眼。
他解释,每逢双十一,淘宝京东公布的指标中有一项是“GMV”,指的是网站的成交金额,主要包括付款金额和未付款的。通俗来说,我们平时网购时会进行下单,产生的订单中往往会包括付款订单和未付款的订单,而GMV统计的指标就是其二者之和。爬虫,其实就是模拟人的上网行为,爬虫在京东淘宝上爬取数据时,可以提高GMV的量,这会使得数据更加好看。“只要这些爬虫不影响网站的‘负载均衡’,一般都不会管。”他解释,通俗地说,就是别把网站挤瘫了就行。
零壹财经通过百度搜索,搜到淘宝、京东、蚂蚁金服反爬虫的新闻确实不多。只有在2008年,淘宝网站屏蔽百度搜索爬虫,禁止百度搜索引擎抓取淘宝网站的网页内容事件引发广泛关注。
博弈的过程
不过,上述业内人士对目前的猜测并不确信,因为情况在发生变化。
对爬虫睁一只眼闭一只眼的时代正在过去。据36氪2018年8月的一篇报道《反爬虫战争进行了十八年,但一切才刚刚开始》,爬虫和反爬虫的战争一直存在,大数据时代来临之后,爬虫的出现使得数据失真,这样会极大地增加数据分析难度,而这会影响商业利益。
爬虫带来的数据失真问题可能不小。有一个说法是,互联网上50%的流量都是爬虫创造的。
该报道举了一个例子:最典型的例子是机票的动态定价,网站会结合当下浏览量判定机票的抢手程度并且调整价格。这时如果有大量爬虫在浏览网站,算法就会给出和实际情况并不符合的定价,也损伤了消费者购买到廉价产品的权益。
对巨头来说,数据被爬的烦恼也是有的。一位互联网巨头内部风控人士向零壹财经坦言,对巨头来说,数据被爬的烦恼肯定是有的。他透露,行业内都知道的是,魔蝎的淘宝爬虫非常厉害,而且仅仅针对淘宝的反爬,在行业内是前列的。
对于蚂蚁金服举报魔蝎科技的传言,他认为如果这是事实的话,他对此事的理解是“一个博弈的过程”,这个过程让魔蝎在做淘宝爬虫方面做到了极致,这也是蚂蚁金服做反爬不能容忍的结果,自己的反爬做到极致,可是自己的数据却在给别人做嫁衣。
(来源:零壹财经 温泉)