【Friday BI Fly】2016年01月08日 阿里巴巴面包君分享金融行业如何利用大数据进行征信与风控管理微信直播文字版记录 【全程回放】

浏览: 3625

Clipboard Image.png

【公告】

周五BI飞起来,天善商业智能BI社区每周五下午举办问答社区在线答疑活动,每周五晚上举办行业、厂商工具、技术相关的微信在线直播活动。

【预告】这次微信直播活动是2015农历春节前的最后一次微信直播活动了,之后我们会暂停一段时间,春节后天善智能FridayBI Fly 微信直播活动将开启新的篇章,大家敬请关注!

Clipboard Image.png

Clipboard Image.png

2015年01月08日 Friday BI Fly 微信直播主题 – 金融行业如何利用大数据进行征信与风控管理?

主持人:加入本群的同学们,感谢大家参加由天善智能举办的 Friday BI Fly 活动,每周五微信直播,每周一个话题敬请关注。

【群规】本群为BI 行业、技术、工具交流和学习群。不准发广告,只能发红包,发广告者一律移除微信群。

本次微信直播讨论内容:

1、金融行业系列之如何应用大数据和数据分析进行风控管理、风险控制、风险评估?

2、互联网金融现在通过大数据风控、大数据征信来进行风险控制?

嘉宾介绍

面包君

上海南京数据分析联盟创始人,杭州创业谈TMT联合创始人,阿里支付宝资深数据分析,我爱数据分析网创始人,5年大数据行业数据分析和产品从业经验,长期从事和专注于国内大型互联网公司零售电商、金融保险等业务分析与决策支持,在数据存储、数据处理、数据可视化、商业智能、网站分析和数据挖掘方面均有丰富的项目经历。目前主要负责阿里数据产品研发和数据化运营以及市场第三方数据分析需求、数据平台搭建等。 经历:从南京到北京再到上海,再到杭州,一直在从事数据方面产品、算法、平台开发。

 博客专栏:http://www.flybi.net/blog/dataman

知乎数据分析专栏:http://zhuanlan.zhihu.com/dataman

主持人:天善智能从2015年10月底开始,每周五举行的Friday BI Fly 微信直播活动,到今天已经举办了10场了,今天也将是2015年的最后一场微信直播活动,年底大家都比较忙,大家稍事休息,年后我们的微信直播活动将开启新的篇章。

我们最后一场微信直播活动是阿里巴巴面包君的压轴大戏: 给大家带来金融行业和大数据的那些故事。

往期内容回顾

Friday BI Fly 周五BI飞起来,之前几期的微信直播交流总结汇总,内容包括:【零售行业、旅游行业、数据挖掘、大数据、用户画像等相关的讨论交流】http://www.flybi.net/blog/tianshansoft/category/354 也可以通过我们的公众号来查看我们往期微信直播活动的文字版记录。

下面有请面包君为大家带来今天的分享!

面包君:

今天有关金融行业的分享,我主要介绍这么几块,1.余额宝的业务背景;2.个人征信;3.贷款授信;4.量化投资。

一、余额宝的业务背景

应该来说,要讲到互联网金融,就要谈到余额宝,也是因为这个业务才让互联网金融这个概念真正进入大家的视野。而余额宝背后的故事也很多,也是正好幸运,赶上了这个余额宝的时代,也耳闻目染了很多余额宝背后的真实故事。

在杭州支付宝大楼里有个叫“春秋书院”的闭关室,立马有一群紧张而兴奋的年轻人在忙碌着。项目室巨大的落地窗前,站着一个面色凝重的人,他就是天弘基金创新事业部技术负责人樊振华,一个在金融IT领域有着丰富经验的老兵。他看着窗外川流不息的汽车,深深地吸了一口气。

在支付宝上卖基金的想法,在天弘基金电商负责人周晓明心中经过多次的思考和锤炼,已逐渐清晰。他在向阿里小微金服集团国内事业群总裁樊治铭介绍余额宝模式的雏形时,准备了5分钟内容,但只讲1分钟后,双方即达成一致意见可以做、快速做,并期望余额宝能在6月上线运营。双方随即行动起来,进行了简单的分工,支付宝负责余额宝在支付宝端的建设工作,而基金公司端负责与支付宝对接的直销和清算系统的建设重任,就落到了樊振华头上。这是一个从来没有人做过,也没有人知道该如何做的创新业务,面对支付宝巨大的用户群体,在仅不足3个月的时间内,该如何设计基金的清算和直销系统,成为了樊振华面临的头号难题。

2013年3月,樊振华一行与支付宝技术方进行整体架构沟通,这是传统金融行业建设思路与互联网技术路线的第一次冲突,双方在闭关室足足讨论了4天,确定下来一期系统的建设目标和要解决的问题。

当时的想法很简单,就是让支付宝的余额能够有些像活期的收益!只是没想到之后就“一炮而红”!

当时主要面临以下难点。1.要能支持“千万级”用户的系统容量。(1)传统的基金销售系统主要是和第三方销售机构,如银行理财专柜、网上银行进行合作销售。直销系统能够处理每天几万到几十万个用户的开户就完全够用了。但“余额宝”面对的是数以亿计的支付宝用户,用户的开户数量和并发量与传统业务有数量级的差异。(2)传统基金的TA系统面对的用户是以理财为目的的申购和赎回,因此每天清算的交易笔数要求也只有几万到几十万即可满足。但余额宝的业务模式里,支付宝用户的每一笔消费,都会转化为一次基金赎回,又加上海量潜在用户群,每日清算笔数将会是传统模式的百倍甚至是千倍。

2. 直销系统和TA系统的融合。传统的直销和TA是分别独立的系统,但对于接入支付宝这种入口交易空前频繁、数据量极为庞大的需求而言,传统的分离式文件交互方式不能满足效率和优化利用资源的要求。因此,项目组提出了功能整合、功能简化、当前库和历史库分离的技术结构。让直销和清算系统使用同一套数据库,来避免数据拷贝带来的业务时延。

3. 7×24小时的基金直销系统。由于渠道的原因,传统基金直销系统的大多数开户出现在银行的工作日。因此系统能做到5×8小时即可满足大部分客户的需求。但互联网的属性是7×24小时,因此系统也应具备7×24小时不间断的服务能力。

4. 支付宝与天弘基金双方的数据传输与系统交互。余额宝的直销和清算系统会部署于天弘基金在天津的数据中心,而支付宝的“余额宝”系统部署在杭州,双方之间的通信协议,远距离数据传输面临很大的挑战。这样,根据早期建设需求,余额宝一期系统的架构和系统容量规划展开了序幕。

在一期系统上线以后,面对业务量暴增的情况,系统遇到了瓶颈同时也出现了新的问题。2013年6月13日,一期系统如期上线,业务量远超预期,给系统来了一个“下马威”。上线后数分钟内就达到了18万的用户。在2013年6月18日晚上,余额宝的用户量已突破了100万。2013年6月30日,余额宝用户数达到251.56万。在如此高速的业务增长压力之下,一期系统开始面对前所未有的直销和清算压力的冲击。这个新建的系统,是否能支撑起如此大的容量冲击?什么时候系统会达到瓶颈?这些问题,悬而未解,让樊振华陷入了深深的危机感中。经过了数个失眠之夜后,他还没找到解决问题的办法,但他清楚地知道,再这样下去,一期系统将会很快面临瓶颈,成为业务增长的绊脚石。

随着用户量的暴增,数据库的负荷越来越高,实时请求的响应时间开始变缓。清算时间由最初的半个小时慢慢地变成一个小时、两个小时、四个小时……清算系统每天会在凌晨收到支付宝最后一笔确认文件后开始清算,天弘基金的后台运营人员会等候清算出结果以后,发送给监管行和支付宝。随着这些人回家的时间越来越晚,抱怨声开始出现,樊振华的压力也随之增大。系统的扩容势在必行。然而,当樊振华收到金证科技发来报价表,打开第一页时,他惊呆了。如果依然使用IBM/Oracle/EMC的传统架构进行扩容,要达到预定目标,仅仅硬件设备采购及中间件的Licence费用就达到了数千万元人民币。这个数字对于樊振华来讲,甚至对于天弘基金这家公司来讲,是一个天文数字,超过了这家公司以往所有对于IT投资的总和。并且设备采购到货就要一个月以上,想在一期系统瓶颈出现前完成扩容几乎不可能实现。传统的路线走不通,就要找新的方法。当他得知阿里云计算作为一家云计算服务提供商,使用云计算支撑了海量的互联网企业及阿里集团自身业务时,樊振华开始和阿里云计算进行接触。2013年7月,樊振华组织阿里云、支付宝、金证科技的人一起探求解决方案。最终经过慎重思考,樊振华心一横,说了句:“不要再讨论了,上云,上阿里云!”

进入到2013年7月中旬。按照对一期系统运行状况趋势的评估,一期系统的容量在没有任何运营推广活动的情况下,只能支撑到9月份便会面临瓶颈。在理清楚二期系统的性能和容量设计目标时,樊振华又接到了新的压力:天弘基金和支付宝管理层已决定余额宝要参加阿里“双十一”购物狂欢节,这对于支撑后台的技术人员来讲,绝对是一场恶战。很快,传来了支付宝对天弘提出的双十一支撑要求:1. 实时请求的响应要超过1000笔每秒;2. 
清算系统要支持单日3亿笔交易清算,清算时间不得超过150分钟;3. 2013年10月份支付宝会展开相关运营活动,系统必须在10月份前上线。

二期主要面临的几个问题:

1. 系统水平拆分。系统水平拆分的基本原理很简单,就是按一个业务字段,如支付宝协议号作为拆分依据。对字段取哈希值以后根据拆分虚节点的个数进行求模。这样就可以简单地将所有请求拆分成多份。在二期系统的拆分过程中,经过测算,需要使用50组业务节点,但在拆分时,考虑到扩展性,并未简单地拆分成50份,而是拆分成1000份,然后每个节点处理20份数据。这样做的好处是将来如果系统遇到瓶颈,需要扩容时,不需要对拆分算法进行修改,而且数据平均迁移时只需要以库为级别进行,从而避免了拆表。

2.去Oracle,包括后来选择自建的ODPS

3. 数据迁移。数据迁移是这个项目的重头戏,迁移过程中使用全量+增量+数据订正+并行运行检查等几个阶段完成。二期系统在生产环境部署完成后,将在天津的一期系统的全量数据打包,按照指定拆分算法拆成1000份以后,通过专线导入到二期系统中。导入以后,将天津的一期系统前置机转发服务打开,将所有实时请求转发到二期系统,这样两个系统同时处理请求。然后,在交易日之后,以一期系统为准,将二期系统中的数据进行订正和补全。这些所有的操作必须在24小时内完成是迁移成功的必要条件。数据迁移成功之后,两个系统实际上在并行运行。需要使用脚本每天对比两个系统中的数据,连续2周数据对比无误以后,由支付宝将请求地址从一期系统切换到二期系统,整个迁移才算完成。

后来还有直销系统的分离和扩充等挑战,也是技术团队比较给力。

二、个人征信

让信用等于财富,这是一直在讲的宣传口号。而在互联网金融,信用,风险>>交易。所以一般不管是传统金融也好,还是互联网金融,大家都在讲风控、征信。

征信其实国内的历史还不长,特别是在互联网个人征信领域,很多都是借鉴的美国的FICO和zestfiance的玩法。

目前国内外比较出名的有FICO/ZestFiance/芝麻信用/前海征信等,像美最主流的FICO信用评分体系(Fair Isaac公司旗下的产品)现已覆盖了全美90%的借贷机构和85%的人群,三大征信局Experian、Equifax和Trans Union都是采用FICO的模型计算信用分,只是数据来源略有差异。

 
大家可以自行百度了解下各个公司的情况。

重点介绍下FICO和芝麻信用,因为比较具有代表性。应该来说,这块市场还是很巨大的,以后会诞生很多“亿”级别的创业公司。

FICO覆盖全美90%的借贷机构和85%的人群,相当于国内的央行征信。很多也是参考的FICO的信用打分模型。

 
主要根据用户的偿还历史、信用账户数、使用信用年限、正在使用的信用种类、新开立的信用账户这些方面去评分。围绕用户的历史和当前的信用记录。

在美国,ZestFiannce和FICO是完全对立的另一种信用评分体系,所以不存在“美国FICO信用积分指标从ZestFinance获得用户行为信用数据”的情况,ZestFiannce主要服务对象是FICO评分低于500甚至无信用评分的人群,而且市场很小,只有大约10万用户量。和FICO的区别在于:FICO主要服务又丰富信贷记录的人群,而ZestFiannce服务缺乏或无信贷记录的人群,在模型的特征选择和筛选上也有不同,ZestFiannce往往会提取7万个变量,利用10个预测分析模型,如欺诈模型、身份验证模型、预付能力模型、还款能力模型、还款意愿模型以及稳定性模型,进行集成学习或者多角度学习,并得到最终的消费者信用评分。其次,ZestFinance公司另辟蹊径,充分利用丢失数据之间的关联和正常数据的交叉,探寻数据丢失的原因。另外,每个季度ZestFinance公司都会推出一个新的信用评估模型,目前已覆盖信贷、市场营销、收债、助学贷款收债、法律收债和次级汽车抵押贷款等方面。

这里面很多模型,我也还在研究中,因为国内外业务形态相同,模式可能不太一样。特别是目前网商银行都有自己的预警机制、催收系统、征信证券化等等。

有很多工作不是我们模型算法的事情,也要和业务、政策、技术架构这些结合。

评分标准的话:
Base FICO范围:300-850(Industry-Specific FICO范围:250-900);芝麻信用分范围:350-950。FICO数据维度:偿还历史×35% + 信用账户数×30% + 使用信用的年限×15% + 正在使用的信用种类×10%+ 新开立的信用账户×10%;蚂蚁信用分:信用历史×35% + 行为偏好×25% + 履约能力×20% + 身份特征×15% + 人脉关系×5%。
不知道现在FICO的模型比例有没有调整,不过应该差不多。

芝麻信用会有个350~950的分数体系,根据个人的信用历史、行为偏好、履约能力、身份特征、人脉关系等方面去结合起来打分,在不同的层级违约率也会不同,针对不同违约率的用户授信不同的额度和催收账机制。目前整个模型的核心算法都是保密的,具体的现在采用了哪些特征变量,不在项目组也很难掌握全部的。

而像信用卡比较典型的模型就是评分卡模型。私下交流这块,今晚就不多讲这东西。

三、贷款授信

这个是我特别感兴趣的一个地方,有钱任性啊,借钱给别人也很好玩。

目前贷款这块有制定政策的(做用户画像分析),做机器学习模型的(每天自动给哪些人放款),做预警的(提醒哪些人可能不还款),做催收的(自动给借款人提醒),做证券化的(如果借款人还不上,就再延长分期时间),以及做降低坏账率控制的。

这些分别在业务中的体现是,贷前,贷后这两大板块。

像贷款的额度有提升和降低的情况,根据个人消费的情况如果发现消费和还款能力变低就需要对其降低额度。(具体的数据我就不贴了,有监控个人消费和店铺经营水平的报表平台),而像在贷款后也会根据卖家的店铺经营状况、银行流水等记录判断这个商家是否会存在还款能力不足,逾期的情况,提前通知相关业务方进行跟进。

你如果用过信用卡你就可以体验一下了。

比如提额降额,比如你该还款前会有短信提醒,比如提醒你分期还款(这样银行才能赚到钱),比如你逾期了会有罚金,还有客服代表会打电话给你等等,这些都是数据模型在支撑的。

目前现在这块大部分都是模型的离线计算得到相应的风险概率系数,再加上的一些hard rules。主要考虑的就是我们放款要非常非常非常谨慎,防止坏账!

像保险这块还有个性化的定价模型,比如车险、运费险什么的。有兴趣的可以私下交流,保险应该来说也是金融很重要的一个业务板块。

四、量化投资

最后来讲讲重头戏,也是赚钱的和股票期货挂钩的东西。(我只是介绍怎么玩得,具体的策略就不方便透露,大家可以自行学习。量化还是有一些门槛的。)

认识上海的几个朋友,从20万进去,靠量化赚到5000万的。(纯个人投资)

目前每周我也会去上海,约不少量化的朋友交流策略。

简单点说,量化就是通过机器学习,模型算法,通过训练历史数据的方式,来帮助你选股、自动买入卖出等。

国外的量化投资发展已经超过三十年,美国著名的量化投资基金大奖章基金,在2008年全球金融危机的背景下,仍旧获利80%。相较于成熟市场,A股市场的量化投资发展历史较短,但随着2010年沪深300股指期货的推出,量化投资的发展潜力逐渐显现,并以其稳定的投资业绩得到了越来越多投资者的认可,市场规模和份额不断扩大。

应该来说,量化在国内也是因为15年牛市火起来,而在6月份之后股灾里,量化也是还在赚钱,普通的散户投资者就不行了。

目前国内的很多量化产品都是以私募的产品发布的(100万起),收益大概都是在30%以上,有很多还不止。基本上就是赚钱机器。

量化交易是一个体系,包含策略、量化交易系统、风控和算法交易,区别于传统“定性”投资。

总的来说,借助统计学、数学方法,运用计算机从海量历史数据中寻找能够带来超额收益的多种“大概率”策略,并纪律严明地按照这些策略所构建的数量化模型来指导投资,就是量化投资。其本质是定性投资的数量化实践,终极目标是追求稳定的、可持续的、高于平均的超额回报。

目前国内主要做的就是alpha(非系统性风险收益),ETF套利,高频交易这些。

alpha有不少厉害的公司,主要分布在上海、北京、深圳,做股指期货的对冲交易。举例来说,截至目前,近3个月沪深300跌幅为17.54%,同期所有股票型基金的平均收益率约-12.35%。可以看出,虽然这些基金战胜了市场,跑赢了沪深300和上证综指,但其依旧处于亏损状态——在市场的下跌过程中,无法有效规避系统性风险。

使用对冲策略可以剥离或降低投资组合的系统风险,使得投资组合无论在市场上涨或下跌时均有机会获取正收益。例如刚刚过去的六月,A股市场风大浪大,而华宝量化对冲基金仍旧在风雨中成功避过系统性风险,获得显著正收益。

目前国内也有不少量化平台做这块的竞赛,有兴趣的可以自行研究下。

好了,今天先介绍到这里吧。互联网金融的东西比较多,很难一个晚上讲完,而且这里面很多东西需要很深的研究才能理解。光一块就靠你玩上很多年。希望对想了解互联网金融的朋友有帮助,如果已经是互联网金融的专家,就当是抛砖引玉,有时间私下交流。

目前基本上周末都在上海交流金融这块,今天先到这里吧。

主持人:涨姿势了,尤其是最后一个,听着好振奋人心是不是,哈哈,大家可以提问了,刚刚没忍住的那些小伙伴儿呢?

自由讨论环节

问题一:最近大数据很火,那么在金融行业大数据究竟可以怎么用呢?

面包君:个人征信、贷款授信、账户安全、保险定价、量化投资。

问题二:金融行业中如何利用手中数据进行营销?

面包君:首先需要介绍的是,金融行业中营销的机会不是特别多。更多的是在强调风控。如果你的产品收益高,都不需要营销。 而目前一些低门槛的产品会涉及到营销的部分,比如借贷产品(如个人消费贷、车贷房贷)、公募投资基金产品等。

现在借贷产品中会讲究个人贷款产品的证券化。意思就是针对不同的人群的放款政策都是不同,还是识别出高风险的客户。具体的放款政策的制定和这个客户的历史信用记录、企业经营情况、个人流水和企业流水等挂钩。而高风险的客户通常都是那些个人消费能力不高、还款能力不足的用户或者企业经营存在巨大风险的客户。
 营销步骤:
1.目标用户识别,用户画像;
2.开发新产品或已有产品的对接;
3.营销渠道触达和方案的制定;
4.观察效果并调整。

问题三:如何建立fico模型进行风控?

sjwjllinFICO评分系统是美国用于个人消费信贷评估的一套模型,该模型主要的,评估内容是客户以往发生的信用行为。
该模型有5个方面
1、以往支付历史
2、信贷欠款数额
3、立信时间长短
4、新开信用账户
5、信用组合类型
可以利用上面5个特点,采用信贷工厂的模式,利用风险模型的指引建立审批的决策引擎和评分卡体系,根据客户的行为特征等各方面数据来判断借款客户的违约风险。

问题四:大数据发展时间并不久 看你的领域又涉猎广泛,有没有特殊的学习方法?

sjwjllin

从零开始学习,收藏了一个思维导图,可以看下。
Clipboard Image.png

问题五:金融行业有哪些领域需要大量运用数据分析?具体有哪些职位?

天神大人:

金融行业一般有:银行,证券,保险,银联,第三方支付,信用卡,P2P等。
2、具体数据分析工作根据不同的企业而不同,我所了解的有欺诈,交叉销售,客户挽留及开辟新客户,产品定价,信用评级等。再具体一点,这些项目有些是一个团队来做,团队工作中就有分工,具体到商业理解(业务经理,产品经理),数据采集,处理(处理员),分析师,执行部署。
从以上可以分几个阶段:
一个部分是传统数据仓库,主要是绩效考核,风险管理,1104报表等,这个在目前还是分析的主要内容。
第二个阶段主要是大数据的分析,包括用数据挖掘实现精准营销,客户细分,舆论监控等。
第三部分是实时的分析,例如基于lbs的业务推荐,实时反欺诈等。​
 金融行业体系还是蛮大的,具体的要看在哪个领域,在做相应的分析。

问题六:有什么好的数据分析工具推荐?金融行业中常用的有哪些?

天神大人:一般常用的数据分析工具:Excel、SAS、SPSS 不分行业的。
 学习的方法掌握基本的数据分析知识(比如统计,概率,数据挖掘基础理论,运筹学等)
掌握基本的数据分析软件(比如,VBA,Matlab,Spss,Sql、SAS、Excel等等)
掌握基本的商业经济常识(比如宏微观经济学,营销理论,投资基础知识,战略与风险管理等等)
 
可以参考下支付宝高级分析大师的深度好文-数据分析从入门到大师 http://www.flybi.net/blog/hl_zhang0912/486

主持人:今天的微信直播话题都比较大,不是三言两语能够说清楚的,大家如还有问题请提问到http://www.flybi.net/project/29,面包君会及时给大家回复的哦。

今天的微信直播活动到这里就结束了,喜欢天善智能的朋友们请继续关注我们,春节后我们的微信直播活动将继续开启,大家不见不散哦!

参与方式

每周 Friday BI Fly 微信直播参加方式,加个人微信:liangyonghellobi  并发送微信:行业+姓名,参加天善智能微信直播。

Clipboard Image.png

Clipboard Image.png


Clipboard Image.png


Clipboard Image.png

Clipboard Image.png

推荐 2
本文由 天善智能 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册