决策引擎简述

发表: 2019-10-21 浏览: 1591

数据挖掘人工智能

文章发布于公号【数智物语】（ID：decision_engine），关注公号不错过每一篇干货。

来源 | Python数据分析与评分卡建模
作者 | zhaikun

01决策引擎的必要性

极速放款、闪电借款、闪贷等成为了互金时代信贷产品吸引客户最为重要的手段之一。那除了风控裸奔，可以通过高利率覆盖高风险的产品以外，中低利率的产品又是如何在需要控制那么多外部风险要素以及需要处理那么多外部数据源的情况下做到极速放款的呢？

对于互金机构来说，因为人行征信报告获取难度大，且由于客群定位的问题，人行征信客群覆盖率也低，所以往往需要依赖大量的外部征信数据用以开发风控体系，对抗各类欺诈风险、信用风险。据了解，目前主流现金贷风控产品的风控往往使用到十几家或更多的外部数据，这些外部数据都需要对接、清洗、衍生、最后转化为规则与模型。常用的外部数据公司有百融金服、前海征信、鹏元征信、考拉征信、新颜征信等。

规则和模型的落地也是非常棘手的问题。一个信贷产品往往需要部署几十条甚至数百条规则，几个甚至十几个模型。这些模型的落地给研发部门带来了非常大的工作量。而且，面对日益壮大成熟的专业团伙，一沉不变的规则很容易被识破，风控体系的不断优化迭代是一个优秀金融产品必须要做到的核心环节。不断的切换规则、规则组、模型的参数、逻辑、优先顺序等使得一些金融机构的开发部门不堪重负。

此外，金融机构还需要考虑数据成本问题。目前外部数据动不动一条就一块钱，给到金融机构的成本把控造成了很大的压力。对于这个问题，金融机构风控部需要通过使用业务决策流的形式对外部数据、规则、模型的使用配置优先级，形成漏斗的形式，才能缓解非常大的数据费用压力。

02什么是决策引擎

风控决策引擎是金融科技的核心，它需实时支持大量业务的自动化处理，可以极大地解放人工处理的瓶颈与效率。

风控决策引擎实际上是一系列风控规则的集合，用于识别绝对风险与相对风险。

对于绝对风险，决策引擎的的输出结果是“拒绝”，即命中则拒绝；

对于相对风险，决策引擎的有两种输出结果。一类是风险评分，用于衡量风险大小，风险评分越高，风险越大。一类是信用评分，用于衡量信用资质，信用评分越高，资质越好。

03决策引擎搭建原则

01可配置

风控的核心思路是基于大量真实的样本数据，将逾期用户的特征进行提炼，并从概率学的角度上进行剔除，从而保障剩余用户群的逾期概率处于一个相对较低的区间。而对数据的提炼与作用过程，将使用到“参数”的定义。“参数”决定了区间范围。一条风控规则通常作用于某一数据类型，依据此数值是否满足“参数”的定义范围，得出是否可通过风控的结论。由于风控最终还是数据“喂出来”的结果，而非主观臆断的设限，故而，随着数据样本与内容的不断发展，必然会涉及到一些动态的调整，后期可能会发现原本设定的“参数”过于严谨而导致审核通过较低，或者是设定得过于宽松而导致逾期率较高。所以，风控决策引擎需要是可配置的，有以下注意要点：

1.1．非刚需与必要的风控规则，能够“开关化”

举例说明：一些必要的风控规则，如用户的身份证二要素验证是必要规则，就无需可开关。而一些规则规则，如校验用户的芝麻信用分是否高于500分，则可做成“开关”。待该规则上线后，可通过分析此项规则的触发率得出是否合理的判断。因为芝麻信用分是否可作为决策依据将主要取决于业务方向与用户群体，因为理论上芝麻信用分的高低主要与用户在芝麻信用体系内的数据绑定维度的多与少相关，并不一定绝对反映用户的信用程度。

1.2．风控规则上的“参数”可灵活配置

举例说明：很多风控体系通常会加入对手机运营商的校验，如校验用户手机号的使用时长是否大于6个月。其中的“6个月”便是所定义的参数，此处最好可调整与配置。因为验证用户的稳定性是用“6个月”合适，还是用“3个月”更合适？具体合理的参数是需要通过数据分析的结论得出的。比如发现手机使用时长虽然短一些，但并未与用户是否逾期形成必然因素，那么可将该参数调整到“3个月”。

1.3．风控规则的分支可配置

在规则系统的设计过程中，常常会发现，有时候只有固定的一些优先级和一些参数的配置，还不能满足多变的业务和复杂的风控体系。风控中常见的是不同场景，有不同的规则，有不同的规则参数。如果缺了规则的分支配置，会造成很大的不便。比如，某人征信评分达到650，申请金额2000元以下可以直接审批；征信评分在600~650，需要经过学历认证；而征信评分在550~600，可能需要消费能力评估；等等。就是规则的结果影响它的下一条规则是什么。会让整个规则流中，有不同的分支，有不同的参数。所以，规则可配也是一个智能规则引擎重要的部分。

1.4．根据结果指标自动调整参数

在很多风控系统中，规则的参数（阈值）都是依据风控业务的经验。但是由于各个贷款产品面向的客户群信用情况不同，客户的信息也都在变化，这些参数早已不能依据经验了。例如前几年可能有智能手机或者月均消费2000块的人算消费能力不错的，今天这些肯定会有变化，风控业务的经验就失效了。所以，整个系统要基于现在有的大数据，可以根据结果指标进行调控参数。例如调控逾期率为0.05%，那么可以得到每个规则独立的参数，这样可以更科学更高效的帮助业务设置参数。

02优先级

风控决策引擎是一堆风控规则的集合，通过不同的分支、层层规则的递进关系进行运算。而既然是组合的概念，则在这些规则中，以什么样的顺序与优先级执行便额外重要。风控系统的作用在于识别绝对风控与标识相对风险，如果是绝对风控，则整套风控的审核结果便将是“拒绝”。既然结果必然是“拒绝”，则没必要运行完所有的风控规则，而主要单条触发“拒绝”即可停止剩余规则的校验（但是在样本量不足的情况下，或者说是业务初期，可以跑完全部规则，以便后期进行规则有效性分析）。因为所有规则的运行，是需要大量的时间、金钱与性能成本的。所以，风控决策引擎的规则是有优先级的，有以下注意要点：

2.1．自有规则优先于外部规则运行

举例说明：自有本地的黑名单库优先于外部的黑名单数据源运行。如果触发自有本地的黑名单，则风控结果可直接终止及输出“拒绝”结论。

2.2．无成本或低成本的规则优先于高成本的规则运行

举例说明：借款用户的身份特定不符合风控要求的，诸如低于18岁的用户，可优先运行。而一些通过对接外部三方征信的风控规则，需支出相关查询费用的，则靠后运行。此外，在外部三方征信的规则中，“命中收费”的风控规则又可以优先“查询收费”的风控规则运行。

2.3．消耗低性能的规则优先于高性能消耗的规则运行

举例说明：直接基于用户现有属性的数值，如当前用户的民族是否非少数民族，则可优先运行。而一些风控规则，需借助爬虫接口，且需待将爬取到的数据经过二次加工与汇合之后，再对汇合的总值进行判断，如手机运营商账单中的月总通话分钟时长，则此类风控规则应后置运行。

03规则及结果多样式

3.1．规则多样式

在风控引擎中，规则是很多类的，比如：a>5是个规则，只需要看满足还是不满足即可得出通过还是拒绝的结论。但是，如果是评分卡的情况，就不适合了。比如年龄在1-18岁1分，19-25岁3分， 26-35岁7分，36-50岁12分，50-65岁3分，65岁以上1分。通过之前规则配置就满足不了。需要增加区间性规则。这在建设系统的过程中需要考虑到。

3.2．结果多样式

规则的结果可能不只是两个，有区间规则就必须有相应的多个结果。对于不同的结果，会有不同的处理方式。结果多样式，是在规则中输出的结果需要多样，可以输出是与否，通过与拒绝，还需要输出评分，甚至需要输出风险标签。多样化的结果有助于风控引擎后期扩展以及业务使用场景的满足。

04建模

风控体系的简单与复杂，视业务模式的开展而定。风控建模需借助于函数的定义，此外也可以借助评分卡的机制进行补充。而评分卡的模式在另外一方面也作用于系统审核与人工信审，譬如高于X评分的订单申请，系统直接通过；处于X与Y之间的评分，则需人工审核，甚至通过电话联系；而低于Y评分的，则系统直接拒绝。

归结而言，风控的本质是数据，探索数据与数据之间关联关系，根据其演变的规律，为业务所用。消费金融与信贷领域的准入门槛在于风控，越是高额度的产品，对风控的要求越高。整个业务市场，如果按照风控的由简到难展开，则依次可以是：Payday Loan的现金贷→信用卡代偿→消费金融→高额度的信用贷……

04决策引擎功能详解

一个完整的决策引擎，需要包含以下功能模块：

1．接口管理

2．规则集配置

3．评分卡配置

人们常提的评分卡一般指基于客户的一组输入数据，计算出一个评分（数字）。设计一张评分卡一般有两个路径：（a）请专家根据要解决的问题，依据经验设计。一般适用于数据较少的情况；（b）基于数据和算法产生，一般适用于数据比较丰富的情况。人们常用的算法有逻辑回归，支持向量机，决策树，随机森林，神经网络等等。还有一些专用算法，如美国通用的FICO信用评分就是基于自己的算法创建的。

4．机器学习

“随着小明反馈信息的增加，老师根据小明的实际情况对他进行更深的策略修正，不停的在失败总结中优化套路。这个过程叫机器学习。”

机器学习模型部署在后台，能够与系统对接，输出模型评分。

5．历史数据模拟

在评分卡部署到生产系统之前，需用现有的不同数据组进行回归验证，确保验证的违约概率与评分卡所预测的概率吻合较好。评分卡投入使用后，一定要持续监控，随时准备调整阈值。当然还有其他的评估方法，如使用评分卡的KS，ROC曲线等。

决策发布前必须进行历史数据模拟。从大量数据的模拟中，可以发现潜在的问题；可以分析该决策组合的通过率、逾期率、资本回报率是否优于原来的决策组合；同样，历史数据模拟也可以用来验证外部征信数据或人工审批的有效性，是否使用，放在哪一步决策使用，如何互相替代。

尽管历史数据的模拟表现很优异，并不代表新的决策可以经得住实战的考验，基于“谨慎”的原则，新决策最好按较低的比例与老决策同步运行。运行一段时间后，如新决策的表现优于老决策，可以逐步将新决策的线上运行比例调高，直至完全替代老决策。为了提高效率，多个新决策可以同时执行冠军/挑战者实验。

最后，出于谨慎原则，需要将决策编写、模拟、检验、发布的流程固化，任何决策发布之前需要得到授权人的审批，避免因人为过失造成的损失。发布之后，实时监控表现，通过完整的效能评估方法验证决策的有效性。

6．决策流

各个子决策以流程的方式组合而成，子决策包括一系列决策步骤，决策步骤内嵌规则集（可以将评分卡也看作是一套规则集）。

将“因果关系”的专家规则与“相关关系”的机器学习规则有机结合，力争在通过率与坏账率之间取得最优平衡。

某些子决策作为通用步骤，可以被不同的产品场景共用、继承或覆盖，便于统一管理。例如，失信被执行人命中、存在严重逾期或银行卡三要素错误等专家规则，不仅适用于电商分期产品，也适用于信用卡代偿类产品。

强规则命中直接拒绝，不必执行后续规则（强规则指捕获率极高的规则，如存在严重逾期历史、手机使用少于3个月等欺诈嫌疑极高的规则；或者是不符合借款条件，如不满18岁；强规则早期大部分来源于专家规则，后续随着数据的积累也能总结出新规则）。

无成本/低成本规则优先于高成本规则执行，如自有黑名单规则优先于外部调用的黑名单规则。

决策不应只有通过、拒绝两种结果，应可以支持类灰名单命中之后的人工判断。

决策顺序的调换，不应影响到整体业务流程，造成流程的中断或异常。

如某项规则的输入来源于外部征信数据，需要定义好超时重试、跳过策略，避免因数据源的问题导致的决策中断、或因此作出的错误决策。

数智物语征稿启事0613.png

星标我，每天多一点智慧

0 个评论

要回复文章请先登录或注册