20181010-风控简介 - Cocolian Framework

一、风控功能简介

风控不仅仅是规则引擎，它是一个体系，规则引擎，算是一个决策引擎，不同的公司，对规则引擎定位是不同的；
风控主要功能还是在于数据处理，选取合适且有效的策略规则
风控规则引擎计算能力还是有限的，更多的是在应用内计算风控系数，再交由引擎去决定策略。成熟的产品，比如：blaze，ilog；开源的有drools；
要分清楚指标变量加工和规则引擎的职责，还有一种方式就是用JPMML，直接把规则写成PMML包，然后执行，如果不复杂就可以用一些可热加载的语言来实现。

所有的数据处理的结果都可以抽象为变量；业务人员基于已经加工好的数据，进行业务策略的配置和基于规则数据再加工。

XX公司的风控技术体系：
基于XX公司的实践，风控技术体系见如下图：

注：字段，就是变量，包括很多种来源：接口，数据库，缓存，hadoop等；

风控数据处理技术，主要基于ETL，现在会结合一些AI新技术，离线和实时处理的技术；变量在不同场景下，种类划分是不一样的。但为了方便规则引擎的处理，其可以大致分为：单值变量，多值变量，待加工变量，已加工变量；风控种变量很类似于编程语言种变量，也需要分为：String, Integer,double, boolean等类型；

二、风控规则实现

规则可以通俗理解为：变量组合成的表达式，例如：if(a>b) then a=b+c;。多条简单原子规则，可以构成一个规则集；规则集之间调用可以借助流程引擎来实现；将每个规则集当作流程图中的一个节点，通过变量来配置条件分支，完成基于复杂的决策树和评分卡规则的配置；风控规则一般情况下，是基于场景来配置的。不同场景下的决策规则和变量是不同的；规则版本控制，非常类似于开发中代码的版本控制，需要保证多版本的支持

三、风控事后分析

这块目前来说，XX公司主要基于AI技术来做，通过AI学习，不定期的调整业务规则：风控实时拦截是结合缓存+实时数据处理，偶尔会用到离线的处理，通过实时处理引擎；例如：storm,flink,将线上的实时数据不断进行压缩。

四、其他内容

风控最重要的是++建模++，建模的前提是吃透业务，针对具体业务场景建不同的模型:一般都是先设计维度，再设计变量，最后才是规则，由总体到明细的过程。决策树，决策表，评分卡只是针对不同数据在相同规则不同表现而定的，模型变量由变量与其权重组成，专家模型定义了强变量，通过机器学习回归其权重，而弱变量及其权重，变量间的相关性等更多的依赖机器学习。机器学习结果要符合数据的++正态分布++，同时要有贷后表现来验证；只有回归算法对正态要求高，其他算法并没有那么高，而且金融领域的数据基本还是挺正态的，尤其不同金融产品其实已经筛选过用户了。

Q&A

Q: 你们是每天跑批来计算规则的效果比如精准度覆盖率等，然后来调整规则吗？
A: 我们并不是每天来调整规则的，规则调整纬度很多。
Q: 这里说的依据AI学习调整规则，是分析规则的好坏，还是分析变量的阈值，还是分析变量的好坏，还是根据交易信息来产出变量和规则？
A: 判单规则的好坏，需从2个方面来考虑：1，规则中变量阈值设置地是否合理，阈值设定需结合业务具体业务场景和规则多次试运行后的结果。2，风控事后数据分析和机器学习特征值的抽取，可以发现一些隐含的特征变量。
Q: 评价这个规则好坏的功能是定时跑的还是人工触发的？
A: 评价规则好坏功能，基本都是定时触发的，人工触发场景不多。

Q: 规则引擎，没添加10条规则或者调整规则，对服务的性能影响有多大呢？
A: 规则执行都是在毫秒之内；正常规则引擎不会因为增加10条而影响效率。
Q: 执行用的什么高效的工具呢？
A: 目前是自己开发的规则引擎；

Q: 新的业务对接风控，结合思维导图里的内容，要怎么配置呢？
A: 新业务对接风控：业务人员配规则，通过统一API调用，风控提供规则配置平台，业务人员配置规则，测试，发布，试运行；
Q: 但是案件其实不是正太分布的？
A: 正常的如果正态分布了，异常的就好办了，正态分布是客群分布，同时也是个概率分布，模型覆盖正态分布。异常客户在未违约前也是正态正常客户，只不过没有发现特征而已，回归就是发现特征并验证特征。

本文档来自支付产品技术交流群的聊天记录整理，由志愿者整理并发布到本网站。如需要及时收到来自支付产品技术交流群的最新消息，请扫码关注“凤凰牌老熊”的微信公众号。本群面向支付行业的有经验（2年以上）的产品经理、软件工程师、架构师等，提供交流平台。如想加入本群，请在本文评论中留言（不公开），说明所在的公司、负责的工作、入群分享的主题和时间。

长按或者扫描二维码来打赏，感谢支持群管理工作！
请扫码关注“凤凰牌老熊”的微信公众号。