网贷业务的资产端在有业务进件时,都需要对放款申请进行审核,审核的过程中会需要在数据中查询或计算出申请用户的多种数据(身份、银行卡、手机号、贷还款记录、工作单位等)信息。风控审核处理这些信息的SQL脚本,我们称之为标签。

一、标签平台

网贷业务的资产端在有业务进件时,都需要对放款申请进行审核,审核的过程中会需要在数据中查询或计算出申请用户的多种数据(身份、银行卡、手机号、贷还款记录、工作单位等)信息。

当风控审核的查询或计算需要经常进行时,用规范的SQL脚本的方式进行,这种SQL脚本可以称之为标签,每次查询或计算只需添加相应的用户参数信息即可。标签就是sql脚本,例如:

{ 
	"channelId": "xxx",     
	"mkey": "user_id",     
	"mvalue": "287ba4dd7ebac1f18002bf2354444b76",     
	"params": {            
		"al_client_name": "芦xxx",            
		"al_tel_no": "13xxxxx"
		},     
	"tagName": "tb_if_name_in_deliveraddress_180d" 
}

二、标签的运行

下图为标签平台的业务逻辑图:

image


Q&A

Q: flink的作用只是数据获取,有些牵强吧?
A: 异步场景中flink用作计算,标签的计算和取数可以走业务库的从库。
Q1: Flink用作实时计算吧?
A1: 对于资金端业务如果有查询或取数需求,也可以使用标签,计算是实时的,整个业务交互流程分为同步和异步,同步:业务库的需求;异步:爬虫的需求。
Q2: 你们数据存储用了这么多的东西主要是考虑在哪方面,HBase TiDB ES。
A2: 因为涉及的业务线很多,涉及的数据源比较多,tidb存结构化数据,eshbase存非结构化数据,而且都是接入从库数据。
Q3: HBase不也存非结构化的么?
A3: 是的。es是同步主库的数据,是否丢失取决于主库,标签平台的主要作用是可以同时满足多种网贷业务的取数和计算需求,同步和异步的共同使用,为了应对高并发场景。同时在同步场景下,程序为了避免宕机,本身也有熔断保护机制,即在一个时间段内有超时设置,程序还有标签全生命周期监控,即从标签的上线到下线都有完善的监控。For 用户数据的使用者; Who 需要提取用户特征加工用户标签,The 标签产品 is a 标签加工和管理工具,That快速加工标签并方便快捷的管理标签 Unlike 分析师写SQL,开发人员开发上线的传统方式,Our product 加工速度快,准确性高,管理方便,目前的痛点:受主库影响大,如果有更好的建议,欢迎大家积极提出来。
Q: 你们TiDB数据在什么量级?
A: 这样做加大了程序的维护成本,但能避免互相影响。
Q: 如果es中存的数据能否丢失?hbase的数据是否和es一样?
A: tidb的数据量在tb级别,不到pb;hbase的数据和es一样。
Q: 能不能看看你说的标签是什么样子的,给个demo。
A: 依赖于标签的关系和结果,还可以建立起用户画像。
Q: 能举两个不同标签的例子吗?
A: ①不仅仅可以用在风控审核场景下;②资金端业务线有取数需求也可以用③实时同步场景是秒级返回,异步场景对时间要求不高,根据不同的需求把标签分为异步和同步。
Q: 我有三个问题请教,非常感谢峰兄解答:第一、mongo将数据同步到kafka,如果在同步的过程中发生数据丢失,怎么做补偿!第二、用es的场景是查询吗?是否有大量的聚合统计,如果有的话,服务器有多少个cpu,内存是多大的!第三、为什么要从主库中同步数据,不会影响主库的业务吗?
A: 1、同步过程中如果发生了数据丢失,通过监控能够发现,会进行重新同步。如果在重新同步的过程中,有标签正好用到了丢失的数据,会有进行补数或者等待同步完成;2、目前程序部署在云上,同步用了8个实例,异步用了10个实例,这和业务量有很大关系;3、主库用来存储和共享数据,从库用来满足业务需求。
Q: 问个问题,为什么数据存储选用ES?是因为存在检索,或预计数据量较小吗?
A: es也可以有一定量的数据。
Q1: 那大概数据量级是多少呢?
A1: es如果做聚合统计,对cpu和内存要求很高,多个机房以及部分数据在云上,目前是TB级别。
Q2: TB级别的数据,你们是怎么存储的?
A2: 涉及的数据源很多,分别存在不同的数据库,有mysql、tidb、mongo等。
Q3: 你们TB级别的数据是什么数据?网带的资产数据还是借款还款数据?
A3: tidb可以搞很大。不过tb级别的数据需要的资源确实不少,流水,日志,记录细一点,TB很正常,所以要用es当仓库用,资源消耗就极大。
Q: 标签写成sql,风控人员能维护吗?这个标签系统,有多少人参与?
A: 标签平台几个人就可以,写标签需要业务线来完成。
Q: 标签翻译到对应的存储过程,能举个例子吗?
A: 风控业务很多sql业务逻辑都是相同的,可以合并的。
Q: 风控平台用sql有点简单吧,没有用到机器学习领域?风控对网贷来说最核心的了?
A: 网贷的风控基本是看运气的,说是核心,其实不是核心,还是看拿钱的能力吧,不管是融资,才是资产证券化。
Q1: 资产证券化?
A1: 就是卖资产出去,或者说卖负债出去么,风控和自身承受能力,和市场目标都很大关系的。


本文档来自支付产品技术交流群的聊天记录整理,由志愿者整理并发布到本网站。如需要及时收到来自支付产品技术交流群的最新消息,请扫码关注“凤凰牌老熊”的微信公众号。 本群面向支付行业的有经验(2年以上)的产品经理、软件工程师、架构师等,提供交流平台。如想加入本群,请在本文评论中留言(不公开),说明所在的公司、负责的工作、入群分享的主题和时间。