一、主题分享:大数据+风控基础信息
各位好,我的网名是猎人。现于新公司研究大数据风控产品方面,有些小心得,鉴于在群里潜水太久,没啥贡献,今天特地做点贡献,给大家分享关于大数据+风控方面的一些基础信息。至于“大数据+营销”等方面可以私下交流。
1. 征信历史及国内外比较
-
历史起源:征信机构始于19世纪30年代的美国。雏形是一些商业调研机构,服务民间或银行借贷业务,获取信息途径通过招募些调研人员去街巷走访,然后逐渐形成规模及规范化。 作为起源之地,美国有3大征信机构都有百年历史,例如全国性3大个人征信机构益博睿、艾荃法克斯、环联。3大征信机构数据源95%相同、覆盖90%美国人。可以看出美国的征信数据覆盖率是非常广的。其征信服务覆盖行业也非常多。在美国个人征信收到严格的监管,监管法律也非常健全,目前企业征信基本不受监管。
-
在中国,最早的专职征信机构是中华征信所,于1932年6月6日创办。国内征信行业快速发展基本是2003年后开始。在这一年中国人民银行征信管理局也成立了。2017年6月个人信息安全法出台,整个征信行业对数据的敏感性输出做了很大调整,很多敏感信息接口都主动关停。
-
国内,央行征信数据其实只覆盖了3.8亿左右的自然人,覆盖率非常低,还有几亿人只有简单的身份数据。美国已达90%以上,因此在国内单靠央行数据已经不太符合创新型的互金行业信贷产品。从而催生了各式各样的数据公司(包括备案的征信机构)尝试将非央行征信的电商、社交等数据应用于信贷风控,例如京东白条。
-
无论国外还是国内,企业征信的发展都不如个人征信。从国内央行征信查询数据来看,2015年已达6.3亿,这还只是央行体系内的数据查询量,可见征信行业市场可见还是非常巨大。以此类推,央行外的类征信数据市场规模应该也是非常客观。
2. 国内征信现状
- 在国内还没有一家征信机构获得正式牌照。之前沸沸扬扬的8大征信机构也只是属于备案阶段。国内2016年底备案有134家机构,最新公布的数据其实只有133家征信机构还在备案,经过全面的初步调研,仅有20%不到的征信机构是属于有业务开展,其他的大多还在筹备和摸索阶段。这些备案机构属于正规军,市场上还有很多数据科技公司也在做征信业务,但为了避开监管,多打着“信贷风控”等名号开展数据查询的交易业务。而这些非正规军却非常有活力,各种创新的信贷模型产品层出不穷,具体哪些真的好用,还无法判断。
后续将征信备案机构及非备案机构归类为“大数据行业”机构
-
征信行业使用的数据主要包括传统央行的征信数据及互联网征信数据。 互联网征信包含的数据主要涉及传统央行的征信数据、经营数据,身份数据、社交数据、消费/财务数据、乃至日常活动数据、特定场景下的行为数据等。严格来说互联网征信数据大多数与个人信用是弱相关的,因此才有N中关系型算法来验证各种数据相关性来判断个人信用可靠性。
-
传统征信体系的征信(央行)由于体制和技术等原因使用多限于金融行业,而互联网金融平台的大数据征信结果往往有在金融业外的更多应用。
- 互联网征信数据使用的比较多的主要有个人身份信息(个人基本信息、教育学历信息、驾驶证信息)、个人消费相关数据(资产信息、兴趣爱好、电商注册行为),银行持卡人数据(POS交易信息、个人借贷卡账单信息、线上线下支付数据),互联网用户及行为信息(APP浏览数据、WEB浏览数据、地理位置信息),司法被执行信息(裁判文书信息、履约被执行信息、失信行为信息)、借贷黑名单高风险客户名单(传统金融、互联网金融)、航旅信息(出行频率、票务信息)、位置信息(实时位置、常用地址、出行轨迹)等。 但掌握这些信息的企业基本属于行业内的巨头,例如3大运营商、京东、淘宝等
3. 大数据风控介绍
-
基于国内的征信行业大调研,基于大数据的风控框架大致是这样。一些枝节部分其实对应了贷前中后使用到的一些大数据及大数据的来源。其中对应不同环节使用的技术能力和数据源要求都不一样。在P2P等高风险行业,使用多头数据来做阻断或获客都可以。数据的使用不是一成不变,均要看行业、产品、风险定价等灵活使用。在支付环节,结合位置信息就成了反盗刷的功能。这里不一一举例。
-
基于大数据框架的整体思路,大数据风控行业其实简单来分有3种:个人/企业数据接口批发、个人/企业数据接口整合报告、个人/企业数据建模及分析系统。图上均是行业内比较知名的一些机构。产品输出方式:各类接口直接联调调用、网页版登录查询及管理、定制化风控报告、联合建模
- 最后说下非全自动的个人征信模型简版思路:首先需要接入各种各样的数据源,这些数据源需要与业务需求符合,其次将各类裸数据拆分,根据业务类型及其他规则进行特征提取,初步分类。然后,各类特征将根据不同算法逐一组合成对应模型,应用与不同业务场景。不同模型经过机器学习(监督学习及无监督学习)的方式,输出相应分值,给与各模型相应的参考。最好还需要有经验人士,根据得分进行最后的决策。
补充:银行机构等大型企业的信贷产品多以央行征信数据为主,非央行的大数据为辅。而消费金融及P2P等机构,因为面对的客户群、产品及风险等原因,多以非央行大数据为主,基本不使用央行数据。
二、Q&A
Q1:消金行业风控普遍没用人行数据,一个重要原因是没资质接入人行征信。
A1:资质是一原因,主要还是现在很多客户不希望上征信
A2:这个也是现在常说的央行征信和民间借贷征信的分别,但很多客户不知道不上央行征信,在民间借贷征信系统里,其实也会影响其借贷行为。特别是现在银行的信贷产品及信用卡都开始使用多头借贷这些数据辅助
A3:而很多小贷公司却只给多头借贷名单上有还款能力的客户借款
Q2:EID对征信体系会有何影响?
A1:EID 我没细研究过,个人观点,影响可能有几个,1.在支付鉴权这块 2.个人身份数据更隐秘,但其他互联网数据授权情况下应该影响不大。鄙人粗见
3.EID好像说不需要透露个人信息 那征信收集的行为数据怎么与具体个人关联
本文档来自支付产品技术交流群的聊天记录整理,由志愿者整理并发布到本网站。如需要及时收到来自支付产品技术交流群的最新消息,请扫码关注“凤凰牌老熊”的微信公众号。 本群面向支付行业的有经验(2年以上)的产品经理、软件工程师、架构师等,提供交流平台。如想加入本群,请在本文评论中留言(不公开),说明所在的公司、负责的工作、入群分享的主题和时间。