文章搜索

您的位置>>

主页

>>

新金融书系

>>

征信大数据理论与实践

发布:2018-04-25 11:44    浏览:

征信大数据理论与实践

姚前 谢华美 刘松灵 刘新海 著

中国金融出版社 2018年3月

 

作者简介

姚前

  工学博士,教授级高工,博士生导师,上海新金融研究院学术委员,中国人民银行数字货币研究所所长,中国人民银行科技司副司长,全国金融标准化技术委员会秘书长。

  曾在中国证监会信息中心、中国证券登记结算公司、中国人民银行征信中心工作。中国人民银行金融研究所博士后科研流动站、中国人民银行征信中心博士后科研工作站学术委员会委员,中国电子学会区块链专家委员会主任委员,清华大学区块链技术联合研究中心学术委员会委员,发表文章近百篇,著作四部,曾获银行科技发展一等奖,多项专利发明人。

刘新海

  北京大学金融智能研究中心兼职研究员。在比利时鲁汶大学(KUL)获得电子工程博士,中国人民银行金融研究所博士后,英国伦敦政治经济学院(LSE)访问学者,2015年被评为中国人民银行副研究员。

  曾在布鲁塞尔的互联网公司和金融分析公司从事过咨询和数据分析工作。曾主持国家自然科学基金等国家科研三项,曾经在数据挖掘国际顶级期刊IEEE TKDE和人工智能国际顶级期刊IEEE PAMI发表学术文章。在信用风险领域发表专业论文多篇,参与多个金融应用项目,目前还是财新网专栏作家。主要的研究方向:风险管理、金融科技、人工智能和大数据挖掘。2016年由中信出版社出版了学术专著《征信与大数据》。

 

目录

理论篇

第一章 大数据概述

一、大数据概括
二、国内外大数据发展探究

第二章 大数据技术

一、大数据技术层
二、传统大数据算法
三、大数据算法新趋势

第三章 征信大数据探索

一、征信大数据简介
二、征信大数据对产业经济分析的重要意义
三、征信大数据的实践

实践篇

第四章 基于数据挖掘的个人征信系统异常查询实时监测模型

一、引言
二、以业务经验驱动的异常查询监测
三、以数据挖掘驱动的异常查询实时监测模型
四、模型应用及讨论
五、结束语

第五章 基于层次分析法的中国城市信用指数模型研究

一、引言
二、国内外信用指数发展状况
三、城市信用指数模型
四、研究结果及数据展示
五、结束语

第六章 基于征信大数据分析的中国劳动力人口迁徙研究

一、引言
二、研究简介
三、数据描述和研究方法
四、研究结果及数据展示
五、利用Logistic 模型预测未来青壮年劳动力人口迁徙趋势
六、结束语

第七章 基于征信数据观中国近10 年产业间信贷资源的调整路径

一、引言
二、征信数据简介
三、我国信贷结构和产业结构调整的关联分析
四、基于信贷视角的区域产业结构调整情况分析
五、结论及政策建议

第八章 基于大数据的中国房企信贷分析: 现状与趋势

一、研究背景
二、房地产企业信贷市场分析
三、结语

第九章 基于大数据的个人房贷分析: 现状与趋势

一、研究背景
二、消费者房屋贷款市场分析
三、结语

第十章 基于征信大数据的批发零售业信贷结构分析

一、引言
二、批发零售业贷款总体发放情况
三、批发零售业贷款的流向情况
四、需要关注的问题

第十一章 基于征信大数据的住宿餐饮业信贷结构分析

一、引言
二、住宿餐饮业贷款总体发放情况
三、住宿餐饮业贷款的流向情况
四、需要关注的问题

第十二章 基于征信大数据的建筑业信贷结构分析

一、引言
二、行业信贷情况
三、结语

第十三章 基于征信大数据的交通运输、仓储和邮政业信贷分析

一、研究背景
二、相关产业的信贷市场分析
三、结语

第十四章 基于征信大数据的采矿业信贷结构分析

一、引言
二、行业信贷情况
三、结语

第十五章 基于征信大数据的电力生产供应业信贷结构分析

一、引言
二、行业信贷总体情况
三、结语

第十六章 基于征信大数据的水利、环境和公共设施管理业分析

一、研究背景
二、相关基础设施行业的信贷市场分析
三、结语

第十七章 供给侧改革下我国制造业信贷投向结构分析

一、引言
二、信贷投放总体情况
三、基于供给侧改革的制造业贷款结构新特点
四、制造业信贷结构调整过程中仍需关注的问题

第十八章 “三农冶信贷的痛点

一、导语
二、贷款不良率上升
三、分项差异显著
四、农信社成中坚
五、结语

结语

一、内容回顾

二、未来展望

 

 

序言

  信息是客观世界各种事物的特征的反映, 数据则是信息的具体表现形式, 或通过记录, 或通过采集, 或通过其他方式“ 捕捉冶而得到。有人类的时代, 即有数据。上古社会“结绳记事冶, 殷商时期“唯殷先人, 有典有册冶, 均是鲜明写照。

  数据之重要不言而喻。于企业, 数据是运行基础。有了不同来源和渠道的各种数据, 如人力资源数据、财务数据、客户数据、市场数据、经济数据等, 企业才可能进行合理的生产经营、投资、销售和管理决策。数据是生产要素, 对数据进行加工、分析和挖掘,可以得到有价值的知识, 不仅能为企业的经营决策提供数据化的科学参考, 还能让企业快速响应市场变化, 提高管理效率, 优化企业流程。信息化和数字化, 已成为企业经营的基本战略。

  于国家, 就像《商君书·去强》所言: “强国知十三数: 竟内仓府之数, 壮男壮女之数, 老弱之数, 官士之数, 以言说取食者之数,利民之数, 马、牛、刍藁之数冶。秦国之所以能统一六国, 在于秦律, 而秦律成功运行的基础则是绵密细致的国情统计体系。出土的秦简显示, 秦国各级官府设有“ 计冶的职位, 专门负责数据统计,人口、田地、畜牧、天气等均记录在案, 定期更新, 并及时送往咸阳留存, 于是中央集权足不出户, 即可知天下。因此, “佚而治, 约而详, 不烦而功, 治之至也。秦类之矣冶(荀子· 强国)。后续的王朝更替似乎也印证了《商君书》的警示: “欲强国, 不知国十三数,地虽利, 民虽众, 国愈弱至削冶。历史学家黄仁宇将近代以来中国的落后归咎于缺乏“数目字管理冶, 认为这是阻碍中国现代化转型的重要症结。

  数据重要, 数据分析更重要。“有借必有贷, 借贷必相等冶的复式簿记法本质上即是一种数据分析方法。它创造了一种科学的从会计凭证中获取有关经济往来和经营成果重要信息的方法, 为现代企业和商业社会的形成准备了一个完美的经济信息系统。德国哲学家歌德(Goethe) 把它赞誉为“ 人类智慧的绝妙创造之一, 每一个精明的商人从事经营活动都必须利用它冶。不仅如此, 经济学家和统计学家们还建立了计量经济学与实验经济学, 提出各种计量分析框架、思想和理论, 如面板数据计量经济学、微观计量经济学、金融计量经济学、宏观计量经济学等, 为经济数据的实证分析提供重要的方法论基础。

  时至今日, 随着信息技术和人类生产生活交汇融合, 互联网快速普及和云计算的发展, 数据呈现出全新的表象: 大数据( Big Da鄄ta)。大数据具有数据规模海量( Volume)、数据流转快速( Veloci鄄ty)、数据类型多样( Variety)、数据价值巨大( Value) 等四大特征。数据规模海量和流转快速意味着无法在有限时间内用传统IT 技术和软硬件工具对其进行感知、获取、管理、处理和服务, 需要新的特殊技术和软硬件系统, 以有效地存储和处理大量的经过容忍时间内的数据, 比如大规模并行处理( MPP) 数据库、分布式文件系统、分布式数据库、云计算平台和可扩展的存储系统等; 数据类型多样意味着数据变量高维, 传统的基于低维变量的数据分析技术不再适用, 而基于高维变量的大数据分析技术将成为重点。数据价值巨大意味着从数据中获取价值是大数据分析的核心, 需要专家知识和理论建模的进一步提高, 还需分类分析、聚类分析、关联分析、神经网络、机器学习等数据挖掘技术的进一步成熟和完善。

  大数据时代的来临将对经济发展、社会生活和国家治理产生重大影响。习近平总书记指出: “大数据发展日新月异, 我们应该审时度势、精心谋划、超前布局、力争主动, 深入了解大数据发展现状和趋势及其对经济社会发展的影响, 分析我国大数据发展取得的成绩和存在的问题, 推动实施国家大数据战略, 加快完善数字基础设施, 推进数据资源整合和开放共享, 保障数据安全, 加快建设数字中国, 更好服务我国经济社会发展和人民生活改善冶, 并强调“建设现代化经济体系离不开大数据发展和应用冶, “要运用大数据提升国家治理现代化水平。要建立健全大数据辅助科学决策和社会治理的机制, 推进政府管理和社会治理模式创新, 实现政府决策科学化、社会治理精准化、公共服务高效化冶。

  而征信与大数据有着天然的联系, 征信的业务都是围绕着数据展开。根据党中央、国务院关于加快社会信用体系建设、加快建设征信系统的重要战略部署, 2004 年初, 人民银行开始组织商业银行建设全国集中统一的个人征信系统。2005 年8 月, 个人征信系统完成与全国所有商业银行和部分有条件的农村信用社的联网运行, 并于2006 年1 月在全国联网运行。企业征信方面, 2004 年, 人民银行启动银行信贷登记咨询系统升级工作, 将原来分布在337 个城市的三级分布式数据库升级为全国集中统一的企业征信系统, 实现数据在全国的大集中, 统一对外服务。2005 年12 月, 企业征信系统实现主要商业银行的全国联网运行。2006 年6 月末, 企业征信系统实现所有中资、外资商业银行和有条件的农村信用社的全国联网运行,并于2006 年7 月底完成全国范围内与银行信贷登记系统的切换工作。根据《征信业管理条例》, 央行征信系统依法采集征信数据。经过10多年来的建设和完善, 央行征信系统的数据具有全样本、大覆盖、跨周期的特点, 不仅数据量大, 而且最重要的是包含丰富的价值, 是典型的金融大数据。

  征信大数据可以服务于三个目的: 一是征信服务高效化。征信大数据有助于进一步提升征信在金融机构信用风险管理中的作用,有效解决信贷市场的信息不对称问题, 提高社会融资便利, 缓解实体企业“融资难、融资贵冶问题。二是社会治理精准化。比如在个人征信权益保护方面, 基于征信大数据分析的异常查询实时监测模型, 可以对个人征信系统的违规查询行为产生威慑作用, 倒逼查询机构加强内部管理, 合法使用信用信息, 以保障信息主体的权益,促进征信市场健康发展。三是政府决策科学化。征信大数据可以深度地应用在分析和预测信贷市场整体发展状况和趋势、信贷市场结构和资产质量变化情况、重点行业的信贷业务、区域间信用经济发展和信贷活跃人口变迁情况等方面, 从而为货币政策、产业政策和金融监管提供更加全面、实时和更有政策涵义的决策依据。

  一言蔽之, 征信大数据是一个数据金矿, 它的“ 挖掘冶将有助于新时代下现代化经济体系的建设以及国家治理现代化水平的提升。然而, 遗憾的是, 当前征信大数据方面的研究工作尚处于空白, 鉴此, 我们不揣浅陋, 进行了这方面的尝试。

  在理论篇, 本书全面地研究了大数据概念、国外发展动态、我国发展现状和未来发展趋势, 并从基础架构支持、数据采集、数据存储、数据计算、展现与交互、数据算法等多层次多角度对大数据技术展开分析, 继而聚焦于征信大数据, 揭示了征信大数据的特征、在经济分析的重要意义以及可探索的方向。

  在实践篇, 本书对征信大数据的应用进行了多方面探索, 一是在个人征信权益保护方面, 通过数据挖掘技术, 从海量查询记录中,分析查询用户的行为模式, 归纳出平稳型、增长型、小幅跳跃型、周期跳跃型四种异常查询实时监测模型(见本书第四章); 二是在研究人口迁徙方面, 对3郾9亿信息主体、48郾8亿条征信记录进行分析挖掘, 全面刻画了改革开放以来全国劳动力人口迁徙的轨迹、特征及未来人口迁徙的趋势(本书第五章); 三是在评估城市信用方面,综合借贷双方重点关注贷款规模、获取信贷便捷度及信贷风险等三个因素, 对50 亿条征信记录进行分析挖掘, 采用层次分析法建立城市信用指数模型, 对中国各城市的信用情况进行了综合评价, 从而得出近10 年来中国城市信用特点及发展趋势( 本书第六章); 四是在产业经济分析方面, 基于征信大数据分析, 从信贷资源流动与配置入手, 研究我国房地产业、制造业、批发零售业、住宿餐饮业、建筑业、交通运输、仓储和邮政业、农林牧渔业、采矿业、电力生产供应业、水利、环境和公共设施管理业等各细分行业的信贷结构,由此基于信贷视角, 揭示了近十年来我国产业结构变迁路径, 并分析了产业结构调整和信贷供给之间的关联性( 本书第七章至第十八章)。

  值得一提的是, 本书的研究同时还受到了一本名著《美国产业结构》(詹姆斯·W·布罗克编著) 的启发, 该书对美国12 个重要产业的历史、市场结构、市场行为、市场绩效和公共政策问题展开了详细分析。笔者研读该书之后, 深感我们中国也需要这样的一本书, 能够详细地分析中国各个产业的发展历史、结构特征与市场行为, 从各产业的微观表象, 去探究中国经济现代化转型的深层次脉搏, 因为笔者深信, 大江大河的气势磅礴是由一个个浪花的起起伏伏而构成, 一个国家的现代化, 必然会体现为各个微观层面的结构变迁。而恰好, 实时海量、几乎覆盖各个行业、接近于全体样本的征信大数据, 为研究我国产业结构变迁提供了可能。鉴此, 本书尝试性地以信贷结构为切面, 利用征信大数据对我国产业结构变迁进行了分析, 以图“窥一斑而知全豹冶。

  希望本书的出版对我国征信大数据研究有所助益。当然, 我们也清醒认识到, 因学识所限, 本书的研究还有待深入, 比如在产业经济分析方面, 可以立足于当前供给侧结构性改革背景, 进一步深入挖掘征信数据中的经济信息, 从而更好地服务新时代的经济建设与发展。比如研究“僵尸企业冶问题(行业分布、地区分布、信贷机构分布、时序变化); 针对农民工“离土不离乡冶现象, 研究人口迁移回流后地区间的财政转移支付问题; 还有中美产业结构对比等。诸多遗憾, 我们暂且留待下一步研究。

  本书的研究数据有多个来源, 一部分是征信系统的基本统计,已经经过合规要求进行了脱敏处理, 不包含具体金融信息。另一部分来源是公开的数据, 比如Wind 数据库、国家统计部门的数据等。本书的研究仅代表个人观点, 不代表所在机构的意见。

  周炳、景志刚、高健、李靖、徐方林、楼骁涵、卫旭骏、邵伟凯、刘威、乐国锋、司恩哲、胡青青、邓林慧、杨志、李状君、熊欣等同事、中国人民银行金融研究所陈华和中国金融出版社肖炜老师对本书给予了大量帮助, 特此感谢。

  书中的其他不足与需要改进的地方, 亦请方家指正。

  是为序。

2018年1月6日