中国建设银行信贷资产项目后台数据抽取及挖掘-毕业论文.doc

上传人:滴答 文档编号:1273553 上传时间:2019-01-26 格式:DOC 页数:59 大小:2.20MB
下载 相关 举报
中国建设银行信贷资产项目后台数据抽取及挖掘-毕业论文.doc_第1页
第1页 / 共59页
中国建设银行信贷资产项目后台数据抽取及挖掘-毕业论文.doc_第2页
第2页 / 共59页
中国建设银行信贷资产项目后台数据抽取及挖掘-毕业论文.doc_第3页
第3页 / 共59页
中国建设银行信贷资产项目后台数据抽取及挖掘-毕业论文.doc_第4页
第4页 / 共59页
中国建设银行信贷资产项目后台数据抽取及挖掘-毕业论文.doc_第5页
第5页 / 共59页
点击查看更多>>
资源描述

1、 本科毕业论文 (科研训练、毕业设计 ) 题 目:中国建设银行信贷资产项目 后台数据抽取及挖掘 姓 名: 学 院:软件学院 系: 专 业:软件工程 年 级: 学 号: 指导教师(校内): 职称: 指导教师(校外): 职称: 年 月 日 中国建设银行信贷资产项目后台数据抽取及 挖掘 I 摘 要 随着我行对亿万级信贷数据源处理的不断完善和提高,我行在信贷数据采集规范、数据定义、开发标准、分析模型、报表口径不一致的问题亟待解决。信贷资产项目的目标就是梳理全行 信贷信息指标、统一信贷报表口径、改善信贷数据采集规范。 本文通过对信贷资产项目现状的描述,引入数据仓库在建行分析和决策上的必要性,及其解决数据

2、格式、语意语法的不一致问题从而实现信息披露的准确性和及时性。 本文进一步从信贷资产项目的应用架构介绍了信贷信息数据库,通过完成历史数据的加载和存量数据的迁移这两项核心工作来满足新旧系统的一致性,以及数据的接入、调整与补录业务,从而实现时间的同步,范围、口径、质量、业务的无差别衔接。 本文还通过 ETL 实现数据的抽取转换清洗装载过程,保证加载数据的质量。并利用商业智能工具 收集、管理和分析数据,将建行中现有的大量数据转化为有用的信息,帮助建行做出明智的业务经营决策。 关键词 : 数据仓库 ; 数据质量 ; ETL; 商业 中国建设银行信贷资产项目后台数据抽取及 挖掘 II Abstract W

3、ith our constantly improvement and enhancement to the processing of hundreds of millions of the credit data sources, our China Construction Bank has some problems need to be resolved immediately, such as, the collect regulation of credit data, data definition, the development of standards, analysis

4、model, and the inconsistency of the calibre of the report table. The target of the Credit Assets Project is just carding indicators of the whole banks credit information, unifying credit statements calibre, and improving data collect regulation credit. This paper introduces the importance of the Dat

5、a Warehouse in CCBs decision-making by the description of the Credit Assets Project, and show us how the Data Warehouse solve the inconsistency of the data format and semantic to implement the disclosure of information accuracy and timeliness. The Credit Assets Projects application architecture intr

6、oduces credit information database, the completion of loading the historical data and relocating the stock data helps meeting the consistency of the old and new systems. The datas access, restructuring business implement time synchronization and non-discriminatory convergence on range, quality and b

7、usiness. This paper also meet the process of data extraction, conversion, cleaning and loading to guarantee the quality of data. And collect, manage and analyze data using business intelligence tools. It helps converting large amounts of CCBs existing data to useful information, and so CCB can make

8、a wise business decision-making. Key words: Data Warehouse; Data Quality; ETL; Business Intelligence 中国建设银行信贷资产项目后台数据抽取及 挖掘 III 目录 第一章 引言 . 1 1.1 信贷资产项目现状 . 1 1.2 信贷资产项目术语定义 . 1 第二章 信贷资产项目总体设计 . 3 2.1 信贷资产项目目标细化 . 3 2.2 数据仓库在信贷资产项目中的应用 . 3 2.3 信贷资产项目应用架构设计 . 6 第三章 信贷资产项目详细设计 . 9 3.1 信贷资产项目系统初始化 . 9

9、3.2 ETL . 16 3.3 商业智能 . 22 3.4 数据质量 . 27 第四章 信贷资产 项目的实现结果 . 29 4.1 创建数据源连接 . 29 4.2 Framework 模型设计 . 30 4.3 Report Studio 报表设计 . 38 4.4 在 ride 上发布报表 . 43 第五章 总结 . 48 致谢 . 49 参考文献 . 50 中国建设银行信贷资产项目后台数据抽取及 挖掘 IV Contents Chapter 1 Introduction . 1 1.1 Credit Assets Project status . 1 1.2 Credit Assets

10、 Project definition of terms . 1 Chapter 2 Credit Assets Project overall design . 3 2.1 Credit Assets Project goal details . 3 2.2 The application of Data Warehouse in Credit Assets Project . 3 2.3 Application architecture design in Credit Assets Project . 6 Chapter 3 Credit Assets Project detailed

11、design . 9 3.1 Credit Assets Project system initialization . 9 3.2 ETL . 16 3.3 Business Intelligence . 22 3.4 Data quality . 27 Chapter 4 Credit Assets Project achieving results . 29 4.1 Creating a data source connector . 29 4.2 Framework model design . 30 4.3 Report Studio report table design . 38

12、 4.4 Publishing report table on ride . 43 Chapter 5 Summary . 48 Acknowledgement . 49 References . 50 中国建设银行信贷资产项目后台数据抽取及 挖掘 1 第一章 引言 1.1 信贷资产项目现状 我行信贷资产风险十二级分类信贷管理信息系统子项目的启动,在建立信贷资产十二级分类电子化流程的基础上,初步搭建全国统一的信贷资产数据库,支持十二级分类信息的汇总统计,为信贷数据和应用在全行全面实现集中奠定了基础。实施信贷数据全行集中是数据管理的大趋势,信贷数据和应用全行集中后将会进一步提高全行数据管理集约化

13、水平,为在全行范围内整合应用信贷数据奠定基础,有利于在全行范围内实现数据共享,有利于管理信息系统功效的充分发挥,并可进一步降低系统运维成本。 随着我行对公、对私信贷 业务流程系统的建设推广,信贷数据源不断得到补充和完善,但我行信贷数据采集规范、数据定义、开发标准、分析模型、报表口径不统一问题一直以来没有得到很好的解决,数据一致性和准确性问题屡屡出现。信贷管理信息系统( CMIS)作为全行唯一全口径信贷信息的管理系统,具备构建统一信贷基础指标体系的有利条件。按照数据整合和管控工作要求,我们有必要依托信贷管理信息系统,梳理全行信贷信息指标、统一信贷报表口径、改善信贷数据采集规范,构建稳定、独立、多

14、维的信贷基础指标体系,搭建信贷信息质量监测管理平台,以不断提高数据规范性和标准化 程度。 1.2 信贷资产项目术语定义 数据源系统:为 CMIS 提供数据的系统,如对公信贷流程管理系统、新一代贸易融资系统、新一代个人贷款业务系统等。 目标系统: CMIS 为其供给数据的系统,如数据仓库及管理信息系统、内部评级系统、企业征信系统等。 信贷资产风险十二级分类:信贷资产风险十二级分类是指信贷经营、管理人员按照规定的标准、方法、流程和要求对信贷资产质量进行全面、及时和准确的评价,在五级分类的基础上,按照风险程度将信贷资产划分为十二个级别的过程,即正常一级、正常二级、正常三级、正常四级、关注一级、关注二

15、 级、关注三级、次级一级、次级二级、可疑一级、可疑二级和损失级。 中国建设银行信贷资产项目后台数据抽取及 挖掘 2 信贷资产:是指建设银行通过发放、提供信用及承担信用风险形成的信贷资产,包括: (1) 各类本外币贷款:包括公司类贷款(含固定资产贷款、流动资金贷款、房地产开发类贷款、进出口贸易融资贷款、境外筹资转贷款、银团贷款、法人帐户透支、贴现、买入票据、买方信贷、非银行金融机构贷款、买入企业返售证券、国家特定贷款、受让信贷资产、表外业务垫款等)及零售类贷款(含个人住房贷款、个人再交易住房贷款、个人商业用房贷款、个人住房最高额抵押贷款、个人消费额度贷款、个人 汽车贷款、个人权利质押贷款、中央财

16、政贴息国家助学贷款、地方财政贴息国家助学贷款、个人助业贷款、下岗失业人员小额担保贷款等)。 (2) 表外业务中的信用证、银行承兑汇票、保证、信贷证明、保理担保付款、贷款承诺(限于已经签定了借款合同或合作协议的帐户透支业务中未支用的额度,借款合同中分期用款尚未支用的贷款)。 存量数据:是指新一代信贷管理信息系统在初始化时点的全口径信贷信息数据。 历史数据:是指新一代信贷管理信息系统初始化时点前的全口径信贷信息数据。 CLPM:对公信贷流程管理系统( Commercial Lending Process Management System)。 CID:信贷信息数据库( Credit imforma

17、tion database) A+P:新一代个人贷款业务系统。 CARDLINK:国际卡系统。 DCC CCBS:核心银行业务处理系统 (Consolidated Core Banking System)。 ERPF:企业资源管理财务系统( Enterprise Resource Planning Finance System)。 ODS:操作数据存储系统( Operational Data Storage) DW&MIS: 数据仓库及管理信息系统( Data Warehouse & Management Information System) UAAP:信息系统认证授权平台( Union A

18、uthentication Authority Platform)。 征信( Credit Reporting):依法收集、整理、保存以及提供信用信息的活动。 中国建设银行信贷资产项目后台数据抽取及 挖掘 3 第二章 信贷资产项目总体设计 2.1 信贷资产项目目标细化 (1) 应用和数据的全国集中 (2) 系统梳理 CMIS 功能,构建全行全口径信贷信息的 统一发布平台 (3) 实现信贷风险分类标准的提升,深化分类数据应用,满足对外披露和内部精细化管理要求 (4) 整合信贷信息采集渠道,减轻一线人员工作量 (5) 构建稳定、独立、多维的信贷基础指标体系和数据质量检核体系,利用灵活的报表工具,满

19、足业务多元化需求 (6) 开发可配置接口,持续支持 ERPF、征信等系统以及分行 CMIS 应用数据的供应 2.2 数据仓库在信贷资产项目中的应用 2.2.1 数据仓库的必要性 1 为了应对当今日趋激烈的市场竞争,提高自身竞争力,商业银行需要提高服务质量、推出新产品来巩固已有 客户并在吸引更多的新客户的同时提高经营业绩、控制经营风险,这需要提高管理水平、丰富业务手段。当银行中的各级管理人员在运用各种管理知识管理银行时需要准确了解银行的现状和以往历史来做出判断和决策,因此对管理和运行银行业务的信息系统提出了更高的要求,希望能够从中获取综合银行有效的决策支持信息,及时准确地把握市场变化的脉搏。 目

20、前,国有商业银行中现有的信息系统大部分是独立建设的,是基于不同时期、不同的业务需要而建立的各种业务系统,这些业务系统所应用的范围不同,层次也有所差别,互相之间的联系很少,同时还存在不同程度的 数据冗余和不一致。虽然基本完成了数据集中的大平台,但是所集中的数据主要是银行业务的核心数据,各省分行的外围系统如中间业务、网上银行、电话银行、电子账单等业务系统中的客户信息和详细交易信息仍以分散的形式存在于不同的业务系统中;另一方面,业务系统所收集的数据在数据的质量、保存时间、数据的中国建设银行信贷资产项目后台数据抽取及 挖掘 4 更新特性上和应用于分析型信息处理的数据存在差别。 因此,要想全面而准确地对

21、银行的现状和历史进行综合分析进而得到决策支持信息就必须在核心业务数据集中的基础上按照统一的规范整合外围系统的数据,并将整合的数据按时间的顺序保存。 2.2.2 数据仓库简介 数据仓库( Data Warehouse)就是针对上述问题而产生的一种解决方案,它是基于大规模数据库的决策支持系统环境的核心。数据仓库是一个面向主题的、集成的、永久的(数据一旦被写入就不会进行一般意义上的数据更新和删除)且随时间不断变化(按时间保存活动和事件的历史记录)的数据集合,用于支持管理层的决策。 数据仓库中的数据按照主题进行组织,主题是与建行相关的事物(物理的项、概念、事件、人和位置)在建行业务中较高层次上的抽象分

22、组,每一个主题对应于建行中某一宏观分析领域所涉及的分析对象。所有的 主题处于近似相同的抽象层次,其定义是结构化的,因而彼此是互斥的。通过将来自各个业务系统中用于分析型处理的源数据从事务处理环境的操作型数据中提取出来,再进行清洗和统一格式转换等标准化处理后按照确定好的主题重新组织并存放在数据仓库中,数据仓库将原先存放在多个业务系统中的反应建行局部情况的数据转换成反映整体情况的信息,由此完成从“数据 信息”的转变,使得建行最终拥有适应于解决分析型问题的基础数据。 数据仓库不是简单地对数据进行的存储,而是在提取各业务系统中分析型数据的基础上对数据进行再组织,将数据转化为信息。数 据仓库的建立有利于统

23、一解决多个分散的数源间的不一致问题,包括数据格式不一致、数据的语意和语法不一致,以及时间的不一致等问题。 中国建设银行信贷资产项目后台数据抽取及 挖掘 5 图 2-1 数据仓库的整体环境 2.2.3 数据仓库在银行信息系统中的应用 2 在建行的各部门尤其是基层的业务部门,编报各种报表的工作量很大 :有本行的报表,有报上级行的报表,有报人民银行的报表,有报银监会的报表,还有大量的临时性通知要求报送的报表或数据。各系统报表繁多、自成体系,由于数据来源不同,经常出现上级行发现下级行报送的报表相互之间不平衡,只有要求下级行更正之后再重新 上报的现象,极大影响了报表的准确性;同时,数据上报环节较多,也极大地影响了报表报送的及时性。 利用数据仓库技术,建立建行的数据仓库,将各业务系统的基础业务数据通过数据提取、数据分析、数据计算或汇总的整合过程进入数据仓库。在数据仓库的支持下,不仅可以实现商业银行报表的自动生成,而且利用计算机软件技术可以实现整个过程全自动化;不仅可以实现月报表的自动生成,而且可以实现日报表的自动生成,为各项业务的开展提供强大的信息支持。各部门业务人员每天上班进入查询系统,便可以浏览各种业务报表以及各项业务指标的数据。 利用数据 仓库技术的支持,通过信息生成的自动化,达到信息披露的准确性和及时性,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 毕业论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。