基于大數據技術信用風險評價系統(tǒng)設計(一)
1、國內外技術發(fā)展現狀
(1)云數據挖掘技術
隨著云時代的到來和移動互聯網的快速發(fā)展,數據規(guī)模從MB、級發(fā)展到TB、PB 級甚至EB、ZB 級,并且面臨著TB 級的增長速度,數據挖掘的要求和環(huán)境也變得越來越復雜,從而形成“數據量的急劇膨脹”和“ 數據深度分析需求的增長”這兩大趨勢,使得40 年來一直適用的數據庫系統(tǒng)架構在海量數據挖掘方面顯得力不從心。
目前業(yè)界開源的云計算平臺,包含HDFS 和MapReduce,為海量數據挖掘平臺提供完備的云計算平臺支撐平臺。云數據挖掘技術在技術上是完全可行的,現在也有部分公司也在做基于云的數據挖掘系統(tǒng),但還是在嘗試性的階段,應用到信用領域就更少了,暫時還沒有類似的成熟的商業(yè)產品。
(2)云風險計算技術
風險計算技術是基于數學模型建立的,在很多行業(yè)上都能找到相應的應用,比如銷售預測,控制第二年的銷售分析;比如產品預測,控制新產品發(fā)布的風險?,F在數學模型已經應用到各個領域,金融行業(yè)的風險控制當然也不例外。在很多金融行業(yè)系統(tǒng)中對于算法模型都是靜態(tài)的,必須要人工進行更新、維護和優(yōu)化,隨著業(yè)務的更新一直處于一種被動的狀態(tài),對于風險控制的粒度自然就不會很小。對于現在的金融行業(yè),風險控制幾乎等于0,不僅僅是靜態(tài)算法的原因,同時也缺少監(jiān)管的,甚至很多的風險控制是人為的主管判斷的。在大數據時代,使用靜態(tài)數學模型沒法處理日益增長的風險控制業(yè)務需求,需要找到一種適應于大數據時代的風險控制技術。
云風險計算技術應運而生,它利用云的優(yōu)勢,能滿足大數據時代的數據處理需求,同時該技術中設計的數學模型具有自學習能,對于處理過的數據自主學習處理方式和處理結果,自動選擇匹配的數據進行計算,進一步提高算法的智能性和可用性,同時提高風險控制的能力,發(fā)現更多的未知風險。
(3)信用評價技術
信用評級的核心是要充分揭示受評對象的信用風險,從受評對象目前現金流量和其它現金來源對債務的保障程度入手,充分考慮宏觀經濟環(huán)境、行業(yè)發(fā)展趨勢、政策和監(jiān)管措施等企業(yè)外部因素和基本經營、管理素質、財務狀況等企業(yè)內部因素的影響,從而對受評對象未來償付能力做出判斷。
不斷發(fā)展評級技術既是市場的需要,更是評級機構活力的源泉。信息的附加值來源于評級機構對信息的加工和整理過程,即評級技術。評級技術就是在掌握公開信息和收集私人信息的基礎上,對信息進行加工、整理和挖掘的過程,以及將他們抽象成決定信用質量的關鍵性變量或因素,并對這些變量的影響程度進行分析,最后得出表征風險高低的信用等級的過程。信息的加工過程需要高度的專業(yè)知識與技術,具有很高的知識含量,這就是為什么同樣是面對公開信息,投資者不能有效“復制”出評級機構的評級結果,而必須依賴于評級機構的專業(yè)技術。
作為金融市場的參與者和以盈利為目的的組織,充分、有效揭示風險,并在這個過程中保持獨立、公正和客觀是評級機構賴以生存的基礎,也是市場對評級機構的基本要求。
信用評級沒有固定的公式,是一種開放的、不斷發(fā)展的技術體系,能夠兼容各種定量分析技術。
20世紀70年代以前,度量信用風險的方法和模型主要是借助于各種報表提供的靜態(tài)財務數據,進而通過分析經濟體的各種信息來相對主觀地評價其信用質量。80年代以來,信用市場的發(fā)展和信用風險的變化使得風險度量研究領域開始出現了許多新的量化分析方法和度量模型。目前,西方發(fā)達國家(特別是美國)較為流行的模型和方法大體上可以分為兩類:一是古典的(或稱之為傳統(tǒng)的)信用風險度量模型,包括專家制度模型、Z-評分模型和ZETA模型等;二是現代信用風險度量模型,目前比較流行的如:J.P.摩根的信用度量制模型(Credit Metrics Model)、KMV公司的信用監(jiān)測模型(Credit Monitor Model)、瑞士信貸銀行的Credit Risk+模型以及麥肯錫公司的Credit Portfolio View模型等。
對于上述種種流行的模型,需要注意的是:
1)每種模型各有優(yōu)缺點,具有各自的特點,不能相互替代,國外學者對這些模型所做的有效性檢驗證實了這一點。有鑒于此,人們在使用某種模型時可將另外一種可配套使用的模型結合起來,做到優(yōu)勢互補,以取得較好的效果。
2)沒有一個模型已經達到成熟完美的程度,它們均存在著這樣或那樣的弱點,尚須進一步改進和完善。同時,再完美的信用風險模型也僅僅是信用風險分析的工具,任何復雜的數量分析都不能代替信用評級中的經驗判斷,況且現有的信用風險模型還未達到完美的程度,人們還將面臨著模型風險。
3)現代信用風險模型的建立需要大量的參數估計,例如違約概率、違約損失率、信用等級轉換概率等等,這些參數的估計是以歷史經驗數據為基礎的。所以,上述模型的建立基礎是發(fā)達國家?guī)资辍⑸踔辽习倌暧嘘P信用資產和信用評級的歷史數據庫。即使古典(傳統(tǒng))的Z-評分模型和ZETA評分模型也是建立在發(fā)達國家(美國)的企業(yè)的歷史統(tǒng)計數據基礎之上的。由于信用分析的本質在于揭示信用風險,一國經濟發(fā)展所處的階段、工業(yè)化程度以及社會和文化背景等不同,信用風險的影響因素和表現形式也不一樣,信用分析的具體內容和側重點必然也有所不同。因此,上述信用風險模型具有特定的適用范圍和對象,不具有普遍適用性。
因此,信用評級還不能算是一門科學,至少目前還不是。上述種種信用風險度量模型只是信用評級的手段,這是因為:從理論上看,①信用風險是一個本身無法很好定義的問題;②統(tǒng)計模型并沒有完全揭示相關變量與信用質量下降之間的因果關系;③數學模型為了處理上的方便所作的假設可能不正確;④模型并沒有得到有效的驗證。從實務上看,沒有人僅依據模型的結果來發(fā)放貸款或進行投資。
從國內研究現狀來看,對于信用風險度量的研究尚處于起步階段,大多還主要停留在定性分析上,仍然是以對經濟體報表中反映出的各種財務比率分析為主。從國內已出版的或已經發(fā)表的有關信用風險度量的著作和論文來看,涉及的定量分析還較少,迄今為止還沒有見到度量信用風險的最新的兩種方法——期權推理分析法和VaR方法的有效應用。
2、國內外技術發(fā)展趨勢
(1)云數據挖掘技術
分布式計算是解決海量數據挖掘任務,提高海量數據挖掘的有效手段之一,在理論和實踐上已經獲得證實。分布式計算包含了分布式存儲和并行計算兩個層面的內容,而云計算平臺提供了分布式文件存儲和并行的計算能力,因此很好地解決了這兩個層面的內容。下面主要分析幾個主流的分布式文件系統(tǒng)和分布式并行計算框架,以更好地構建云計算數據挖掘平臺的核心支撐能力。
分布式文件系統(tǒng)有效地解決了海量數據存儲問題,并實現了位置透明、移動透明、性能透明、擴展透明、高容錯、高安全、高性能等關鍵功能。目前業(yè)界比較流行分布式文件系統(tǒng)有Google 文件系統(tǒng)(GFS)、分布式文件系統(tǒng)(HDFS)、文件系統(tǒng)(KFS),這3 種分布式文件系統(tǒng)都是基于Google 提出的分布式文件系統(tǒng)理論進行研發(fā)的。Google提出的GFS 就是解決其海量數據存儲和搜索、分析等問題,而和KFS 是基于GFS 理論基礎上實現的開源系統(tǒng),并且在商業(yè)和學術領域得到了廣泛的應用。
分布式并行計算框架對于高效完成數據挖掘計算任務極其重要,并且它對分布式計算的一些技術細節(jié)進行了封裝,例如數據分布、任務并行、任務調度、負載平衡、任務容錯、系統(tǒng)容錯等,使用戶不需要考慮這些細節(jié),而只要考慮任務間的邏輯關系。這樣不僅可以提高研發(fā)的效率,還可以降低系統(tǒng)維護的成本。目前典型的分布式計算框架有:
MapReduce是提出的一個并行計算框架,它可以在大量PC 機上并行執(zhí)行海量數據的收集和分析任務。它把如何進行任務并行執(zhí)行、如何進行數據分布、如何容錯、網絡帶寬時延等問題的解決方案編碼,并封裝在了一個庫里面,使用戶只需要執(zhí)行數據運算即可,而不必關心并行計算、容錯、數據分布、負載均衡等復雜的細節(jié)。同時它又對上層應用提供良好簡單的抽象接口MapReduce 主要應用在搜索、數據倉庫、數據挖掘領域。
Pregel 是Google 提出的迭代處理計算框架,它具有高效、可擴展和容錯的特性,并隱藏了分布式相關的細節(jié),展現給人們的僅僅是一個表現力很強、很容易編程的大型圖算法處理的計算框架。Pregel 的主要應用場景是大型的圖計算,例如交通線路、疾病爆發(fā)路徑、WEB 搜索等相關領域。
Dryad 是微軟硅谷研究院創(chuàng)建的研究項目,主要用來提供一個基于windows 操作系統(tǒng)的分布式計算平臺,總體用來支持有向無環(huán)圖類型數據流的并行程序。微軟于年宣布,停止對Dryad 進行版本升級,轉投Hadoop 即MapReduce 計算框架。
云數據挖掘技術不僅僅是使用云技術,還使用了自主研發(fā)的云端機器人技術,隨著硬件的升級換代,通訊芯片、加密芯片和存儲芯片將進行相應的升級,軟件也會逐步進行更新,提高云端機器人的性能和穩(wěn)定性。
(2)云風險計算技術
云計算分為以下幾種類型:
? 云計算基礎架構
這類云計算提供底層的技術平臺以及核心的云服務,是最為全面的云計算服務。Amazon、Google等推出的云計算服務可以歸于這類。這種云計算服務形態(tài)將支撐起整個互聯網的虛擬中心,使其能夠將內存、1.0設備、存儲和計算能力集中起來成為一個虛擬的資源池為整個網絡提供服務。
? 云計算平臺服務
這種形式的云計算也被稱為平臺即服務PaaS(P1atfbrm as a Service),它將開發(fā)環(huán)境作為服務來提供。這種形式的云計算可以使用供應商的基礎架構來開發(fā)自己的程序,然后通過網絡從供應商的服務器上傳遞給用戶。典型的實例比如Salesforce.com 的Force tom開發(fā)平臺。
? 云計算軟件服務
這種類型的云計算稱之為軟件即服務SaaS,它通過瀏覽器把程序傳給用戶。從用戶的角度,這樣會省去在服務器和軟件上的開支;從供應商的角度看,這樣只需要維持一個程序就夠了,減少了維護成本。Salesforce.com是迄今為止這類服務最為有名的公司。SaaS在CRM、ERP中比較常用,Google Apps和Zoho Office也提供類似的服務。
? 云計算API
這類服務供應商提供API (Application Programming Interface)讓開發(fā)者能夠開發(fā)更多基于互聯網的應用,幫助開發(fā)商拓展功能和服務,而不是只提供成熟的應用軟件他們的服務范圍從提供分散的商業(yè)服務到Google Maps等的全套API服務。這與軟件即服務有著密切的關系。
? 云計算互動平臺
該類云計算為用戶和提供商之問的互動提供了一個平臺。例如,RightScale利用Amazon EC2網絡計算服務和s3網絡存儲服務的API提供一個操作面板和AWS (Amazon s WebServices)前端托管服務。
云風險計算技術不屬于以上任意一種云計算,它是一種處理特定業(yè)務功能的基于云的計算技術,利用云計算的優(yōu)勢進行風險數據計算。
(3)信用評價技術
從傳統(tǒng)的信用風險評估技術(專家制度模型,傳統(tǒng)的信用評級)到基于統(tǒng)計的數學模型(信用評分(Z和ZETA 評分模型)人工智能技術)再到信用風險的高級模型(J.P.摩根的Credit Metrics Model,KMV公司的Credit Monitor Model,瑞士信貸的Credit Risk System ,麥肯錫的 Credit Portfolio View System )復雜程度逐漸提高。
從過去的定性分析轉化為定量分析;
從指標化形式向模型化形式的轉化,或二者的結合;
從對單個資產(或貸款)的分析轉化為從組合角度進行的分析;
從盯住賬面價值的方法轉向盯住市場的方法;
對描述風險的變量從離散形式向連續(xù)形式的轉化;
既考慮單個借款人、單個貸款人的微觀特征,也考慮整個宏觀經濟環(huán)境的影響;
從單一的風險度量模式向多樣化的、定制的風險度量模式的轉化,比如在新巴塞爾協議中對每種風險類型都給出了可供選擇的多種度量方法;
運用了現代金融理論的最新研究成果,比如期權定價理論,資本資產定價理論,資產組合理論等;
VAR技術是現代主流信貸資產風險管理模型的一個主要組成部分;
汲取了相關領域的最新研究成果,比如經濟計量學方法、保險精算方法、最優(yōu)化理論、仿真技術等等;
運用了現代計算機大容量處理信息和網絡化技術。
大數據信用是大數據理論與云技術在信用領域的一種創(chuàng)新性應用,是一種融征信與評級業(yè)務一體的服務模式。從信息采集、數據運用、過程分析、作業(yè)規(guī)模與效率等多方面,它都與傳統(tǒng)征信或信用評級不同。主要不同如下:
1)數據來源的不同
傳統(tǒng)評級主要以被評級企業(yè)提供的數據為主;客觀信用評級是從政務平臺、產業(yè)鏈挖掘數據,數據更客觀真實。
2)使用的主要數據不同
傳統(tǒng)評級以財務數據為主;客觀信用評級以企業(yè)的社會、商務活動產生的自然數據為主,數據總量一般會達到數萬甚至數十萬個,數據范圍更廣,數量更大,變化性更強。
3)數據功能不同
傳統(tǒng)評級數據一般僅用于評級分析;客觀信用評級由于采用大數據分析原理,數據之間具有交互的驗證功能,能夠糾正數據偏差,識別財務數據等主觀填報的數據的真?zhèn)巍?br />
4)評級方法不同
傳統(tǒng)評級以定性為主、定量為輔;客觀信用評級是基于大數據數學模型的,數量化評級,所有結果均由計算產生。
5)量化標準不同
傳統(tǒng)評級方法的量化指標的標準通常是固定的,即使有變化也是根據數據分析師的經驗進行調整;客觀信用評級所有量化指標標準都是隨著數據的變化而自我調整變化的。
6)預測方法不同
傳統(tǒng)評級的預測更多靠人的主觀判斷來預測,并且預測以群體為主;客觀信用評級是依靠大數據基礎進行數據預測,即包括預測群體也包括預測個體。
7)操作風險不同
傳統(tǒng)評級的數據采集、風險分析、等級評定等都依靠人來進行;客觀信用評級的主要數據采集依靠云端數據挖掘機器人,分析定級通過計算機實現,全過程沒有人為干擾,減少了道德風險。
8)作業(yè)規(guī)模不同
傳統(tǒng)評級每個項目通常由1-3個分析師完成,同時開評項目的數量由分析師的數量決定;客觀信用評級同時作業(yè)規(guī)模由計算機軟硬件的配置所決定,在條件具備的情況下,只需少數人管理便可同時對上萬個,甚至數十萬個項目同時進行評級。
9)作業(yè)效率不同
傳統(tǒng)評級完成每個項目通常需要一周左右的時間;客觀信用評級在數據到位的情況下,一個到數萬個項目的評級時間只有幾小時。
10)跟蹤評級的頻度不同
傳統(tǒng)評級的信用跟蹤通常按照半年、一年來進行;客觀信用評級是實時跟蹤,24小時進行風險分析、預警、預測。
11)信貸項目性質不同
傳統(tǒng)評級所評的信貸項目通常是需要有抵押、質押或擔保、聯保的;客觀信用評級所評級的項目全部是無抵質押、無擔保和聯保的純信用貸款。
(作者:趙成光)








