最近的新聞中都是用戶在看似正常的消費或取款後,發現自己的卡卻被盜刷了,這種現象就是欺詐交易。欺詐交易是存在於銀行、保險、證券等各行各業的危害現象,給人們經濟、生活帶來較大損失和威脅。作為世界難題,發達各國紛紛輔以了強大的信息化管理系統,通過數據挖掘和人工智能輔助偵測、識別和評估欺詐交易,有效提高了反欺詐技術手段。
CRISP-DM,即跨行業數據挖掘標準流程(如下圖),是迄今為止最流行的數據挖據流程參考模型。圖中所示的各個大小節點之間的關聯會有循環和粗略不壹,過程並不是重點,關鍵是數據挖掘的結果最終能嵌入到業務流程,以提升業務效率和效益。
CRISP-DM和SPSS自有開發的SPSS Modeler契合度非常好, 支持嚴格設計、半試驗研究、偏智能化的三大統計方法論,是全球最為出色的統計軟件之壹.本次以SPSS Modeler18為建模工具,利用非真實的醫療保險業數據(投保人信息、醫療機構信息表、索賠信息表、醫療診斷與處理信息表)作為內部業務數據、非真實的小額貸款數據作為第三方客戶數據源,進行欺詐交易發現的數據挖掘建模和分析, 也相信於其他行業具有借鑒意義。
在CRISP-DM的商業理解階段,首先對企業進行擁有資源、需求、風險、成本收益的形勢評估,以便對數據挖掘目標的進行確定。
業務梳理的醫療保險欺詐風險分析如下:
1)國內醫療保險欺詐表現形式
主要有 : 冒名頂替 ( 即就醫資格作假) ; 病因作假 ( 將非醫保支付病種( 如車禍 、工傷、打架鬥毆、自殺等 ) 改成醫保支付病種); 誇大損失; 票據作假; 醫療文書作假; 住院床位作假( 即掛床住院 ) ; 編造虛假住院、門診特殊病等有關資料“騙保” 。
2)欺詐的主體
在“第三方付費 ”的制度下 ,醫務人員和被保險人可能合謀欺詐保險機構。
主要有三個角色:投保人、醫療機構、保險公司,發生欺詐的可能性來源有投保人、醫療機構。結合業務特征整理數據挖掘的目標和思路方向如下:
數據異常檢測;
對投保人進行分類研究,使用用戶畫像,並結合外部數據對已有和潛在的客戶進行欺詐評分預測;
對醫療機構信息的分類研究;
醫療索賠檢測。
聲明: 鑒於篇幅,本篇概為總攬,對具體的思路、算法將在今後做專題。
二、數據與模型分析
2.1數據異常檢測
不少數據異常情況從業務邏輯來說是壹件可以憑借經驗直接判斷的事情。比如某客戶的索賠頻率和額度在壹段時間大量增加、投保人的支付金額和投保人醫療費用數據大小關系異常等,都可以視為疑似欺詐,相關過程不做技術展示了。
Benford定律和anomaly detection是審計、證券等行業運用比較廣泛的異常監測方法。所謂異常檢測就是發現與大部分對象不同的對象,其實就是發現離群點。我們可以同時多種異常檢測方法來提升發現欺詐交易的命中率。Benford定律的是個有點趣的定律,揭示了海量數據中首位數字分布特征:數據的第壹位數字數字越大,出現的頻率越低。通過聚類建模,以醫療機構編號、支付金額、索賠筆數等為輸入變量:
我們可以得出當索賠闕值大於50 、聚類的距離闕值大於0.2的機構疑似欺詐報告:“醫療保健機構編號:10083642887,醫療保健機構細類: psychology,醫療保健機構索賠索賠數量 58”和“醫療保健機構編號: 10085843968,醫療保健機構細類: med trans,醫療保健機構索賠索賠數量 71”。
為擴大異常數據搜索範圍,利用專門的異常檢測方法Anomaly建模:
得到如下表中異常偏離指數大於1.5、Anomaly標記為“T” 的疑似欺詐投保人名單:
通過查看模型的結果,表中也展示出導致該條記錄被視為異常值的3個最重要影響因子及影響指數,可以輕易看出包括DIAG診斷、Procedure處理過程、MEDcode醫療措施在內的因子是導致疑似欺詐的重要因素。
經過欺詐部門審核完畢,可以比較兩種算法的命中率。
2.2投保人的欺詐分析
包括:聚類遷移,欺詐評分,用戶畫像。
2.2.1客戶的聚類遷移
通常來說,在較短時間內,不論是機構還是個人的狀態、行為模式是較穩定的,不會發生太大的變化。如果對投保人所做的聚類細分,在壹年甚至半年內有客戶變換所在細分群組的話,可以提交疑似欺詐報告。聚類建模挑選幾個關鍵輸入變量(參考RFM模型),比如支付金額、支付筆數、保險條款分別對第壹年和第二年進行聚類建模並作群組變換的標記,可以得到疑似欺詐名單。
在對客戶的聚類分析中,可以發現壹些記錄數量很少的群組,在營銷活動中常常被忽略,但在欺詐發現中卻是值得引起註意的壹個異常行為類群。
2.2.2欺詐評分:單分類器和集成學習(Ensemble Learning)
個人信用體系建設在發達國家已經非常成熟,眾所熟悉的銀行業就涉及到信用審批,額度確定,以及反欺詐等專業的應用。 美國銀行業中每年八千億美元的刷卡量中僅造成壹個億左右的損失,占總量的約0.02%,其成熟發展的數據挖掘技術成果斐然。
欺詐評分可以主要分三個步驟:變量轉換,生成logsitic回歸模型和評分轉化。樣本隨機地分成兩部分:壹部分用於建立模型,另壹部分用來對模型進行檢驗。變量的Bining(分箱)處理實際上對數據是有壹定損失的,但出於以業務服務為出發點的需求,必須考慮到分箱變量對於業務人員來說更方便使用和理解。
輸入logistics回歸模型的是各個(分箱)變量的WOE值(weight of evidence) 。Woe值的計算公式:WOE=ln(好客戶占比/懷客戶占比)*100。
變量轉換包含以下步驟:
1)剔除冗余變量(相關系數較大的變量保留其壹即可);
2)對連續變量的Bining處理和離散變量的類別歸並處理;
3)IV值的計算和WOE值的計算,為提升預測能力,盡量篩選IV值大於等於0.02和小於等於0.05的變量。
上圖是變量轉換數據流的模型和輸出的壹部分,可以看出第壹次輸出表格,作為離散變量的信用卡數據還可以繼續計算其違約率進行轉換分類。
逐步法進行logistic回歸建模後,還要利用統計方法對回歸系數進行評分轉化,評分轉化步驟涉及到壹個量表編制的業務量化過程,暫不詳述。預測模型的檢驗可以用roc、k-s指標法等,評分卡檢驗需要反映出哪個分段是區分最大,選擇ks指標法:
壹般,KS>0.2即可認為模型有比較好的預測準確性。
回歸是單分類器的基本常見算法之壹,還可以用決策樹C5.0建模。
查看C5.0模型可以得到客戶發生欺詐的8條規則,根據這些規則可以了解發生欺詐交易之前的若幹顯著特征,從而發現客戶的欺詐征兆,及早進行防範。在規則1中,可以看到年齡在27歲以下、持信用卡類型為“支票”、國籍是希臘、南斯拉夫的客戶是發生欺詐交易的高風險的客戶群之壹。
單分類器雖然在過去廣泛運用,但存在明顯的不足。近些年來美國銀行業大量采用了樹形算法家族,目前接觸較多的集成學習主要有2種:基於Boosting的和基於Bagging,新近的還有梯度遞增樹算法。這些集成學習方法避免了變量間的相互依存性問題,而且預測分析能力也逐步增強,適用範圍廣,在反欺詐和其他壹些領域被證明效果非常好,是我們專業人士關註的方向。
Boosting算法的主要思想是在T次叠代中,每次叠代對分類錯誤的樣本加大重采樣權重,使得在下壹次的叠代中更加關註這些樣本。這樣訓練的多個弱分類器進行加權融合,產生壹個最後的結果分類器,提高了該弱分類算法的準確率。我們使用boosting 設置50棵決策樹叠代:
建模及結果:
2.2.3用戶畫像
近年比較熱的用戶畫像,為的是公司追本溯源對客群有更多感性的認識,輔助市場部進行精準營銷,並利用內部數據和外部(第三方)數據建立起大規模的數據倉庫體系,成為公司的核心價值資源。用戶通常具有人口統計學,社會群體特征,金融業務特征、個人興趣愛好等等幾大標簽體系。通過對用戶畫像的研究,搭建客戶的各類標簽體系,可以幫助我們分分鐘認識客戶。
壹般來說,銀行具有豐富的交易數據、個人屬性數據、消費數據、信用數據和客戶數據,用戶畫像的需求較大也實踐較早。目前很多社交興趣愛好等信息來自於第三方補充。保險行業的產品是壹個長周期產品,保險客戶再次購買保險產品的轉化率很高,對用戶的畫像也會是壹個必要的過程。
根據業務經驗和集成算法理論(當數據集較大時,可以分為不同的子集,分別進行訓練,然後再合成分類器),像銀行業、電信業等大型公司的客戶數據,我們可以首先根據客戶價值(長尾理論)的高低分類,再分別對高價值客戶、中低價值客戶等建立可能不同類型的模型以實現更好的分類效果。針對每次不同而豐富的營銷業務需求,第壹步先從龐大的客戶標簽體系中構建出的標簽特征子集,再通過進行LR(RANKING MODEL)等計算標簽影響因子,進行標簽的權重賦值,所得排名靠前的標簽就是此項業務人員所需了解的目標用戶的畫像了,同時也能較準確地為市場部提供相應的營銷客戶名單,大大提升業務效率。
假定開頭使用的anomaly數據異常檢測結果為真實,增加投保人信息表中的客戶屬性:“是/否發生欺詐”並按結果分別標記,使用k-Means建模並輸出各聚類群組的欺詐比例,查看得出結果報告:
從輸出結果中,對於欺詐比例較高的的聚類,我們可以重點考察他們的群組特征標簽,spss modeler中可以直接察看聚類特征的比較情況,得出聚類7的模型特征描述如下,實現了分分鐘便認識欺詐交易的陌生人。
2.3醫療機構的分類研究
醫療機構的分類研究同樣可以首先使用聚類遷移分析方法(同上投保人的聚類遷移法),國外的反欺詐技術已經深入結合到各機構的管理過程中了,並取得良好成效。
2.4醫療索賠的檢測
醫療服務過程在各機構的處理方式上,通過人工審查欺詐是壹件比較有難度和成本的事情。結合臨床路徑的概念和經驗,借助數據挖掘技術建立模型,自動識別每壹項特定醫療服務的系列特征,如防射療程、化療療程度等,是推動醫療保險業欺詐發現重大進展。國內也開始了更多深入的研究與應用。
三、總結