Thera銀行是壹家客戶群不斷增長的銀行。這家銀行的大多數客戶都有不同的存款額。由於貸款業務的客戶數量很少,銀行希望有效地將存款用戶轉化為貸款用戶,以擴大貸款業務的基礎,帶來更多的貸款業務,並在此過程中通過貸款利息賺取更多。
因此,去年該行針對未辦理個貸業務的儲戶開展了壹項宣傳活動,督促其辦理個貸業務,部分客戶已經通過該活動辦理了相關服務。這時候零售市場部希望制定更好的策略來定位營銷,用最小的預算提高成功率。該部門希望確定更有可能購買貸款的潛在客戶,提高轉型成功率,降低營銷成本。
第二,數據理解
這個數據集總共有5000行和14列,相應的字段理解如下:
壹般來說,數據集主要由個人貸款結果和壹系列用戶的身份資產信息組成。
第三,數據觀察和清洗
在本文中,數據清洗過程仍然分為兩個步驟:初步觀察和清洗。數據觀測主要經歷以下步驟:
對異常數據類型和數據問題進行修正,修正後再次進行描述性統計,觀察數據的整體特征。
總體思路:
1這次活動效果如何?有多少人貸款了?
什麽樣的人更傾向於貸款?
活動效果即使實現了目標,這種情況下的目標是貸款,所以我們只需要統計個人貸款中有貸款的人數和沒有貸款的人數。
通過此次活動,5000名客戶中有480名客戶開始了貸款業務,約占10%,且本次活動僅針對未申請貸款的用戶進行。總體來看,業務增長超過65,438+00%,效果相當不錯。
分析貸款用戶的潛在影響因素,需要找到個人貸款字段與其他字段之間的相關性(corr()函數),找出相關系數最大的值並顯示出來。
在此基礎上,對畫板進壹步劃分,直觀顯示各欄與個人貸款的相關系數,得到如下結果。
從圖中可以看出:
1.影響貸款的強相關變量有:收入、每月信用卡消費和是否有存款賬戶。
2.影響貸款的弱相關變量有:教育程度、抵押價值、家庭人數。
3.郵政編碼、網銀、信用卡、證券賬戶等其他因素對貸款影響不大。
4.年齡和工作年限雖然沒有顯著影響,但因為是連續變量,不排除某個區間的人需要更多貸款,未來還需要進壹步分析。
在上壹步的基礎上,進壹步分析影響貸款的變量,根據變量的性質分別處理。
將本案例中的變量分為定性和定量,探究其對是否借款的影響。這種情況下的方向性變量主要包括是否有銀行存款賬戶、受教育程度、家庭人數等。
從結果可知,開了存款賬戶的用戶申請貸款的可能性比沒開存款賬戶的用戶差6倍,所以想辦法讓客戶開存款賬戶來提高貸款率未嘗不可。
隨著學歷的增加,申請貸款的比例增加,說明高學歷的用戶更傾向於成為貸款用戶,這反映出他們的學歷越高,越能接受超前消費的消費理念,越容易成為貸款的潛在用戶。
3-4人家庭的客戶比1-2的客戶更容易申請貸款,反映出隨著家庭成員的增加,經濟壓力逐漸增大,潛在的貸款需求增加,更傾向於使用這項業務。
在這種情況下,我們主要探討年收入、收入、信用卡還款金額與按揭貸款的關系以及是否開貸。因為是定量變量,所以區間是連續區間。與定性變量相比,為了了解數據的全貌,這類變量應針對不同的區間分別統計。
整體來看,貸款用戶和非貸款用戶年齡差異不大。從具體年齡段來看,32.0-39.0年齡段的客戶更傾向於借錢。
其他量化變量如收入、房貸價值、信用卡月消費等的分析過程與年齡基本相同。
壹般來說,高收入群體比低收入群體更傾向於貸款。收入超過82,借款人數會達到5倍,超過98,貸款意願達到17%以上,超過170,貸款意願達到壹半以上。所以收入越高,放貸的意願越強。
當房屋抵押價值超過109.5時,貸款意願明顯提高。壹般來說,房子的抵押價值越高,客戶越傾向於貸款。
大部分貸款用戶的信用卡平均消費接近4,而非貸款用戶的信用卡平均消費接近2,相差壹倍。從用戶分層來看,信用卡消費超過兩千八美元後,貸款概率會增加四倍,超過六千美元後會回落到0.3左右,比兩千八美元前明顯提高。所以要重點關註信用卡月消費在兩千八以上的客戶。