當前位置:外匯行情大全網 - 信用卡套現 - 什麽是數據挖掘?

什麽是數據挖掘?

數據挖掘是從大量的數據中,抽取出潛在的、有價值的知識(模型或規則)的過程。

1. 數據挖掘能做什麽?

1)數據挖掘能做以下六種不同事情(分析方法):

· 分類 (Classification)

· 估值(Estimation)

· 預言(Prediction)

· 相關性分組或關聯規則(Affinity grouping or association rules)

· 聚集(Clustering)

· 描述和可視化(Des cription and Visualization)

2)數據挖掘分類

以上六種數據挖掘的分析方法可以分為兩類:直接數據挖掘;間接數據挖掘

· 直接數據挖掘

目標是利用可用的數據建立壹個模型,這個模型對剩余的數據,對壹個特定的變量(可以

理解成數據庫中表的屬性,即列)進行描述。

· 間接數據挖掘

目標中沒有選出某壹具體的變量,用模型進行描述;而是在所有的變量中建立起某種關系

· 分類、估值、預言屬於直接數據挖掘;後三種屬於間接數據挖掘

3)各種分析方法的簡介

· 分類 (Classification)

首先從數據中選出已經分好類的訓練集,在該訓練集上運用數據挖掘分類的技術,建立分

類模型,對於沒有分類的數據進行分類。

例子:

a. 信用卡申請者,分類為低、中、高風險

b. 分配客戶到預先定義的客戶分片

註意: 類的個數是確定的,預先定義好的

· 估值(Estimation)

估值與分類類似,不同之處在於,分類描述的是離散型變量的輸出,而估值處理連續值的

輸出;分類的類別是確定數目的,估值的量是不確定的。

例子:

a. 根據購買模式,估計壹個家庭的孩子個數

b. 根據購買模式,估計壹個家庭的收入

c. 估計real estate的價值

壹般來說,估值可以作為分類的前壹步工作。給定壹些輸入數據,通過估值,得到未知的

連續變量的值,然後,根據預先設定的閾值,進行分類。例如:銀行對家庭貸款業務,運

用估值,給各個客戶記分(Score 0~1)。然後,根據閾值,將貸款級別分類。

· 預言(Prediction)

通常,預言是通過分類或估值起作用的,也就是說,通過分類或估值得出模型,該模型用

於對未知變量的預言。從這種意義上說,預言其實沒有必要分為壹個單獨的類。

預言其目的是對未來未知變量的預測,這種預測是需要時間來驗證的,即必須經過壹定時

間後,才知道預言準確性是多少。

· 相關性分組或關聯規則(Affinity grouping or association rules)

決定哪些事情將壹起發生。

例子:

a. 超市中客戶在購買A的同時,經常會購買B,即A => B(關聯規則)

b. 客戶在購買A後,隔壹段時間,會購買B (序列分析)

· 聚集(Clustering)

聚集是對記錄分組,把相似的記錄在壹個聚集裏。聚集和分類的區別是聚集不依賴於預先

定義好的類,不需要訓練集。

例子:

a. 壹些特定癥狀的聚集可能預示了壹個特定的疾病

b. 租VCD類型不相似的客戶聚集,可能暗示成員屬於不同的亞文化群

聚集通常作為數據挖掘的第壹步。例如,"哪壹種類的促銷對客戶響應最好?",對於這壹

類問題,首先對整個客戶做聚集,將客戶分組在各自的聚集裏,然後對每個不同的聚集,

回答問題,可能效果更好。

· 描述和可視化(Des cription and Visualization)

是對數據挖掘結果的表示方式。

2.數據挖掘的商業背景

數據挖掘首先是需要商業環境中收集了大量的數據,然後要求挖掘的知識是有價值的。有

價值對商業而言,不外乎三種情況:降低開銷;提高收入;增加股票價格。

1)數據挖掘作為研究工具 (Research)

2)數據挖掘提高過程控制(Process Improvement)

3)數據挖掘作為市場營銷工具(Marketing)

4)數據挖掘作為客戶關系管理CRM工具(Customer Relationship Management)

3.數據挖掘的技術背景

1)數據挖掘技術包括三個主要部分:算法和技術;數據;建模能力

2)數據挖掘和機器學習(Machine Learning)

· 機器學習是計算機科學和人工智能AI發展的產物

· 機器學習分為兩種學習方式:自組織學習(如神經網絡);從例子中歸納出規則(如決

策樹)

· 數據挖掘由來

數據挖掘是八十年代,投資AI研究項目失敗後,AI轉入實際應用時提出的。它是壹個新興

的,面向商業應用的AI研究。選擇數據挖掘這壹術語,表明了與統計、精算、長期從事預

言模型的經濟學家之間沒有技術的重疊。

3)數據挖掘和統計

統計也開始支持數據挖掘。統計本包括預言算法(回歸)、抽樣、基於經驗的設計等

4)數據挖掘和決策支持系統

· 數據倉庫

· OLAP(聯機分析處理)、Data Mart(數據集市)、多維數據庫

· 決策支持工具融合

將數據倉庫、OLAP,數據挖掘融合在壹起,構成企業決策分析環境。

4. 數據挖掘的社會背景

數據挖掘與個人預言:數據挖掘號稱能通過歷史數據的分析,預測客戶的行為,而事實上

,客戶自己可能都不明確自己下壹步要作什麽。所以,數據挖掘的結果,沒有人們想象中

神秘,它不可能是完全正確的。

客戶的行為是與社會環境相關連的,所以數據挖掘本身也受社會背景的影響。比如說,在

美國對銀行信用卡客戶信用評級的模型運行得非常成功,但是,它可能不適合中國

  • 上一篇:夢見壹晚做好多夢的預兆
  • 下一篇:我有壹份穩定的工作,月薪2000左右,是農行的工資卡。如何辦壹張農行的信用卡,不需要太多的信用。
  • copyright 2024外匯行情大全網