DM的各種分析方法簡介

分類（Classification）

首先從數據中選出已經分好類的訓練集，在該訓練集上運用數據挖掘分類的技術，建立分類模型，對於沒有分類的數據進行分類。

例子：

a. 信用卡申請者，分類為低、中、高風險

b. 分配客戶到預先定義的客戶分片

註意：類的個數是確定的，預先定義好的

· 估值（Estimation）

估值與分類類似，不同之處在於，分類描述的是離散型變量的輸出，而估值處理連續值的輸出；分類的類別是確定數目的，估值的量是不確定的。

例子：

a. 根據購買模式，估計壹個家庭的孩子個數

b. 根據購買模式，估計壹個家庭的收入

c. 估計real estate的價值

壹般來說，估值可以作為分類的前壹步工作。給定壹些輸入數據，通過估值，得到未知的連續變量的值，然後，根據預先設定的閾值，進行分類。例如：銀行對家庭貸款業務，運用估值，給各個客戶記分（Score 0~1）。然後，根據閾值，將貸款級別分類。

· 預言（Prediction）

通常，預言是通過分類或估值起作用的，也就是說，通過分類或估值得出模型，該模型用於對未知變量的預言。從這種意義上說，預言其實沒有必要分為壹個單獨的類。預言其目的是對未來未知變量的預測，這種預測是需要時間來驗證的，即必須經過壹定時間後，才知道預言準確性是多少。

· 相關性分組或關聯規則（Affinity grouping or association rules）

決定哪些事情將壹起發生。

例子：

a. 超市中客戶在購買A的同時，經常會購買B，即A => B(關聯規則)

b. 客戶在購買A後，隔壹段時間，會購買B （序列分析）

· 聚集（Clustering）

聚集是對記錄分組，把相似的記錄在壹個聚集裏。聚集和分類的區別是聚集不依賴於預先定義好的類，不需要訓練集。

例子：

a. 壹些特定癥狀的聚集可能預示了壹個特定的疾病

b. 租VCD類型不相似的客戶聚集，可能暗示成員屬於不同的亞文化群

聚集通常作為數據挖掘的第壹步。例如，哪壹種類的促銷對客戶響應最好？，對於這壹類問題，首先對整個客戶做聚集，將客戶分組在各自的聚集裏，然後對每個不同的聚集，回答問題，可能效果更好。

· 描述和可視化（Des cription and Visualization）

是對數據挖掘結果的表示方式。