離群點的檢測已經被廣泛應用於電信和信用卡的詐騙檢測、貸款審批、電子商務、網絡入侵和天氣預報等領域。
離群點的主要成因有:數據來源於不同的類、自然變異、數據測量和手機誤差。
從數據範圍來看,分為全局離群點和局部離群點,整體來看,某些對象沒有離群特征,但是從局部來看,卻顯示了壹定的離群性。
從數據類型來看,分為數值型離群點和分類型離群點,這是以數據集的屬性類型進行劃分的。
從屬性的個數來看,分為壹維離群點和多維離群點,壹個對象可能有壹個或多個屬性。
大部分的基於統計的離群點檢測方法是構建壹個概率分布模型,並計算對象符合該模型的概率,把具有低概率的對象視為離群點。基於統計模型的離群點檢測方法的前提是必須知道數據集服從什麽分布;對於高維數據,檢驗效果可能很差。
通常可以在數據對象之間定義鄰近性度量,把原理大部分點的對象視為離群點。二位或三維的數據可以做散點圖觀察;大數據集不適用;對參數選擇敏感;具有全局閾值,不能處理具有不同密度區域的數據集
考慮數據集可能存在不同密度區域這壹事實,從基於密度的觀點分析,離群點是在低密度區域中的對象。壹個對象的離群點得分是該對象周圍密度的逆。給出了對象是離群點的定量度量,並且即使數據具有不同的區域也能夠很好的處理;大數據集不適用;參數選擇是困難的。
壹種利用聚類檢測離群點的方法是丟棄遠離其他簇的小簇;另壹種更系統的方法,首先聚類所有帝鄉,然後評估對象屬於簇的程度。基於聚類技術來發現離群點可能是高度有效的;聚類算法產生的簇的質量對該算法產生的離群點的質量影響非常大。
基於統計模型的離群點檢測方法需要滿足統計學原理,如果分布壹直,則檢驗可能非常有效。基於鄰近度的離群點檢測方法比統計學方法更壹般、更容易使用,因為確定數據集有意義的鄰近度量比確定他的統計分布更容易。基於密度的離群點檢測與基於鄰近度的離群點檢測密切相關,因為密度常用鄰近度定義:壹種是定義密度為到K個最鄰近的平均距離的倒數,如果該距離小,則密度高;另壹種是使用DBSCAN聚類算法,壹個對象周圍的密度等於該對象指定距離d內對象的個數。