當前位置:外匯行情大全網 - 助學貸款 - 什麽是交叉測試?

什麽是交叉測試?

交叉驗證是壹種用於驗證分類器性能的統計分析方法。基本思想是在某種意義上對原始數據集進行分組,壹部分作為訓練集,另壹部分作為驗證集。首先,使用訓練集訓練分類器,然後使用驗證集測試訓練好的模型以評估分類器的性能。常用的交叉驗證方法如下:1和排除法。

原始數據被隨機分為兩組,壹組作為訓練集,另壹組作為驗證集。通過訓練集對分類器進行訓練,然後通過驗證集對模型進行驗證,記錄最終的分類準確率作為分類器的性能指標。這種方法的優點是操作簡單,只需將原始數據隨機分成兩組。事實上,堅守的方法並不是嚴格意義上的CV,因為這種方法並沒有達到穿越的想法。由於原始數據是隨機分組的,最終驗證集的分類精度與原始數據的分組有很大關系,因此這種方法得到的結果實際上沒有說服力。

2.雙重交叉驗證(雙重交叉驗證,2-CV)

?該方法是將數據集分成大小相等的兩個子集,並進行兩輪分類器訓練。在第壹輪中,壹個子集用作訓練集,另壹個子集用作測試集;;在第二輪中,交換訓練集和測試集後,再次訓練分類器,我們更關心兩個測試集的識別率。然而,在實踐中,2-CV並不常用,主要是因為訓練集樣本數量太少,通常不足以代表父樣本的分布,導致測試階段的識別率存在明顯差距。此外,2-CV中的子集變異較大,往往無法滿足“實驗過程必須可重復”的要求。

3.K折交叉驗證(K折交叉驗證,表示為K-CV)。

?將原始數據分成K組(壹般是等分的),為每個子集數據制作壹個驗證集,將剩余的K-1個子集數據作為訓練集,從而得到K個模型,並將這K個模型的最終驗證集的分類精度的平均值作為該K-CV下分類器的性能指標。k壹般大於等於2,實際操作中壹般取3。只有當原始數據集很小時,它才會嘗試取2。K-CV能有效避免過度學習和欠學習,最終結果更具說服力。

4、留壹法交叉驗證(記錄為LOO-CV)

如果原始數據有N個樣本,那麽LOO-CV就是N-CV,即每個樣本作為壹個驗證集,剩下的N-1個樣本作為訓練集,這樣LOO-CV就會得到N個模型,這N個模型的最終驗證集的分類精度的平均值作為LOO-CV分類器的性能指標。與之前的K-CV相比,LOO-CV有兩個明顯的優勢:

(1)每輪幾乎所有的樣本都用於訓練模型,因此原始樣本的分布最接近,因此評估結果更可靠。

(2)實驗過程中不會有隨機因素影響實驗數據,從而保證實驗過程可復制。

然而,LOO-CV的缺點是計算成本高,因為要建立的模型數量與原始數據樣本的數量相同。當原始數據樣本數量相當大時,除非每次都快速訓練分類器,或者可以通過並行計算減少計算所需的時間,否則LOO-CV很難在實際中顯示。

  • 上一篇:如何在深圳申請裝修貸款
  • 下一篇:沈陽市人才補貼政策2022
  • copyright 2024外匯行情大全網