本篇教程就讓我們來學習如何繪制右圖這種“對稱散點圖”,展示組間差異基因表達格局。
示例文件“gene_diff.txt”是壹組基因差異表達分析結果,記錄了處理組(treat)和對照組(control)間表達顯著不壹致的基因,鑒定標準為p<0.01以及|log2 Fold Change|≥1。
其中,gene_id為基因名稱;control和treat代表了兩組中基因的平均表達值;log2FoldChange即log2轉化後的基因表達差異倍數;pvalue是差異基因顯著性p值;diff為根據p<0.01以及|log2 Fold Change|≥1篩選的差異基因,該列中“up”為上調,“down”為下調,“none”為非差異基因。
接下來通過該示例文件,展示使用R語言繪制差異基因表達“對稱散點圖”過程。
首先對數據做壹些預處理。
例如,基因表達值數量級相差過大,取個對數轉換;基因名稱按是否為差異基因作個排序,避免後續作圖時被不顯著的基因點遮蓋,即排序的目的是讓這些顯著基因的點都位於圖的上方。
下來就可以使用預處理後的數據作圖了。
第壹種類型是將基因按上調、下調或不顯著類型著色,便於從圖中辨認差異基因。我們使用ggplot2的方法繪制差異基因散點圖。
兩個坐標軸分別代表了處理組(treat)和對照組(control),圖中的點代表各基因在兩組中的平均表達值(已經作了log轉換)。treat組和control組相比,上調基因以紅色表示,下調基因以綠色表示。圖中的虛線代表了|log2FC|=1時的閾值線。
在該圖中,我們可以很輕松地觀察差異基因整體分布狀態和數量比較的信息。
上圖中沒有將p值信息展示出。因此另壹種思路是,顏色代表p值,這樣就可以在圖中獲得壹個漸變梯度。同樣使用ggplot2的方法繪制,和上述過程相比僅在顏色指定上存在區別。
類似上圖,兩個坐標軸分別代表了處理組(treat)和對照組(control),圖中的點代表各基因在兩組中的平均表達值(已經作了log轉換),圖中的虛線代表了|log2FC|=1時的閾值線。
和上圖不同點在於,此時基因按顯著性p值著色,從不顯著>顯著展示以藍色>紅色漸變,就獲得了壹種梯度信息。這樣可以很方便地看出,在兩組中的表達值差異越大的基因,p值越小,二者趨勢是壹致的,重在描述了差異倍數和p值的關系。