WGCNA簡介
WGCNA(Weighted Gene Co-Expression Network Analysis, 加權基因共表達網絡分析),是用來描述不同樣品之間基因關聯模式的系統生物學方法??设b定表達模式相似的基因集合(module),解析基因集合與樣品表型之間的聯系,繪制基因集合中基因之間的調控網絡并鑒定關鍵調控基因。要了解 WGCNA, 首先需要理解什么是基因共表達網絡。我們定義每個節點為一個基因,在不同樣本中存在表達共性的基因處于同一個基因網絡,而基因之間的共表達關系一般由它們之間的表達相關系數衡量。WGCNA 算法首先假定基因網絡服從無尺度分布,并定義基因共表達相關矩陣、基因網絡形成的鄰接函數,然后計算不同節點的相異系數,并據此構建分層聚類樹(hierarchical clustering tree),該聚類樹的不同分支代表不同的基因模塊(module),模塊基因共表達程度高,而分屬不同模塊的基因共表達程度低。最后探索模塊與特定表型或疾病的關聯關系,最終達到鑒定基因網絡的目的。
結果說明
1. 基因共表達網絡熱圖分析
WGCNA的核心步驟其實就是通過對TOM矩陣進行分層聚類,TOM (Topological overlap matrix)即為把鄰接矩陣轉換為拓撲重疊矩陣,以降低噪音和假相關,獲得的新距離矩陣,可以用來計算基因之間關聯程度?;赥OM矩陣,圖A中的行和列均代表基因,灰色模塊為無法分配到初級模塊中的基因,樹枝的頂端為核心基因,顏色越深代表TOM值越高。熱圖中方塊的顏色越深(紅)表示共表達相關性越高,越淺(黃)表示相關性越弱。

2. 模塊間相關性熱圖
下圖展示模塊與模塊間的相關性。橫軸縱軸分別代表不同的模塊,相關性越弱則呈現藍色,相關性越強則呈現紅色。

3. 模塊與性狀間的熱圖
模塊與性狀相關性熱圖:下圖展示模塊與給定性狀的相關系熱圖。某一性狀與某一模塊的相關性越接近 1 的絕對值,很可能此性狀與模塊的基因功能相關。橫軸代表著性狀,縱軸代表著模塊(下圖中我們沒有選擇性狀,所以展示的是樣品的名稱)。

4.基因表達量的樣本系統聚類樹
基于基因表達量的樣本系統聚類樹: 在聚類中歐氏距離求兩點的距離,聚類中用類平均法(average)計算集合之間的距離。同一枝上的樣本具有更高的相似性。

5.樣本系統聚類樹及相關性狀熱圖
在基因表達量的樣本系統聚類樹的基礎上我們添加了熱圖,樣本與性狀之間的相關性越高熱圖中模塊顏色也會越深。例如我們將熱圖左邊的T01看作是性狀標簽,它與分支樣本TP01的熱圖模塊呈現紅色,說明性狀T01與樣本T01的相關性非常高。

6.基因的系統樹圖及性狀相關性熱圖
基因的系統樹圖及性狀相關性熱圖主要分為三個部分:第一個部分為基因聚類繪制的聚類樹,分枝代表基因;第二部分為基因聚類樹根據不同的聚類對應到的不同模塊;第三部分為性狀的熱圖,如圖中T01~T06為性狀,對應熱圖中的顏色越深,說明該模塊中的基因與該性狀的相關性越高。

7.樣品 PCA 分析二/三維圖
PCA分析橫坐標代表著第一主成分,縱坐標代表第二主成分,可以根據圖看出在第一主成分方向上樣本的距離越近,說明它們的主成分越相近,相關性越高。


8.基因網絡模塊
基因網絡模塊主要分為三個部分:第一部分為基因的聚類樹;第二部分為根據基因聚類樹劃分的不同模塊;第三部分為根據第二部分模塊進行了矯正,最后結果為校正后的模塊。

9.模塊COG/KEGG/GO二級分類圖
將每一個模塊中的基因繪制了跟它功能相關的COG/KEGG/GO分類富集圖。
在COG富集分析中橫軸代表功能分類,縱軸代表基因頻數。
在GO富集分析中橫軸代表GO term,左側縱軸代表基因占比,右側為基因的數目。
在KEGG富集中縱軸代表路徑,橫軸代表注釋到的基因數目



GSEA介紹
基因集富集分析(GSEA: Gene Set Enrichment Analysis),可以在沒有先驗經驗存在的情況下根據所有基因表達情況對所有基因進行富集分析。一般的差異分析通常只集中關注于一些顯著的上調或下調基因,而這會遺漏部分差異表達不顯著卻有重要生物學意義的基因。而GSEA不會設置差異閾值,能夠檢測出微弱但是一致的趨勢。其輸入數據包含兩部分:一為已知功能的基因集 (可以是GO注釋、MsigDB的注釋或其它符合格式的基因集定義);二是表達矩陣 (也可以是排序好的列表)。
軟件會對基因根據其與表型的關聯度從大到小排序,然后判斷基因集內每條注釋下的基因是否富集于表型相關度排序后基因表的上部或下部,從而判斷此基因集內基因的協同變化對表型變化的影響。
結果說明
百邁客中的GSEA分析采用KEGG通路以及GO的BP、CC、MF分支的基因集作為感興趣的基因集合,以每個差異分組的log2FC作為背景基因集的打分來分析感興趣基因集合的富集情況,最后控制pvalue<0.001,FDR 圖片

GSEA計算中幾個關鍵概念
1、計算富集得分 (ES, enrichment score)。ES反應基因集成員(差異基因)在排序總基因列表的兩端富集的程度。計算方式是,從總基因集的第一個基因開始,計算一個累計統計值。當遇到一個落在差異基因里面,則增加統計值。遇到一個不在差異基因里面,則降低統計值。
2、每一步統計值增加或減少的幅度與基因的表達變化程度(更嚴格的是與基因和表型的關聯度,可能是fold-change,也可能是pearson corelation值,后面有介紹幾種不同的計算方式)是相關的,可以是線性相關,也可以是指數相關 (具體見后面參數選擇)。富集得分ES最后定義為峰值。正值ES表示基因集在列表的頂部富集,負值ES表示基因集在列表的底部富集。
3、評估富集得分(ES)的顯著性。通過基于表型而不改變基因之間關系的排列檢驗 (permutation test)計算觀察到的富集得分(ES)出現的可能性。若樣品量少,也可基于基因集做排列檢驗 (permutation test),計算p-value。
4、多重假設檢驗校正。首先對每個差異基因子集計算得到的ES根據基因集的大小進行標準化得到Normalized Enrichment Score (NES),隨后針對NES計算假陽性率。(計算NES也有另外一種方法,是計算出的ES除以排列檢驗得到的所有ES的平均值)Leading-edge subset為對富集得分貢獻大的基因成員。
從前文中我們了解到GSEA分析的目的是要判斷差異集基因(基于先驗知識的基因注釋信息,某個關注的基因集合)中的基因是隨機分布還是聚集在排序好的總基因集的頂部或底部(這便是富集分析)。與GO富集分析的差異在于GSEA分析不需要指定閾值(p值或FDR)來篩選差異基因,我們可以在沒有經驗存在的情況下分析我們感興趣的基因集,而這個基因集不一定是顯著差異表達的基因。GSEA分析可以將那些GO/KEGG富集分信息中容易遺漏掉的差異表達不顯著卻有著重要生物學意義的基因包含在內。

蛋白網絡互作
蛋白質互作網絡(protein protein interaction network,PPI network)是由蛋白通過彼此之間的相互作用構成,來參與生物信號傳遞、基因表達調節、能量和物質代謝及細胞周期調控等生命過程的各個環節。系統分析大量蛋白在生物系統中的相互作用關系,對了解生物系統中蛋白質的工作原理,了解疾病等特殊生理狀態下生物信號和能量物質代謝的反應機制,以及了解蛋白之間的功能聯系都有重要意義。在生物醫藥領域有助于從系統的角度研究疾病分子機制、發現新藥靶點等等。
主要主要是基STRING數據庫提取目標基因集的互作關系。對于數據庫中未收錄信息的物種,使用BLAST軟件,將目的基因與數據庫中的蛋白質進行序列比對,尋找同源蛋白,根據同源蛋白的互作關系對構建互作網絡。構建完成的蛋白質互作網絡可導入Cytoscape軟件進行可視化。
圖片
結果說明
如圖中的節點為蛋白質,邊為互作關系?;プ骶W絡中節點(node)的大小與此節點的度(degree)成正比,即與此節點相連的邊越多,它的度越大,節點也就越大。節點的顏色與此節點的聚集系數(clustering coefficient)相關,顏色梯度由綠到紅對應聚集系數的值由低到高,聚集系數值越高表示此節點的鄰接點之間的連通性越好。邊(edge)的寬度表示此邊連接的兩個節點間的互相作用的關系強弱,互相作用的關系越強,邊越寬。沒有的組合代表沒有互作關系。
圖片
百邁客轉錄組測序服務針對不同樣品類型采用全面解析mRNA信息的策略,不僅能獲得樣本的轉錄本結構和轉錄豐度信息,還能探究相關基因結構變異(SNP、CNV、SV、 Indel等)。此外,百邁客云的生物大數據分析平臺,可以深入挖掘差異表達基因,完成多種高級分析內容,例如上文提到的WGCNA、GSEA、PPI等內容,為您提供全面、高效的生物信息分析以及整合利用公共數據庫的解決方案。
歡迎點擊下方按鈕聯系我們,我們將免費為您設計文章思路方案。


京公網安備 11011302003368號