1. 傳統(tǒng)蛋白質組學研究
目前基于質譜儀器的蛋白質組學研究多數(shù)利用EBI的IPI、NCBI的NR和SWISSPROT作為數(shù)據(jù)庫對蛋白進行檢索鑒定。因此,在已獲取這三類數(shù)據(jù)庫的實驗鑒定結果后,我們可以實現(xiàn)以下分析:
數(shù)據(jù)庫交叉注釋批量查詢
將IPI號轉化成UniProtKB/Swiss-Prot, UniProtKB/TrEMBL, Refseq, GI, ENSEMBL, UniGene, Entrez Gene(Gene ID)和Symbol等。將SP號轉化成EMBL, IPI, Refseq, GI, ENSEMBL, UniGene, Entrez Gene(Gene ID), Symbol, IntAct, GeneCards, MIM等。
數(shù)據(jù)庫功能注釋查詢
批量查詢IPI號:
- GO的 Biological Process, Subcellular Location, Molecular Function;
- 染色體定位信息;
- 結構域信息,包括:InterPro, Pfam, SMART, PROSITE, PRINTS等。
批量查詢SP號:
- GO的 Biological Process, Subcellular Location, Molecular Function;
- 染色體定位信息;
- 功能信息、二聚體信息、剪切體信息和組織表達特異性信息;
- 結構域信息,包括:InterPro, Pfam, SMART, PROSITE, PRINTS等;
- 蛋白修飾信息,包括:磷酸化、糖基化、甲基化、乙?;龋?
- 相互作用蛋白,包括:IntAct, Reactome, DIP等;
- 通路信息,包括:KEGG, Biocarta, Protein Lounge, Pathway_Interaction_DB等。
ID 號比較
基于多批數(shù)據(jù)集之間的比較,采用數(shù)據(jù)交叉表和venn圖方式表示數(shù)據(jù)集之間的交蓋性。
表. 數(shù)據(jù)集之間交蓋度。

圖. 數(shù)據(jù)集之間venn圖。 ?
蛋白序列分析
許多數(shù)據(jù)庫可能沒有提供相關蛋白的功能注釋,我們可以利用蛋白序列預測相關的功能。
序列相關的預測涉及:
- 膜蛋白和跨膜區(qū)段預測;
- 亞細胞定位預測;
- 信號肽預測;
- 分泌蛋白預測;
- 翻譯后修飾預測:磷酸化位點、N-糖基化位點、O-糖基化位點、陰陽位點(即磷酸化和O-糖基化競爭位點)預測。
- 根據(jù)蛋白序列計算出相關理化性質,包括分子量、等電點、疏水性、酸性氨基酸數(shù)目、堿性氨基酸數(shù)目和蛋白長度。

圖. 鑒定蛋白的理化性質分布圖。 ?

圖. 分子量和等電點在樣本之間的比較。
染色體定位
已知蛋白的鑒定號,批量調取蛋白定位信息,并圖示化:

圖. 鑒定蛋白染色體定位圖示
基因富集度計算
在蛋白組學中,對大規(guī)模的鑒定結果經常用pie圖或bar圖表示蛋白的某個分類,如亞細胞定位、生物功能、生物通路等。有時也會考慮這些分子在哪些疾病分子交蓋比例過高。

圖. Bar圖表示鑒定蛋白在分子功能上的富集度。
GO 分析
通過一般數(shù)據(jù)庫查詢給出特定蛋白的GO信息煩多,很難進行統(tǒng)計分類。我們可以將所有鑒定蛋白的GO都slim到特定的GO分類上,便于下一步的統(tǒng)計和圖示化。已在上圖中標示。

圖. Pie圖表示鑒定蛋白在亞細胞定位上的分類。
網絡分析
通過蛋白的差異譜或實際鑒定譜,可以在各種相互作用數(shù)據(jù)庫中找到對應的相互作用蛋白,并構畫出相互作用網絡。

圖. 鑒定蛋白構建相互作用網絡。

圖. 鑒定蛋白構建Transfac轉錄調控網絡。
通路分析
對已鑒定蛋白可以mapping到通路數(shù)據(jù)庫中,給出mapping的統(tǒng)計結果并圖示化。

圖. 通路總體mapping情況。

圖. 蛋白標記定量數(shù)據(jù)在KEGG通路圖中的mapping

圖. 蛋白標記定量數(shù)據(jù)在Protein Lounge通路圖中的mapping
2. 比較蛋白質組學研究
在比較蛋白質組研究中經常用到標記定量手段,如ICAT, ITRAQ等,這樣可以獲取多組樣本之間同一個蛋白的表達趨勢。我們可以采用多元統(tǒng)計學的方法表現(xiàn)鑒定的結果。
差異蛋白篩選
在兩兩比較的比較蛋白質組學中,要找出差異的蛋白列表,可以用正態(tài)分布擬合方法篩選

圖. 蛋白相對定量的數(shù)據(jù)通過log轉換擬合成正態(tài)分布,再通過正態(tài)分布的95%和99%置信線對表達差異的數(shù)據(jù)進行篩選

分層聚類挖掘

圖. 用聚類熱圖展示蛋白相對定量數(shù)據(jù)中表達趨勢相近的蛋白?
3. 修飾蛋白質組學研究
蛋白特定的修飾鑒定后,想挖掘修飾位點附近氨基酸組成的狀況,可以用聚類圖或氨基酸比例圖展現(xiàn)。

圖. 用熱圖形式展示靶標修飾氨基酸附近的氨基酸組成情況

4. 高級分析
IPA 分析 (商業(yè)軟件,需要license)
IPA是一種公認的生物數(shù)據(jù)分析工具,非常適用于疾病相關的數(shù)據(jù)分析。它的主要特色在于根據(jù)實際數(shù)據(jù)找到疾病分子的網絡和通路,甚至在其基礎之上構建自己的網絡和通路。

圖. IPA捕捉到差異分子形成網絡。
GSEA 分析
可以結合表達量的數(shù)據(jù)找到相關的基因集合。此處,基因集合泛指包含一堆基因的類別名稱,可以是GO中的某一類,通路中的某一條或轉錄調控和相互作用網絡中的某個小模塊。

圖. GSEA捕捉到差異分子的基因集合