在線咨詢
聯系電話
置頂
來源:英格爾檢測 發布時間:2022-10-27
當我們得到很多種報告時,它們可能都包括PCA圖、二維坐標或三維坐標散點圖,圖中的點或聚集或分散,可能用不同的顏色標記??雌饋硐袷且箍罩凶盍恋臒熁ǎ谝谎劭赡苷娴暮茈y琢磨。什么是PCA?為什么它有如此重要的地位?從PCA結果中我們可以看出什么信息?
PCA主成分分析的全稱,也就是主成分分析,聽起來很簡單,讓人耳目一新,但是這個主成分的三個字里卻有玄機。簡單來說,主成分分析(PCA)就是通過正交變換將一組變量轉化為另一組變量,從而達到數據降維目的的分析方法。這組轉換后得到的變量就是我們所說的主成分。
降維?健康是什么?降維打擊?可能概念比較直接抽象,先舉個栗子。例如,我們有一組通過重測序獲得的變異數據,有n個突變位點,或者一組轉錄表達數據,有n個轉錄表達信息。那么我們就相當于擁有了一組N個變量,這個變量可能很大,可能隨便幾萬甚至上億。直接比較兩個或兩個以上的數據顯然是非常困難的。并且通過主成分分析,將這樣一組包含n個變量的數據轉換成一組包含r個變量的數據,其中r
你在這里可能會問,這個過程我理解,但是為什么數據轉換之后,更多的變量變成更少的變量?不會丟失很多信息嗎?如果你考慮了這個問題,那么恭喜你,說明你對主成分分析有了深入的思考。
在我們得到的第一組變量中,變量并不是完全相互獨立的。比如我們的一個基因座發生突變,那么幾個連鎖的基因座也會大概率發生突變;或者一個基因的表達發生了變化,同一途徑的其他基因的表達也會大概率發生變化,即變量之間存在相關性。極端點,假設兩個位點完全連鎖,那么我們去掉一個突變的所有信息,不會影響總的信息量。主成分分析就是基于這樣一種思想,根據變量的相關性對變量進行分解、合并和降維,類似于從N維空間到R維空間的投影。如果你對具體的計算方法感興趣,有很多相關的資料可以參考,當然也有很多工具可以方便我們直接對數據進行主成分分析。
那么,PCA圖在我們的報告中說明了什么問題呢?
在分析的過程中,PCA可以讓我們直觀的看到樣本之間的相似性。例如,在PCA散點圖中,幾個樣本的點聚集在一起,這意味著這些樣本之間的相似度非常高;相反,如果幾個樣本的點非常分散,那么這些樣本之間的相似度就低。比如下圖,幾組樣本對應的散點在組內呈現相互聚集,說明組內重復性好,樣本數據非常相似,組間的區分度好。有時為了說明一組樣本的相似性,會用一個橢圓來覆蓋同一組樣本對應的所有散亂點。