基因差異表達分析cummeRbund和DESeq,edgeR,limma的區別是什麼

2021-03-27 06:31:07 字數 5966 閱讀 9833

1樓:

差異表達基因分析是根據表型協變數(分類變數)鑑定組間差異表達,它屬於監督性分類的一種。在鑑定差異表達基因以前,一般需要對錶達值實施非特異性過濾(在機器學習框架下屬於非監督性分類),因為適當的非特異性過濾可以提高差異表達基因的檢出率、甚至是。r分析差異表達基因的library有很多,但目前運用最廣泛的bioconductor包是limma。

鑑定差異表達基因是表達譜晶片分析pipeline中必須的分析步驟。差異表達基因分析是根據表型協變數(分類變數)鑑定組間差異表達,它屬於監督性分類的一種。在鑑定差異表達基因以前,一般需要對錶達值實施非特異性過濾(在機器學習框架下屬於非監督性分類),因為適當的非特異性過濾可以提高差異表達基因的檢出率、甚至是。

r分析差異表達基因的library有很多,但目前運用最廣泛的bioconductor包是limma。

基因差異表達分析 cummerbund 和deseq,edger,limma的區別是什麼

2樓:匿名使用者

每個女孩都是這樣的,我也有這樣的經歷,你也不要對她太冷淡,把她當成普通朋友,這時候不要管她怎麼想,按照自己的方式做

基因差異表達分析 cummerbund 和deseq,edger,limma的區別是什麼

3樓:匿名使用者

相愛的bai人離不了多疑,但你du的多疑是正常的zhi.

說真的,如果真的為她感dao到心痛,對她的內事很難接受的話就向她說容下吧.大家說個明白,免得這些事都沉下來,壓在心底,最終不利於雙方.說出來的話,解決了那就大家都會覺得心裡很清澈,不會有那麼多疑雲,那麼你也能放心工做了.

你也30多歲了,該成熟了,告別年輕時那種輕浮與稚氣.穩重點吧..

有時我也會為我女朋友所做的事,說的話感到心裡不舒服。但是我大多都會告訴她,說出來後,心裡舒服很多的.不要在一邊裝偉大,說什麼把痛苦留給自己那些傻話.

愛情是2個人的,一個人在哭,那還是不是愛情.

最後請三思下:你需要的是真正的婚姻?還是一場普通的戀情?

accep.chain().add("lor",new loger());裡面new起到什麼作用?

4樓:藤原子大雄

原圖清晰,上傳上來就模糊了,如果要看清晰**可參照原文獻!

通過上面的流程圖,我們就可以知道其複雜程度,針對每一步幾乎都有可選工具!好了,答題上這些工具上面都有,下面來看看文獻都講了些啥!

rna-seq分析追求3個目標:準確、廉價和節約時間,這也是生物資訊軟體的目標!

下面來看看這些工具:

一 alignment

hisat2:**junction reads數量最少但比例最高,其素對最快,比tophat快2.5倍,比star快100倍。

(據我測試,但比tophat確實快好多,比對率也最高,star我沒測過)。

二 transcriptome assembly

比對之後後就是轉錄本組裝,有cufflinks和stringtie這兩個工具,idp和iso-seq。(以前有個scripture,好像很少人用)。作者還講了一種通過short reads檢測isoform的方法,idp(isoform  detection and prediction)。

為了評估idp,作者採用了來自長reads比對的gmap和starlong,以及上面談到的3中工具的短reads比對。還有iso-seq,即pacbio預設的long reads組裝工具。

在基因水平,cufflinks在準確性和敏感性方面比stringtie高,idp有最高的敏感性和準確性。iso-seq最不敏感,其準確性介於idp和段序列組裝工具之間。

在轉錄本水平,stringtie在超過5個轉錄本的基因檢測數量比cufflinks高出50倍。cufflinks和stringtie報道了很多單外顯子的轉錄本,但是其中大部分是假陽性的。stringtie比cufflinks多**出50~200%的轉錄本,其在準確性和敏感性方面也比cufflinks高11%和25%,而stringtie結果中每個基因的轉錄本數量分佈和gencode最為相似,說明stringtie在轉錄本組裝方面比cufflinks明顯優秀。

而idp在樣本間表現不一致,其也不報道但單外顯子轉錄本。多外顯子轉錄本方面和cufflinks相當,其比其它工具的檢測準確性超過20%,但是其敏感度比stingtie低,比cufflinks高。

iso-seq的結果反應大部分gencode註釋的轉錄本沒有檢測到,其對新轉錄本**結果較好,而在轉錄本準確性方面比其它軟體較差。

但是stringtie在速度方面效能優越,比cufflinks和idp分別快40和60倍,綜合評價當時最好的。

此外前面降到star比對最不嚴格,所以用其結果組裝得到轉錄本最多,但是假陽性也最高,應當慎用!

三 de novo transcript assembly

trinity傾向於**更多的基因和轉錄本,例如許多轉錄本被分割開來。

oases產生最高的n10到n50值,即在長isoform檢測方面有優勢,其也能夠檢測低表達基因。

soapdenovo-trans傾向於檢測高表達轉錄本,其在儲存和計算資源方面也消耗最低。

四 isoform detection using long reads 和long-read error correction

人(gencode v19)的轉錄本的平均長度是783bp,ngs測序結果幾乎不能達到這麼長,只有pacbio的檢測結果才可以,文章測試的結果平均reads長度在1164bp,覆蓋了64%的轉錄本,也就是說可以無需組裝直接通過iso-seq得到大部分轉錄本的結果。針對所有測序結果來說,其轉錄本重構也簡單了好多。(目前來看,pacbio為首的三代測序逐漸被大家接受)。

但是缺點就是long reads錯誤率高,目前已有lsc、proovread、lordec和pbcr這4個工具可進行錯誤率校正,但是文獻中只分析了 lsc和lordec這兩種工具。

lsc:比lordec慢100倍左右,

lordec:準確性和速度都較高,其是較優秀的錯誤校正工具。

long reads可以直接檢測大部分轉錄本,也可以用gmap26和starlong對這些reads進行比對,然後用idp進行轉錄本鑑定,

從兩種方法來看:僅用idp鑑定道德轉錄本在10000bp一下分佈廣泛,而通過iso-seq鑑定的轉錄本長度在1000-4000bp。

idp檢測用到的兩個比對軟體比較:gmap26比starlong多比對28%的reads。但是後者速度快68倍。

五 transcript quantification

基於比對進行定量就會產生了兩種情況:

只檢測known reads:可以通過直接根據比對bam/sam檔案定量,入rsem,express(其實還有htseq也用得多,文獻沒講到)

如果要對包括novel transcript在內的所有transcript進行鑑定和定量,則需要先組裝然後定量,可以用cufflinks和stringtie套裝工具進行拼接和定量。

還有一種是alignment-free transcript quantification:

將比對定量和無比對定量的多種方法

得到的定量結果進行相關性分析,如下圖所示:

總體來看,前一步最相似的方法定量較為類似,hisat2在作為short reads比對工具的時候其定量最為一致,也就是說後面的定量工具影響最小。

總的來說:alignment-free 定量很節約時間和計算資源,hisat2結合stringtie最為有效。但其速度仍比alignment-free 方法慢一個數量級。

rna-seq最為重要的應該是進行差異分析了,可使用的工具也是最多,包括:

count-based方法:deseq2,edger,limma,

assembly-based方法:cuffdiff,ballgown

alignment-free-based方法:sleuth(可結合來自kallisto,sailfish,salmon的結果)

(還有rpkm-based的方法:如degseq)

這次測試僅僅用到seqc資料庫4個樣本1001個基因(這是因為這1001個基因有qrt-pcr的定量結果,準確性高)。

結論是:deseq2比其它工具分析的結果都好,sleuth、edger和limma次之,cuffdiff and ballgown都比count-based的方法差。而salmon-**em、salmon-aln、kallisto和express這些結合於count-based差異分析的方法最不準確。

所以基於比對的count-based方法的結果最好,此外cuffdiff比ballgown慢4-5倍(這也是很多流程不用cuffdiff的原因之一)。

(前面的是rna-seq基礎分析,也就是說不管是哪家公司的rna-seq一般都會分析這些內容,下面這些內容可能就不一定分析了)

七 rna-editing detection

其與基因上的序列變異不同,rna編輯是在mrna水平發生的序列變異包括序列的插入缺失和置換,從而改變編碼序列。rna編輯可以通過以下幾種方法:

一:根據得到的序列與基因組比對,根據對應位置的序列不同來鑑定rna編輯,目前也最為普遍。

二:giremi用一種snv之間等位連鎖方法來鑑定單個rna-seq資料的rna編輯

三:通過多個rna-seq資料集來來鑑定rna編輯,在多個樣本發生的序列變異才被當作rna編輯,這樣增加了可信度

四:就是把所有樣品的資料集都放到一起,然後通過高頻的變異確定為rna編輯

總的來看,a-g最多,t-c次之,其它相對較少。

genome-aware、multiple-samples和pooled-samples這三種方法比giremi方法在檢測t-c的時候比例較高。tophat結合giremi在高水平的rna編輯方面比其它技術好,而raser在不同的rna編輯水平都比giremi 和genome-aware好。fdr可用來衡量rna-編輯檢測的準確性,star和hisat2比對鑑定的rna編輯fdr相對較低,但是**除了更多的a-g,raser的敏感度高,也就是說在輸入的可靠snv中檢測的比例高。

在速度上genome-aware比giremi快10倍左右,而multiple-samples和pooled-samples的方法卻比較消耗計算資源。

八 融合基因檢測

融合基因,即由於染色體易位或者反向剪下使得兩個基因的全部或部分串聯起來構成的新基因。在研究各種癌症型別的起因和發展的時候融合基因顯得很重要。目前的檢測工具有jaffa、star-fusion、tophat-fusion、fusioncatcher和soapfuse等,以及long reads方法idp-fusion和iso-seq,通過對已經證實的71個癌症細胞系的檢測表明:

short-reads-based方法:fusioncatcher最為敏感卻準確,soapfuse也不錯,star-fusion最快(比其它方法快10倍),fusioncatcher和tophat fusions的計算資源要求最大。

long-read-based方法:dp fusion最準確,

九 run-time analysis

也就是執行時間分析,alignment-free方法比基於比對最快的方法stringtie-hisat2還要快10倍以上(這裡應該是指的從clean reads到差異結果)。而cufflinks-tophat和long-read-based又比stringtie-hisat2慢一個數量級。

十 a high-accuracy pipeline

通過以上評估,文章作者總結並編寫了一個rna-seq流程,即rnacocktail。作者利用自己的流程對cufflinks-tophat、stringtie-hisat2和salmon-**em進行了差異基因比較和差異基因富集比較。stringtie-hisat2和salmon-**em結果較好,其top過表達基因富集到了breast cancer cell line相關的基因集中。

而cufflinks-

tophat沒有基因富集或者富集的基因與樣品特性無關。

此外,cocktail採用工具很廣發,其比galaxy和grape等流程綜合性更高。

最後,作者通過使用rnacocktail流程研究得出:the choice of tools and ***putational

怎麼判斷差異表達的基因

判斷差異表達的基因常用的分析方法有三類,第一類稱之為倍數分析,計算每一個基因在兩個條件下的 ratio 值,若大於給定閾值,則為表達差異顯著的基因 第二類方法採用統計分析中的 t檢驗和方差分析,計算表達差異的置信度,來分析差異是否具有統計顯著性 第三類是建模的方法,通過確定兩個條件下的模型引數是否相...

轉錄組分析差異基因時的注意事項有哪些

轉錄組分析差異 複基因時的注意事項制有哪些 edger是一個研究重複計數資料差異表達的bioconductor軟體包。一個過度離散的泊松模型被用於說明生物學可變性和技術可變性。經驗貝葉斯方法被用於減輕跨轉錄本的過度離散程度,改進了推斷的可靠性。該方法甚至能夠用最小重複水平使用,只要至少一個表型或實驗...

如何對一組基因做訊號通路分析,如何進行差異基因pathway訊號通路富集分析

富集度又稱加濃度bai。富集 鈾中235u的丰度。du按zhi富集度富集鈾可分成低富集dao 低濃版 中富集權 中濃 高富集 高濃 和超富集 超高濃 鈾。各國對富集鈾的劃分標準不盡相同,根據國際原子能 iaea 規定,235u含量小於20 為低富集鈾。如何利用gcbi發現分析基因間相互作用關係和訊號...