學術動态
2003网站太阳集团彭友松團隊開發病毒鑒定和基因組拼接的一站式工具
2024年01月12日    查看

病毒廣泛分布于自然界,對生物的健康和多樣性産生深遠的影響。由于傳統分離方法的限制,大多數病毒仍然是未知的且難以培養。近年來,随着下一代測序(NGS)技術的迅猛發展,大量的宏基因組和宏轉錄組研究發現了海量的病毒基因序列,為深入探讨病毒的進化、多樣性和流行病學提供了寶貴的信息。然而,由于樣本中病毒的豐度較低,大部分鑒定到的病毒很難得到完整的病毒基因組序列。

近日,2003网站太阳集团彭友松團隊在生物信息學國際權威期刊《Briefings in Bioinformatics》(IF2023=9.5)在線發表題為“VIGA: a one-stop tool for eukaryotic virus identification and genome assembly from next-generation-sequencing data”的研究論文,該研究開發了一種基于宏轉錄組和宏基因組數據對真核生物病毒基因組序列進行鑒定和組裝的生物信息學工具VIGA,為鑒定和表征病毒組提供了幫助。

圖1.發表封面圖

VIGA由四個模塊組成,包括病毒鑒定模塊(Identification)、分類注釋模塊(Taxonomic annotation)、組裝模塊(Assembly)和新病毒發現模塊(Novel virus discovery),可在Github上獲取(https://github.com/viralInformatics/VIGA)。

圖2. VIGA的工作流程

該研究通過三種數據集:模拟病毒群落數據集、真實的宏基因組和宏轉錄組以及病毒株層次感染數據集,對VIGA的性能進行了深入評估,并将其與兩種不同類型的工具進行了比較:基于參考基因組的工具(MetaCompass和VirGenA),以及從頭組裝的工具(Trinity和Haploflow)。

在模拟病毒群落數據集上,VIGA在恢複六種病毒的基因組完整性方面表現卓越,相較于其他方法具有更高的病毒基因組完整度。值得注意的是,VIGA的定量與複雜病毒群落中真實病毒豐度的相關性最高,進一步證實了其在病毒定量方面的有效性。

圖3. VIGA及其他四種方法在模拟病毒群落數據集中的表現

VIGA在甘薯宏轉錄組數據集上的評估顯示,VIGA組裝出了10種中的9種病毒,基因組完整度分布在1.5%至100%之間,中位數為47.9%,高于其他軟件工具。其中VIGA和MetaCompass成功組裝了五種病毒的近乎完整基因組(完整度大于98%),其中三種也被Trinity組裝出近完整基因組。在鳥糞宏基因組數據集中,總計有3種病毒的16個病毒株。在大多數樣本中,VIGA成功組裝了高比例的病毒基因組,中位數為86.54%,隻有兩個例外未成功組裝基因組。

圖4. VIGA及其他四種方法在模真實的宏轉錄組(左)和宏基因組(右)中的表現

在HIV數據集中(圖5A),包括三種HIV毒株,它們之間的序列相似度為95%。VIGA在基因組完整度和菌株精準度指标上取得了近乎完美的表現,平均基因組完整度為98.20%,菌株精準度為100%。在組裝錯配方面,VIGA每100 kbp有2787個錯配,略高于其他方法。在HBV數據集中,包含兩個HBV毒株,它們之間的序列相似度為89%。VIGA在所有方法中表現最好,平均基因組完整度為99.91%,菌株精準度為100%,每100 kbp有1890.7個錯配。

圖5. VIGA及其他四種方法在病毒株水平上的表現

為了說明VIGA在大型數據集上的應用,我們使用VIGA重新分析人類微生物組項目(HMP)的1321個宏轉錄組樣本。我們從467個樣本中總共鑒定出125種已知的真核病毒,共組裝了44種完整度較高的病毒(基因組完整度>80%),并發現疾病樣本中的病毒組組成與健康人的病毒組組成不同。例如,克羅恩病的16種病毒中隻有9種在健康人群中也被觀察到。而對于每個疾病組,都有一種或多種疾病特異性病毒。例如,此前曾被認為與腹瀉等腸道疾病的發生有關的輪狀病毒A在克羅恩病患者中的豐度很高,中位數為4837 FPKM。

圖6. HMP數據集中病毒組的鑒定和表征

該論文的第一作者為2003网站太阳集团的博士研究生傅萍,通訊作者為2003网站太阳集团生物信息中心、醫學病毒學湖南省重點實驗室的教授彭友松。這項工作得到了國家重點研發計劃(2022YFC2303802)和國家自然科學基金(32170651 & 32370700)的支持。

論文鍊接:

https://doi.org/10.1093/bib/bbad444

論文信息:

Fu P, Wu Y, Zhang Z, Qiu Y, Wang Y, Peng Y. VIGA: a one-stop tool for eukaryotic virus identification and genome assembly from next-generation-sequencing data. Briefings in Bioinformatics. 2023 Nov 22;25(1):bbad444. doi: 10.1093/bib/bbad444. PMID: 38048079; PMCID: PMC10753531.