日前,在德國(guó)法蘭克福會(huì)展中心舉行的2018國(guó)際超算大會(huì)(ISC18)上,浪潮分享了面向第三代基因測(cè)序組裝軟件的高性能計(jì)算系統(tǒng)優(yōu)化方案。浪潮的FALCON優(yōu)化方案使得關(guān)鍵步驟計(jì)算性能提升了20%左右,而浪潮并行優(yōu)化的MECAT相比原單機(jī)版本獲得了近10倍的性能提升,優(yōu)異的性能表現(xiàn)引發(fā)了國(guó)際同行的極大關(guān)注。
ISC現(xiàn)場(chǎng),浪潮AI&HPC Dr.朱紅分享第三代基因測(cè)序計(jì)算優(yōu)化方案
二代測(cè)序和三代測(cè)序都屬于高通量測(cè)序技術(shù),測(cè)序數(shù)據(jù)產(chǎn)出量很大,需要結(jié)合高性能計(jì)算技術(shù)來(lái)進(jìn)行后續(xù)的測(cè)序數(shù)據(jù)處理。相較于二代測(cè)序技術(shù),以單分子測(cè)序技術(shù)為代表的三代基因測(cè)序帶來(lái)了更長(zhǎng)的測(cè)序讀長(zhǎng),這使得對(duì)更加復(fù)雜的物種如各種農(nóng)作物和植物等的基因研究成為可能,但是相對(duì)更高的測(cè)序錯(cuò)誤率(~15%)需要進(jìn)行數(shù)據(jù)糾錯(cuò),又對(duì)高性能計(jì)算帶來(lái)了新的挑戰(zhàn)。三代基因測(cè)序組裝這類應(yīng)用對(duì)于系統(tǒng)的計(jì)算性能、網(wǎng)絡(luò)和磁盤(pán)等方案都有很高的要求。很多用戶在通常的高性能計(jì)算平臺(tái)來(lái)處理測(cè)序數(shù)據(jù)時(shí),性能都不理想。
目前,由Pacbio公司開(kāi)發(fā)的FALCON及中國(guó)的中山大學(xué)開(kāi)發(fā)的MECAT是第三代基因測(cè)序組裝領(lǐng)域的兩款主流軟件。FALCON由于把測(cè)序數(shù)據(jù)(raw data)切割成KB級(jí)別的卷來(lái)進(jìn)行糾錯(cuò),因而需要頻繁的磁盤(pán)I/O,所以在計(jì)算過(guò)程中,磁盤(pán)I/O經(jīng)常會(huì)成為系統(tǒng)瓶頸。浪潮專家優(yōu)化FALCON軟件的底層參數(shù),優(yōu)化了軟件架構(gòu),降低了系統(tǒng)對(duì)于硬件I/O依賴,下圖為處理同一測(cè)試用例時(shí),優(yōu)化前后磁盤(pán)I/O強(qiáng)度對(duì)比。
優(yōu)化完成后,F(xiàn)ALCON軟件的核心部分性能提升了20%,而且軟件的集群擴(kuò)展性也有明顯提升。
優(yōu)化后FALCON核心部分性能提升20%
針對(duì)MECAT軟件,浪潮完成了該軟件從單機(jī)環(huán)境向集群環(huán)境的并行優(yōu)化工作。經(jīng)測(cè)試,新部署的經(jīng)過(guò)浪潮并行優(yōu)化的集群版本在12個(gè)節(jié)點(diǎn)上運(yùn)行時(shí),可以把人類全基因組組裝時(shí)間從200多個(gè)小時(shí)縮短到不足24小時(shí),相比原單節(jié)點(diǎn)版本獲得近10倍的加速比,這表明集群版本的擴(kuò)展線性度非常好。