首頁(yè)>尋醫(yī)·問藥>醫(yī)訊同期聲醫(yī)訊同期聲
我科學(xué)家引入信息論 刷新基因測(cè)序精度
自從Alpha Go成了圍棋界的No.1,“智能”的潛力被廣而周知,尤其對(duì)于大量的重復(fù)性工作,寫個(gè)“算法”讓電腦“跑”,得出的結(jié)果說(shuō)不定比人強(qiáng)。
科學(xué)家不僅有足夠大的腦洞,還有著非凡的執(zhí)行力。這次是生物學(xué)者,他們借鑒了信息學(xué)科的思維,發(fā)明了基因測(cè)序的新方法。日前,一篇名為《基于信息理論來(lái)修正錯(cuò)誤的高準(zhǔn)確度熒光產(chǎn)生DNA測(cè)序方法》的論文在《自然·生物技術(shù)》上在線發(fā)表。研究者來(lái)自北京大學(xué)黃巖誼教授帶領(lǐng)的團(tuán)隊(duì)。
“這個(gè)設(shè)計(jì)很巧妙,”東南大學(xué)教授陸祖宏說(shuō),“或許在信息科學(xué)里是‘小伎倆’,但在生物學(xué)研究中是一種思維方式的突破,而且奏效了?!?/p>
測(cè)序精準(zhǔn)是“王道”
和體育界的“更快、更高、更遠(yuǎn)”類似,基因測(cè)序界的“金標(biāo)準(zhǔn)”是“更快、更長(zhǎng)、更正確、還不貴”。
大名鼎鼎的“人類基因組計(jì)劃”基于1代測(cè)序技術(shù),耗時(shí)十余年測(cè)出一套完整的人類基因組密碼,而利用現(xiàn)有的2代測(cè)序技術(shù),這個(gè)時(shí)間可以縮短到半天內(nèi)。
“2代測(cè)序技術(shù),又叫高通量測(cè)序技術(shù),”陸祖宏介紹,它能夠在一個(gè)生物芯片上一次完成上億個(gè)反應(yīng)。“每個(gè)反應(yīng)一次測(cè)定一個(gè)堿基。”
生物芯片上的反應(yīng)單元非常小,幾平方微米的芯片上會(huì)包含1000個(gè)待測(cè)DNA單鏈分子,在DNA聚合酶(促成單個(gè)堿基聚合)的作用下,單個(gè)堿基會(huì)按照配對(duì)規(guī)律合成已有DNA分子的互補(bǔ)鏈,每次合成一個(gè),同時(shí)釋放出熒光。不同的堿基(A、T、C、G)帶有不同的熒光,檢測(cè)到熒光的不同就能判斷是什么堿基,進(jìn)而讀取DNA。
然而,每個(gè)單元中1000個(gè)分子的合成很難同步,“這個(gè)分子合成到99個(gè)時(shí),那個(gè)分子可能合成到101個(gè),這樣捕捉到的熒光波長(zhǎng)將會(huì)有所差異,可信度顯著下降,”陸祖宏說(shuō),因此,2代基因測(cè)序儀的單次“讀長(zhǎng)”目前的極限在200個(gè)堿基對(duì)(bp)。通過(guò)DNA二端測(cè)序能做到400個(gè)bp,但很難進(jìn)一步提高。讀得越長(zhǎng),測(cè)得序列的正確性就會(huì)越低。
在人體基因測(cè)序領(lǐng)域,這是一對(duì)相差懸殊的數(shù)字:30億、200。前者是人類基因組的堿基對(duì)數(shù)量,后者是目前測(cè)序準(zhǔn)確度最高(99%)的2代基因測(cè)序儀的單次“讀長(zhǎng)”??梢娨?00為單位完成目標(biāo)DNA的測(cè)序,不可避免會(huì)造成大量的誤差。
測(cè)序技術(shù)正在向著滿足“金標(biāo)準(zhǔn)”的路上不斷推進(jìn),而此次我國(guó)學(xué)者發(fā)表的ECC(糾錯(cuò)編碼)測(cè)序法正是對(duì)現(xiàn)有手段的校正和補(bǔ)充。
“軟件推導(dǎo)”補(bǔ)硬件不足
生物學(xué)的研究方法一直是所見即所得,這次引入了信息論的方法,利用冗余信息、通過(guò)計(jì)算得出準(zhǔn)確結(jié)論,陸祖宏認(rèn)為,ECC測(cè)序法是對(duì)上面提到的2代測(cè)序方法的完善,其基本原理與2代測(cè)序方法相一致,令人稱道的是其打破思維定勢(shì),迂回計(jì)算出堿基信息。
打個(gè)比方,要解答“甲乙丙丁分別住在哪個(gè)房子里,”之前的方式是直接開門看,ECC是通過(guò)測(cè)量得到一組邏輯題,諸如紅房子在藍(lán)房子的右邊,白房子的左邊;黃房子的主人來(lái)自香港,而且他的房子不在最左邊,愛吃比薩的人住在愛喝礦泉水的人的隔壁……等等提示,通過(guò)計(jì)算最終判斷出結(jié)論。
“之前一個(gè)一個(gè)測(cè),現(xiàn)在是一群一群測(cè),每次采樣量一樣,但是采樣方法不同了,單次看獲得的信息更多,”陸祖宏說(shuō),冗余信息可以互為校驗(yàn),將“精準(zhǔn)”的努力更多地讓“軟件推導(dǎo)”去承擔(dān),彌補(bǔ)酶的均一性、信號(hào)捕捉等硬件上無(wú)法避免的不足。
資料顯示,ECC編碼和解碼策略已被廣泛應(yīng)用在信息通訊和存儲(chǔ)等其他領(lǐng)域中,并被證實(shí)可以有效檢測(cè)和糾正數(shù)據(jù)傳輸或存儲(chǔ)時(shí)發(fā)生的錯(cuò)誤。此次研究團(tuán)隊(duì)在測(cè)序技術(shù)中首次引入ECC,并自主合成了低錯(cuò)誤率的熒光發(fā)生底物,二者結(jié)合在實(shí)驗(yàn)室搭建的原理樣機(jī)上獲得了單端測(cè)序超過(guò)200堿基讀長(zhǎng)無(wú)錯(cuò)誤的實(shí)驗(yàn)結(jié)果。
“BT與IT的結(jié)合越來(lái)越成為業(yè)界共識(shí),”蔣慧說(shuō),就在12月初,谷歌發(fā)布了一款名為DeepVariant程序工具,稱其擁有人工智能(AI)深度學(xué)習(xí)能力,將2代測(cè)序技術(shù)中的片段精確的拼接,更準(zhǔn)確識(shí)別DNA序列中的突變。
應(yīng)用還有很長(zhǎng)的路要走
“基因測(cè)序儀很復(fù)雜,涉及到光機(jī)電、生化反應(yīng)、軟件計(jì)算等不同領(lǐng)域,”作為國(guó)內(nèi)唯一自主生產(chǎn)基因測(cè)序儀的企業(yè)領(lǐng)頭人,華大智能副總裁蔣慧感觸頗深,她說(shuō),測(cè)序儀生產(chǎn)和制造的進(jìn)入門檻很高。
基因測(cè)序行業(yè)是有上下游鏈條的,“除了要生產(chǎn)出高精密的測(cè)序儀,還要配備有效的試劑盒,以及成套的解決方案,”蔣慧說(shuō),同時(shí)要具備與下游應(yīng)用開發(fā)企業(yè)的承接能力?!皽y(cè)序儀就好比一款手機(jī),要用得廣,要能夠搭載、兼容不同的‘APP’,即產(chǎn)前篩查、腫瘤檢測(cè)等應(yīng)用場(chǎng)景?!?/p>
經(jīng)過(guò)近5年的持續(xù)投資研發(fā),目前具有臨床測(cè)序儀量產(chǎn)能力的國(guó)產(chǎn)測(cè)序儀生產(chǎn)商只有華大基因一家,它的測(cè)序儀從研發(fā)到走向市場(chǎng)就是在一路“披荊斬棘”中走來(lái)?!拔覈?guó)造出自己的測(cè)序儀之后,受到過(guò)國(guó)際大公司的排擠,例如通過(guò)試劑、酶等的供應(yīng)上實(shí)施封鎖的方法?!标懽婧暾f(shuō),新技術(shù)就算好,讓市場(chǎng)“棄舊用新”的阻力卻是很大的,尤其國(guó)外企業(yè)的龍頭地位很難撼動(dòng)。
在巨大的阻力下,我國(guó)的測(cè)序儀產(chǎn)業(yè)雖步履蹣跚,但仍在崛起,除了黃巖誼團(tuán)隊(duì)宣布制造出樣機(jī)之外,我國(guó)南方科技大學(xué)瀚?;蛉涨鞍l(fā)布了全球最準(zhǔn)三代基因測(cè)序儀。(記者 張佳星)
編輯:趙彥
關(guān)鍵詞:我科學(xué)家 引入信息論 基因測(cè)序精度
更多
更多
- 中國(guó)制造助力孟加拉國(guó)首條河底隧道項(xiàng)目
- 澳大利亞豬肉產(chǎn)業(yè)協(xié)會(huì)官員看好進(jìn)博會(huì)機(jī)遇
- 聯(lián)合國(guó)官員說(shuō)敘利亞約1170萬(wàn)人需要人道主義援助
- 伊朗外長(zhǎng)扎里夫宣布辭職
- 中國(guó)南極中山站迎來(lái)建站30周年
- 聯(lián)合國(guó)特使赴也門斡旋荷臺(tái)達(dá)撤軍事宜
- 以色列前能源部長(zhǎng)因從事間諜活動(dòng)被判11年監(jiān)禁
- 故宮博物院建院94年來(lái)首開夜場(chǎng)舉辦“燈會(huì)”