自2000年人類(lèi)基因組圖譜繪制后,生物學(xué)研究邁入全新的“組學(xué)”時(shí)代,科學(xué)家們爭(zhēng)先恐后地測(cè)序各種有機(jī)生物的基因組或蛋白質(zhì)組。
現(xiàn)在,即使一些簡(jiǎn)單的實(shí)驗(yàn)都會(huì)產(chǎn)生大量數(shù)據(jù),而從“背景噪音”中獲得想要的結(jié)果則成為了一大挑戰(zhàn)。美國(guó)趣味科學(xué)網(wǎng)站近日?qǐng)?bào)道指出,計(jì)算機(jī)技術(shù)正幫助科學(xué)家們征服這些數(shù)據(jù)大山,甚至提出科學(xué)假設(shè)并對(duì)新生物學(xué)進(jìn)程進(jìn)行解釋。包括機(jī)器學(xué)習(xí)、計(jì)算機(jī)模擬等數(shù)據(jù)科學(xué)將革新前沿生物學(xué)研究。
機(jī)器學(xué)習(xí)變革生物學(xué)研究
盡管科學(xué)家通過(guò)基因和蛋白質(zhì)測(cè)序讓我們知曉它們的名字和所處方位,但這些并不能告知它們的功能以及工作原理,我們需要理解這些基因、蛋白質(zhì)以及中間成分在不同生物過(guò)程中的相互作用,從而最終征服癌癥、心臟病、阿爾茨海默氏癥等多種頑疾,但這會(huì)涉及到海量數(shù)據(jù)。
例如,科學(xué)家希望借用DNA測(cè)序等“組學(xué)”工具,弄清楚人類(lèi)哪些基因會(huì)受到病毒性流感的影響,但人體包含數(shù)萬(wàn)個(gè)基因,常見(jiàn)的流感研究也會(huì)牽涉多達(dá)數(shù)千個(gè)基因。
計(jì)算機(jī)在處理海量數(shù)據(jù)方面是一把好手,因?yàn)槠淠芡瑫r(shí)考慮所有重要條件并進(jìn)行分析。盡管編寫(xiě)程序的人也會(huì)犯錯(cuò),導(dǎo)致程序出錯(cuò),但計(jì)算機(jī)能有效地處理大量數(shù)據(jù)且不會(huì)像人一樣產(chǎn)生偏見(jiàn)。生物學(xué)家們將用計(jì)算機(jī)來(lái)解決這些復(fù)雜的問(wèn)題并定義新的生物學(xué)。
人類(lèi)也能“教會(huì)”計(jì)算機(jī)在實(shí)驗(yàn)數(shù)據(jù)中發(fā)現(xiàn)特定的模式,這種名為“機(jī)器學(xué)習(xí)”的方法首先由“人工智能之父”阿蘭?圖靈于上世紀(jì)50年代提出,借用這一方法,科學(xué)家們可以借助已有數(shù)據(jù)組開(kāi)發(fā)出新算法模式,從而對(duì)新數(shù)據(jù)進(jìn)行預(yù)測(cè)。從這一方面來(lái)說(shuō),機(jī)器學(xué)習(xí)已經(jīng)革新了生物學(xué)研究。
計(jì)算機(jī)能模擬大腦“思考”
美國(guó)亞利桑那州立大學(xué)生物和健康系統(tǒng)工程學(xué)院的斯里?克里希納博士表示,他們正在借助機(jī)器學(xué)習(xí)的一種??人工神經(jīng)網(wǎng)絡(luò)(ANN)進(jìn)行實(shí)驗(yàn)、分析并解決多種疑難問(wèn)題。
ANN試圖通過(guò)模擬大腦神經(jīng)網(wǎng)絡(luò)處理記憶信息的方式進(jìn)行信息處理。例如,谷歌公司的“深度夢(mèng)想項(xiàng)目(DDP)”圖像識(shí)別軟件就使用了一個(gè)功能強(qiáng)大的ANN來(lái)對(duì)圖片分門(mén)別類(lèi),甚至生成新圖片。據(jù)國(guó)外媒體報(bào)道,為了處理網(wǎng)絡(luò)上數(shù)以億計(jì)的圖片,谷歌開(kāi)發(fā)的這個(gè)ANN系統(tǒng)會(huì)先對(duì)大量相似圖片進(jìn)行處理和學(xué)習(xí),從中找到特定物體獨(dú)一無(wú)二的特征。
克里希納的研究團(tuán)隊(duì)主要研究免疫系統(tǒng),目的是找到癌癥新療法。在研究中,他們使用ANN計(jì)算模型來(lái)研究短的表面蛋白質(zhì)編碼,更好地了解各種免疫細(xì)胞如何區(qū)分正常(自己的)和反常的(外來(lái)的)事物,從而設(shè)計(jì)出更好的疫苗和療法。
克里希納團(tuán)隊(duì)將多年來(lái)研究確定的數(shù)以千計(jì)蛋白質(zhì)編碼的大數(shù)據(jù)集分成兩組:源于健康人體細(xì)胞的正常蛋白質(zhì)編碼與源于病毒、腫瘤和細(xì)菌的反常蛋白質(zhì)編碼,接著他們將這些蛋白質(zhì)編碼輸入自己研發(fā)的一臺(tái)ANN,新算法能區(qū)分出正常/反常的蛋白質(zhì)編碼。
通過(guò)機(jī)器學(xué)習(xí)進(jìn)行預(yù)測(cè)
機(jī)器學(xué)習(xí)在生物學(xué)領(lǐng)域最重要的應(yīng)用是基于大數(shù)據(jù)進(jìn)行預(yù)測(cè),測(cè)試?yán)碚摬孪搿?/p>
亞利桑那州立大學(xué)應(yīng)用數(shù)學(xué)博士迭戈?丘威爾解釋稱(chēng),如在T細(xì)胞生物學(xué)領(lǐng)域,弄清楚朝哪個(gè)引起病毒感染的蛋白質(zhì)“開(kāi)火”對(duì)疫苗研發(fā)和疾病治療意義重大,但某個(gè)病毒可能與多個(gè)蛋白質(zhì)編碼有關(guān),因此,很難通過(guò)實(shí)驗(yàn)對(duì)每個(gè)蛋白質(zhì)編碼逐一測(cè)試,且測(cè)試成本也極其高昂。
他們現(xiàn)在的解決辦法是訓(xùn)練ANN幫助機(jī)器學(xué)會(huì)自有和外來(lái)兩類(lèi)蛋白質(zhì)編碼所有重要的生物化學(xué)屬性,接著要求其“預(yù)測(cè)”哪種蛋白質(zhì)編碼與外來(lái)的蛋白質(zhì)編碼類(lèi)似,并能被T細(xì)胞發(fā)現(xiàn)。
他們用很多病毒蛋白質(zhì)對(duì)這個(gè)ANN模型進(jìn)行了測(cè)試,結(jié)果發(fā)現(xiàn):這個(gè)ANN系統(tǒng)能精確地在病毒內(nèi)“揪出”大部分能被T細(xì)胞激活的蛋白質(zhì)編碼。研究人員也對(duì)找到的蛋白質(zhì)編碼進(jìn)行了測(cè)試,證實(shí)了這種ANN預(yù)測(cè)的精確性。使用這種ANN模型,科學(xué)家們能快速預(yù)測(cè)與某個(gè)病毒有關(guān)的所有重要的短蛋白質(zhì)編碼并進(jìn)行測(cè)試,從而找到療法或疫苗,而不是逐一猜測(cè)然后進(jìn)行實(shí)驗(yàn)。
聰明地利用機(jī)器學(xué)習(xí)
隨著大數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)自身不斷地優(yōu)化,它們?cè)谏飳W(xué)領(lǐng)域發(fā)揮的作用也越來(lái)越大:從厘清哪些生物標(biāo)記結(jié)合在一起能最好地探測(cè)出疾病,到理解為何只有某些病人能從特定的療法受益等。
當(dāng)然,計(jì)算機(jī)也不是萬(wàn)能的。大數(shù)據(jù)科學(xué)的最大問(wèn)題是數(shù)據(jù)本身。如果組學(xué)研究獲得的數(shù)據(jù)一開(kāi)始就是錯(cuò)的,或者基于偽科學(xué),那么,機(jī)器有可能提供錯(cuò)誤的結(jié)果。還有科學(xué)家擔(dān)心計(jì)算機(jī)變成數(shù)據(jù)的“黑盒子”,因?yàn)樗麄儗?duì)計(jì)算機(jī)內(nèi)進(jìn)行計(jì)算和操控的細(xì)節(jié)知之甚少。
克里希納表示,盡管存在這些問(wèn)題,但大數(shù)據(jù)和計(jì)算機(jī)帶來(lái)的巨大好處將使它們成為科學(xué)研究的“好伙伴”。科學(xué)家們應(yīng)時(shí)刻保持警惕,聰明地利用計(jì)算機(jī),最終借助“機(jī)器之眼”來(lái)更好地揭示生命的奧秘。
本文來(lái)自:逍遙右腦記憶 http://m.portlandfoamroofing.com/chuzhong/678379.html
相關(guān)閱讀:八年級(jí)上冊(cè)生物期末復(fù)習(xí)知識(shí)點(diǎn):腔腸動(dòng)物