在現代DNA中發現古代人類的痕跡!
在深度學習技術的幫助下,古人類學家發現了人類家譜上丟失已久的分支證據。深度學習技術能幫助古生物學家和遺傳學家尋找古人類的痕跡嗎?7萬年前,當現代人第壹次走出非洲時,至少有兩個已經滅絕的相關種群在歐亞大陸等候著他們。這兩個相關種群就是古代人類尼安德特人和丹尼索瓦人,而後古代人類與早期的現代人雜交,現今的非洲後裔基因組還存留著古代人類DNA片段。越來越多的跡象表明,這段 歷史 遠比我們了解到的精彩。壹個研究小組在《自然》(Nature)上報道稱:他們在西伯利亞的壹個洞穴中發現了壹塊屬於人類雜交後代的骨頭碎片,這壹後代的母親是尼安德特人,父親是丹尼索瓦人,這塊骨頭碎片是第壹代人類雜交的第壹個化石證據。
不幸的是,類似的化石十分罕見,例如對丹尼索瓦人的了解基於從壹根指骨中提取的DNA。雖然那些來自早期雜交群體的結合以及其他祖先結合很容易被發現,但當涉及到物理證據時,它們可能難以求證。它們出現過的線索可能只存在於某些人的DNA中,即便如此,它們也可能比尼安德特人和丹尼索瓦人的基因更微妙。統計模型幫助科學家在沒有化石數據的情況下推斷出這些種群的存:例如2013的古人類和現代人基因變異模式表明,壹個未知的人類種群與丹尼索瓦人(或他們的祖先)進行了雜交。但專家們認為,這些方法也不可避免地忽視了許多細節。
還有誰對現今人類的基因組做出了貢獻?這些種群長什麽樣子?它們生活在哪裏?它們與其他人類物種互動和交配的頻率是多少?發表在《自然通訊》(Nature Communications)上的壹篇論文中,研究人員展示了深度學習技術的潛力,這種技術可以幫助填補壹些缺失部分,填補的部分專家甚至可能還沒有意識到。他們通過深入研究,挑選出了另壹個種群的存在證據:歐亞大陸上壹個未知的人類祖先,它可能是尼安德特人和丹尼索瓦人的混血,也可能是丹尼索瓦人的親戚。這項研究工作指出了人工智能在古生物學中的未來用途,它不僅能識別不可預見的痕跡,還能揭示出我們在進化過程中的缺失部分。
目前統計方法涉及同時檢測4個基因組的***同特征,這是對相似性的測試,但不壹定是對實際祖先的測試;因為很多不同的方法都可以解釋它揭示的少量基因混合物。例如這些分析可能表明,現代歐洲人與尼安德特人的基因組有某些***同特征,但與現代非洲人不同,然而這並不意味著這些基因來自尼安德特人與歐洲祖先的雜交。後者可能與壹個與尼安德特人關系密切的種群繁殖,而不是尼安德特人本身。因為缺乏物理證據來表明這些古老的假定基因變異來源於何時、何地以及如何生活的種群,所以很難說在眾多的推測祖先中,明確指出是哪壹個。
威斯康星大學麥迪遜分校(University of Wisconsin-Madison)的古人類學家約翰·霍克斯(John Hawks)說:這項技術簡單而強大,但在理解進化論方面還有很多問題沒有解決。深度學習方法試圖解釋基因流動的水平,雖然基因流動水平相對於統計方法來說太小了,但它提供了更廣泛、更復雜的模型來解釋。通過訓練,神經網絡可以學習在基因組數據中根據最可能產生它們的人口 歷史 對各種模式進行分類,而不需要被告知如何建立這些聯系。
深度學習技術的使用可以發現研究人員沒有懷疑過的古人類痕跡。首先,我們沒有任何理由認為尼安德特人、丹尼索瓦人和現代人是人類 歷史 脈絡中僅有的三個種群。根據霍克斯的說法,這樣的種群可能有幾十個。紐約州立大學石溪分校(Stony Brook University)人類學家賈森·劉易斯(Jason Lewis)贊同這種觀點並表示:我們的想象力壹直受到限制,因為我們總是在關註活著的人,或者在歐洲、非洲和西亞發現的化石。深度學習技術以壹種奇怪的方式重新聚焦這些可能性,這種方法不再受我們想象力的限制。
深度學習似乎不太可能解決古生物學家的問題,因為這種方法通常需要大量的訓練數據。以其最常見的圖像分類器為例,當專家訓練壹個模型識別貓的圖像時,專家有成千上萬張可以訓練的圖片,並且專家本身知道它是否有效,因為他知道貓應該長什麽樣。由於缺乏相關的人類學和古生物學數據,想要利用深度學習技術的研究人員不得不通過創造自己的數據來讓它變得更聰明。巴塞羅那國家基因組分析中心(National Center of Genomic Analysis)的研究員奧斯卡·勞(Oscar Lao)說:我們在玩骯臟的把戲,能夠使用無限數量的數據來訓練深度學習引擎,因為我們使用的是模擬。
研究人員根據不同的人口統計細節組合生成了成千上萬的模擬進化史:祖先人口的數量,大小,當他們彼此分離時的混血率等等。從這些模擬的 歷史 中,科學家們為現代人生成了大量的模擬基因組。他們對這些基因組進行了深度學習算法的訓練,使其了解哪種進化模型最有可能產生給定的遺傳模式。然後,研究小組將人工智能釋放,以推斷出最符合實際基因組數據的 歷史 。最終,該系統得出結論,壹個以前未被確認的人類群體也對亞洲後裔的祖先有所貢獻。從所涉及的基因模式來看,這些人本身可能要麽是30萬年前丹尼索瓦人和尼安德特人雜交產生的壹個獨特種群
要麽是在那之後不久從丹尼索瓦人後裔中進化而來的壹個群體。這並不是深度學習第壹次被這樣使用,該領域的壹些實驗室已經在應用類似方法來解決進化研究的其他線索。俄勒岡大學(University of Oregon)的安德魯?科恩(Andrew Kern)領導的壹個研究小組,利用基於模擬的方法和機器學習技術,對包括人類在內的物種如何進化的各種模型進行了區分。發現進化所青睞的大多數適應並不依賴於種群中有益的新突變的出現,而是依賴於已經存在的遺傳變異的擴展,將深度學習應用於這些新問題正產生令人興奮的結果。
存在壹些問題,首先、如果實際的人類進化史與深度學習方法訓練的模擬模型不相同,那麽這項技術將產生錯誤的結果。這是科恩和其他人壹直在努力解決的問題,為了提高準確性,還有很多工作要做。普林斯頓大學(Princeton University)生態學家和進化生物學家約書亞·阿基(Joshua Akey)說:我認為人工智能在基因組學方面的應用被過度誇大了。深度學習技術是壹種奇妙的新工具,但它只是壹種方法,這並不能解決我們想要了解人類進化中的所有謎團和復雜性。
壹些專家甚至持懷疑態度,哈佛大學(Harvard University)和皮博迪博物館(Peabody Museum)的古生物學家戴維·皮爾比姆(David Pilbeam)在壹封電子郵件中寫道:我的判斷是,除了經過深思熟慮的、智能的、非人工的分析之外,數據的密度和質量並不理想。然而在其他古生物學家和遺傳學家看來,這是壹個很好的進步,可以用來預測未來可能的化石發現和人類幾千年前應該存在的遺傳變異。我認為深入學習真的會促進群體遺傳學,對於我們可以訪問數據但不能訪問生成數據過程的其他字段,情況可能也是如此。
大約在科恩和其他種群遺傳學家和進化生物學家開發基於模擬的人工智能技術來解決問題的同時,物理學家也在研究如何篩選大型強子對撞機和其他粒子加速器產生的海量數據,地質研究和地震預測方法也開始受益於深度學習方法。麻省理工學院和哈佛大學布羅德研究所(Broad Institute of the Massachusetts Institute of Technology)的計算生物學家尼克·帕特森(Nick Patterson)說:我真的不知道會發生什麽,但有新方法出現總是好的。它如果能很好地回答我們的問題,我們會盡所能發展它!
博科園-科學科普|參考期刊文獻: 《natural》,《Nature Communication》
文: Jordana Cepelewicz/Quanta magazine/Quanta Newsletter
DOI: 10.1038/s41586-018-0455-x
DOI: 10.1038/nature12886
DOI: 10.1038/s41467-018-08089-7
博科園-傳遞宇宙科學之美