前衍微信公眾號

請掃二維碼關注

前衍微信公眾號

當前位置首頁> 化工資訊> 人工智能引領化學風向標?CAS:就是炒作!

人工智能引領化學風向標?CAS:就是炒作!

發布時間:2019-11-18 來源:化學科訊 閱讀:36


機器學習(machine learning)屬于人工智能范疇,是指計算機在一組數據上進行訓練,然后根據該數據創建規則或知識的能力。化學家們通常對該工具的預測能力感興趣。例如,機器學習了100種金屬合金及其熔點,它能否預測出從未遇到過的合金的熔點,甚至是從未合成過的合金?西北大學的物理化學家喬治·沙茨(George Schatz)說,“如果機器學習沒有人們想象的那么有價值,那么人們最終會將時間和精力浪費在實驗室的測試上。另一方面,如果機器學習的確是未來的潮流,那么不懂機器學習的化學家可能就會掉隊。”

近年來,化學家展示了多種多樣的機器學習幫助探索化學空間的方式。例如,麻省理工學院的希瑟·庫里克(Heather Kulik)及其同事鑒定了稱為自旋交聯復合物的無機分子,它們可用作傳感器或電子開關(J. Phys. Chem. Lett. 2018,DOI:10.1021 / acs.jpclett.8b00170)。SLAC國家加速器實驗室的Apurva梅塔,與合作者一起使用機器學習識別新合金是金屬玻璃(Sci. Adv. 2018,DOI:10.1126 / sciadv.aaq1566)。化工公司Symrise與IBM合作使用機器學習尋找新的香水。

加利福尼亞理工學院的Thomas F.Miller和同事展示了機器學習如何用于化學建模,并演示了它如何以高精度和低計算成本預測分子的電子性質(J.Chem.Theory Comput.2018,DOI) :10.1021 / acs.jctc.8b00636)。在相關工作中,佛羅里達大學的Adrian Roitberg展示了一種基于機器學習的工具,該工具可以計算分子力和能量,并以較低的計算成本提供高性能。

合成化學家還對機器學習進行了實驗。普林斯頓大學的Abigail G.Doyle與當地和默克公司的同事合作,通過要求他們的算法改變所用試劑來優化胺化反應的產率(Science 2018,DOI:10.1126 / science.aar5169)。蔚山國立科學技術學院和波蘭科學院的Bartosz Grzybowski對Chematica軟件進行了測試。人類化學家發現,計算機程序設計出了至少與人類開發的產品一樣好的產品路線圖(Chem 2018,DOI:10.1016 / j.chempr.2018.02.002)。多倫多大學的AlánAspuru-Guzik則是將化學學習應用到能夠獨立運行實驗,然后使用結果改進程序的軟件中的化學家之一。

可以說,近年來人工智能在學術圈也是風風火火!但是有人可能就會懷疑:機器學習這么火,是不是在炒作?對此,美國化學媒體C&EN在網上對化學家進行了調查,了解他們對機器學習的看法。45%的受訪者認為機器學習就是炒作。化學家對該領域有持有不同的看法。大多數人都認為盡管有些方面的熱情過高,但它確實是一個有用的工具。




人工智能用于藥物發現

制藥公司是最早使用機器學習的部門。他們擁有大量有關小分子和生物學靶點的數據,可以用來訓練算法。機器學習為藥物化學家提供與組合化學或高通量篩選相同的、有望加快和改善藥物發現幫助。

人工神經網絡(ANN)算法在藥物設計中使用了已有近半個世紀之久。1973年,蘇聯研究人員證明了人工神經網絡能預測取代的1,3-二惡烷的生物活性(Comput. Biomed. Res. 1973, DOI: 10.1016/0010-4809(73)90074-8))。從1990年代開始,藥物化學家在定量構效關系(QSAR)模型中使用了人工神經網絡。QSAR模型根據其他分子的已知特性對分子的特性進行預測,以幫助確定它是否值得作為一種可能的藥物進行研究。隨機森林算法和支持向量機也是機器學習的類型,現在已經在QSAR建模中大大取代了人工神經網絡。

默沙東公司(Merck&Co.)計算化學家Robert P. Sheridan說,“從這個角度講,機器學習沒有被夸大。在QSAR的意義上講,化學中的機器學習已經使用了數十年,并且證明是有用的。” QSAR模型并不完美,但是像默克這樣的公司仍在繼續使用它們,因為它們可以幫助化學家確定要花費時間的分子組,并節省資金和精力。

制藥業已經經歷了機器學習的“炒作周期”。當對創新的預期達到到虛假的峰值,就會陷入幻滅的深淵。當人們理清它的局限性和實際能力時,技術也達到了生產力的穩定水平。熟悉制藥行業的人們可能會意識到納米技術和組合化學的潮起潮落。

根據Sheridan的說法,深度神經網絡在藥物研發領域正在接近炒作的高峰。化學家仍將深層神經網絡視為一種手段,可以通過分解從人體內部發生的生物學過程中收集到的復雜數據,將藥物發現提高到一個新的水平。斯坦福大學的計算化學家Vijay Pande說:“我們人類可能已經達到了理解生物學數據的極限,但是機器學習將能夠理解藥物化學與人體生物學之間的接口。”

諾華的化學生物學和治療數據科學負責人詹金斯說,這種能力可以讓機器學習為藥物化學家們建議一個或多個分子,使他們專注在這上面努力。Sheridan表示,當他的小組將深度神經網絡與其他機器學習方法進行比較時,他們發現預測能力在統計學上有顯著提高。但是他說,在整個藥物開發過程中,收益幾乎總是微不足道的。也許機器學習可以使藥物發現受益,但它將對化學的其他領域產生更大的影響。


人工智能用于材料研究

格拉斯哥大學的化學家Leroy Cronin說:“很難用機器學習來發現藥物,是因為這個問題提出的不對。” 機器學習已證明可以很好地實現既定目標,例如識別人臉。但是克Cronin解釋說,因為人類并不完全理解使藥物成功的原因,所以我們不知道提供機器學習算法以使其成功的數據。深度神經網絡處理更復雜數據集的能力可能會將它們區分開,但這仍有待觀察。Cronin等人認為,機器學習在材料研究中可能會產生更快地、更大的影響。

材料基因組的概念可以追溯到2002年,2016年研究人員將其用于機器學習可以使材料研究受益的第一個演示中。作者建立了一個公共數據庫,其中包括失敗反應的結果,并且能夠比人類更準確地預測釩亞硒酸鹽的結晶反應(Nature 2016,DOI:10.1038 / nature17439)。計算機無法取代人類的直覺。橡樹嶺國家實驗室的物理化學家Bobby G.Sumpter說,但是機器學習可以做出遠遠超出特定訓練數據集化學空間范圍的預測。如果可行,例如,我們可以根據觀察到的特性預測分子的結構。目前不可能。

勞倫斯伯克利國家實驗室的計算化學家Bert de Jong說,我們現在所說的機器學習主要是一種用于加速大數據集計算的工具。他補充說,它無法推斷出數據集所包含的知識,無法理解分子的物理學以及真正地學習。機器學習在解釋化合物和材料的圖像和光譜方面具有明顯的優勢,尤其是在接近儀器檢測極限的噪聲中尋找信號。他說,它還可以幫助實時指導實驗。由于機器學習可以在毫秒內吸收和解釋大量數據,因此AI可以調整輸入和參數以在發生實驗時對其進行優化,特別是在流式反應器設置中。

人工智能用于反應發現

當許多化學家聽到“機器學習”和“炒作”這兩個詞時,他們想到的第一件事就是逆合成分享。這是哈佛大學的Elias J. Corey提出的概念,即通過考慮關鍵鍵和結構單元來闡明合成目標分子的合成路線的概念,他和其他人一直在致力于尋找可以設計合成路線的計算機程序。

“我認為機器學習可以提高人類的能力,不是使人類變得不必要,而是使人類在所做的一切事情中都變得更有效率,”美國化學學會(CAS)產品和內容運營高級副總裁Matt Toussant說。Toussant說,CAS將于今年秋天推出其逆合成計劃器ChemPlanner。

MilliporeSigma于8月發布了Synthia(之前是Chematica),這是該領域的另一項杰出產品。這兩個程序都嚴重依賴人類專家,這些專家從文獻和他們自己的知識中汲取了化學轉化必須遵循的規則數據庫。機器學習算法使程序可以使用這些規則瀏覽化學空間,并向用戶建議合成靶分子的可能方法。


Chematica發明者Bartosz Grzybowski

Synthia的創建者蔚山國立科學技術學院的Bartosz Grzybowski說,機器學習只是該軟件所依賴的一種工具。Synthia還使用分子動力學,量子力學和電子性質來判斷合成路線的有利程度或中間體的穩定性。Grzybowski說,機器學習不能做所有事情。有機化學的某些高級方面需要所有其他工具。因此,我提倡的是開放,解決問題,而不是堅持特定的方法。”

一些化學家懷疑這些產品是否會比傳統的設計合成方法具有更大的優勢,傳統的合成方法通常需要研究生檢索Reaxys或SciFinder之類的數據庫,然后進行探索和試驗。Toussant說化學家關心的是像ChemPlanner這樣的機器學習算法是否使它們更具生產力并允許他們做出更多發現。

Grzybowski用他口頭禪回應了這種懷疑:“盤它!”將Synthia預測的路線在實驗室進行測試,看看該程序是否比使用數據庫的人找到更好的路線更快。在他發表的一篇論文中表明Synthia可以在短短15或20分鐘內找到新穎、有效合成目標分子的途徑(Chem 2018,DOI:10.1016 / j.chempr.2018.02.002)。


基于機器學習的Synthia計劃了一條通往ATR激酶抑制劑的合成路線(右),該路線采取了較少的步驟,但產量卻與已公布的路線相似(左)。

如果化學家認為他們需要使用諸如“機器學習”之類的流行語來吸引更多眼球或資金,Grzybowski不會怪他們。但是,一旦機器學習的炒作消失了,有價值的工具將依然存在,就像組合化學或基因組學等“過氣”時尚已經證明的那樣。每個人都在炒作的過山車上有自己的旅程,雖然都沒有達到某些人的承諾,但它們都仍在使用中。

格拉斯哥大學的化學家Leroy Cronin說:“化學技術混亂而復雜,機器學習可以幫助設計更好的實驗”,尤其是當變量的數量可能使人不知所措時,例如了解溶劑對反應的影響。化學家必須學習基本的編碼技能,知道如何建立數據庫和創建數據描述符,以便算法可以學習。盡管機器學習被過度炒作和令人討厭,但我認為化學家并未充分利用它。”



Matt Toussant

美國化學文摘(CAS)產品和內容運營高級副總裁Matt Toussant表示,“我們雖然在機器學習方面正處于炒作的高峰,并且即將陷入幻滅的深淵。但是最終所有技術都會從絕望中恢復過來。希望機器學習能夠做到這一點。我相信它的未來。”【we’re near peak hype in machine learning and about to fall into the valley of disillusionment. “But ultimately all technology recovers from the pit of despair,” he says. “I expect machine learning to do the same. I believe in its future.”】

參考資料:Is machine learning overhyped? Chemical & Engineering News


關鍵詞:人工智能 CAS

分享至

排列综合版