您當前的位置:檢測資訊 > 科研開發
嘉峪檢測網 2021-09-23 16:47
1前言
機器學習(Machine Learning,ML)屬于人工智能的子領域,它是研究機器能夠熟練執行智能任務的過程和實用性,而無需為這些任務明確編程。最近,人工智能系統已經接近人類在一些任務上的表現,如游戲和圖像識別,但這些是在非常狹窄和集中的領域。盡管如此,人工智能的各種形式如今已成功地應用于大范圍的領域:從機器人、語音翻譯和圖像分析,再到藥物分子設計的應用。
在藥物發現中,最好的人工智能不一定是能夠自主設計一種新藥的單一人工智能,而是一種或多種不同的人工智能,能夠在整個藥物發現過程中更好地理解和設計新的輸入,從靶點選擇、命中識別、引導優化到臨床前研究,最后到臨床試驗。
人工智能在藥物發現中能起著關鍵作用,特別是人工神經網絡,如深度神經網絡或循環網絡,驅動著這一領域的發展。在性質或活性預測方面的許多應用,如物理化學和ADMET性質,定量結構-性質關系(QSPR)或定量結構-活性關系(QSAR)等技術支撐著這方面的應用。人工智能推動生物活性分子朝著期望的特性發展,結合合成計劃和易合成的可行性,計算機自動發現藥物的可能性越來越大。
2介紹
人工智能包括機器學習等技術是為學習和預測新特性建立的,尤其是人工神經網絡,如深度神經網絡(deep neural netwroks, DNNs)或遞歸神經網絡(recurrent neural networks, RNNs),推動了人工智能的發展。
自20世紀60年代以來,藥物化學就開始使用人工智能應用于新化合物的設計,其中有標記訓練數據集的訓練模型被廣泛應用于分子設計中。定量構效關系(QSAR)方法廣泛用于預測化學結構的性質,如logp、溶解度和生物活性。相反,不依賴于標簽的無監督機器學習也在醫學和化學中使用,例如層次聚類、算法和主成分分析等用于分析大分子庫。
藥物化學研究中,當深度學習體系結構在性能預測方面顯示出好結果時,新型人工智能技術受到了廣泛關注。在Merck Kaggle和NIH Tox21挑戰中,與基礎機器學習方法相比,深度神經網絡顯示出更好的預測性。
3人工智能應用于化合物屬性預測
在藥物發現中,臨床候選化合物分子必須滿足一組不同的標準。除了對生物靶的有效效力外,該化合物應對不針對的靶標具有相當的選擇性,并且具有良好的物理化學和ADMET特性(吸收、分布、代謝、排泄和毒性特性)。因此,化合物優化是一個多維度的挑戰。在多維優化過程中,采用了大量的硅預測方法,特別是一些機器學習技術已經被成功應用,例如支持向量機器(support vector machines, SVM)、隨機森林(Random Forests, RF)或貝葉斯學習。
屬性預測機器學習中的一個重要方面是可以訪問大型數據集,這是應用人工智能的先決條件。在制藥工業中,化合物優化過程中收集了許多不同性質的大數據集,這種有針對目標和反目標的大型數據集可用于不同的化學系列,并系統地用于訓練機器學習模型,以驅動化合物優化。
其中一個例子就是對不同激酶活性的預測。不同激酶項目中的選擇性分析能產生更大的數據集,這些數據集被系統地用于模型生成。為了對QSAR進行分析,二元貝葉斯QSAR模型是從92種不同激酶上的130000個化合物大數據矩陣生成的。這些模型應用于新的化合物,以產生親和指紋,用于訓練和預測數據點相對較少新激酶生物活性的模型。
在公共領域,大型數據集可用于推導機器學習模型,以預測跨目標活性。這些模型可應用于藥物再利用和現有藥物新靶點的確定。使用相似系綜(SEA, Similarity Ensemble Approach)方法證明了化合物再利用的成功應用。SEA是一種基于相似性的方法,將每個靶點的配體相互對比,以觀察相似性相對于隨機分布的重要性。
在Kaggle競爭的成功刺激下,深度神經網絡被用于許多屬性預測。深度神經網絡屬于人工神經網絡的一類,它是受大腦啟發的系統,有多個節點(神經元),像大腦中的神經元一樣可以相互連接。來自不同節點的信號被轉換并聯到下一層的神經元(圖1)。輸入層和輸出層之間的層稱為隱藏層,在神經網絡訓練過程中,對不同節點的權值和偏差進行調整。與淺層體系結構相比,深度神經網絡使用的隱藏層和節點數量要多得多。因此,在神經網絡的訓練過程中,必須擬合大量的參數。為了解決過度擬合問題,如退出或使用校正線性單元來解決消失梯度問題,需要增加計算能力和大量算法改進。
DNNs已用于許多屬性預測的實例中。與其它機器學習方法比較,DNNs具有更好的性能,如在生物活性預測、ADMET特性和物理化學參數。在Kaggle競爭中,與使用二維拓撲描述符的隨機森林方法相比,15個分析中的13個DNN表現出更好的性能。
在另一項研究中,使用了ChEMBL的廣泛數據集,其中包括超過5000種不同的分析,以及使用擴展連接指紋(ECFP4)近750000種化合物。DNNs表現出優于用于比較ROC曲線下面積的其他幾種機器的學習方法。
Lenselik等對ChEMBL的數據集進行了大型基準研究,得出了類似的結論,即DNN方法的性能更好。在這項研究中,時間驗證被用于性能比較,其中訓練和測試數據根據發布日期進行分割。在時間驗證中,性能度量明顯小于隨機分割方法,這可能更接近真實的預測。
Korotcov等將DNN與其他機器學習算法進行比較,得出生物活性、溶解性和ADME特性等不同的端點。在該研究中,使用了功能類別指紋(fcfp6)的指紋。DNN的性能優于SVM方法,后者又優于其他測試的機器學習技術。
深度學習也被用于毒性預測。Tox21競爭的結果表明,DNN對12個不同的毒性終點具有良好的預測性。研究表明,DNN能夠提取分子特征,這些特征被認為與已知的毒理成分有關,說明這樣的網絡似乎可以在不同的隱藏層中學習更多抽象的代表物。圖2給出了網絡檢測到的這些特性的示例。雖然從DNN中衍生出來相關的結構元素是有希望的,但所示的片段顯然太普通,不適合在毒理學領域沒有專門知識的情況下用于藥物發現。此外,訓練數據集的組成對模型的預測性和適用性領域以及網絡學習有很大影響。DeepTox管道使用不同模型的集合,但由DNN預測主導,它在12個有毒終點中有9個優于其他機器學習方法。
另一個預測有毒性終點的例子已被用于預測藥物性肝損傷(DILI)。對475種化合物進行了網絡學習,并對198種化合物進行了性能測試。藥物肝毒性預測具有良好的統計參數,準確率為86.9%,敏感性為82.5%,特異性為92.9%,AUC為0.995。利用PAdel和Mold中的分子描述符,結合線平分法,利用UG-RNN結構編碼方法得到了分子描述。在UG-RNN方法中,描述符是從捕獲無向圖的化學結構中推導出來的。重原子表示為節點,鍵表示邊。該圖被輸入到遞歸神經網絡中(RNNs)(Fig 3)。
利用神經網絡進行分子結構編碼是化學信息學領域的一個新發展。盡管迄今為止描述的大多數例子都使用經典描述符,但越來越多的神經網絡選擇化學描述符,其思想是神經網絡能夠學習那個最適合的代表性實際問題。
圖卷積(Graph Convolutional Models)模型源自圓形指紋的概念。信息是通過添加來自遠距離原子的信息,它們是沿著一定的鍵距離生長而得到的。這些迭代是對每個原子進行的,最后合并成一個固定長度的向量,這個向量進入一個神經網絡進行屬性預測。在圖卷積模型中,分子描述層是可微網絡的一部分(圖3)。
QSAR和機器學習模型盡管可以使用多個端點,但通常針對一個端點進行訓練。DNNs提供了將多個端點的預測系統并結合多任務學習的可能性。多任務學習可以提高預測質量,這一點已被多項研究所證實。
被觀察到關于最佳性能的結論依賴于時間或隨機分裂類型的驗證,僅僅添加大量的數據并不能保證對預測性產生積極的影響。雖然多任務學習似乎對各種不同的數據集有有益的影響,但也有一些端點的預測性下降。研究表明在多任務學習中,一些信息是從其他端點“借用”來的,從而改善預測。當一個終點訓練數據中的化合物與第二個終點的測試數據中化合物相似時,可以觀察到一個改進的r2,并且活性是相關的(正的或負的)。如果活性不相關,則觀察到r2下降的趨勢。如果兩個端點之間的分子彼此不同,多任務學習不會對r2產生顯著影響。
Bajorath等人使用一組大約100000種化合物,針對53個不同的靶標開發了一個模型預測小組??傮w而言,它實現了良好的預測性。有趣的是,DNNs和其他機器學習技術之間的比較并沒有產生深度學習方法的任何優越性。
深度學習已經被廣泛地驗證為許多不同的數據集和學習任務。在許多比較中,與成熟的機器學習技術相比,DNNs顯示出了優越性。最近,大規模不同方法的比較也證明了這一點,其中,DNNs的性能被描述為與體外試驗相當。然而,許多研究都是回顧性地進行以證明深度學習體系結構在性能預測中的適用性,通常使用像ChEMBL這樣的公共數據集建立的機器學習算法進行比較。在ChEMBL中,生物數據通常只對一個靶標可用,從而形成稀疏的矩陣,使得跨目標學習成為一個重大挑戰。因此,DNNs明顯優于其他機器學習方法,特別是對許多其他機器學習方法,訓練和參數優化的要求較低。
4人工智能應用于新化合物分子設計
在沒有參考化合物時,從頭設計開發新的活性分子需要約25年。由于人工智能領域的發展,從頭設計化合物最近出現有一些新的進展。一種有趣的方法是變分自動編碼器(圖4),它由兩個神經網絡、編碼器網絡和解碼器網絡組成。編碼器網絡將由SMILES表示定義的化學結構轉換為一個實值連續向量作為潛在空間。解碼器能將來自該潛在空間的矢量轉換為化學結構。
這一特性被用于尋找潛在空間的最優解決方案,并通過解碼網絡將這些向量反向轉化為真實分子結構。對于大多數反編譯,一個分子占主導地位,但存在細微的結構修改的可能性較小。使用潛在空間代表來訓練基于QED藥物相似性評分和合成可及性評分SAS的模型。可以得到一條具有改進目標性質的分子路徑。在另一份文章中,將這種變分自動編碼器的性能與對抗性自動編碼器進行了比較。對抗式自動編碼器由產生新型化學結構的生成模型組成。
第二個識別性的對抗模型被訓練來區分真實分子和生成分子,而生成模型試圖欺騙識別性分子。在生成模式下,對抗式自動編碼器比變分式自動編碼器產生的結構更為有效。結合硅片模型,可以得到新的結構,預測對多巴胺受體2型有活性。
遞歸神經網絡(RNNs)已成功地應用于化合物新設計中。最初,它們是在自然語言處理領域建立的。RNN以順序信息作為輸入,由于SMILES字符串以字母序列編碼化學結構,RNNs已被用于生成化學結構。為了訓練神經網絡SMILES字符串的語法,RNNs接受了從現有的化合物集合中提取的一大組化合物的訓練,如ChEMBL或商用化合物。研究表明,RNNs能夠產生大量有效的SMILES字符串。同樣的方法也成功地用于新的肽結構的生成。強化學習模式成功地應用于使生成的化合物偏向所需的性質。
轉移學習被用作為另一種策略來生成具有所需生物活性的新化學結構。第一步,網絡被用來訓練成一個擁有大的訓練集來學習SMILES語法。第二步,繼續使用具有所需活性的化合物進行訓練。此外,很少有在訓練階段產生的新化合物能偏向于被活性分子占據的化學空間。
5人工智能應用于化合物分子合成計劃
有機合成是小分子藥物發現計劃的關鍵階段。新的分子被合成,以沿著化合物優化路徑前進,并識別具有改進的分子。在某些情況下,合成挑戰限制了設計分子可被利用的空間。因此,合成計劃是藥物發現的關鍵步驟。開發了許多計算方法來協助合成計劃,有幾個方面:用一組給定的先導化合物預測一個反應的結果,預測一個化學反應的產量以及逆向合成計劃。逆向合成計劃主要由基于知識的系統控制,這些系統基于專家派生的規則或自動從反應數據庫中提取的規則。
近年來,已有許多基于機器學習的前向合成預測方法。前向合成預測提供了逆向合成分析的合成路線排序。在一種方法中,量子化學描述符與人工編碼規則和機器學習相結合,以預測反應及其產物。該方法最近被擴展到預測多步反應。在另一種方法中,用從Reaxys中提取的數百萬個反應訓練了一個深度神經網絡。該網絡表現優于用于比較的專家系統。對于自動導出的8720個模板規則的反應,報告有78%準確度。
人工智能也用于逆向合成分析。劉等使用了一個基于序列到序列的逆合成反應預測模型。反應物和產物由RNNs的SMILES字符串編碼,并在編碼器-解碼器體系結構中相互耦合。該訓練集涵蓋了10種廣泛的反應類型,如C-C鍵形成、還原、氧化、雜原子烷基化等,包括來自美國專利文獻的50000個反應。該技術的總體性能與基于規則的專家系統相當,但在不同的反應類別上觀察到了很大的差異。在不同的方法中,推薦系統被用來識別生成期望產物的反應物。然而在驗證中獲得的AUCs表明該系統需要進一步改進。
三個深度神經網絡與蒙特卡羅樹搜索相結合,用于逆向合成預測,取得了良好的性能。從整個Reaxys數據庫中提取訓練和測試數據集,并及時進行分割。對于2015年后合成的497種不同分子的試驗,提出了超過80%的正確合成路線。
6結論與展望
人工智能近年來備受關注,并已成功進入藥物發現領域。許多機器學習方法,如QSAR方法、SVMs或隨機森林法,都是藥物發現過程中建立起來的?;谏窠浘W絡的新算法,如深度神經網絡,為屬性預測提供了進一步的改進,這在許多比較深學習與經典機器學習的基準研究中已經顯現出來。這些新算法在許多不同應用中的適用性已經得到證明,包括物理化學性質、生物活性和毒性等。
多任務學習的一些好處也得到了證明,其中相關屬性的預測受益于聯合學習。未來的改進可以通過學習一種適應當前化學的代表性問題來實現。首先,我們已經努力從這些問題中識別相關的化學特征,也指出了這些算法的一個主要挑戰,即它們的“黑匣子”特征。從深層神經網絡中提取某些化合物是非常困難的,如果人工智能越來越多地引導合成這些資源,這就變得很相關了。
人工智能在藥物發現中的應用得益于開源實現,它提供了對軟件庫的訪問,允許實現復雜的神經網絡。因此,像TensorFlow或Keras這樣的開放源碼庫經常被用于在藥物發現中實現不同的神經網絡結構。此外,Deepchem庫提供了一個圍繞TensorFlow的包裝器,它簡化了化學結構的處理。
近年來,人工智能系統的應用范圍大大擴大,包括從頭設計或逆合成分析,預示我們將在有大型數據集可用的領域看到越來越多的應用。隨著在這些不同領域的進展,我們可以預料到越來越多的計算機將用于自動藥物發現。尤其是機器人技術的巨大進步將加速這一進展。然而,人工智能還遠未達到完美。具有良好理論背景的其他技術仍然很重要。特別是,由于它們受益于計算能力的提高,因此可以用更精確的方法模擬更大的系統。
參考文獻:
1. Artificial Intelligence in Drug Design,Molecules: 2018, 23. Gerhard Hessler, and Karl-Heinz Baringhaus.
2. Artificial intelligence in drug discovery, Future Medicinal Chemistry: 2018,0212. Matthew A Sellwood, Mohamed Ahmed, Marwin HS Segler & Nathan Brown.
來源:Internet