您當前的位置:檢測資訊 > 科研開發
嘉峪檢測網 2021-10-20 22:42
人工智能作為一種新興技術,是新藥研發實現降本增效的重要方式之一,人工智能 + 新藥研發已成為中國醫藥企業加速創新轉型的重要驅動力。對國內外相關文獻和資料進行檢索和歸納,重點分析人工智能在新藥研發領域的應用模式,總結開展人工智能應用的企業主體及應用場景,探究我國人工智能賦能新藥研發面臨的主要挑戰。
當前,新藥研發面臨著成本高企、收益率下降的雙重困境。新藥研發具有技術難度大、投入資金多、研發風險大、回報率高和研發周期長等特征,隨著疾病復雜程度的提升,新藥研發難度和成本迅速增加,全球新藥研發成功率呈明顯下降趨勢。2019 年,艾昆緯(IQVIA)發布報告 [1] 指出,新藥從臨床試驗開始到研發結束的平均開發時間在過去 10 年里增加了 26%,2018 年達到 12.5 年;新藥開發成功率不斷下降,2018 年降至 11.4%。據 Nature 雜志報道,新藥研發成本快速增長,2018 年開發的平均成本約為 26 億美元 [2]。新藥投資回報率不斷下滑,德勤發布的報告顯示,2017 年全球前 12 大制藥公司的研發投資回報率僅為 3.2%,較 2010 年的 10.3% 下降7 個百分點 [3]。
人 工 智 能(artificial intelligence,AI) 的 發 展,為新藥研發帶來了新的技術手段。通過機器學習(machine learning,ML)、 深 度 學 習(deeplearning,DL)等方式賦能藥物靶點發現、化合物篩選等環節,大大提升了新藥研發的效率,為降本增效提供了可能 [4]。應用 AI 技術,可縮短前期研發約一半時間,使新藥研發的成功率從當前的 12% 提高到 14%,每年為全球節約化合物篩選和臨床試驗費用約 550 億美元 [5]。
提升新藥研發效率,對加快開發臨床需求未被滿足的創新藥物,助力藥企搶占“best-in-class”和“first-in-class”藥物市場的機遇窗口期,從而提升藥企全球競爭力具有重要意義。AI 技術作為提升新藥研發效率的重要驅動力量,正在加速對新藥研發各環節的滲透 [6]。本文通過對 AI 技術、AI 賦能新藥研發應用場景,以及應用 AI 技術的企業主體進行總結梳理,并展望 AI 技術未來發展趨勢,為 AI+新藥研發提供思路與參考。
01人工智能 + 新藥研發的應用模式
與 AI 在其他場景的應用類似,AI+ 新藥研發的實現路徑包括五大流程:1)獲取目標訓練數據集;2)AI 自主學習算法建模;3)多次訓練優化模型;4)測試集應用以評估模型性能;5)基于模型實現分子篩選、預測、分析等預定目標。算法、數據集和模型這 3 個要素是必不可少的部分,其中,算法和數據是實現應用的關鍵。
1.1 人工智能 + 新藥研發應用算法
AI 技術涵蓋 ML 和 DL,如表 1 所示。ML 算法在新藥研發領域被廣泛用于分類和回歸預測等方面,常見的 ML 算法包括決策樹(decision tree)、隨機森林(random forest)、支持向量機(supportvector machine)、k-最近鄰算法、樸素貝葉斯分類器等;DL 算法包括深度神經網絡(deep neural network,DNN)、 卷 積 深 度 網 絡(convolutionalneural network,CNN)、循環神經網絡(recurrentneural network,RNN)和自編碼器(autoencoder,AE)等。DL 算法適合處理大數據,模型也更為復雜。隨著計算機性能的提高和數據量的積累,DL 算法在新藥研發中的應用越來越廣 [7]。
DNN 是最早應用于藥物發現的 DL 算法之一,最早來源于1943年McCulloch等[8]提出的計算模型。CNN 是一種前饋神經網絡,它在圖像識別領域的表現優異 [9]。RNN 是一類用于處理序列數據的神經網絡,具有記憶能力,可用于處理基因和蛋白序列數據等 [10]。自編碼器的目的在于重構輸入數據,可生成學習模型,在藥物分子生成方面應用前景廣闊 [11]。DNN、CNN、RNN 等 DL 算法模型通過定量結構性質關系(QSPR)或定量結構活性關系(QSAR)等預測藥物分子的物理化學性質以及藥物的吸收、分布、代謝、排泄和毒性(ADMET)。
表1:人工智能常見應用算法
面向新藥研發的 AI 分子篩選技術入選《麻省理工學院技術評論》發布的 2020 年“全球十大突破性技術”。AI 技術的發展正從傳統的大樣本訓練向小樣本學習、反饋學習的模式轉變,小樣本學習、零樣本學習將逐漸在藥物研發中應用和推廣 [12]。
1.2 人工智能 + 新藥研發應用數據
新藥研發過程涉及大量的數據,包括文獻資料、化合物數據、靶點數據、專利數據、臨床試驗數據、真實世界數據、藥品審評審批數據、市場銷售數據等。面對海量、多源、異質性的數據,AI 技術應用已逐漸跳出以靶點和分子篩選為核心的傳統新藥研發模式,形成以數據為核心的研發模式。
IBM 公司開發的 Watson 系統,通過閱讀 2 500萬篇文獻摘要、100 萬篇完整論文和 400 萬篇專利文獻,來預測 RNA 結合蛋白(RNA binding protein,RBP)與肌萎縮側索硬化(ALS)的相關性。英國生物科技公司 Benevolent Bio 從全球范圍內海量的學術論文、專利、臨床試驗結果、患者記錄等數據中,提取對新藥研發有用的信息;Atomwise 公司利用其核心技術平臺 AtomNet 識別重要的化學基團,如氫鍵、芳香度和單鍵碳,分析化合物的構效關系,從而用于新藥發現和評估新藥風險。
02 人工智能 + 新藥研發的應用企業
近年來,越來越多的企業布局 AI+ 新藥研發,探索如何用 AI 技術實現新藥研發的降本增效。據Deep Pharma Intelligence 統 計, 截 至 2020 年, 全球共有 240 家 AI+ 新藥研發企業,主要分布在美國、英國和加拿大,國內也有一些從事此類工作的企業。目前,探索 AI+ 新藥研發的企業主要有三類:一是 AI 藥物研發創新企業,如 Exscienta、BenevolentAI、Atomwise、Relay Therapeutcs、晶泰科技、燧坤智能等;二是 IT 巨頭,如 Google、微軟、騰訊、阿里巴巴集團等;三是大型制藥企業,如羅氏、阿斯利康、強生、葛蘭素史克(GSK)等,見圖 1。
新藥研發 IT 巨頭傾向于利用自身的互聯網基礎與平臺優勢進行技術布局,進入方式為自主研發相關產品,開發相關領域針對性技術以賦能行業應用,業務領域不斷下沉,或者通過外延并購擴張業務版圖,例如騰訊進軍 AI+ 新藥研發領域,發布首個 AI驅動的藥物發現平臺“云深智藥(iDrug)”,谷歌計劃斥資 4 億美元收購 AI 企業 DeepMind。
AI+ 新藥研發企業多以技術優勢切入 1 個或多個應用場景,如 Benevolent AI 構建判斷加強認知系統(judgment augmented cognition system,JACS)技術平臺,針對包括阿爾茨海默病和罕見腫瘤在內的 4 個不同領域的疾病進行 10 多種藥物的研發,晶泰科技組建 Renova AI 新藥研發平臺,提供“計算+ 實驗”新模式下的藥物設計與固體形態研究服務。
大型藥企則以自建 AI 研究團隊、投資并購或與 AI 技術公司合作的方式,布局 AI 新藥研發。輝瑞、GSK 和諾華等制藥公司也在內部建立了大量的AI 研究團隊。當前全球十大制藥公司均已布局 AI+新藥研發,諸多大型制藥公司開始與 AI 初創公司開展合作,例如艾伯維與 AiCure、阿斯利康與 BergHealth、拜耳與Sensyne Health、百時美施貴寶(BMS)Concerto Health AI,以及輝瑞與 IBM Watson 等。
由于 AI+ 新藥研發創新公司缺少新藥研發的相關數據、成熟的研發管線以及資深的藥物專家,而這恰好是傳統制藥巨頭所具備的優勢。因此,大型藥企和 AI+ 新藥研發的技術公司聯合是目前主要的業務模式。從開展合作情況來看,隨著 AI+ 新藥研發的發展,現有制藥生態系統正從執行研發的傳統利益攸關方逐漸轉向更加多樣化的技術支持伙伴關系 [13]。
我國 AI+ 新藥研發起步較晚,目前尚處在初期階段,據火石創造統計,國內涌現了晶泰科技、深度智藥、云勢軟件、望石智慧等一批創新企業,主要分布在北京、上海、杭州和深圳等城市。然而,國內 AI+ 新藥研發企業并不多,總數不足 20 家。
近年來,隨著我國醫藥產業創新發展的加速推進,國內的醫藥行業在 AI+ 新藥研發領域的跨界合作也在增加:一、醫藥巨頭與 AI+ 新藥研發技術公司合作,例如恒瑞醫藥與百奧知、豪森藥業與Atomwise 的合作;二、藥企與 IT 巨頭合作,如正大天晴通過與阿里云合作獲得一種全新的化合物篩選方法 [14];三、合同研究組織(CRO)企業與 AI+新藥研發技術公司合作,如藥明康德和 Schrdinger合資成立了 Faxian Therapeutics,將藥明康德的先導化合物優化服務與 Schrdinger 的藥物設計軟件平臺相結合,從而加速新藥發現;藥明康德和 Insilico 合作開發了一種 ML 模型,用于從頭設計 DDR1 蛋白(一種與纖維化等疾病有關的激酶)的小分子抑制劑。
03人工智能 + 新藥研發的應用實踐
目前,從全球 AI+ 新藥研發企業的應用實踐來看,AI+ 新藥研發主要是將 ML、DL 等 AI 技術,應用到前期研究、靶點發現、化合物合成、化合物篩選、新適應證發現、晶型預測、患者招募等新藥研發環節(見圖 2)。例如,數據挖掘和分析有助于藥物靶標的確立,進而找到具有潛力的先導化合物 [15],從而最大程度提升新藥研發效率。與傳統新藥研發管線比,基于 AI 和生物計算的新藥研發管線平均 1 ~ 2 年就可以完成臨床前藥物研究 [16]。靶點識別、先導化合物確定、藥物重定向被認為是全球AI+ 新藥研發最具變革意義的研究領域 [17],其中靶點發現和化合物合成是企業布局的熱門方向。
3.1 前期研究
前期研究主要是基于文獻分析和知識庫建設,進行疾病機制、靶點、藥物作用方式研究。AI 的應用主要在文獻數據整合分析、新藥研發知識庫建設、新藥研發數據集建設和基準化合物庫設計等方面,可以借助 AI 自然語音處理、知識圖譜等技術實現海量信息的快速提取,從而對推動新藥研發的眾多知識進行聚類分析,幫助提出新的可以被驗證的假說,進而加快新藥研發的進程。例如深度智耀整合了數百個開放數據源,通過 ML 技術,結合醫藥研發專家知識,自動提取醫藥實體、關系和屬性,構建醫藥研發知識圖譜。
圖2:人工智能+新藥研發應用場景
3.2 藥物發現
藥物發現是關系新藥研發成功率的關鍵環節,主要包括靶點選擇優化、先導化合物的發現、先導化合物的篩選優化,AI 在藥物發現環節的應用聚焦于靶點發現、晶型預測以及候選藥物分子的篩選優化。
在靶點發現和驗證方面,可以利用自然語言處理技術檢索分析海量文獻、專利和臨床試驗報告的非結構化數據庫,找出與疾病相關的潛在的、被忽視的通路、蛋白和機制,從而提出新的可供測試的假說,以發現新機制和新靶點 [13]。例如,Insilico Medicine 利用自主研發的 AI 新藥靶點發現平臺 PandaOmics和 AI 分子生成和設計平臺 Chemistry42,獲得了全球首例完全由 AI 驅動發現的特發性肺纖維化(IPF)疾病新靶點。
在晶型預測方面,可以利用認知計算實現高效動態配置藥物晶型,預測小分子藥物所有可能的晶型。例如艾伯維(AbbVie)結合晶泰科技的晶型預測等技術,設計了一套新集成模型,能夠以二維結構作為輸入,預測得到分子的熱力學溶解度 [18]。相比于傳統藥物晶型研發,采用 AI 技術的制藥企業能更加自如地面對仿制藥企業的晶型專利挑戰。另外,晶型預測技術縮短了晶型開發的時間,能更加高效地挑選出合適的藥物晶型,進而縮短研發周期,控制成本。
在化合物篩選和優化方面,要從數以萬計的化合物分子中篩選出對特定靶標具有較高活性的化合物,往往需要較長的時間和成本,可以利用 AI 技術建立虛擬藥物篩選模型,快速過濾“低質量”化合物,富集潛在有效分子,檢索更快、覆蓋范圍更廣,利用 ML 技術,從海量化合物中挑選出高潛力候選藥物,從而減少研發新藥的時間和成本 [19–20],加速先導化合物的發現和優化,以及候選藥物分子的產生。例如 BenevolentBio 曾借助 JACS 技術,標記出 100個或可用于治療 ALS 的潛在化合物,并成功篩選出5 個化合物;BergHealth 則篩選了多達 25 萬個疾病組織樣本來尋找癌癥早期的新生物學指標和生物標記等。
當前來看,AI 藥物發現在藥物靶點發現和藥物篩選環節的技術應用相對成熟:研究層面,現有 AI解決方案在藥物發現階段更具先進性 [13],例如阿斯利康作為 AI 領域的探索者,僅在 2019 年就發布了65 篇 AI 相關的新藥發現及研發的相關文獻;專利層面,AI+ 新藥研發領域的專利發布數量盡管還較少,但主要技術指向還是集中分布在藥物發現的靶標確定和化合物篩選這 2 個技術分支 [21]。
另外,也有研究指出使用目前的數據不太可能大幅度地提升 AI 藥物發現的性能,因為目前的數據沒有反映出藥物在體內的情況,所以計算機僅利用這些數據并不能很好地做出決策,尤其是針對復雜的疾病。雖然目前有大量的描述化學特性的數據,這些數據能夠使計算機生成相應的配體,但配體發現不等于藥物發現 [22]。
3.3 臨床前研究
臨床前研究需要開展藥效學、藥動學和毒理學研究以及藥劑學研究,主要是提前預測候選藥物的ADMET 在后續藥物開發中起到關鍵作用的性質,評估候選藥物通過臨床試驗的可能性,提高后續臨床試驗的成功概率。在臨床前研究環節,可以利用AI 技術提升 ADMET 性質預測的準確度,以及幫助加速識別新適應證。
在藥物 ADMET 性質研究方面,可利用深度神經網絡算法有效提取結構特征的預測方式,進一步提升 ADMET 性質預測的準確度。例如,云深智藥采用“從頭折疊”的蛋白質結構預測方法幫助解析了 SRD5A2 晶體結構,并通過自研 AI 工具“tFold”有效提升了蛋白質結構預測精度,在科研突破中發揮了核心作用 [23]。
在新適應證拓展方面,一是可以利用 AI 的 DL能力和認知計算能力,將已上市或處于研發管線的藥物與疾病進行匹配,發現新靶點,擴大藥物的治療用途;二是借助公共領域的公開大數據集資源,可以利用 AI 算法,選擇訓練推導出預測跨目標活動的 ML 模型,應用于藥物的再利用,實現對現有藥物識別新的適應證;三是利用 AI 技術通過模擬隨機臨床試驗發現藥物新用途 [24]。例如,燧坤智能通過ML 預測,利用 AI 算法系統性整合疾病、靶點、藥物等多個維度的海量數據,重建藥物-靶點相互作用網絡,實現了對藥物-靶點相互作用的全景刻畫,實現老藥新用、在研藥物二次開發、失敗藥物再利用、天然產物開發等。
3.4 臨床試驗
臨床試驗是新藥研究中周期最長、成本最高的環節,由于患者隊列選擇和臨床試驗期間對患者的監測不力等原因,當前的藥物臨床試驗成功率不高,通常 10 種進入臨床試驗的化合物中只有 1 種能進入市場。在臨床試驗環節,可以利用 ML、自然語言處理等技術輔助臨床試驗設計、患者招募和臨床試驗數據處理。
AI 輔助臨床試驗設計主要是利用自然語言處理技術快速處理同類研究、臨床數據和監管信息,以及讀取臨床試驗等數據。例如 Trials.ai 公司使用 AI來優化臨床試驗設計,使患者更容易參加臨床試驗,消除不必要的臨床操作負擔。
AI 患者招募主要利用自然語言處理、ML 等技術,對不同來源的受試者信息和臨床試驗方案的入組 / 排除標準進行識別和匹配,包括醫學資料的數字化、理解醫學資料的內容、關聯數據集和模式識別、擴大受試者范圍、開發患者搜索臨床試驗的簡化工具等 [25]。例如梅奧診所與 IBM Watson 合作,基于自然語言處理技術,掃描臨床試驗數據庫,為臨床試驗尋找合適的患者。在他們進行的一項試點研究中,IBM Watson 臨床試驗匹配系統使乳腺癌試驗的平均每月注冊人數增加了 80%;零氪科技利用大數據整合患者資料,加快了招募患者參加臨床試驗的速度。
AI 輔助臨床數據處理主要是利用云計算強大算力支快速處理臨床數據分析并及時調整優化整個試驗進程,提升臨床試驗風險控制能力。例如,太美醫療推出由病例報告表(CRF)設計平臺、臨床試驗電子數據采集系統 / 數據管理系統(EDC)、數據分析技術組合構成的自動化臨床數據解決方案,可以幫助藥企應對臨床項目中多變的需求,優化數據處理的流程。
04人工智能 + 新藥研發面臨的挑戰
AI+ 新藥研發目前已進入快速成長期,備受業界矚目;但其作為新興領域,也面臨著一些挑戰。
一是生物學的復雜性,給數據獲取和 AI 算法設計帶來巨大挑戰。藥學是一個融合化學和生物學的學科,在數據層面,二者具有較大的差異性。一般來說,化學方面的數據更加穩定、可控與易于計算;生物學數據涉及受體蛋白的構象變化,平衡和偏置信號等難以定量計算。化合物與人體靶點的結合與反應過程非常復雜,目前理論認知不足,受環境影響因素很大,數據穩定性和可重復性較差。
二是當前的 AI 算法模型只納入部分化學指標,生物學指標不完整。我們能夠基于化學數據去設計AI 算法,比如判斷小分子的各種體外物理化學性質、晶型以及與靶點結合的親和力;但是對于小分子藥物在生物系統中的作用很難用一組有限的參數來定義,而化合物在體內的其他特性在模型中被降級為次要的或可忽略部分,包括其前體化合物、代謝產物、濃度依賴性效應等,這些被忽略的因素決定著藥物能否到達其預期的靶點、能否起到治療效果、以及其毒副作用是否在可以接受的范圍等。這使得 AI 在藥物發現和藥效評估中面臨著更大的不確定性。
三是高質量數據制約。我國的醫藥大數據存在數據量少、數據體系不完整、數據標準不統一、數據共享機制不完善等問題。諸如病歷、隨訪記錄目前還很難標準化、數字化;由于涉及患者隱私,臨床數據的靈活運用也受到了一定限制;國內創新藥研發起步較晚,原始數據積累有限;國內藥品數據存儲分散,存儲格式不一,完整藥物數據獲取比較困難;新藥研發領域的核心數據來源于藥企,考慮到商業機密的問題,企業不愿公開核心數據。醫藥數據的數量和質量將成為制藥行業 AI 發展的主要障礙。
四是高端復合型人才缺失。AI 新藥研發兼具信息科技和醫藥雙重屬性,需要一批既掌握 AI 前沿技術,又精通新藥研發的復合型人才,由于我國相關領域的教學科研起步較晚,人才問題難以在短期內得到解決 [26]。據統計,全世界大約有 2.2 萬名 AI 領域高端研究人員,而在中國只有約 600 名,人才需求缺口較大 [27]。
五是政策法規的制定滯后。AI 存在監管體系滯后于技術發展、政府單向監管無法有效管控風險、企業缺乏合規治理有效工具和體系等問題。AI 因算法不透明、難解釋、跨界傳播性和外溢性強,比一般的數字治理涉及范圍廣、難度大、問題突出。當前,AI 新藥研發監管體系不健全,缺少具體的評估標準、市場準入、退出機制和收費機制,難以對潛在的問題進行監督與反饋。在涉及人格權、知識產權、財產權、侵權責任認定、法律主體地位等方面的 AI法律法規尚屬空白 [28]。
05結語
AI 在新藥研發的各個階段都發揮著重要作用,也在一定程度上助力藥企降本增效,在資本驅動下,AI+ 新藥研發正掀起創新熱潮。但需強調的是,從已經開展 AI+ 新藥研發的應用實踐來看,AI 不是“靈丹妙藥”,不能在一夜之間提高臨床試驗的效率 [29],當前 AI 技術尚不能為提升新藥研發效率帶來革命性的突破。受生物系統內在的復雜性和疾病異質性特征的制約,AI 分析藥物在體內活性的數據非常有限,計算機不能很好地做出決策 [30],導致準確模擬疾病的發病機制難度大,使得 AI 技術在提升新藥的臨床試驗成功率方面發揮的作用還非常有限。因此,未來 AI 賦能新藥研發相關研究和應用的進一步深化,需要傳統醫藥研發基礎科學(生物化學、生物學、生物醫學等)和核心 AI 技術的深度結合,需要技術專家、生物學家、醫學家等聯合攻關。
著眼當下,為了更好地發展 AI+ 新藥研發,應對其面臨的五大挑戰,提升新藥研發的效率從而加速我國醫藥創新升級,一是要突破新技術和新算法,引導技術創新以及 AI 技術在新藥研發各個環節的深入應用;二是建立“AI+ 新藥研發”領域復合人才跨學科培養輸出機制,自主培養一批高學識、高能力的“AI+ 新藥研發”領域的科研人員、技術工作者和應用開拓者,加快形成滿足行業發展需求的人才網絡;三是集中大數據力量助力攻關重大疾病致病機制、藥物靶點/表型/分子分型研究,完善醫藥研發數據庫,為拓展 AI 在新藥研發領域的應用構建高質量數據支撐體系;四是強化創制體制設計,建立支撐保障措施包括及時建立監管機制,明晰產權結構,注重保護新藥研發中數據資產安全和知識產權。
來源:藥學進展