您當(dāng)前的位置:檢測(cè)資訊 > 科研開發(fā)
嘉峪檢測(cè)網(wǎng) 2019-04-28 09:30
在過去的3年里,我們見證了人工智能(AI)的第三波崛起,并為之折服。同樣的風(fēng)潮也吹拂了相對(duì)保守的醫(yī)藥行業(yè),甚至侵入了最具技術(shù)門檻的制藥業(yè)。
在一些創(chuàng)業(yè)團(tuán)隊(duì)的藍(lán)圖里,通過機(jī)器學(xué)習(xí)算法和虛擬研發(fā)的商業(yè)模式,可以革新目前這種“2 Billions, 20 years”低效的藥物研發(fā)過程,將新藥更快更省地帶給患者。
但如果把眼光從未來移開,回頭凝視歷史,我們就會(huì)發(fā)現(xiàn)AI在藥物研發(fā)中并非陌生。自80年代開始,一大批巨頭就開始推動(dòng)計(jì)算機(jī)輔助藥物發(fā)現(xiàn)(Computer Aided Drug Design,CADD)。
大家可能知道Merck贊助了好幾次Kaggle Challenge,主題是用機(jī)器學(xué)習(xí)預(yù)測(cè)P450酶活性。但其實(shí),人家在30多年前就開始了相關(guān)的嘗試,還登上了1981年的《財(cái)富》雜志。
在那個(gè)年代里,早期的計(jì)算化學(xué)家,已經(jīng)在使用KNN和SVM等算法對(duì)藥物分子中的moieties進(jìn)行無監(jiān)督聚類,試圖歸納出特定藥效的特征。一些分子動(dòng)力學(xué)程序也試圖用機(jī)器學(xué)習(xí)來優(yōu)化收斂速度,尤其是面對(duì)蛋白質(zhì)構(gòu)型docking的搜索時(shí)。
這些人工智能的思路,早就融入了商用的QSAR(Quantitive Structure Activity Relatioship,定量構(gòu)效關(guān)系 )軟件中。
那么這次,以深度學(xué)習(xí)為代表的AI回潮,有什么不一樣?如果這次確實(shí)不一樣,AI又能不能讓藥物研發(fā)這件越來越糟心的事情變得“不一樣”?
在討論AI藥物研發(fā)之前,讓我們梳理一下藥物研發(fā)的整個(gè)流程。通常可以劃分為三階段:
Drug Discovery:了解疾病機(jī)理(或發(fā)現(xiàn)“奇跡”),識(shí)別出機(jī)理中能成藥的靶點(diǎn),我稱其為“生物學(xué)”階段;
Drug Design :篩選出適用于靶點(diǎn)的lead小分子/生物大分子,設(shè)計(jì)并優(yōu)化lead的結(jié)構(gòu),然后對(duì)分子進(jìn)行臨床前assay,也就是廣義的“化學(xué)”階段;
Drug Development:三階段的臨床試驗(yàn)驗(yàn)證安全性和療效,并在上市后的繼續(xù)跟進(jìn)和擴(kuò)展適應(yīng)癥,可以稱之為“醫(yī)學(xué)”階段;
在這三個(gè)不同階段,研發(fā)團(tuán)隊(duì)有著不同的目標(biāo)函數(shù),也產(chǎn)生了不一樣的技術(shù)需求和解決這些需求的方法論。因此,AI運(yùn)用于不同的階段會(huì)有非常不同的難度和效用。
在生物學(xué)階段,主要的目標(biāo)函數(shù)是:Found (找到)
在最理想的情況下,生物學(xué)家能夠把疾病現(xiàn)象解釋為機(jī)理,然后按照機(jī)理去識(shí)別靶點(diǎn)tackle這個(gè)機(jī)理。在更實(shí)際的情況下,可以通過臨床中的特例或是一些heuristic的推理,定向識(shí)別出能用藥物tackle的靶點(diǎn)。
也就是說,雖然不清楚整個(gè)疾病機(jī)理的作用網(wǎng)絡(luò),但作用于某些網(wǎng)絡(luò)的hub可以讓疾病伏法。這大概是最能稱之為“Magic Bullet”(神奇子彈)的情況了。
而在當(dāng)前的醫(yī)藥研發(fā)中,生物學(xué)研發(fā)者會(huì)面對(duì)兩個(gè)越來越寬的鴻溝,一個(gè)比較明顯但是相對(duì)容易理解,一個(gè)比較隱秘但真正棘手。
比較明顯的鴻溝是:將機(jī)理轉(zhuǎn)化為可成藥的靶點(diǎn),這并沒有理想中那么直接。我們已經(jīng)遭遇了太多完美機(jī)理無法成藥的案例,因?yàn)樽饔糜趩蝹€(gè)機(jī)理的藥物,會(huì)受到其他未理解機(jī)理的干涉,導(dǎo)致預(yù)計(jì)有效的療法完全失效,或是產(chǎn)生先期不可預(yù)見的副作用。這已經(jīng)造成了大量的研發(fā)項(xiàng)目在早期就停滯,或者更慘的如Tau蛋白,在進(jìn)入臨床后才宣告失敗。
而這個(gè)明顯的鴻溝背后,有一個(gè)更難的鴻溝:從生物現(xiàn)象本身的復(fù)雜性里提取可理解的機(jī)理,這比給你個(gè)CPU的電鏡照片讓你逆推出計(jì)算電路要難得多。人體在分子層面的運(yùn)作本身的復(fù)雜性,很可能是超越人的理解范疇的。從某種意義上說,生物學(xué)發(fā)現(xiàn)的所有機(jī)理都只可能是局部機(jī)理,是“比特例更一般的特例”。
這并不意味著這些“更一般的特例”不對(duì),但是他們的數(shù)量將會(huì)是有限的。我們已經(jīng)摘了很多容易摘的果子(Low Hanging Fruit),而在研究接下來的機(jī)理時(shí),會(huì)面臨可理解性和可預(yù)測(cè)性之間的背離,而預(yù)測(cè)性的下降會(huì)對(duì)臨床造成困惑。
而現(xiàn)有的生物學(xué)研究范式里并沒有意識(shí)到這種困難,這也就不難理解,為什么本世紀(jì)以來生物學(xué)研究的可重復(fù)性大大下降了(排除掉學(xué)術(shù)不端的影響)。如果意識(shí)到生物現(xiàn)象本身的復(fù)雜性,你會(huì)發(fā)現(xiàn)“生物學(xué)解簽師”真的已經(jīng)盡力了,但是他們被誤用的統(tǒng)計(jì)學(xué)(如最近的P<0.05爭(zhēng)論)和網(wǎng)絡(luò)復(fù)雜性聯(lián)手給蒙了,因此得不出具有確定性又可理解的機(jī)理。
而這也許是藥物研發(fā)效率下降的最底層原因,我們先按下不表。
那么進(jìn)入化學(xué)階段后,主要的目標(biāo)函數(shù)就是:Optimize (優(yōu)化)
當(dāng)AI研究者見到這個(gè)詞的時(shí)候,一定會(huì)覺得暗爽。的確,在已經(jīng)了解靶點(diǎn)的情況下篩選藥物分子,是最容易想到的AI能夠賦能的任務(wù)。實(shí)際上,這是計(jì)算化學(xué)和CADD已經(jīng)耕耘了幾十年的戰(zhàn)場(chǎng),已經(jīng)有了很深的積攢了。
大部分AI新藥公司也都集中在“化學(xué)”這個(gè)階段,無論是做分子模擬,構(gòu)型預(yù)測(cè)和QSAR分析,晶型優(yōu)化,甚至繼續(xù)向下去做逆合成路線推演,或是生產(chǎn)流程優(yōu)化,都是從已有的先驗(yàn)知識(shí)出發(fā),去搜尋和優(yōu)化lead compound。
對(duì)于這個(gè)比較成熟的過程,可能的困難不是出在算法上,因?yàn)橛?jì)算化學(xué)家一直在follow最新的機(jī)器學(xué)習(xí)算法并加以應(yīng)用。最頭痛的問題在于,現(xiàn)有的生化數(shù)據(jù)庫的維度和量級(jí)都有點(diǎn)小了,而這卻是深度學(xué)習(xí)方法較為依賴的要素。
想要達(dá)到ImageNet對(duì)DL的推動(dòng)力,現(xiàn)有的如DeepChem, ZINC之類的庫是不夠的。更糟糕的是數(shù)據(jù)來源的可靠性不足,畢竟我們都知道garbage in, garbage out。
在組學(xué)和結(jié)構(gòu)生物學(xué)的數(shù)據(jù)庫未完善和矯正之前,我們很難做到足夠可靠的virtual screening,因此我非常看好質(zhì)譜和冷凍電鏡的大規(guī)模應(yīng)用,這相當(dāng)于互聯(lián)網(wǎng)出現(xiàn)之前的全美光纖建設(shè),是基礎(chǔ)。
當(dāng)然,ab initio直接計(jì)算出新的分子結(jié)構(gòu),也許可以對(duì)真實(shí)數(shù)據(jù)做一些補(bǔ)充,但是這種方法依然受限于已有的分子庫本身的數(shù)據(jù)結(jié)構(gòu)。
但更讓人困惑的是,AI算法所需要實(shí)現(xiàn)的事情,化學(xué)家們通過heuristic approach也可以有很高效的實(shí)現(xiàn),他們沒有意識(shí)到算法給自己工作帶來的顛覆性價(jià)值。
比方說,最奇怪的就是用深度學(xué)習(xí)來做逆合成分析,AI并沒有體現(xiàn)出比人的靈感更優(yōu)異之處,因?yàn)樽罱K路線的實(shí)現(xiàn)更需要wet lab的實(shí)踐而不是圖上推演。AI所試圖優(yōu)化的地方,恰恰是目前人工操作最成熟,最不需要AI的地方。在這些階段玩AI,是內(nèi)卷化的競(jìng)爭(zhēng),能玩的空間其實(shí)很小的。
更何況,“化學(xué)”階段在整個(gè)藥物研發(fā)中并非是一個(gè)速度決定步驟。在這個(gè)階段任何的改進(jìn)都只是邊際上的小規(guī)模提高,除非運(yùn)用于速度的細(xì)微差別更重要的me-too,me-better或首仿藥中,否則能夠帶來的收益是較小的。
從這個(gè)角度上看,AI算法在“化學(xué)”階段更多是一個(gè)工具的角色,必須結(jié)合一些尚未成藥的新機(jī)理,或是成藥困難的靶點(diǎn)才可以產(chǎn)生更大的價(jià)值。
我們的確看到部分團(tuán)隊(duì)會(huì)自建生物學(xué)團(tuán)隊(duì),從機(jī)理出發(fā)來全程開發(fā)lead直到賣給藥企。但問題在于,你首先要有個(gè)牢靠的生物學(xué)機(jī)理作為出發(fā)點(diǎn),而這個(gè)關(guān)鍵問題卻和你自己的機(jī)器學(xué)習(xí)knowhow無關(guān)。這是一個(gè)很尷尬的局面。
但我認(rèn)為,作為一種無監(jiān)督無先驗(yàn)知識(shí)的學(xué)習(xí)過程,機(jī)器學(xué)習(xí)真正最顛覆的地方,應(yīng)該是在對(duì)人類未知機(jī)理的情況下尋找能夠tackle疾病的藥物分子,而并不需要給出人類可以理解的機(jī)理。這很有難度,但是卻是最值得探索的地方,因?yàn)樵跈C(jī)理明確的情況下藥物的發(fā)現(xiàn)只是一個(gè)速度快不快的問題,而機(jī)理未知的情況下則是從零到一的問題。現(xiàn)在真正阻礙藥物研發(fā)效率的,是后者!如果改一下克林頓當(dāng)年競(jìng)選的口號(hào)的話,那么我可以說:“It’s biology, stupid!”
但是biology是一個(gè)Hard Problem,而現(xiàn)在,很少有AI制藥團(tuán)隊(duì)把目標(biāo)設(shè)定在那里。
而到了醫(yī)學(xué)階段,主要的目標(biāo)函數(shù)會(huì)變成:Verify(驗(yàn)證)
如果說化學(xué)階段的目的是Be better的話,那么醫(yī)學(xué)階段的目標(biāo)似乎又收縮了,變成了Be usable,然而真實(shí)的情況是大部分藥物分子跨不過這個(gè)坎。在藥物研發(fā)里有個(gè)諺語,叫做“Fail fast, Fail early”,這其實(shí)是求之不得的事情,因?yàn)槿绻系脚R床II期甚至III期臨床再失敗,將會(huì)造成摧毀整個(gè)公司市值的重大損失。
這看起來似乎是荒謬的,如果前期的生物學(xué)機(jī)理和化學(xué)優(yōu)化已經(jīng)完善,為什么放到真人身上就砸了呢。但這個(gè)荒謬背后的原因是非常深刻的:藥物分子在復(fù)雜的人體系統(tǒng),尤其是具有基因和組學(xué)異質(zhì)性的人群中的效應(yīng)是難以捉摸的,在不同的維度上可以呈現(xiàn)出不同的usability。
大部分的藥物如果是在II期及之后失敗,最大的問題可能不是因?yàn)樗幉缓茫且藻e(cuò)誤的方式用在了錯(cuò)誤的人群中。很多藥物其實(shí)在臨床試驗(yàn)里并沒有死透,如果我們知道自己錯(cuò)在那里,其實(shí)是有可能通過給藥方案和適用范圍的調(diào)整,達(dá)到新的臨床終點(diǎn)。
如果能夠及時(shí)止損,及時(shí)選擇合適的適應(yīng)癥,提高成功率的話,這才是真正值錢的地方。而這其實(shí)可以借助于機(jī)器學(xué)習(xí)對(duì)患者畫像的洞察來實(shí)現(xiàn),在臨床試驗(yàn)開始之前就對(duì)這個(gè)藥在大人群中的可用性,或是對(duì)哪些細(xì)分marker的人群可用,以及最重要的,哪些marker人群和臨床終點(diǎn)無效做出判斷。這樣的洞見,在II期及以后的臨床試驗(yàn)中都價(jià)值上億!
可以看到,目前的藥物研發(fā)的流程,最大的矛盾集中在生物學(xué)階段和醫(yī)學(xué)階段,相反,化學(xué)階段反而是最成熟的部分。而如果只是在這個(gè)非瓶頸部分做優(yōu)化,并不會(huì)顯著提升藥物研發(fā)的時(shí)間效率和回報(bào)率。
因此我認(rèn)為,如果AI藥物研發(fā)的項(xiàng)目,僅僅是過去計(jì)算化學(xué)模擬,組學(xué)和藥物開發(fā)自動(dòng)化的延續(xù),是用AI的工具去優(yōu)化和加強(qiáng)已有的研發(fā)流程,這當(dāng)然是一個(gè)最具可行性的前期策略,但是這并不是那么值錢的市場(chǎng)。這些針對(duì)藥物研發(fā)中“化學(xué)”階段的AI創(chuàng)業(yè)項(xiàng)目,做的普遍是容易做,但不是必須做的事情。如果只是提升當(dāng)前的藥物研發(fā)效率,那么AI藥物研發(fā)公司的估值,顯然有點(diǎn)高了。
大型藥企對(duì)這些創(chuàng)業(yè)項(xiàng)目的關(guān)注和支持,與其說是看好技術(shù)而去投資,不如說是出于財(cái)務(wù)KPI的考慮,以投資AI藥物研發(fā)公司的方式,將非藥企核心的研發(fā)業(yè)務(wù)外包給了CRO和這些“virtual biotech”的AI創(chuàng)業(yè)公司。
這可以輸出藥企的優(yōu)勢(shì):充沛的現(xiàn)金流投入,和臨床開發(fā)“接盤”能力,而產(chǎn)生的收益又不會(huì)立即體現(xiàn)在損益表上,而是通過收購-商譽(yù)的調(diào)節(jié),讓報(bào)表變得更好看。當(dāng)然,從投資的角度去看,我也認(rèn)同這種商業(yè)邏輯。
但真正具有極大價(jià)值的,應(yīng)該是用AI重構(gòu)藥物研發(fā)的整體邏輯,這可以從兩個(gè)方向進(jìn)行努力:
1,在生物學(xué)的階段,甩開可理解性的限制,以無監(jiān)督學(xué)習(xí)的方式去更高效尋找新機(jī)理和有效的新靶點(diǎn),往外擴(kuò)張成藥的空間。
2,在醫(yī)學(xué)的階段,結(jié)合患者畫像參與到臨床實(shí)驗(yàn)的決策中,以提高藥物定位和過審的成功概率,盡早識(shí)別并kill掉無底洞的爛藥,以免到了3期失敗被坑死。
這兩個(gè)方向其實(shí)都體現(xiàn)出同一個(gè)理念,那就是應(yīng)該用AI去提高藥物研發(fā)的成功率,而非藥物研發(fā)的運(yùn)營效率,這兩者是質(zhì)和量的不同。如果能夠直面“生物學(xué)”和“醫(yī)學(xué)”階段的Hard Problem,實(shí)現(xiàn)顛覆性創(chuàng)新,我相信,這會(huì)比在“化學(xué)”階段做的任何漸進(jìn)式創(chuàng)新,都更有價(jià)值。與諸君共勉!
本文作者:劉正 新加坡Timbre capital分析師
來源:AnyTesting