您當前的位置:檢測資訊 > 科研開發
嘉峪檢測網 2021-06-15 09:51
整體看來,藥物研發的體系,構建于生物學原理與規律的基礎之上。生物學的進步,可以在深度與廣度上全面影響藥物研發的所有領域。
那么人工智能對蛋白質組學認知的進步,會從哪些方面影響和改變藥物研發呢?
為什么藥物會脫靶?為什么藥物會有重定向?藥物臨床試驗的結果可以預測嗎?藥物臨床試驗為什么會失敗?
1 蛋白質是生命的基礎,然而核心奧秘遠未解開
一切生命的表現形式,本質上都是蛋白質功能的體現。如果我們能夠了解細胞、組織乃至整個生命體內蛋白質的組成及其活動規律,透徹地理解不同組織器官在不同生理病理狀態下蛋白質組的構成和動態變化,就會對疾病的發生、發展、轉歸等過程有一個全面的認識,把握疾病診治的關鍵,提高藥物開發的效率。
事實上,蛋白質研究的巨大價值,早在20年前就被高度關注。在人類基因組計劃完成后,有科學家在《Science》雜志興奮地預言,蛋白質組學將很快取代基因組學成為生命科學研究的焦點。《Nature》雜志的??瘎t在顯著版面報道了人類蛋白質組學組織(HUPO)的成立,并宣告生命科學正式進入蛋白質組學時代??梢哉f,蛋白質組學在誕生之初,在科學界光環熠熠,工業界也對之熱情洋溢。然而20年后的今天,與基因組學相比,蛋白質組學的科學研究進展和市場化水平卻遠遠落后??傮w來看,蛋白質組學研究目前并未像基因組學那樣,在科學研究產生巨大的學術價值,在經濟領域形成一個高度規模化的基因產業;相反,其在疾病診療和藥物開發等領域產生的影響非常有限。因此,蛋白質組學甚至常常被人遺忘。
2 傳統的蛋白質組學研究的技術和方法,不適合復雜的蛋白質系統
有人說,“生”在基因組,“命”在蛋白質組。蛋白質組研究對于生命科學的價值是毋庸置疑的。
蛋白質組學發展如此滯后的原因是什么呢?很大程度上是因為蛋白質組學研究面臨巨大的技術挑戰:傳統的蛋白質組學分析技術和方法,并不完全適合用來研究蛋白質系統。
蛋白質系統本身是非常復雜的。人體的一個細胞當中,就包含有數萬個蛋白質。這些蛋白質可以運輸到不同的地方(如細胞膜、細胞核、線粒體、內質網等),可以相互形成復合物,可以不停地生成和降解,還可以發生翻譯后修飾(如磷酸化、乙酰化修飾等)。
一個細胞內所有蛋白質的集合稱為蛋白質組
因此,與基因組相比,對復雜的、動態的蛋白質系統的研究更為復雜和艱巨。一個人從出生到死亡,絕大多數情況下,基因都是不變的,這也是基因可以用于身份鑒定的原因。但是蛋白質組學則不同,在不同的健康狀態下,人體內的蛋白質每時每刻都在發生變化。
那么,對于蛋白質組這樣的復雜系統的研究,目前的技術方法是什么樣的呢?這就要說到傳統的蛋白質組學分析技術和方法的局限性。具體有二:
其一,在研究思路上,傳統蛋白質組學是盲人摸象?,F代生命科學與醫學研究,很多時候使用Western Blot、ELISA等基于抗體的方法,來測量幾個或者是幾十個蛋白質(一般不會超過100個)。在測量對象的選擇上,研究者一般只選擇自己認為重要的、感興趣的蛋白質。這種研究的主觀性極易帶來研究方向、結果的片面性。比如,一個藥物進入細胞后,可能會作用于許多蛋白質,但研究者可能僅僅測量細胞內數萬個蛋白質當中的幾十個,然后分析數據、得出結論、發表論文。而事實上,除了這幾十個蛋白質之外,是否還有其他與該藥物相關性更強的蛋白質,它們如何相互作用的等等,均無從得知。
其二,在統計方法上,傳統的蛋白質組學研究分析方法很難用來理解整個系統。蛋白質系統的復雜程度遠遠超出我們的一般認知。當我們通過抗體檢測,用Western測量10個蛋白質的時候,僅僅通過條帶的粗細,肉眼就可以判斷蛋白質的表達豐度。但是如果想動態地監測不同時間范圍內的幾千甚至上萬個蛋白質的變化情況,我們就很難用肉眼去觀察并得出有效的實驗結果。此外,對這些數以千計的蛋白,也很難為它們都找到一一對應的抗體來進行鑒定。
不能直接用肉眼觀察,那應該怎么樣去獲得有效數據呢?之前研究者使用統計分析的方法,但之后發現這種方法具有極大的局限性。因為傳統的統計分析方法只能考慮到研究者已經預設好的影響因素。此外,還有大量的研究者認知范圍之外的變量,它們是客觀存在的。而對于這些認知范圍之外的因素,如果沒有很好的定量方法和分析方法去認識,就很難真正清晰地理解整個生物系統。因此,蛋白質組學的研究,必須找到能夠匹配這種復雜系統的分析技術和方法。
完整意義上的蛋白質組學,是對細胞或生物體全部蛋白質進行系統鑒定、定量并闡釋其生物學功能的一門學科。鑒于蛋白質的復雜性和多變性,這種意義上的蛋白質組學或許很長時間內都是一個科學理想。
然而蛋白質組大數據和人工智能技術,或許可以讓這一理想的實現過程大大加速。
3 人工智能+蛋白質組大數據,突破傳統技術和方法的局限性
在生命科學和醫學研究中,僅僅通過測量DNA和RNA很難獲取關于生命活動的最直接信息,很難得知我們即時(此時此刻)的身體健康狀態。要想實現這個目的,必須加入蛋白質維度的分析。以肺癌為例,從基因層面上來看,如果肺癌病人的基因有EGFR突變,那么理論上采用小分子的抑制劑進行靶向治療可能會有效;如果沒有EGFR突變,靶向治療可能就沒有效果。但是實際上,這個關聯性卻并不總是非常清晰且顯而易見。藥物在很多患者身上一開始有效,后來逐漸出現耐藥性。這時候僅通過基因檢測通常難以獲得除了這個突變外的更多有效結果。并且腫瘤的基因組突變具有較高的組織異質性,導致活檢組織測量的結果有時難以解釋。但是如果測量蛋白質組,我們就會發現大量蛋白質的表達失調,造成一些通路的激活或者抑制。這時候研究人員面臨一個新問題,即數據解析的問題:雖然該測量方法準確有效,但是由于涉及的蛋白質種類多、動態范圍廣,因此蛋白質組數據非常復雜,這時就需要引入人工智能來進行數據挖掘。
研究復雜的系統需要有大量的觀測數據和先進的分析方法。就目前的學科進展而言,大數據科學和人工智能就是一個絕佳的組合方法,在面對此類復雜的問題時發揮出了最大而且有用的功效。缺少其中任何一個方法,我們都很難深入理解動態復雜的蛋白質系統。
引入人工智能的意義可以用交通系統來舉例說明。春運、上下班高峰期的交通,很難只憑借若干個交警來協調。此時如果在系統上形成大數據,學習交通線路的規律,就可以發現哪里的道路需要擴張,哪里需要建造高架。這種宏觀層面的理解和修改有效且精準。
4 人工智能+蛋白質組學,給生物醫學帶來嶄新變化
在生物體復雜的生命活動中,目前還存在許多未知或不能理解的問題,這些都有可能通過數據分析蛋白質組的運作來得到解答。這需要兩個步驟:其一是把蛋白質組變成數據的方法,也就是通過質譜測量,將生物樣品中的的蛋白質組進行數字化;其二,需要用機器學習或者人工智能的方法去解讀數據。
首先需要建立蛋白質信息庫,之后將蛋白質的信息對應為一個表型:比如對哪個藥物有效,或者是疾病輕癥或重癥,腫瘤還是非腫瘤等等。在梳理過后,可以發現蛋白質組和表型之間有著一一對應的關系。兩者之間的聯系,就是計算機的模型,即AI模型。在具體使用時,對新的病人樣品進行蛋白質組測量,再與模型結合解析,就可以預測藥物是否有效。同時,隨著新的數據不斷地進入和補充數據庫,那么模型就可以得到不斷改進。
蛋白質是非常復雜的,必須用大數據的方法,通過采集大數據,才能真正去理解蛋白質的工作原理與對疾病的判斷有著怎樣的作用。
2020年4月,郭天南實驗室在線發表了區分新冠輕重癥患者的重要生物標志物研究的文章,這是人工智能+蛋白質組學研究的典型應用。
實驗設計及流程
團隊與臨床、代謝組研究團隊合作,對99份病毒滅活處理的血清樣本進行了安全處理和質譜分析。與對照組、普通流感組和輕癥組相比,新冠肺炎重癥患者的樣本中檢測到了93種特有的蛋白表達和204個特征性改變的代謝分子。
在質譜分析數據的基礎上,團隊使用機器學習方法進一步“沙里淘金”,篩選出重癥患者特征性的22個蛋白質和7個代謝物。血清樣本成分符合這一組合的患者,很可能是重癥患者,或有很大可能性發展為重癥病例。
這僅僅是人工智能+蛋白質組學應用于新冠輕重癥患者預測的一個案例。試想,如果有足夠豐富和高質量的數據,那么將人工智能+蛋白質組學應用于其他類型的臨床疾病的病情發展預測,促進醫療資源的合理調配,或許指日可待。
蛋白質是生物功能的主要體現者,它通過自身的一些活動,如修飾加工、轉運定位、結構變化,以及蛋白質之間的相互作用等,控制和調控著生命體的許多活動。由于蛋白質組學能夠在蛋白質水平上獲得關于疾病發生發展、細胞代謝等過程的整體認識,因此也影響著藥物研發的方方面面。
特別是人工智能+蛋白質組學的應用,將在藥物的靶點確認、藥物作用機制等研究方面發揮重要作用,甚至在受試者篩選、藥物重定向、藥物臨床試驗結果預測等方面也會有重大價值。
5 “人工智能+蛋白質組學”對藥物研發帶來的突破及相關技術問題
新靶點的開發
與國內不同,國外制藥公司非常重視開發新的藥物靶點。目前已經發現的藥物靶點約有500個, 而約40%的藥物是以G蛋白偶聯受體為靶點發現和設計的。郭天南教授正在同多個國際制藥公司合作開發藥物靶點。他認為,如果要找新的藥物靶點,使用蛋白質組的方法將會非常有效。比如,他們已經通過測量惡性程度增加的大腸癌患者中病理組織的蛋白質組,找到了治療大腸癌的潛在的新靶點。此外,其研究團隊還在探索針對一些醫學指征的新的藥物靶點,尋找藥物療效的生物標記物。
藥物活性分析
在藥物活性測試的環節,如果加入人工智能+蛋白質組學,那么就可以更為準確地評價藥物的活性,從藥物相關的細胞試驗中獲得更多的信息。比如MTT試驗,一般做法僅僅是檢測細胞是否死亡;但如果細胞樣品用來做蛋白質組分析,就可以對藥物的活性有更深入的理解,甚至可以將這個細胞用幾十、幾百、或者數以千萬計的藥物處理后,分析蛋白質組的變化。這樣對藥物作用的理解就會完全不同。
受試者篩選
藥物臨床試驗的失敗有各種原因,人工智能+蛋白質組學可以應用于受試者篩選。如果能在受試者入組前將其蛋白質組先進行解析,排除既定藥物靶點相關通路沒有激活的受試者,那么藥物臨床試驗的成功率有可能會大大提高。
藥物臨床試驗結果預測
人工智能+蛋白質組學還可以用來預測臨床試驗結果。一般情況下,一個臨床試驗需要幾個月完成,幾個月之后才能評價結果的好壞。如果在用藥之后,能夠定期收集受試者的尿液和血液,針對有效者和無效者的生物樣品蛋白質組建立機器學習模型,那就有可能對患者、某種治療的療效進行預判,縮短臨床試驗的時間。
藥物的聯合使用
很多腫瘤,如果只使用一種藥物,很容易產生抵抗,通常需要兩三個藥聯合使用,才能達到治療的效果。但是眾多組合如何選擇?理論上,可以測定每個藥物影響的蛋白質的數據,結合人工智能模型,來分析聯合使用會影響什么樣的通路,作出判斷。已經為各種各樣的疾病,如肺癌、肝癌、胃癌等建立了蛋白質數據庫。蛋白質數據庫是個系統工程,數據庫越全面,越能體現蛋白質組大數據的效力。一旦數據庫足夠大,那么就有可能對生物醫藥產生巨大且直接的價值。
人工智能+蛋白質組學可行性的技術保證
工欲善其事,必先利其器。人工智能+蛋白質組學的研究得以快速推進,與蛋白質組學分析技術的升級密切相關。主要升級包括三方面:采樣技術、樣本制備和分析速度。以前蛋白質組學分析的組織樣本體積需要黃豆大小,如今采樣量可以縮小到1毫克、甚至0.1毫克,都可達到同樣的實驗目的;以往一次蛋白質組研究能夠分析1000~3000個蛋白質,如今通過技術優化,可以一次性分析上萬個蛋白質。此外,一個很重要的進展是,研究團隊開發了基于壓力循環技術的臨床樣本的多肽制備方法,可以從1立方毫米(1~2毫克)的臨床組織樣品中提取50~200微克的多肽,滿足上百次質譜分析的用量,從而大大降低了臨床病理組織的儲存成本。
將來更需要分子水平的大數據
通常所說的大數據,如病例資料、圖像資料、免疫組化、超聲、心電圖的數據等,主要是文本、影像、聲音層面的數據。事實上,在分子層面上更需要大數據。一個細胞中就包含數萬個蛋白質,并且所有蛋白質都處于不停地生成和降解當中。對于這樣一個復雜的微觀的分子世界,目前人類所了解的信息仍然太少。
蛋白質組學研究就可以在這個微觀世界中通過測量大量的數據,來理解我們現在不能夠理解的跟健康相關的現象、疾病的征兆、最佳治療藥物的選擇等等。這有可能完全顛覆社會和大眾對健康的理解和對疾病的管控。如果蛋白質組學研究的數據足夠豐富,那么人類大健康就進入了另外一個全新的層面和不同的維度。
此外,病理學上更需要分子水平的大數據來協助疾病診斷。對疾病的理解,以前中醫最傳統的是望聞問切。后來,西方醫學通過解剖實驗,發現了各種器官,并且觀察出咳嗽的同時肺部存在著問題,再后來發明了顯微鏡,可以看到光滑的皮膚實際上是由無數個細胞組成,發展了現代病理學。現在的病理診斷主要依賴于細胞水平的形態學檢測。
新冠病人的睪丸組織切片以及組織內明顯下調的蛋白及相關通路示意圖
左圖是因新冠去世的患者的睪丸病理切片,可以看出間質細胞的個數在新冠患者中減少。右圖是增加了蛋白質組學研究后,可以看到的分子水平的改變。很多在病理學上看來是相近或一樣的病理狀態,我們通過蛋白質組學就可以發現一些重要的差別,準確地說,即在蛋白質水平上會比細胞水平看到得更早、更明顯,且“分辨率”更高。分子水平的大數據同時對藥物研發大有幫助。一般來說,很難只通過病理分析來選擇治療藥物。但如果能了解了分子水平的改變,就可以找到藥物靶點。
6 小結
蛋白質組學的研究,最近受到的重視程度越來越高。2018年,科技部組織了國際大科學計劃,在全國范圍內提交申請的500多個項目中,只有3個項目入選為國際大科學計劃的第一批項目,其中就包含中國科學院院士賀福初教授領導的人類蛋白質組計劃2.0和蛋白質組驅動的精準醫學項目。展望未來,大健康未必只是關乎健康的事情,它同時存在于人工智能的方法應用范圍之內。如果可以將大健康與人工智能結合起來,不管從學術角度,從生物學原理的必要性角度,還是從市場、社會的需求來說,都將是時代的大趨勢。
來源:Internet