眾所周知,藥物進入人體試驗之前需要開展大量非臨床動物研究。各指導原則對于安全性研究中的動物數量也有明確建議。不過,目前的趨勢是世界各地監管機構或協會大都在努力減少動物的使用。當然,前提是不失其科學性。比如EMA在Directive 2010/63/EU中,規定了動物的替代(replacement)、減少(reduction)和優化(refinement)原則,即著名的“3R”原則,旨在加強對動物的保護。FDA也出臺了Modernization Act 2021,允許使用新的替代方法評估藥物安全性。
正是基于減少動物使用的原則,虛擬對照(virtual control groups)的概念被引入安全性評價試驗中,并用于取代平行對照組(concurrent control groups)。所謂的平行對照組通常指給予稀釋藥物用的溶媒或其它溶劑的陰性對照組,一般占毒理研究的25%的動物數量。虛擬對照的依據則主要來源于歷史對照數據。但是,虛擬對照的使用是有很大挑戰的,如果試驗相關協變量不能得到充分控制,有可能對毒理研究結果造成影響。
2023年,徠博科(Labcorp)團隊就虛擬對照替代平行對照可行性這一主題進行了研究。選取了13周和52周重復給藥毒性試驗作為樣本,因為這個階段已經有了部分人體數據,且Vehicle對照已經基本確定。另外,考慮到非人靈長類(Non-human primates, NHP)的全球短缺,關注度最高,主要收集的是非人靈長類動物的安全性數據。調查之初,研究團隊首先提出了3個問題:
1)NHP毒理試驗中,什么樣的毒理學終點只有在平行對照存在的情況才能評估?
2)如果把平行對照數據從整體試驗中移除,會出現什么樣的挑戰?
3)如果不參照平行對照數據,給藥組的數據應該如何評估?
帶著這3個問題,研究團隊從近3年在徠博科開展的20項NHP研究中收集數據,并進行了分析。納入的毒理學參數包括:臨床觀察、體重、眼科檢查、體溫、血壓、心電圖、尿液分析、血常規、血生化、凝血、免疫細胞亞群、細胞因子/趨化因子、T細胞依賴的抗體反應(TDAR)、器官重量、大體解剖觀察、組織病理學檢查等。
20項研究中,有2項未見任何毒理學異常發現,予以剔除。剩余18項研究中,有4項出現了供試品相關的不良反應,研究ID分別為F、G、O、Q,如下表所示。
這些供試品相關的毒性發現最后均用于NOAEL的判定,那么問題來了,如果不參照平行vehicle對照數據,這些毒性表現可以發現嗎?
供試品相關的不良反應
F試驗,高劑量3只動物在給藥末期的體重與陰性對照相比,出現降低。不過,如果與藥前值對比,依然能確定這3只動物體重降低。高劑量組雄性動物大體解剖和病理學檢查發現睪丸異常。這些異常通過歷史病理對照數據,依然可以識別出來。
G試驗,高劑量2只動物與平行vehicle對照相比,出現血小板降低。即使沒有平行對照,該結果依然可以通過與藥前值、歷史對照數據對比發現。
O試驗,中劑量和高劑量組動物發現睪丸大體解剖和病理學檢查的異常,其中高劑量的毒性反應比之中劑量更為嚴重。不過,即使沒有平行對照,這些異常通過歷史病理對照數據也可以進行判斷。
Q試驗,與平行vehicle對照相比,高劑量組動物谷氨酸脫氫酶、天冬氨酸氨基轉移酶,丙氨酸氨基轉移酶和γ-谷氨酰轉移酶升高。即使沒有平行對照,以上毒理學發現,依然可以通過藥前值和歷史對照數據識別出來。而且,病理發現這些動物同時伴有肝內膽管肥大和增生,也可以輔助判斷。
以上介紹了供試品相關的不良反應,再看下供試品相關的非不良反應判定情況。
18項研究中,如果不參照平行對照組數據,大部分的非不良反應依然可以檢出。只有器官重量改變、TDAR是例外的。
F試驗,高劑量組的肝臟、脾臟重量與陰性對照相比是升高的。不過,由于未在鏡檢中發現與器官重量增加相關的異常,未被視為不良反應。如果沒有平行陰性對照,只能與歷史對照組數據比對,但未獲得充分的器官重量歷史對照數據。I和P研究中也遇到了同樣的問題。
TDAR主要用于檢測免疫功能包括抗原攝取、遞呈、輔助性T細胞功能、B細胞激活和抗體產生。通過采用標準抗原如KLH進行免疫,然后檢測免疫球蛋白IgM、IgG。B研究中,與平行陰性對照相比,給藥組免疫后的IgG水平下降,考慮到與供試品的作用機制相關,未被定為不良反應。如果不參照平行對照數據,TDAR的異常結果無法判定。這點在H、M、S研究中同樣存在。
Vehicle或操作引起的毒性表現
F試驗發現陰性對照3只雄性動物、中劑量1只雄性動物、高劑量4雄3雌出現嘔吐,考慮到平行陰性對照也有同樣發現,嘔吐判定為vehicle相關的。而嘔吐這類反應是沒有歷史對照數據的,如果沒有平行對照,本試驗中的嘔吐原因是無法解釋的。F試驗還發現雄性動物(包括陰性對照)收縮壓、舒張壓和平均動脈壓輕度降低,最后判定為頻繁操作引起,動物適應操作后有所好轉。如果沒有平行對照,這一心血管發現可能會歸類為供試品相關。
I試驗發現紅細胞計數、紅細胞壓積和血紅蛋白濃度下降,鑒于陰性組有同樣發現,最后判定為毒代動力學頻繁采血所致。如果無平行對照,很難定性這一異常與頻繁操作有關。
Q試驗中,幾乎所有的動物(包括vehicle對照組)均出現體重降低,4周后體重趨于穩定,并在隨后幾周體重恢復增長。最后將這一異常歸因于每天2次的頻繁操作導致的動物應激反應。如果未設置vehicle對照組,體重下降可能會被認為與供試品相關。同理,該試驗中所有組動物均出現白蛋白降低,也是需要借助平行陰性對照進行析因。
偶發毒性發現
有些毒性發現既不是vehicle相關的,也不是頻繁的動物操作所致。比如H試驗可見動物皮膚變色,平行設置的vehicle對照組和給藥組均有發現,故不認為是供試品相關的,因不影響動物整體健康狀態,具體發生原因也未做明確歸因。如果未設置vehicle對照,這一結果的解釋就要困難很多。同理,P試驗中可見vehicle對照組和給藥組一過性軟便,也是需要參照vehicle數據查找原因。
移除平行對照數據后的統計分析
雖然重復給藥的樣本量較小,對于一些程度較輕的毒性變化,統計效力往往是不夠的。但無論ICH,還是OECD相關指導原則,依然建議采用統計學方法進行毒理學分析。常用的統計方法是先進行fix-effect ANOVA,再采用Dunnett’s test進行組間成對分析。假如去掉平行對照數據進行統計,比如與藥前值進行對比,則建議采用mixed-design ANOVA方法進行統計。采用fix-effect ANOVA/Dunnett’s test統計發現的22個具有統計學差異的指標,82%可以通過mixed-design ANOVA檢出,18%不能檢出的原因與指標變化程度輕且伴隨個體間高度變異等有關。
總結
1)供試品相關的不良反應:供試品相關的不良反應對于NOAEL的確定非常關鍵。4項發現供試品相關不良反應的研究中,即使沒有平行陰性對照,通過藥前值或者歷史對照數據,依然可以準確獲得NOAEL。
2)供試品相關的非不良反應:很多供試品相關的效應是non-adverse的,人體風險低,也不影響NOAEL的確定。絕大多數的non-adverse反應在沒有平行陰性對照的情況下,依然是可以檢出的。當然,器官重量和TDAR例外。
3)Vehicle或操作引起的異常發現:很多動物的指標異常在vehicle對照可同時發現,或與操作導致的動物應激反應有關,或與過度采血有關,亦或者其它可能原因。如果去掉對照組,對于這些反應的歸因可能會存在挑戰。不過,徠博科研究團隊認為,這些異常情況并不罕見,已經有足夠經驗幫助判斷,即使沒有平行設置的陰性對照,也可以對Vehicle或操作引起的異常數據進行解釋。
4)偶發性毒性:其實,平行設置陰性對照組最主要的一個原因是用于解釋一些不可控的偶發性的異常指標。比如文中提及的動物皮膚異常或者軟便情況。離開平行對照,這類終點的解讀會有些難度。當然,徠博科團隊依然認為如果積累足夠多的歷史對照數據,這些情況也是可以解決的。
總之,考慮到涉及NOAEL制定的供試品相關的不良反應、絕大多數供試品相關的非不良反應均可以通過虛擬對照達到目的,徠博科這篇文章的結論是regulatory(sub)chronic NHP toxicity studies represent a good starting point to implement virtual control groups–rather than concurrent control groups—in nonclinical safety testing,即采用虛擬對照對于NHP重復給藥毒性研究是可行的。
當然,本文并不是鼓勵NHP一般毒理研究中不設置vehicle對照,相反,這種方案設計,個人理解,幾乎百分百會被監管機構退回,起碼現階段應該是這樣的。
不過,減少動物的使用是大趨勢,徠博科團隊的這項前瞻性研究是很有意義的,但這項結論成立是有前提的。首先,樣本量太少,僅回溯20項研究得出的結論有一定代表性,但不一定絕對客觀,也不宜過度解讀。其次,即使這項結論客觀,還是有一些毒性發現比如vehicle導致的,更別提很多新藥采用的vehicle溶媒并不普遍,沒太多背景數據可參考。缺少平行陰性對照,使得很多毒性終點的判定頗具挑戰。最后,歷史對照數據是可以很大程度上作為虛擬對照數據,用于彌補平行對照缺失引發的問題,但這里面同樣有問題,一是國內有多少機構有歷史對照數據積累,二是歷史對照數據是否可靠(對質量體系的考驗),三是歷史對照數據是否足夠多(對項目數量的考驗),四是歷史對照數據是否全面,是否囊括了大部分毒理學指標。藥前值數據就更不必說了,對于一次性的數據比如器官重量、病理等的解釋是愛莫能助的,還涉及一些統計效力問題。
作為藥理毒理研究大軍的一份子,我們保留對現有監管尺度和原則認知的同時,也需要捕捉國際同行對個別問題理解的變化。有挑戰并不可怕,問題終究是用來解決的,對歷史對照數據的充分重視其實就是個不錯的起點。
