為什么一般的實驗室比對,不能用Z比分值評價結果
1 案例
一個實驗室策劃了實驗比對,同一個樣品,每個實驗室做了一次結果,總共四個結果,用四個實驗室的結果的平均值作為“公議值”,四個實驗結果用貝塞爾公式計算標準差S作為能力評定標準差。
然后計算4個實驗室的Z比分值:
|Z|≤2時,比對滿意;
2< |Z|< 3 時,結果可以;
|Z| ≥3時,比對結果不滿意
可以思考下這樣做的問題在哪里呢?
Z比分數(Z-score)一般是用在大規模能力驗證中常用,并不適用于所有的實驗室比對,特別是一般性的數量很少的實驗室間比對,
主要是由于以下幾個關鍵原因:
2 對參與規模和數據量的依賴
Z比分數評價的可靠性很大程度上依賴于足夠多的參與實驗室數量(通常建議至少11家以上,為什么是11家,有興趣的可以按照GB/T 28043-2019結算)。只有當實驗室數量足夠時,通過穩健統計法(如中位值、標準化四分位距NIQR)計算得到的“公議值”和“能力評定標準差”才具有代表性和穩定性
如果實驗室數量較少(例如僅有2-3家),計算出的中位值和標準四分位距波動很大,缺乏統計代表性,此時使用Z比分數進行評價的結論可能不可靠
3 “公議值”的問題
Z比分數通常將眾多實驗室結果的統計量(如中位值)作為“公議值”,這本質上是一個“共識值”,并不一定代表真值,一般的能力驗證中比對中已有
由權威機構提供的、帶有不確定度的參考值或指定值作為公議值
參與比對的實驗室數量很少的時候,比如只有3~4家實驗室,使用平均值作為公議值就不那么合適,實驗室數量太少,平均值會受參與實驗室水平的影響大大。
4 能力評定標準差的問題
在能力驗證中,Z比分值的分母是“能力評定標準差”,一般使用穩健統計A法迭代出來,使用標準偏差代替“能力評定標準差”,這個本身就有很多問題
5 實驗室數量比較少的比對結果如何比對
需要結合實驗室的比對目的,設計參加比對的實驗室數量,每個實驗室測試樣品的次數,并且選擇合適的樣品來評價結果。