您當前的位置:檢測資訊 > 科研開發
嘉峪檢測網 2021-07-30 11:58
可維護性和可靠性驗收非常重要,硬件維護工程師在后端發現問題后,總結成可維護性和可靠性需求,在產品立項的時候與新特性一起進行需求分析,然后經過設計、開發和測試環節后,在產品中落地。這些需求最終實現的效果是否和需求提出人想要達到的效果一致,需要硬件維護工程師進行驗收。
硬件維護工程師越早參與,效果越好。如果等到轉維審查的時候才參與驗收,發現偏差需要修改和測試,相當于需求要重新開發一次。推薦硬件維護工程師在需求分解的時候就參與,然后在開發和測試的時候再進行一次審視。
有一個典型的案例,某款主力發貨的款型,框架如下,主用主控通過FE通道對線卡進行管理。線卡到主用主控有兩條通道:通道1——通過主用FE到主用主控的LSW、然后再到主用主控的CPU,下圖中的實線通道;通道2——通過備用FE到備用主控的LSW、然后再到主用主控的CPU,下圖中的虛線通道。
當時出現一個特別奇怪的現象,每天到固定的時間點,線卡板就開始復位,復位后線卡板無法注冊。進一步定位,發現線卡板到主用主控的FE通道有錯包,造成管理報文丟包。由于主用和備用FE通道的切換機制沒有做好(可靠性需求實現有偏差),主用主控在切換FE通道之前就認為線卡板發生問題、從而將線卡板復位。線卡板復位后,仍然通過主用FE通道與主用主控協商,FE通道丟包造成協商失敗,線卡板無法注冊。
順著錯包往下排查,發現錯包發生在主用主控的LSW芯片。單板返回實驗室測試,發現丟包發生在固定的溫度區間。當環境溫度在25℃左右時發生丟包,低于20℃或高于30℃都不會丟包。通過交叉芯片進行排查,最后發現丟包是由晶振引起的。在環境溫度25℃左右時(晶振表面溫度50℃),125M晶振會發生跳頻。晶振的規格是125M±10ppm,在在環境溫度25℃時,晶振的頻偏達到了20ppm,超出規格1倍。
這個問題是一個典型的可靠性問題,有以下幾點可以改進:
1)主控的FE通道切換機制改進,當其中一條FE通道故障時,優先進行通道切換。
2)故障定界優化,當主用主控到多個線卡板的FE通道都出現故障時,判斷為主用主控故障,優先進行主備倒換,把業務切換到備用主控,而不是復位線卡板。
3)FE通道記錄錯包日志,錯包每增加一定數量,記錄一條日志。
4)主控發現線卡異常時,先上報告警。有業務備份通道的,切換業務后再復位線卡;沒業務備份通道的,只告警,不復位線卡。
FIT:FaultInjection Test(失效注入試驗)
可靠性FIT測試驗證目的:
Ø 可靠性增長,測試發現問題,提高系統可靠性;
Ø 驗證系統可靠性,驗證系統的故障恢復能力、故障管理能力;
Ø 對產品故障恢復能力定量估計(可靠性指標驗證);
開發階段一般不可能驗證產品的MTBF,因為:
Ø可靠性是基于統計的結果,需要有足夠的樣本量
Ø時間較長;試驗量大
Ø難以模擬現場應用環境
我們需要FIT測試來驗證可靠性,作為可靠性設計的驗收
FIT方案設計基于兩個原則:
一是保證測試的覆蓋率
二是保證測試工作量的可執行性
用例設計中考慮故障出現的概率(根據FMECA分析結果)。對可能產生同一種影響的不同故障考慮故障模式的收斂,即只模擬一種故障模式(前提故障檢測是通過檢測這些故障模產生的故障影響來確定故障,而不是直接檢測故障模式)
FEMA分析作為可靠性設計的需求,那么我們設計好FIT測試作為驗收手段。
表格具體內容可以不關注,掌握相關方法即可。
來源:硬件十萬個為什么