您當前的位置:檢測資訊 > 科研開發
嘉峪檢測網 2018-11-04 18:27
提到硬件開發,華為無疑是制造業的領導者,分享一些華為開發的文章,供研發人士參考。
第一期內容:
1、 文檔,評審,設計。
2、 華為的硬件領域的人員構成:
3、 華為的流程
第二期內容:揭秘華為硬件研發——歸一化管理
第三期內容:揭秘華為研發——華為是怎樣做電路設計的
第四期內容:揭秘華為研發——如何做好器件選型?
第五期內容:揭秘華為研發——白板講解
因為世界上沒有完美的東西,所以就算再高的水平開發出來的產品也不可能像蒙娜麗莎一樣完美無缺。所以不管大問題,還是小問題,都可能有問題。
第一部分、網上問題造成的三種后果:
1、 網上事故
2、 網上問題
3、 單板返還
網上事故
最嚴重的當然是“網上事故”,網上事故一般是造成“安全事故”、“客戶損失”、“客戶投訴”。等等情況。
最嚴重的網上問題,自然是“安全事故”,危機客戶人身安全。
例如曾經有一個海量級發貨的設備,曾經因為修改背板時,動了一條電源線的走線。這個電源線,被修改后,隔著綠油與機框的金屬件,碰在一起。由于綠油本身有一些絕緣的作用,所以在研發測試和生產測試的過程中并沒有暴露這個問題。
但是由于在運輸過程中,震動等原因,造成綠油在此過程中被磨損。在客戶出上電后,有的設備出現的了短路,發生了燒板的情況。
液態光致阻焊劑(俗稱綠油)是一種保護層,涂覆在印制電路板不需焊接的線路和基材上。目的是長期保護所形成的線路圖形。
這是非常嚴重的情況,如果著火,發生火災,在運營商的機房,那是非常嚴重的事故。
但是,這種問題發生的時候,已經各種機框和單板發往五大洲,上百個國家。去解救這個問題,付出了非常慘重的代價。
網上事故的另外一種情況,是造成運營商的業務中斷;按照話費一分鐘0.6元計算,一個省的運營商的用戶都是千萬級,甚至億級的。如果造成客戶的一分鐘的業務中斷,帶來的損失,如何計算?
正式由于這個原因,所以大多數運營商的設備,都有備份機制。例如核心側設備的內部交換模塊,一定是1+1冗余備份的;如果是DSP資源,一些信令處理單元一般都是N+1備份的。這樣如果出現單點故障,既不影響用戶業務,也不影響設備的容量規格。
第三種情況,就是客戶投訴。有可能雖然沒有造成什么嚴重的后果,如果客戶投訴了,這個問題也會比較嚴重。例如,新機框和新單板郵寄到運營商處。這是出現了,電路板插不進去的情況,自然客戶會非常惱火,覺得非常影響公司的品牌形象。那這個事情就會非常大。或者很早以前,任老板在現場的時候,某四川移動的領導,說“你們的設備還不如大唐好看”。于是,結構部的人就倒霉了。
網上問題:
如果網上出了問題,那么一定通過一些手段,例如原先設計好的一些“可維護性”、“可測試性”的軟硬件設計,盡量的去定位問題。
當然這些措施都不能影響客戶的正常業務。
另外,會有一些寄存器,或者一些日志,去查看設備異常的記錄。還可以查看一些設備的“臨終遺言”。臨終遺言,會利用處理器復位前,向存儲區域存儲的關鍵信息,便于后續去發現和解決問題。
單板返還:
一線交付的人員一般都會抱怨:“你們研發都是三招:復位,下電,換單板”。
其實網上問題分析,如果已經用上這三招了,那說明這個問題已經比較嚴重了,說著基本上是硬件問題了。
可是“單板返還率”是非常重要的KPI,決定著大家的“考評”。所以維護人員都希望單板不要返還,或者不要記入指標。如果真的硬件已經不能正常工作了,那么一定會操作這個單板返還到實驗室,進行失效分析,找失效原因。
以上不管是哪個級別的問題,哪怕是實驗室發現的一些問題,都非常重視。因為如果任何一個問題,都可能造成不可預見的效果。所以對每個問題都刨根問題,分析徹底。
另外就是在做一些試驗(EMC、環境),或者在測試的過程中,發現和暴露的問題,都會當做網上問題一樣重視,進行一些問題的攻關。為什么呢?
因為有一個理論,問題越早解決,所付出的代價越小。
問題攻關的三個信條:
1、 凡是“實驗室”問題,如果不解決的話,一定會在網上出現。
2、 凡是出現過的問題,一定可以被復現。
3、 凡是不能復現的問題,一定是沒有找到復現的規律。
案例1、當時有一款NetLogic的處理器(NetLogic的網絡處理器來自RMI。RMI收購了處理器創業公司Sandcraft,它本身又被NetLogic購買。后來NetLogic被博通收購),出現了器件失效的情況,但是網上還沒有出現類似的情況。
但是,有沒有找到規律,是如何讓器件失效的。于是雙方進入了扯皮階段。但是通過X光照射,發現失效的器件是焊盤開裂。但是是什么讓焊盤開裂呢?當時懷疑了應力,高低溫。試了各種措施,但是始終沒有答案。
后來大家討論和試驗的過程中,就有同事發現,單純的低溫和高溫,都不足以引起器件失效。但是當高低溫經歷次數過多之后,器件失效的概率明顯提高。后來這個同事通過多次試驗,反復地使用熱風槍和液氮,加速器件的老化。就非常容易出現焊盤開裂的情況。
當拿著這個結論再去找Netlogic時,對方只能投降,承認問題,同意修改器件的工藝。
非常說明問題的兩件事情:
第一, 后來實驗室出現故障的單板,基本都是廠家改進工藝前的問題。
第二, 另一個發貨量很大的產品,在2年后,網上出現大規模這個問題的單板。
案例二、如果在試驗中發現問題,一定會把問題分析清楚,或者把問題解決掉。也許這個問題解決很難,經歷時間很長。但是這個問題一定把記錄下來,根據優先級把問題最后解決掉。
例如曾經一個同事在做試驗的時候,發現三極管有漏電流。
理論分析之后,由于三極管作為開關管使用,所以理論分析不可能產生這么大的電流,導致電壓變化;把三極管更換成MOS管,也無濟于事。
由于這個漏電流是在低溫的時候才會出現的。所以當時就用液氮,讓三極管處于極其低溫的狀態(-10度以下),試驗中溫度情況也差不多在這個范圍(-40度到0度)出現問題。
但是經過兩周的試驗,都沒有找到規律,偶爾會復現一下問題,完全沒有規律。
我跟那個同事覺得非常費解,當時就觀察天氣,覺得這個三極管的漏電流感覺與天氣有關。如果陰天,就容易復現,如果晴天就完全不復現。
通過這個規律,我們開始懷疑“濕度”作祟。
后來,我們通過增加器件的濕度,果然非常容易復現問題。
把我們的結論去找廠家,廠家確認SOT封裝的器件,在高濕度低溫的前提下確實會有漏電流的現象。這個漏電流不是通過PN節流走的,所以跟PN節的漏電流的規律完全不符合。
而是從SOT32的塑料封裝上漏走的電流。
后來通過調整電路參數,規避了這個問題。
所以整個分析和試驗的過程,哪怕是極端的環境條件下的問題,也絕不放過。
其實產品的問題攻關,就是這樣的,扎扎實實的解決每一個問題之后,產品質量才有試制性的提升。
形式:
1、攻關組:任何問題攻關,為了表示重視,一般都會成立個什么問題攻關組。就是把相關的人,還有有經驗的人走組織起來,一起參與討論,這樣可以拓寬思路,同時豐富經驗。避免鉆牛角尖,或者無頭蒼蠅。
2、例會:重大的問題攻關,一定是每天例會,把前期討論的問題匯總跟蹤,把每項措施對應的結論記錄下來,明確下一步的措施。
3、日報:這種問題攻關,一定是領導重視的,所以每天都會發布進展。當然領導也會看,偶爾也會發現很久沒有進展,之后會調配資源,協調兵力。
4、總結:問題解決之后,一定把中間的九九八十一難,整理成案例、培訓,給大家分享。這樣所有的同事,雖然沒有親身經歷這個攻關過程。可以通過分享,學習相關專業知識,和問題解決的思路。得到提升。
問題攻關是痛苦的,問題突破了也是非常有成就感的,痛并快樂著。
最后兩句話:
越是不舒適區,其實就是你成長的機會。
越是困難的時候,越是要咬牙頂住;只要你堅持,你離成功永遠都只有一步之遙。
來源:硬十