在今日舉辦的第四屆中國計算機(jī)學(xué)會集成電路與自動化學(xué)術(shù)會議(CCF DAC)上,一份名為《集成芯片與芯粒技術(shù)白皮書(2023版)》的白皮書重磅發(fā)布。劉明院士和孫凝暉院士等國內(nèi)多位集成芯片和芯粒領(lǐng)域?qū)<覅⑴c了討論和編寫。這份白皮書不僅剖析了集成芯片和芯粒領(lǐng)域的重要技術(shù),而且包含了本領(lǐng)域的趨勢判斷分析,為我國集成芯片與芯粒領(lǐng)域的技術(shù)攻關(guān)和發(fā)展規(guī)劃提供了重要參考。
說 明:本白皮書基于“集成芯片前沿技術(shù)科學(xué)基礎(chǔ)”專家組組織的多次討論內(nèi)容,由秘書組全體成員共同整理和編寫而成。在編寫過程中,為了更全面地呈現(xiàn)本領(lǐng)域相關(guān)技術(shù),編寫組增加了部分技術(shù)調(diào)研內(nèi)容和趨勢判斷分析。集成芯片作為一個新興領(lǐng)域,其涉及的概念和技術(shù)仍處于不斷發(fā)展之中,我們也意識到本白皮書中可能存在內(nèi)容闡述不夠充分、不夠系統(tǒng)的問題,也誠懇歡迎提出寶貴建議。
1、 前 言
1.1 背景
集成電路是現(xiàn)代信息技術(shù)的產(chǎn)業(yè)核心和基礎(chǔ)。隨著信息技術(shù)的不斷發(fā)展,人工智能、自動駕駛、云計算等應(yīng)用通常要分析和處理海量數(shù)據(jù),這對計算裝置的算力提出了全新的要求。例如,在人工智能領(lǐng)域,人工智能大模型的算力需求在以每 3-4 個月翻倍的速度增長。然而,集成電路設(shè)計遇到“功耗墻”、“存儲墻”、“面積墻”,傳統(tǒng)集成電路尺寸微縮的技術(shù)途徑難以推動算力持續(xù)增長。另一方面,在“萬物智能”和“萬物互聯(lián)”的背景下,產(chǎn)業(yè)應(yīng)用呈現(xiàn)出“碎片化”特點,需要探索新的芯片與系統(tǒng)的設(shè)計方法學(xué),滿足應(yīng)用對芯片敏捷設(shè)計的要求。
在這樣的背景下,需要一種新的技術(shù)途徑,可以進(jìn)一步突破芯片算力極限、降低芯片設(shè)計復(fù)雜度。集成芯片是芯粒級半導(dǎo)體制造集成技術(shù),通過半導(dǎo)體技術(shù)將若干芯粒集成在一起,形成新的高性能、功能豐富的芯片。通過芯粒的復(fù)用和組合,可快速滿足多種多樣的應(yīng)用需求,帶來芯片設(shè)計、制造、下游需求等全產(chǎn)業(yè)鏈的變革。
對于我國而言,集成芯片技術(shù)對于集成電路產(chǎn)業(yè)具有更加重要意義。由于我國在集成電路產(chǎn)業(yè)的一些先進(jìn)裝備、材料、EDA 以及成套工藝等方面被限制,導(dǎo)致我國短期內(nèi)難以持續(xù)發(fā)展尺寸微縮的技術(shù)路線。集成芯片技術(shù)提供了一條利用自主集成電路工藝研制跨越 1-2 個工藝節(jié)點性能的高端芯片技術(shù)路線。同時,我國集成電路產(chǎn)業(yè)具有龐大市場規(guī)模優(yōu)勢,基于現(xiàn)有工藝制程發(fā)展集成芯片技術(shù)可以滿足中短期的基本需求,并可借助大規(guī)模的市場需求刺激集成芯片技術(shù)的快速進(jìn)步,走出我國集成電路產(chǎn)業(yè)發(fā)展特色,并帶動尺寸微縮路徑和新原理器件路徑的共同發(fā)展。
本技術(shù)白皮書邀請了集成芯片與芯粒領(lǐng)域的優(yōu)勢研究力量,詳實分析了集成芯片的技術(shù)途徑和國內(nèi)外發(fā)展現(xiàn)狀,總結(jié)了我國在集成芯片領(lǐng)域的基礎(chǔ)優(yōu)勢和面臨的挑戰(zhàn),希望能夠為技術(shù)規(guī)劃、技術(shù)攻關(guān)、產(chǎn)業(yè)政策等提供參考。在撰寫過程中,有很多未盡之處和編委們的知識所限,也請批評指正。
1.2 本白皮書意義
本白皮書闡述了集成芯片與芯粒的內(nèi)涵、集成芯片架構(gòu)與電路設(shè)計技術(shù)、集成芯片 EDA 和多物理場仿真技術(shù)、集成芯片的工藝原理,最后介紹了集成芯片的設(shè)計挑戰(zhàn)與機(jī)遇。具體結(jié)構(gòu)如下:
第一章介紹了發(fā)展集成芯片和芯粒的重要意義以及本技術(shù)白皮書的內(nèi)容。
第二章概述了集成芯片與芯粒的內(nèi)涵。
第三章分析了集成芯片架構(gòu)與電路設(shè)計技術(shù),詳細(xì)闡述集成芯片設(shè)計方法、多芯粒并行架構(gòu)、芯 粒互連接口協(xié)議以及芯粒間高速接口電路等關(guān)鍵技術(shù)。
第四章分析了集成芯片 EDA 和多物理場仿真的相關(guān)技術(shù),包括集成芯片布局布線 EDA、芯粒尺 度的電 - 熱 - 力多場耦合仿真以及集成芯片的可測性與測試技術(shù)。
第五章分析了集成芯片的工藝原理,包括 RDL/ 硅基板(Interposer)制造工藝、高密度凸點鍵 合和集成工藝、基于半導(dǎo)體精密制造的散熱工藝等。
第六章討論了集成芯片的設(shè)計挑戰(zhàn)與機(jī)遇,為未來集成芯片的發(fā)展提供參考路徑。
在高性能芯片發(fā)展受制的背景下,從我國的產(chǎn)業(yè)現(xiàn)狀出發(fā),發(fā)展集成芯片——這條不單純依賴尺寸微縮的新路徑,是我國集成電路領(lǐng)域的重要的發(fā)展方向。本白皮書希望學(xué)術(shù)界和產(chǎn)業(yè)界更廣泛而深入地了解集成芯片和芯粒技術(shù),共同推進(jìn)集成芯片技術(shù)蓬勃發(fā)展。
2、集成芯片的內(nèi)涵
2.1 集成芯片與芯粒的定義
傳統(tǒng)集成電路是通過將大量晶體管集成制造在一個硅襯底的二維平面上形成的芯片。集成芯片是指先將晶體管集成制造為特定功能的芯粒(Chiplet),再按照應(yīng)用需求將芯粒通過半導(dǎo)體技術(shù)集成制造為芯片。其中,芯粒(Chiplet)是指預(yù)先制造好、具有特定功能、可組合集成的晶片(Die),也有稱為“小芯片”,其功能可包括通用處理器、存儲器、圖形處理器、加密引擎、網(wǎng)絡(luò)接口等 [1]-[10]。硅基板(Silicon Interposer),是指在集成芯片中位于芯粒和封裝基板(Substrate)之間連接多個芯粒且基于硅工藝制造的載體,也有稱為“硅轉(zhuǎn)接板”、“中介層”。硅基板通常包含多層、高密度互連線網(wǎng)絡(luò)、硅通孔 (Through Silicon Via, TSV) 和微凸點 (Micro Bump),保證了電源、數(shù)據(jù)信號在芯粒之間和封裝內(nèi)外的傳輸,而且可以集成電容、電感等無源元件和晶體管等有源電路。
圖 2.1 集成芯片與芯粒的定義
集成芯片的概念源于 2010 年臺積電的蔣尚義博士提出的“先進(jìn)封裝”概念,他提出可以通過半導(dǎo)體互連技術(shù)連接兩顆芯片,從而解決單芯片制造的面積上限,解決板級連接的帶寬極限問題。而后,時任美國美滿電子公司總裁的周秀文博士(Sehat Sutrardja)將“模塊化”設(shè)計思想與方法進(jìn)一步融入。經(jīng)過多年學(xué)術(shù)界和企業(yè)的發(fā)展,“先進(jìn)封裝”已無法涵蓋多芯粒集成后所形成的新系統(tǒng)的科學(xué)與技術(shù),于是在 2022 年自然科學(xué)基金委召開的雙清論壇上,孫凝暉院士、劉明院士以及蔣尚義先生等我國學(xué)者在凝練相關(guān)基礎(chǔ)技術(shù)后提出“集成芯片(Integrated Chips)”這一概念替代“先進(jìn)封裝”、“芯粒”等稱謂,用于表達(dá)其在體系結(jié)構(gòu)、設(shè)計方法學(xué)、數(shù)理基礎(chǔ)理論、工程材料制造等領(lǐng)域中更豐富的含義。
集成芯片設(shè)計對比傳統(tǒng)的集成電路單芯片設(shè)計可實現(xiàn)如下突破:
首先,它可實現(xiàn)更大的芯片尺寸,突破目前的制造面積局限,推動芯片集成度和算力持續(xù)提升;其次,它通過引入半導(dǎo)體制造工藝技術(shù),突破傳統(tǒng)封裝的互連帶寬、封裝瓶頸;最后,它通過芯粒級的 IP 復(fù)用 / 芯粒預(yù)制組合,突破規(guī)模爆炸下的設(shè)計周期制約,實現(xiàn)芯片的敏捷設(shè)計。
除了上述技術(shù)突破外,集成芯片還能獲得成本上的收益。傳統(tǒng)的單一芯片制造尺寸越大,制造過程中的缺陷率和成本越高。而芯粒技術(shù)允許將一個大尺寸的芯片拆分為多個小尺寸的芯粒,每個芯粒獨立進(jìn)行制造。由于芯粒尺寸相對較小,可以更好地控制制造過程,減少制造缺陷率和成本。另外,不同芯粒可用不同的工藝制程完成,突破單一工藝的局限。例如,可以將傳統(tǒng)的電子芯片與光電子器件集成在同一芯片上,實現(xiàn)光電混合芯片。這種光電混合芯片結(jié)合了電子和光子的優(yōu)勢,可以在高速數(shù)據(jù)傳輸、光通信、光計算等領(lǐng)域發(fā)揮重要作用。上述技術(shù)也能夠?qū)崿F(xiàn)更多種類的新型芯片。例如,集成傳感器、處理器、無線通信模塊和人工智能加速器等多種功能,可以構(gòu)建出具備感知-存儲-計算通信 - 控制一體的智能芯片。
在集成芯片發(fā)展過程中,有一些并行發(fā)展的概念。集成芯片和封裝、微系統(tǒng)主要區(qū)別在于設(shè)計方法與制造技術(shù)。集成芯片是自上而下的構(gòu)造設(shè)計方法,芯粒的功能是由應(yīng)用分解得到的,而不是基于現(xiàn)有模組、通過堆疊設(shè)計方法實現(xiàn)性能和功能的擴(kuò)展。集成芯片基于半導(dǎo)體制造技術(shù)實現(xiàn)集成,無論連接和延遲,都接近于芯片而不是 PCB 或者有機(jī)基板,因此最早做集成芯片工作的是臺積電等芯片制造廠商。另外,我國科學(xué)家也提出了晶上系統(tǒng)[13] 和集成系統(tǒng) [14] 等概念,在技術(shù)理念上與集成芯片有很多類似之處,相比而言,集成芯片更側(cè)重于綜合性和面向芯片形態(tài)。
2.2 集成芯片是集成電路性能提升的三條路徑
從技術(shù)上看,目前主要有三條提升芯片性能的發(fā)展路徑,如圖 2.2 所示,三條技術(shù)路徑從不同維度共同推動集成電路的發(fā)展。
圖 2.2 提升芯片性能的三條路徑
第一條路徑是通過將晶體管的尺寸不斷微縮實現(xiàn)集成密度和性能的指數(shù)式提升,也被稱為遵循“摩爾定律”的發(fā)展路徑。1965 年戈登·摩爾指出,集成電路的晶體管數(shù)目大約每 18-24 個月增加一倍。摩爾定律、登納德縮放定律、以及同時期的體系架構(gòu)創(chuàng)新,包括指令級并行、多核架構(gòu)等,共同推動了芯片性能隨工藝尺寸微縮的指數(shù)式提升。
圖 2.3 提升芯片性能的第一條路徑 : 摩爾定律
隨著集成電路工藝進(jìn)入 5nm 以下,尺寸微縮接近物理極限,單純依靠縮小晶體管尺寸提高芯片性能的空間變小,同時帶來了成本與復(fù)雜度的快速提高。芯片散熱能力、傳輸帶寬、制造良率等多種因素共同影響,形成了芯片功耗墻、存儲墻、面積墻等瓶頸,限制了單顆芯片的性能提升。可以說,摩爾定律的放緩已成為國際和我國集成電路發(fā)展的重大挑戰(zhàn)。
第二條路徑是通過發(fā)展新原理器件,研發(fā)新材料,實現(xiàn)單個晶體管器件的性能提升。隨著鐵電存儲器 FeRAM、阻變存儲器 RRAM、磁存儲器 MRAM、相變存儲器 PCM、鐵電晶體管 FeFET 等多種新原理器件的發(fā)展,結(jié)合寬禁帶半導(dǎo)體、二維材料、碳納米管等新材料的研究,探索超越傳統(tǒng)CMOS 器件性能 / 能效的新型器件和突破馮諾依曼架構(gòu)的新型計算范式成為一個重要的研究領(lǐng)域。然而,新原理器件是面向未來的芯片性能提升發(fā)展路徑,從科學(xué)研究到實際應(yīng)用的周期通常較長,難以在短時間內(nèi)解決當(dāng)前高性能集成電路芯片受限的挑戰(zhàn)。
圖 2.4 提升芯片性能的第二條路徑 : 新原理器件
隨著技術(shù)體系和產(chǎn)業(yè)生態(tài)逐漸構(gòu)建,集成芯片將發(fā)展為芯片性能提升的第三條主路徑。芯片的性能主要取決于芯片集成的晶體管規(guī)模,而晶體管規(guī)模又取決于芯片制造面積。集成芯片路徑能夠有效突破芯片制造的面積墻瓶頸。芯片的“面積墻”,是指單顆芯片的制造面積受限于光刻機(jī)可處理的極限尺寸和良率。一方面,最先進(jìn)的高性能芯片(如 NVIDIA H100 GPU 等)面積正在接近光刻面積極限。同時,單芯片良率隨面積增長快速下降,在高成本的先進(jìn)工藝下,該問題更加具有挑戰(zhàn)性。集成芯片能夠通過多顆芯粒與基板的 2.5D/3D 集成,突破單芯片光刻面積的限制和成品率隨面積下降的問題,成為進(jìn)一步提升芯片性能的可行路徑。另外一方面,集成芯片技術(shù)是一條不單純依賴尺寸微縮路線提升芯片性能的重要途徑,在短期內(nèi)難以突破自主 EUV 光刻機(jī)和先進(jìn)節(jié)點制造工藝的情況下,可以提供一條利用自主低世代集成電路工藝實現(xiàn)跨越 1-2 個工藝節(jié)點的高端芯片性能的技術(shù)路線。
集成芯片這一第三條路徑與尺寸微縮、新原理器件的前兩條路徑并不互斥。三條路徑分別從不同的維度提升芯片性能,并能夠相輔相成。集成芯片能夠根據(jù)應(yīng)用的性能、功耗、成本等需求進(jìn)行合理的功能劃分,最優(yōu)化各個芯粒的工藝節(jié)點。尺寸微縮路徑為集成芯片中單個芯粒的性能提升和芯粒間互連帶寬的提升提供了一個重要的設(shè)計維度;在制造工藝較為成熟之后,基于新原理器件的特定功能芯粒也可以引入到集成芯片中,為進(jìn)一步的性能和功能提升提供發(fā)展驅(qū)動力。
2.3 集成芯片將引導(dǎo)集成電路設(shè)計的新范式
系統(tǒng)工程學(xué)中,即使元器件性能相對落后,通過復(fù)雜系統(tǒng)跨學(xué)科優(yōu)化,也可以實現(xiàn)高性能系統(tǒng),或者反過來“如果一個一個局部構(gòu)件彼此不協(xié)調(diào),那么,即使這些構(gòu)件的設(shè)計和制造從局部看是很先進(jìn)的,但這部機(jī)器的總體性能還是不合格的”。集成芯片采用系統(tǒng)工程學(xué)的原理,發(fā)展自上而下構(gòu)造法的集成電路設(shè)計新范式。自上而下意味著芯片結(jié)構(gòu)適配應(yīng)用特征,自上而下采用“分解 - 組合 - 集成”的方法。根據(jù)應(yīng)用特征,抽象分解成若干標(biāo)準(zhǔn)的芯粒預(yù)制件,將眾多芯粒預(yù)制件,按照結(jié)構(gòu)組合成不同應(yīng)用領(lǐng)域的芯片,將芯片制造分解為芯粒預(yù)制件的制造和多芯粒集成。下例展示了處理器芯片采用集成芯片范式后的新流程:
圖 2.5 自上而下的“分解 - 組合 - 集成”設(shè)計范式在處理器芯片上的示例
集成芯片將帶來基于芯粒復(fù)用的芯片敏捷設(shè)計方法。未來,芯片的發(fā)展需要應(yīng)對物端計算系統(tǒng)碎片化,多樣性的挑戰(zhàn) [11];同時,每個芯片對應(yīng)的市場都較小,難以實現(xiàn)如 PC、手機(jī)芯片大的出貨量,這個矛盾現(xiàn)象也被稱為“昆蟲綱悖論”——系統(tǒng)個性化和通用性的矛盾 [12]。隨著芯片制程的不斷微縮,基于越先進(jìn)的工藝制程來設(shè)計物端芯片面臨的復(fù)雜度和設(shè)計成本將進(jìn)一步加劇上述問題。現(xiàn)有的物端芯片的設(shè)計方法,是將大量第三方 IP 與專有 IP 整合形成 SoC,并在采用同一個制程工藝進(jìn)行制造。典型的 IP 包括 CPU、模擬傳感器、存儲器、加速器、接口驅(qū)動等。上述在一個單芯片上集成的方案在設(shè)計復(fù)雜度和商業(yè)成本上難以解決昆蟲綱悖論。
集成芯片技術(shù)為解決昆蟲綱悖論提供了一條新思路。除了具有核心優(yōu)勢的專用“芯粒”外,集成芯片設(shè)計廠商可以選擇第三方的“芯粒” 預(yù)制件形式提供的 IP,通過半導(dǎo)體集成工藝將芯粒在一個封裝體內(nèi)相連接。上述方案能夠降低芯片設(shè)計難度,提升靈活性和效率,適應(yīng)各種碎片化應(yīng)用場景。商業(yè)上,上述方案僅對芯粒預(yù)制件的出貨量提出需求,如 CPU,藍(lán)牙 /Wifi 模組等核心模塊,可以大大降低商業(yè)成本,并規(guī)避單一芯片廠商可能造成的壟斷風(fēng)險。集成芯片為碎片化的萬物智能、萬物互連的人機(jī)物三元融合時代提供一種新的設(shè)計范式。
圖 2.6 集成芯片設(shè)計新范式
2.4 集成芯片的現(xiàn)狀和趨勢
最早的集成芯片原型是由臺積電與美國賽靈思(Xilinx)公司共同完成的一款大容量 FPGA 芯片V7200T,它將四個大規(guī)模的 FPGA 芯粒在一塊硅基板(Interposer)上連接在一起,形成一個超過2000 個可編程邏輯門的系統(tǒng)。借助這一芯片的開發(fā),臺積電也完成了基于半導(dǎo)體工藝的芯片互連封裝技術(shù),稱為 Chip-on-Wafer-on-Substrate(CoWoS)。目前這一技術(shù)作為 2.5D 集成芯片的代表性工藝,廣泛的應(yīng)用于高性能處理器芯片產(chǎn)品中。第一個采用 CoWoS 技術(shù)的處理器集成芯片是英偉達(dá)公司的 GP100 GPU 芯片,它的結(jié)構(gòu)是通過 CoWoS 工藝將 GPU 芯粒和多個 HBM 芯粒在一個封裝體內(nèi)集成,最大化處理器與存儲之間的通信帶寬,硅基板尺寸超過 1 個光罩(858mm²)。我國華為海思公司設(shè)計的昇騰 910 芯片 [3],也是基于這一技術(shù)將 3 種、6 個芯粒的集成,實現(xiàn)了高算力的人工智能處理器。
圖 2.7 集成芯片朝向更多數(shù)量和種類的大規(guī)模方向
近年來,隨著 TSV、銅 - 銅混合鍵合等工藝的成熟,3D 集成芯片成為了高性能處理器領(lǐng)域新的發(fā)展趨勢。美國 AMD 和 Intel 公司均基于 3D 集成芯片技術(shù),設(shè)計了面向超算的高性能超算處理器芯片。上述產(chǎn)品將將 6-8 種,超過 20 個芯粒的芯粒集成在一個系統(tǒng)中,最終實現(xiàn)了更大規(guī)模(千億以上規(guī)模數(shù)量級晶體管)、更復(fù)雜的集成。在 2.5D 集成上,基于重分布層(Re-Distribution Layer)的扇出工藝(FanOut)可以實現(xiàn)更大規(guī)模的芯粒集成,美國 Tesla 公司基于 FanOut 工藝開發(fā)面向人工智能的訓(xùn)練處理器集成芯片 DOJO,RDL 基板的總面積達(dá)到 20000mm²,包含 25 個 D1 多核處理器芯粒和光電融合的通信芯粒。
我國研發(fā)機(jī)構(gòu)在高集成度上取得了進(jìn)展。比較有代表性的包含,2022 年中科院計算所智能計算機(jī)中心和之江實驗室聯(lián)合開發(fā)了“之江大芯片一號”,該芯片成果集成了 16 個芯粒,每個芯粒含 16個 CPU 核,無論是集成的芯粒數(shù)和體系結(jié)構(gòu)上的計算核心數(shù),都實現(xiàn)了突破,從體系架構(gòu)和設(shè)計方法學(xué)上,驗證了利用集成芯片突破單處理器芯片的算力極限技術(shù)途徑。目前,正在開展“之江大芯片二號”的工作,集成度和性能將進(jìn)一步提升。2022 年,復(fù)旦大學(xué)集成芯片與系統(tǒng)全國重點實驗室基于集成扇出封裝工藝實現(xiàn)了存算一體 2.5D 芯片,采用片間按層流水的可擴(kuò)展架構(gòu)實現(xiàn)了系統(tǒng)算力與存儲規(guī)模的按芯粒比例的線性增長,避免了“一系統(tǒng)一設(shè)計”的高復(fù)雜度問題。此外,阿里達(dá)摩院聯(lián)合紫光國芯研發(fā)基于 3D 混合鍵合工藝的智能加速器 -DRAM 堆疊集成芯片,豪威科技的采用三層堆疊工藝將圖像傳感器芯粒、模擬讀出電路芯粒、圖像信號處理與 AI 芯粒集成為一個組件,面向像素的不斷提升,最小化芯粒間的通信開銷。
圖 2.8 (a) 之江大芯片 1 號;(2)存算一體 2.5D 芯片
集成芯片中,由于每個芯粒由不同的單位設(shè)計,因此接口的標(biāo)準(zhǔn)化是系統(tǒng)能夠高效率組合的關(guān)鍵因素。在 Intel 的主導(dǎo)下,2022 年 3 月,通用高速接口聯(lián)盟(Universal Chiplet Interconnect Express,UCIe)正式成立,旨在構(gòu)建芯粒技術(shù)在芯片上的互聯(lián)標(biāo)準(zhǔn)。在我國,中國計算機(jī)互連技術(shù)聯(lián)盟的《小芯片接口總線技術(shù)要求》和中關(guān)村高性能芯片互聯(lián)技術(shù)聯(lián)盟的《芯粒互聯(lián)接口規(guī)范》等接口規(guī)范也已公布。
3、集成芯片的架構(gòu)與電路設(shè)計
3.1 從集成芯片到芯粒:分解與組合的難題
集成芯片采用了“分解 - 組合 - 集成”的新設(shè)計范式。“分解”是指根據(jù)不同應(yīng)用的特征,抽象出若干標(biāo)準(zhǔn)的芯粒預(yù)制件;“組合”指將眾多的芯粒預(yù)制構(gòu)件按照某種結(jié)構(gòu)組合設(shè)計成不同應(yīng)用領(lǐng)域所需要的專用芯片和系統(tǒng)。根據(jù)目標(biāo)應(yīng)用,構(gòu)建最優(yōu)的芯粒分解 - 組合設(shè)計方法是重要的技術(shù)難題。
( 一 ) 芯粒分解研究
出于成本、安全性、系統(tǒng)性能等多重因素的考量,學(xué)術(shù)界和工業(yè)界持續(xù)關(guān)注芯粒分解技術(shù)。
成本因素。摩爾定律的放緩與日益增長的性能需求導(dǎo)致芯片面積日益增長。這不僅引發(fā)了芯片良率的下降,還降低了晶圓的利用率,拉高了芯片的制造成本。學(xué)術(shù)界對芯粒系統(tǒng)的成本進(jìn)行了分析建模,它由 RE 成本(Recurring Engineering Cost)與 NRE 成本(Non-Recurring Engineering Cost)構(gòu)成。RE 成本是每片芯片制造都要支付的成本,包括晶圓、封裝、測試的成本等。NRE 成本指研發(fā)、制造芯片產(chǎn)品時所支付的一次性費用,包括人力成本、IP 授權(quán)費用、光罩成本等。UCSB 提出的模型表明 RE 成本受到芯粒工藝、系統(tǒng)規(guī)模、封裝良率等多重因素的影響 [18]。清華大學(xué)的模型 [19] 將 NRE 成本表示為系統(tǒng)總體、各個芯粒、芯粒中包含模塊的 NRE 成本之和。
圖3.1 芯粒的分解與組合
安全性因素。Fabless 的模式帶來了諸如版圖泄露、硬件木馬植入等安全風(fēng)險。分離制造 [15] 通過將芯片分為多個部件分別交于不同的晶圓廠,使晶圓廠無法獲得芯片的全部信息,來保護(hù)信息不被泄露。而基于分解的芯粒技術(shù)天然地具有分離制造的特性,并且相較于傳統(tǒng)的基于金屬層過孔的分離制造方法,芯粒使用標(biāo)準(zhǔn)的片間通信接口,在工藝上降低了封裝的難度。
此外,芯粒分解需要從系統(tǒng)角度綜合考慮。芯粒分解雖然能夠降低成本、提高芯片良率和安全性,但是會引入芯粒間通信的功耗、性能開銷以及額外面積開銷。因此,芯粒分解不能僅關(guān)注單個芯粒構(gòu)件的設(shè)計,需要對整條產(chǎn)品線進(jìn)行分析,以發(fā)掘芯粒在多個產(chǎn)品中的復(fù)用機(jī)會。工業(yè)界目前已經(jīng)出現(xiàn)多個將復(fù)雜功能芯片分解為多個芯粒構(gòu)件的工作:AMD 在第二代 EPYC 架構(gòu)中將計算與 IO 部分拆分為不同的芯粒 [7];海思基于 LEGO 理念,將 SoC 分解為 CPU 計算、計算 I/O、AI 計算等少量的芯粒,并利用它們組合出多種產(chǎn)品 [8];Intel 也將芯粒技術(shù)應(yīng)用到了 FPGA、CPU、GPU 等產(chǎn)品上,其中 Ponte Vecchio GPU 被分解為計算、存儲、通信等芯粒,數(shù)量高達(dá) 47 塊 [9]。
現(xiàn)有的芯粒分解方案往往依賴于設(shè)計人員的經(jīng)驗,這種手工的分解方式難以窮盡所有的設(shè)計空間,產(chǎn)生的效益、開銷也往往不是最優(yōu)的 [20]。因此,當(dāng)前亟需自動化芯粒分解技術(shù)。目前已有一些簡單的劃分策略,如將設(shè)計拆分為多個相同芯粒的均勻劃分方式 [18],與基于最小割算法的均衡劃分方式[21]。這些技術(shù)缺乏對成本、性能、功耗的綜合優(yōu)化,也沒有在多個硬件設(shè)計中尋找可重用芯粒的能力。
( 二 ) 芯粒組合研究
芯粒組合過程中,設(shè)計人員根據(jù)用戶輸入的應(yīng)用與優(yōu)化目標(biāo),從芯粒庫中選出最優(yōu)芯粒并組合。工業(yè)界和學(xué)術(shù)界對這一問題也開展了探索:zGlue[22] 提供了包含 MCU、傳感器等芯粒的庫,用戶可以根據(jù)自己的需求手動地選擇集成的芯粒;海思利用 CPU 芯粒 +I/O 芯粒組合出服務(wù)器所需的芯片,利用 AI 計算芯粒 + 計算 /IO 芯粒組合出針對 AI 訓(xùn)練的芯片 [8];通過使用不同數(shù)量的 CPU 計算芯粒,AMD 組合出了包含不同核數(shù)的服務(wù)器芯片 [7]。由于缺乏統(tǒng)一的接口標(biāo)準(zhǔn),目前工業(yè)界的實踐主要為in-house 芯粒的組合。
現(xiàn)有的芯粒組合方案 [8][9] 往往是手動設(shè)計的,集成效率低且缺乏深層優(yōu)化,這也催生了自動化芯粒組合的研究。UCLA 提出了面向處理器的芯粒組合框架 [23],用以尋找針對多個應(yīng)用負(fù)載的最優(yōu)芯粒系統(tǒng)集合,其優(yōu)化目標(biāo)為系統(tǒng)功耗、性能、成本等。計算所提出了一套敏捷芯粒集成框架 [24],可以自動根據(jù)用戶輸入的應(yīng)用描述,從芯粒庫中選擇出性能、面積、成本等指標(biāo)最優(yōu)的芯粒組合,并且完成應(yīng)用任務(wù)在芯粒上的映射。無論是面向通用應(yīng)用的多 CPU 芯粒 [7] 與多 GPU 芯粒 [25] 的組合,還是面向?qū)S妙I(lǐng)域的芯粒組合,均可以通過集成不同數(shù)量的芯粒來獲得不同性能的系統(tǒng)。如圖 3.2 所示,面向 AI 領(lǐng)域的 Simba[27] 系統(tǒng)以被靈活拓展,形成適用于各個場景的產(chǎn)品,也有學(xué)者提出了能搜索針對單個應(yīng)用和多個特定應(yīng)用的芯粒組合框架 [23][24]。
圖 3.2 AI 系統(tǒng)性能與芯粒數(shù)量組合的關(guān)系 [27]
無論是芯粒分解還是芯粒組合,都是復(fù)雜的優(yōu)化問題,依靠人力難以應(yīng)對龐大的搜索空間,這也給予了設(shè)計自動化工具和大規(guī)模集成芯片仿真器新的機(jī)遇。在芯粒時代,我們需要更高效的 EDA 工具來更進(jìn)一步地優(yōu)化系統(tǒng)成本,降低集成開銷,促進(jìn)芯粒生態(tài)繁榮。
3.2 芯粒間互連網(wǎng)絡(luò)
與片上網(wǎng)絡(luò)(Network-on-Chihp)相對應(yīng),基板上網(wǎng)絡(luò)(Network-on-Interposer)實現(xiàn)芯粒間互連互通,作為各處理單元間的數(shù)據(jù)傳輸基礎(chǔ)設(shè)施,是影響數(shù)據(jù)通信性能和功耗的關(guān)鍵,包含互連拓?fù)洹⒙酚珊腿蒎e機(jī)制三個關(guān)鍵技術(shù)。
(一) 互連拓?fù)?/span>
從互連網(wǎng)絡(luò)的通信效率進(jìn)行考慮,網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)從固定、簡單的通用拓?fù)浣Y(jié)構(gòu)演進(jìn)到不規(guī)則和可重構(gòu)拓?fù)浣Y(jié)構(gòu),以適配不同的應(yīng)用數(shù)據(jù)傳輸需求。通用互連網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)設(shè)計簡便,適用于多種數(shù)據(jù)通信場景。但是通用性和性能互為制約,通用拓?fù)浣Y(jié)構(gòu)設(shè)計并不能提供最高的通信效率。因此,不規(guī)則和可重構(gòu)的互連拓?fù)浣Y(jié)構(gòu)以降低通用性為代價,提供了更高性能的互連解決方案。
網(wǎng)格(Mesh)以及環(huán)形曲面(Torus)等基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu),由于其結(jié)構(gòu)簡單規(guī)則,是芯粒間網(wǎng)絡(luò)中最為廣泛使用的通用拓?fù)洌湫屯負(fù)渚W(wǎng)格結(jié)構(gòu)如圖 3.3 所示。采用通用拓?fù)錁?gòu)成互連網(wǎng)絡(luò)的有NVIDIA 的 Simba[27] ,其芯粒內(nèi)與芯粒間均采用了網(wǎng)格型拓?fù)洌珻onical-Fishbone 時鐘域網(wǎng)絡(luò)中使用的無緩沖網(wǎng)格拓?fù)洹CM-3D-NoC[29] 架構(gòu)基于有源基板,芯粒間采用芯粒堆疊互連的三維(3D)堆疊拓?fù)浣Y(jié)構(gòu)。此外,POPSTAR[30][31] 基于光電連接的芯粒間環(huán)形(Ring)結(jié)構(gòu),以及無緩沖多環(huán)(Multi-Ring)結(jié)構(gòu) [32] 屬于通用拓?fù)洹?/span>
圖 3.3 典型的拓?fù)渚W(wǎng)絡(luò) [35][43]
當(dāng)網(wǎng)絡(luò)流量不均衡或動態(tài)變化,通用、規(guī)則的拓?fù)浣Y(jié)構(gòu)無法適配當(dāng)前流量需求將導(dǎo)致?lián)砣灰?guī)則拓?fù)浣Y(jié)構(gòu)則可以根據(jù)相應(yīng)流量特征優(yōu)化網(wǎng)絡(luò)鏈路或結(jié)構(gòu),以獲得更高性能。Kite 拓?fù)湎盗?[35]基于基板上網(wǎng)絡(luò)(Network-on-Interposer)和片上網(wǎng)絡(luò)(NoC)的頻率異質(zhì)性,在頻率限制下最大化有效鏈長,減少跳數(shù)降低延遲,提高網(wǎng)絡(luò)吞吐量。與常見通用拓?fù)浣Y(jié)構(gòu)相比,Kite 拓?fù)浣Y(jié)構(gòu)中使用了更多不同長度和不同方向的鏈路,提高通信效率。此外,除有線鏈路的不規(guī)則設(shè)計外,也有一些設(shè)計方案基于多芯粒無線接口互連技術(shù) [36][37][38],支持芯粒間多方式互連,可實現(xiàn)多種不規(guī)則網(wǎng)絡(luò)拓?fù)洹?/span>
不規(guī)則拓?fù)浣Y(jié)構(gòu)針對應(yīng)用的通信流量需求進(jìn)行了優(yōu)化,然而不同應(yīng)用的流量特征差異極大且存在動態(tài)時變特征,因此出現(xiàn)了能夠根據(jù)應(yīng)用流量動態(tài)變化的可重構(gòu)拓?fù)浣Y(jié)構(gòu),動態(tài)地根據(jù)應(yīng)用需求進(jìn)行重配置。Adapt-NoC[39] 架構(gòu)采用 SMART[40] 構(gòu)建自適應(yīng)芯粒路由,可重構(gòu)鏈路設(shè)計 [41] 在有源基板中連接子網(wǎng)絡(luò),并且動態(tài)分配鏈路帶寬以提高網(wǎng)絡(luò)吞吐量,采用 Panthre[42] 技術(shù)進(jìn)行網(wǎng)絡(luò)拓?fù)渲嘏渲茫瑢⒕W(wǎng)絡(luò)劃分為多個子網(wǎng)絡(luò),使每個子網(wǎng)絡(luò)可以根據(jù)通信需求提供不同的網(wǎng)絡(luò)拓?fù)洹V锌圃河嬎闼岢隽丝芍貥?gòu)基板網(wǎng)絡(luò)(NoI)設(shè)計方法 [43] 基于胖樹生成適應(yīng)各種分布式訓(xùn)練模式的拓?fù)洌蛇m應(yīng)各種神經(jīng)網(wǎng)絡(luò)應(yīng)用,特別采用了環(huán)和樹結(jié)合的拓?fù)浣Y(jié)構(gòu)適用于數(shù)據(jù)并行中的數(shù)據(jù)交換。
可重構(gòu)拓?fù)湓试S根據(jù)應(yīng)用數(shù)據(jù)傳輸需求進(jìn)行動態(tài)配置和調(diào)整,提供了高靈活性、高適應(yīng)性、高性能的解決方案。然而,如何實現(xiàn)更大規(guī)模的動態(tài)可重構(gòu)互連拓?fù)浣Y(jié)構(gòu)設(shè)計和容錯機(jī)制,并實現(xiàn)互連架構(gòu)的準(zhǔn)確性能評估,仍是芯粒間互連網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)設(shè)計的重要挑戰(zhàn)。
(二) 路由
路由算法是影響集成系統(tǒng)通信開銷的另一重要因素,其決定了數(shù)據(jù)傳輸?shù)穆窂介L度和可靠性。為了能夠適配多種復(fù)雜的互連網(wǎng)絡(luò)方案,同時考慮芯粒互連集成設(shè)計方案的立體化趨勢,需要面向芯粒集成的系統(tǒng)特性進(jìn)行路由算法設(shè)計。
芯粒集成系統(tǒng)的路由算法需要滿足以下特性:1)拓?fù)錈o關(guān)性,路由算法應(yīng)該能夠適用于通用和不規(guī)則的拓?fù)浣Y(jié)構(gòu),而不僅限于特定的拓?fù)洹_@樣可以適應(yīng)不同芯粒集成方案中可能存在的多樣化互連網(wǎng)絡(luò)拓?fù)洹?)完全可達(dá)性,若源和目的地之間存在路徑,路由算法應(yīng)該始終能夠找到該條可行的路徑。即使是復(fù)雜的垂直堆疊和基板互連結(jié)構(gòu),路由算法也應(yīng)確保算法能夠指出能夠從源芯粒傳輸?shù)侥康男玖5目尚新窂健?)故障獨立性,路由算法需要具備對節(jié)點或鏈路故障的容錯能力。當(dāng)發(fā)生故障時,路由算法應(yīng)該能夠重新計算路徑,繞過故障節(jié)點或鏈路,保證數(shù)據(jù)傳輸?shù)目煽啃院瓦B通性。4)可擴(kuò)展性,路由算法引入的開銷應(yīng)是獨立的,或者僅隨著網(wǎng)絡(luò)規(guī)模的變化而變化。無論系統(tǒng)中有多少個芯粒或多復(fù)雜的堆疊結(jié)構(gòu),路由算法都應(yīng)該能夠高效地處理通信需求,而不會導(dǎo)致性能下降或通信開銷過大。
在設(shè)計面向芯粒集成的系統(tǒng)的路由算法時,需要根據(jù)具體的集成方案和系統(tǒng)需求進(jìn)行算法的優(yōu)化和定制,這樣可以實現(xiàn)高效可靠的數(shù)據(jù)傳輸,適應(yīng)復(fù)雜的互連網(wǎng)絡(luò)結(jié)構(gòu),并充分發(fā)揮芯粒集成技術(shù)的優(yōu)勢。
(三) 容錯機(jī)制
在面向芯粒集成的互連網(wǎng)絡(luò)設(shè)計中,考慮到單個芯粒內(nèi)集成了更高數(shù)量級的晶體管和先進(jìn)制程的不完善,因此故障率相對較高。為了應(yīng)對永久性故障帶來的系統(tǒng)性能損失,可以采取以下優(yōu)化措施提升系統(tǒng)的容錯性能:容錯拓?fù)湓O(shè)計和容錯路由。
容錯拓?fù)涫侵冈谛玖ig的互連設(shè)計中,通過采用能夠容忍故障和提供冗余路徑的結(jié)構(gòu)布局方式,提升系統(tǒng)的容錯性能。容錯拓?fù)淇梢圆扇∫韵虏呗裕海?)冗余網(wǎng)絡(luò)。使用多條路徑建立芯粒之間的通信連接,如果某條路徑發(fā)生故障,可以通過其他路徑進(jìn)行通信,保證數(shù)據(jù)傳輸?shù)目煽啃院瓦B通性。(2)高連接性網(wǎng)絡(luò)。高連接性網(wǎng)絡(luò)的目標(biāo)是確保大多數(shù)節(jié)點具有較高的節(jié)點基數(shù),從而為網(wǎng)絡(luò)提供路徑多樣性,并以此增強(qiáng)系統(tǒng)的容錯能力,對于次要節(jié)點,可以適當(dāng)?shù)慕档凸?jié)點基數(shù)以減小硬件開銷。
容錯路由是指在芯粒間的互連設(shè)計中,通過設(shè)計能夠應(yīng)對永久性故障導(dǎo)致的網(wǎng)絡(luò)變化的路由算法,提升系統(tǒng)的容錯性能。當(dāng)網(wǎng)絡(luò)中出現(xiàn)錯誤時,路由算法需要具備適應(yīng)網(wǎng)絡(luò)變化的能力,并自適應(yīng)的執(zhí)行不同的路由策略以繞過或避免故障區(qū)域的通信,這也是容錯路由的重要研究方向。為了提升錯誤處理能力,容錯路由算法可以采取以下策略:(1)動態(tài)路徑選擇。路由算法可以根據(jù)實時的網(wǎng)絡(luò)狀態(tài)和錯誤信息,動態(tài)選擇最佳路徑來繞過故障區(qū)域。這可以通過監(jiān)測鏈路狀態(tài)、節(jié)點負(fù)載、延遲等指標(biāo)來實現(xiàn)。路由算法可以基于這些信息做出即時的路由決策,將數(shù)據(jù)流量導(dǎo)向可用的路徑。(2)基于負(fù)載均衡的路由。當(dāng)網(wǎng)絡(luò)中出現(xiàn)故障時,路由算法可以考慮負(fù)載均衡策略來選擇路徑。它可以根據(jù)節(jié)點的負(fù)載狀況,選擇相對較空閑的路徑進(jìn)行通信,以避免將更多的流量導(dǎo)向已經(jīng)過載或故障的區(qū)域。國內(nèi)中科院計算所早期在研究 3D TSV 設(shè)計時,針對 TSV 提出了復(fù)用容錯的技術(shù)思路 [44]和容錯 NOC 設(shè)計 [50],清華大學(xué)、合肥工業(yè)大學(xué)等也有相關(guān)研究 [51][52]。
3.3 芯粒互連的接口協(xié)議
現(xiàn)有面向芯粒的接口協(xié)議主要分為兩類:物理層接口協(xié)議和完整的協(xié)議棧。大多數(shù)物理層接口協(xié)議或標(biāo)準(zhǔn)主要關(guān)注引腳定義、電氣特性、bump map 等基礎(chǔ)特性,可以保證數(shù)據(jù)比特流的點對點傳輸。在此基礎(chǔ)上,協(xié)議棧對路由方式、數(shù)據(jù)結(jié)構(gòu)、可靠傳輸機(jī)制、一致性、流量控制等做了更詳細(xì)的規(guī)定,一般可以建立端到端的可靠數(shù)據(jù)傳輸。
(一) 物理層
美國英特爾公司率先提出了 AIB (Advanced Interface Bus),用于規(guī)范芯粒間互連的物理層協(xié)議,可適應(yīng)不同制造和封裝工藝 [45]。一個 AIB 接口由一個或多個 AIB 通道組成,每個通道包含 20-640根數(shù)據(jù)線,兩對差分時鐘以及用于初始化的邊帶信號。AIB 在單線極大的數(shù)據(jù)速率下,以擴(kuò)展位寬的方式獲得高帶寬。此外,AIB 可以通過啟用冗余的 bump 來規(guī)避封裝缺陷,以此來實現(xiàn)一定程度的容錯功能。
由 Facebook、AMD 等企業(yè)共同發(fā)起的 ODSA(Open Domain-Specific Architecture)聯(lián)盟提出了 BoW(Bunch of Wires)并行接口協(xié)議,BoW 的模塊化的接口可對應(yīng)標(biāo)準(zhǔn)封裝和先進(jìn)封裝工藝 [46]。每個 BoW 模塊包括 16 根數(shù)據(jù)線和一對差分時鐘,BoW 復(fù)用主數(shù)據(jù)通路進(jìn)行參數(shù)協(xié)商和初始化,無專用的邊帶信號。在 14nm 工藝下,Bow 以 16Gbps/wire 的傳輸速率以及 50mm 線長,可達(dá)到 0.7pj/bit 的較低功耗,誤碼率為 1E-15。
與上述面向通用數(shù)據(jù)連接的接口不同,HBM(High Bandwidth Memory) 接口是 JEDEC(Joint Electron Device Engineering Council) 定義,專門用于連接 HBM 內(nèi)存的并行總線接口 [47]。最新的HBM3 最多支持 16 個獨立通道,每個通道的數(shù)據(jù)位寬為 64,包含 10 位行地址線和 8 位列地址線,最高數(shù)據(jù)速率為 6.4Gbps。此外,HBM 支持通過 4 位 ECC 進(jìn)行糾錯。
此外,盡管 Chiplet 物理接口大多走的是并行化方向,但追求高速率的 Serdes 接口依靠著更高的帶寬密度受到關(guān)注。USR(Ultra-Short-Reach)是一種主要面向chiplet片間互聯(lián)的Serdes接口[48],可以使用單端信號或差分信號進(jìn)行數(shù)據(jù)傳輸,在 20Gb/s 的傳輸速率下能夠達(dá)到 0.6pj/bit 的功耗,相比于普通的 Serdes 接口有著很大優(yōu)勢。然而,相比于寬度更大的并行接口,USR 在帶寬上存在劣勢。
隨著 3D 封裝的進(jìn)展,單獨支持 2.5D 的互連已經(jīng)無法滿足需求。因此,臺積電提出了兼容 2.5D和 3D 的高能效 LIPINCON (Low-voltage-in-package-inter- connect) 互連接口協(xié)議 [49]。其可在0.8V 的電壓和 0.3V 的電壓擺幅下實現(xiàn) 0.84UI 的眼寬和 75% 擺幅的眼高,而其 256 的數(shù)據(jù)位寬和8Gbps/wire 的數(shù)據(jù)速率有待提升。
(二) 協(xié)議棧
芯粒間的數(shù)據(jù)傳輸有許多重要的功能需求,如對核間數(shù)據(jù)通信業(yè)務(wù)邏輯的詳細(xì)規(guī)定、數(shù)據(jù)傳輸可靠性、緩存一致性、路由策略等。而物理層協(xié)議僅能保證通信雙方物理電氣特性上的互聯(lián)互通,因此,構(gòu)建完整的上層協(xié)議對芯粒接口至關(guān)重要。
ODSA 首先注意到了完整協(xié)議棧的重要性,并于 2021 年提出了一種面向芯粒互連的協(xié)議架構(gòu),該架構(gòu)由協(xié)議層、鏈路層和物理層構(gòu)成。其中,物理層方案為 BoW 接口,建議在協(xié)議層復(fù)用現(xiàn)有協(xié)議,鏈路層通過 CRC 校驗和重傳機(jī)制實現(xiàn)可靠傳輸?shù)幕舅悸贰?/span>
圖 3.11 UCIe 層級與功能
2022 年,UCIe(Universal Chiplet Interconnect Express)聯(lián)盟公布了 UCIe 協(xié)議。與 ODSA 的架構(gòu)類似,UCIe 由協(xié)議層、片間適配層和物理層構(gòu)成。UCIe 協(xié)議層沿用成熟的 PCIe 和 CXL 協(xié)議以實現(xiàn)對現(xiàn)有生態(tài)的最大兼容,片間適配層則利用 CRC 校驗以及重傳機(jī)制保證數(shù)據(jù)傳輸?shù)目煽啃浴CIe 在物理層采用 AIB 接口,在電氣特性上具有廣泛兼容性的同時,可實現(xiàn)物理通道損壞的自動檢測和通道重映射等功能。UCIe 是 chiplet 完整協(xié)議棧的典型代表,其物理層的模塊化設(shè)計、容錯功能、以及鏈路層的校驗重傳機(jī)制契合 chiplet 應(yīng)用場景。因此,設(shè)計全新的上層協(xié)議——既定義面向chiplet 間數(shù)據(jù)傳輸?shù)臉I(yè)務(wù)邏輯或許是以后 chiplet 接口協(xié)議發(fā)展的重點。
在國內(nèi),由中科院計算所牽頭的團(tuán)標(biāo) T/CESA 1248—2023 是中國電子工業(yè)標(biāo)準(zhǔn)化技術(shù)協(xié)會于2023 年發(fā)布的面向 chiplet 的接口協(xié)議棧,由協(xié)議層、鏈路層和物理層組成。T/CESA 1248 的層次結(jié)構(gòu)和功能劃分與 UCIe 類似,既協(xié)議層使用 PCIe 和 CXL 實現(xiàn)業(yè)務(wù)邏輯,鏈路層實現(xiàn)可靠傳輸,物理層規(guī)定物理電氣特性等。T/CESA 1248 是國內(nèi)最早的面向芯粒接口的互聯(lián)標(biāo)準(zhǔn)。
當(dāng)前面向芯粒的接口標(biāo)準(zhǔn)以并行接口為主,且強(qiáng)調(diào)物理接口的模塊化,可以充分利用先進(jìn)封裝的高互連密度特性并最大化接口帶寬。此外 AIB、BOW、HBM、UCIe 等主要接口協(xié)議均采用大寬度單端數(shù)據(jù) + 隨路時鐘的方案,僅 USR 等少部分協(xié)議采用高速串行數(shù)據(jù) + 時鐘恢復(fù)方案。在芯粒技術(shù)帶來的芯片設(shè)計積木化、敏捷化與定制化的場景下,芯粒互聯(lián)協(xié)議需與廠商、架構(gòu)、制造工藝解耦,擁有廣泛的兼容性與開放性,才能適應(yīng)芯粒異構(gòu)互聯(lián)、跨廠商互聯(lián)的實際需求。
3.4 芯粒間的高速接口電路
芯粒間通信是基于高速接口電路完成的 , 它和傳統(tǒng)的 PCB 級高速鏈路之間有一些相似之處,但也存在著關(guān)鍵的區(qū)別:1)超短距離:在一個封裝體內(nèi),芯粒間互連距離通常小于 1 厘米,甚至可以小于 1 毫米,信道的損耗迅速降低,更利于高帶寬設(shè)計;2)高密度:采用半導(dǎo)體制造工藝(光刻、蝕刻),芯粒間互連線間距可以在微米級,在單位面積下可以更高并行度;3)低功耗與低延遲:芯片粒間互連重點關(guān)注功耗效率、延遲和性能優(yōu)化進(jìn)行。
芯粒間的高速接口電路包括以下幾類:1)面向 2.5D/3D 集成工藝的有線(Wireline)并行通信接口;2)基于電感耦合的無線互連通信接口;3)高帶寬光電互連接口。
并行互連接口技術(shù)通過大量信道同時進(jìn)行并行傳輸,以達(dá)到 Tbps 級別的傳輸帶寬。因此,它不追求單線絕對速率與帶寬,在 UCIe/AIB 等協(xié)議中,每根線的傳輸速率也僅為 32Gbps。實際設(shè)計中,芯片設(shè)計企業(yè)可以根據(jù)系統(tǒng)要求設(shè)計信道并行數(shù)量和單線速率。因此可以在不使用連續(xù)時間線性均衡器(CTLE)、時鐘數(shù)據(jù)恢復(fù)電路(CDR)等大功耗模擬電路模塊的情況下實現(xiàn)信號的傳輸。并行電路的時鐘信號可以通過獨立的信道進(jìn)行傳輸,同時利用數(shù)控延時單元(DCDL)、相位插值器(PI)和占空比調(diào)節(jié)器(DCC)來實現(xiàn)數(shù)據(jù)和時鐘信號的校準(zhǔn),這些電路的結(jié)構(gòu)相對簡單,由于多個數(shù)據(jù)信道可以共用一組時鐘線,因此對整個收發(fā)電路的面積影響也較小。相較于傳統(tǒng)串行接口,并行互聯(lián)具有能效高(<1 pJ/bit)、延遲低、設(shè)計簡單的優(yōu)點,能夠?qū)崿F(xiàn)更高的集成芯片互聯(lián)密度和更高效的芯粒間互聯(lián)。
無線互連接口也是芯粒間互聯(lián)的一種解決方案。它的優(yōu)勢是不依賴先進(jìn)封裝工藝特別是 TSV,可以完全兼容現(xiàn)有的 CMOS 工藝。其互連是通過芯粒間電感耦合實現(xiàn)的。基于電感的互連接口在兩個芯粒上各放置一個線圈,通過線圈間的電磁耦合傳遞無線信號,如圖 3.12 所示。但是考慮到在電感的面積,無線互連的能效和速率方面相對于有線互連方案并無優(yōu)勢。此外,無線互連只適用于 3D的封裝堆疊方式,不適用于 2.5D 等其它形式的集成芯片。
光互連接口是更前瞻的芯粒間的接口方案,它通過集成在硅晶圓上的八波長分布式反饋(DFB)激光器陣列和光波導(dǎo),可以實現(xiàn)單線低功耗、高性能、太比特每秒(TBps)的互連速率,較電互連高出一個數(shù)量級。但是在芯粒種實現(xiàn)光互連還需解決很多問題,比如集成激光器陣列如何縮小體積、降低成本、如何兼容現(xiàn)有 CMOS 工藝,完成異質(zhì)封裝。
圖 3.12 基于 (a) 電容耦合 (b) 電感耦合的芯粒間無線互聯(lián)方式
在芯粒互連的高速接口上,仍然存在這多個科學(xué)問題,如突破功耗瓶頸的新電路,兼容不同信道的可重構(gòu)收發(fā)機(jī),自適應(yīng)檢測與校正機(jī)制、接口電路的跨工藝自動化遷移等。應(yīng)對這些挑戰(zhàn)需要多學(xué)科交叉研究,涉及電路設(shè)計、電磁場信號完整性分析、熱管理、制造工藝等領(lǐng)域的專業(yè)知識。
3.5 多芯粒系統(tǒng)的存儲架構(gòu)
系集成芯片中,多芯粒的存儲結(jié)構(gòu)是影響集成芯片的訪存性能和功耗的重要因素。集成芯片的存儲結(jié)構(gòu)與傳統(tǒng)的眾核或服務(wù)器芯片存儲結(jié)構(gòu)有較多相似性,主要的優(yōu)化目標(biāo)為提高訪存性能、降低目錄等開銷。因此,多芯粒系統(tǒng)的存儲架構(gòu)主要從多級存儲結(jié)構(gòu)的組織方式和存儲管理兩方面進(jìn)行優(yōu)化。
多芯粒系統(tǒng)的訪存性能受限于物理結(jié)構(gòu)所提供的帶寬,隨著平面存儲結(jié)構(gòu)的帶寬和性能已接近極限,多芯粒系統(tǒng)存儲結(jié)構(gòu)的組織方式也逐漸從平面存儲結(jié)構(gòu)向垂直存儲結(jié)構(gòu)發(fā)展。與傳統(tǒng)的水平存儲方式相比,它在垂直方向上堆疊存儲單元,從而實現(xiàn)更高的存儲密度和容量。其核心思想是充分利用垂直方向的空間增加存儲單元的數(shù)量。
在垂直存儲中,存儲單元以垂直方向堆疊在一起,形成多層結(jié)構(gòu)。每一層都包含多個存儲單元,通過垂直連接結(jié)構(gòu)進(jìn)行數(shù)據(jù)傳輸和訪問。這種垂直堆疊的方式大大減小了存儲器的占地面積,使得在相同的面積下,相比于水平排布的存儲形式,可以容納更多的存儲單元,從而提供更大的存儲容量。由于存儲單元之間更近的距離,數(shù)據(jù)的傳輸路徑更短,因此可以實現(xiàn)更快的數(shù)據(jù)訪問速度和更低的訪問延遲。此外,垂直存儲結(jié)構(gòu)還可以提供更高的數(shù)據(jù)帶寬,允許同時訪問多個存儲層,從而進(jìn)一步提升數(shù)據(jù)訪問性能。
垂直存儲技術(shù)已經(jīng)在各種領(lǐng)域得到應(yīng)用,例如,在 3D NAND 中,多層存儲單元沿各層之間的互連以垂直的形式進(jìn)行疊加。在實現(xiàn)更短的整體連接的同時,提高了存儲的容量,并減小了存儲硬件占用的空間相較于傳統(tǒng)的 2D NAND,每字節(jié)的存儲成本也更低。Zen3[64] 在垂直方向上引入高速緩存3D V-Cache,額外的緩存層可以提供更高的緩存容量與更低的延遲,從而提升訪存性能。處理器內(nèi)的核心可以更頻繁地訪問高速緩存中的數(shù)據(jù),從而減少對主內(nèi)存的訪問,提高數(shù)據(jù)訪問速度。這些方案利用垂直存儲的優(yōu)勢,實現(xiàn)了更高的存儲容量、更快的數(shù)據(jù)訪問速度和更可靠的數(shù)據(jù)存儲。
圖 3.4 Zen3 處理器垂直方向緩存示意圖 [64]
多芯粒系統(tǒng)的存儲通常采用非一致內(nèi)存訪問結(jié)構(gòu)(Non-Uniform Memory Access,NUMA),NUMA 結(jié)構(gòu)提供了高效的共享數(shù)據(jù)方式和靈活的資源分配方案,但相應(yīng)地需要解決如何加速跨核心的數(shù)據(jù)訪問、提升維持?jǐn)?shù)據(jù)一致性的通信速度。層次化緩存一致性協(xié)議和目錄已被廣泛研究用于芯片多處理器 [53][54] 和多芯粒服務(wù)器 (multi-socket) 系統(tǒng) [55]。在全局?jǐn)?shù)據(jù)訪問中,芯粒間緩存一致性管理訪存開銷較大。因此,降低緩存一致性開銷的方法可以分為減少維護(hù)一致性的數(shù)據(jù)流量和針對互連結(jié)構(gòu)優(yōu)化一致性協(xié)議兩類。減少一致性流量的根本原理在于發(fā)掘和消除一致性流量中的冗余,當(dāng)連續(xù)寫入的次數(shù)達(dá)到閾值時,通過執(zhí)行一次寫更新來優(yōu)化傳統(tǒng)的多次寫入更新協(xié)議可減少寫緩存的開銷[57]。另外,由于不同存儲層級的開銷不同,因此可將共享讀寫緩存行移動到更低級別的緩存以減少上級緩存的寫無效流量 [56]。
針對互連結(jié)構(gòu)優(yōu)化一致性協(xié)議也是降低一致性開銷的重要方法。考慮到多芯粒系統(tǒng)在芯粒間和芯粒內(nèi)具有不同的通信結(jié)構(gòu)和開銷,使用 Snoop 與目錄式混合的緩存一致性協(xié)議 [58],通過全局協(xié)議和本地目錄協(xié)議分別實現(xiàn)芯粒間和芯粒內(nèi)的緩存一致性可以大幅降低一致性開銷。新的互連方式也為一致性協(xié)議提供了新的優(yōu)化空間,WiDir[61] 結(jié)合片上無線網(wǎng)絡(luò)技術(shù)來增強(qiáng)傳統(tǒng)的基于無效目錄的緩存一致性協(xié)議,以程序員透明的方式,根據(jù)訪問模式,有線和無線一致性事務(wù)之間進(jìn)行無縫轉(zhuǎn)換。相比于傳統(tǒng)的電網(wǎng)絡(luò),基于硅光子技術(shù)的互連網(wǎng)絡(luò)有望實現(xiàn)更高寬帶和更低延遲。PCCN[59] 作為一種基于光子緩存一致性網(wǎng)絡(luò)的物理集中式邏輯分布式目錄協(xié)議,采用帶有競爭的機(jī)制解決信道共享問題,實現(xiàn)高效的長距離一致性相關(guān)數(shù)據(jù)包的傳輸。小型低成本硅光子 CAMON 芯粒 [60] 可以有效緩解多核處理器的通信瓶頸問題,提高數(shù)據(jù)移動的能效,在多芯粒系統(tǒng)尤其是大規(guī)模系統(tǒng)中發(fā)揮了重要作用。
3.6 集成芯片大功率供電電路
隨著芯粒集成規(guī)模的提升,集成芯片的供電系統(tǒng)面臨新的挑戰(zhàn)。目前單顆高性能芯片的功耗大約在百瓦量級,例如 Intel 13 代 CPU 的 PL2 TDP 為 219W,NVIDIA H100 GPU TDP 為 350W。面向未來百芯粒規(guī)模的集成芯片,其供電需求將達(dá)到數(shù)千瓦甚至萬瓦級。結(jié)合集成芯片的特點,研發(fā)新型萬瓦級供電電路,是大規(guī)模芯粒集成必須解決的關(guān)鍵難題。
集成芯片的供電系統(tǒng)面臨多方面的約束。集成芯片對外的接口數(shù)量有限,部分芯粒完全集成在系統(tǒng)內(nèi)部,沒有直接對外的接口,因此需要在集成芯片的內(nèi)部進(jìn)行整個系統(tǒng)的電源管理。大規(guī)模芯粒集成能夠采用 TSV 進(jìn)行芯粒間的供電傳輸,但 TSV 的電流密度受限,萬瓦級供電所需的 TSV 數(shù)量將嚴(yán)重影響整個集成芯片系統(tǒng)的面積。大量芯粒在不同的供電電壓和電流下同時工作,需要設(shè)計高效的電源分配網(wǎng)絡(luò),解決芯粒間供電電流不均衡和動態(tài)變化等問題,保障芯粒穩(wěn)定工作并提高能效比。同時,供電電路需要集成大面積的電容、電感等無源器件保持供電穩(wěn)定,傳統(tǒng)封裝可以在 PCB 板級集成這些無源器件,而在高集成度的集成芯片系統(tǒng)中,如何在內(nèi)部集成這些無源器件是一個新的挑戰(zhàn)。
為實現(xiàn)集成芯片萬瓦級供電的技術(shù)路線,需要研究包括多級供電架構(gòu)、電源分配網(wǎng)絡(luò)和無源器件集成等多種技術(shù)。多級供電電路在第一級采用較高的供電電壓(如 12V),在相同供電功率下通過提高電壓解決 TSV 電流密度受限的問題。在后級供電電路采用高效率的 DC-DC 電路,將高供電電壓轉(zhuǎn)換為芯粒內(nèi)部所需的較低工作電壓(如 1V)。多級供電電路的一個重要挑戰(zhàn)是如何在較先進(jìn)工藝節(jié)點實現(xiàn)高電壓的供電電路,并針對負(fù)載功率大幅跳變的情況實現(xiàn)快速響應(yīng)。為實現(xiàn)高效的電源分配網(wǎng)絡(luò),需要研究電源網(wǎng)絡(luò)受到供電電壓、傳輸路徑長度、寄生效應(yīng)等的影響關(guān)系,探索三維垂直供電架構(gòu)和動態(tài)電源分配技術(shù)等。同時,針對供電電路中大面積無源器件在集成芯片內(nèi)部的集成,一種技術(shù)方案是利用 TSV 的電感特性,并在大面積基板上實現(xiàn)電容、電感等無源器件,實現(xiàn)內(nèi)部集成。
集成芯片的萬瓦級供電是大規(guī)模芯粒集成必須解決的關(guān)鍵技術(shù)。需要從多級供電架構(gòu)、電源分配網(wǎng)絡(luò)和無源器件集成等多個方面開展研究,保障集成芯片的供電穩(wěn)定性,提升供電效率,并縮減供電系統(tǒng)的體積。萬瓦級供電需要與集成芯片的散熱技術(shù)進(jìn)行聯(lián)合設(shè)計優(yōu)化。同時,可以結(jié)合單芯粒的背面供電(如 Intel PowerVia)等技術(shù)實現(xiàn)更高的供電效率。
4、集成芯片EDA和多物理場仿真
4.1 集成芯片對自動化設(shè)計方法與EDA工具的新需求
集成芯片的規(guī)模遠(yuǎn)遠(yuǎn)大于普通的單芯片規(guī)模,若芯片設(shè)計的復(fù)雜度與晶體管數(shù)量成比例關(guān)系,那么集成芯片的設(shè)計面臨復(fù)雜度指數(shù)級發(fā)展的困境。因此,面向集成芯片設(shè)計,需要更多的自動化設(shè)計EDA 工具。
圖 4.1 集成芯片的自動化設(shè)計方法與 EDA 工具
圖 4.1 歸納了集成芯片對自動化設(shè)計方法的 EDA 工具的新需求,具體包括:
(一)集成芯片的系統(tǒng)規(guī)劃與分解組合:用于在具體設(shè)計之前的集成芯片的系統(tǒng)設(shè)計規(guī)劃,完成各個功能的功能與性能的初步設(shè)計空間探索;
(二)芯粒設(shè)計:與典型的 VLSI 設(shè)計方法和 EDA 類似,包含邏輯綜合、布局布線與時序 / 物理設(shè)計的驗證等部分;
(三)硅基板(Interposer)和封裝設(shè)計:用于實現(xiàn)芯粒間互連,需要解決芯粒的布局優(yōu)化,芯粒間互連線布線、TSV/ 微凸點 / 植球的布局等物理設(shè)計,對于有源硅基板還要覆蓋芯粒的 EDA 設(shè)計工具完成其電路部分的設(shè)計;
(四)3D 協(xié)同優(yōu)化設(shè)計:用于在芯粒和基板封裝設(shè)計后的協(xié)同優(yōu)化與驗證,如芯粒 - 基板互連后的跨芯粒時序分析、布局布線優(yōu)化,同時還需要考慮 3D 集成的可測性設(shè)計,因為在 3D 集成后部分芯粒已無對外直接可測的引腳,需專用方案;
(五)系統(tǒng)級驗證與多物理場仿真:用于準(zhǔn)確捕獲和分析系統(tǒng)內(nèi)電—熱—力發(fā)生的復(fù)雜交互和現(xiàn)象,需要將多個物理場集成到一個統(tǒng)一的仿真框架中,上述物理量的交互作用包括由于封裝材料的熱膨脹系數(shù)的差異和結(jié)構(gòu)不匹配,在不同的工作負(fù)載下產(chǎn)生不同的熱分布,并導(dǎo)致硅片的翹曲、封裝裂紋和分層。
其中,互連線的電磁場仿真和自動化布線、電 - 熱 - 力多物理場仿真和 3D 集成芯片的可測性設(shè)計是集成芯片設(shè)計的全新 EDA 問題。
4.2 芯粒間互連線的電磁場仿真與版圖自動化
伴隨著芯粒數(shù)量和種類的增加,芯粒間互連線數(shù)也急劇增加。可以預(yù)計,未來的芯粒間互連線數(shù)量將達(dá)到十萬甚至百萬量級規(guī)模,靠手工布線的可行性低。片上布線與芯粒間布線的基礎(chǔ)電學(xué)約束上存在差異,導(dǎo)致已有的片上布線的 EDA 工具難以應(yīng)用到集成芯片的片間。在單個芯片內(nèi),金屬布線通常涉及更高密度的互連和更復(fù)雜的布線架構(gòu),一般在網(wǎng)格上根據(jù)延遲的約束條件實現(xiàn)自動化布線,還可以通過內(nèi)插緩沖電路來避免過長(100 微米以上)的互連線。在芯粒間,互連線尺寸一般在微米級,并且無法內(nèi)插緩沖器,因此需要將高速通信的信號完整性作為主要約束條件。
精確且快速的電磁場仿真對于滿足集成芯片的信號完整性約束起到重要支撐作用。2.5D/3D 集成工藝引入的微凸點、TSV 結(jié)構(gòu)具有復(fù)雜的寄生效應(yīng),對信號的影響難以用 RLC 集總電路模型準(zhǔn)確評估。因此需要使用電磁場計算方法得到 S 參數(shù)模型。增強(qiáng)電場積分方程方法(Enhanced Electric Field Integral Equation,EFIE)是一種針對分層互連線結(jié)構(gòu)進(jìn)行電磁仿真的有效方法。根據(jù)互連線的幾何模型,將互連線離散化為有限個小單元。通過對離散化的小單元應(yīng)用增強(qiáng)電場積分方程,可以建立一個線性方程組描述電磁場和電流的關(guān)系,該方法可以通過數(shù)值或者解析的方法求解。求解得到電流分布后,再將電流分布與增強(qiáng)電場積分方程中的格林函數(shù)相乘,可以計算互連線上的電場分布。EFIE 方程可通過矩量法 (Method of Method,MoM) 和有限元法(Finite Element Method,F(xiàn)EM)求解。矩量法是基于積分形式麥克斯韋方程的頻域求解方法,它主要求解金屬表面的電流分布,然后根據(jù)格林函數(shù)計算空間中任意點的電磁場。矩量法的優(yōu)點是計算速度快,消耗資源少,適合求解三維層狀結(jié)構(gòu)。矩量法的缺點是對非均勻介質(zhì)和任意形狀的結(jié)構(gòu)求解效率低,精度受限于網(wǎng)格劃分和格林函數(shù)選擇,不適合求解大信號和非線性問題。
相比之下,有限元等其基于微分形式麥克斯韋方程的頻域求解方法,雖然可求解任意形狀和材料的結(jié)構(gòu),精度高,但是計算速度慢,消耗資源多,需要對整個空間進(jìn)行網(wǎng)格劃分,不適合求解開放空間和時變問題。伴隨集成芯片芯粒數(shù)和互連線數(shù)規(guī)模急劇增長,現(xiàn)有的電磁場 S 參數(shù)模型的提取效率低,嚴(yán)重拖慢了仿真速度,影響集成芯片的設(shè)計和迭代過程。同時,由于芯粒間互連線的約束條件為電磁場,因此由電磁場驅(qū)動的芯粒間互連線的版圖自動化算法與 EDA 工具成為了集成芯片領(lǐng)域新的科學(xué)問題。在考慮仿真精度的前提下,縮短信號完整分析仿真時間的新算法是可以攻克上述問題的重要方向。
除了互連線的自動化物理設(shè)計外, 3D 集成芯片的布局布線也迎來了新的機(jī)遇和挑戰(zhàn)。在下圖所示的平面芯片三維堆疊集成芯片的比較中,我們可以看到,在單芯片內(nèi)長距離的全局連線可以被堆疊后的短距離的垂直線所替代。因此,堆疊后的短距離線較長距離線有望從毫米級縮小到百微米量級,顯著提升互連線的負(fù)責(zé)和驅(qū)動功耗。然而,上述性能的提升是建立在高維度布局布線優(yōu)化算法的基礎(chǔ)上的。傳統(tǒng)的布局布線優(yōu)化方法,如模擬退火(Simulated Annealing),迷宮路由(Maze Routing)、遺傳算法等還未從理論個上突破平面維度的限制。目前,三維堆疊芯片的布局布線 EDA工具僅支持粗粒度優(yōu)化——將存儲宏單元和邏輯宏單元分布在不同的芯粒上,根據(jù)最小化距離優(yōu)化宏單元的布局布線。更細(xì)粒度的三維布局布線方法需要新更進(jìn)一步的探索。
圖 4.2 平面芯片與三維堆疊集成芯片的對比
4.3 芯粒尺度的電—熱—力多場耦合仿真
隨著集成電路的發(fā)展,芯片與系統(tǒng)越來越小型化、緊湊化,系統(tǒng)集成度也越來越高。面向未來集成芯片中大規(guī)模芯粒集成的需求,芯粒尺度的電 - 熱 - 力多場耦合仿真也愈發(fā)重要。集成芯片集成非常復(fù)雜,需要協(xié)同考慮電磁場、熱管理和機(jī)械應(yīng)力耦合作用,并進(jìn)行綜合優(yōu)化。芯粒尺度的多物理場仿真是揭示芯粒和集成芯片在多物理場(例如電磁、熱、力場)同時耦合作用下,提高性能的有效手段。為了實現(xiàn)對芯粒尺度集成的高保真模擬,必須同時考慮具有多尺度、非線性場相關(guān)材料的特性和非線性界面條件的精細(xì) 3D 幾何形狀。如何構(gòu)建芯粒尺度多物理場的基礎(chǔ)理論及其準(zhǔn)確仿真工具是集成芯片可制造性的重要挑戰(zhàn)。
圖 4.3 集成芯粒中的電 - 熱 - 力耦合示意圖
封裝技術(shù)的發(fā)展推動著芯片系統(tǒng)向更高頻率和更高功率發(fā)展。電路特征尺寸的不斷減小和封裝系統(tǒng)復(fù)雜性的增加(例如集成芯片技術(shù)),對封裝設(shè)計提出了新的挑戰(zhàn),必須解決高頻、高功率、應(yīng)力變化條件下的電磁分布效應(yīng)、熱效應(yīng)和力學(xué)效應(yīng)問題。隨著特征尺寸減小和功率增加,溫度顯著升高,尤其是在熱點處,會降低電子封裝的性能和使用壽命,并通過電遷移導(dǎo)致金屬化失效。大的溫度梯度和不匹配的熱膨脹系數(shù)會產(chǎn)生誘導(dǎo)熱應(yīng)力,可能導(dǎo)致芯粒的機(jī)械故障,例如分層和剝離等。由于高溫引起的材料電磁特性的變化會導(dǎo)致信號完整性和電源完整性問題,例如時鐘偏移、意外壓降以及濾波器和諧振器的頻譜偏移。因此,需要一種基于電 - 熱 - 力多物理場耦合的計算機(jī)輔助設(shè)計方法來同時解決電氣問題和熱問題。
圖 4.3 展示了用于分析集成芯片電 - 熱 - 力多物理場耦合關(guān)系的示意圖。建立足夠準(zhǔn)確和寬適用范圍的多物理場耦合模型進(jìn)行數(shù)值計算,是在激勵或邊界條件等真實工況下模擬芯粒尺度先進(jìn)封裝的基礎(chǔ)。多物理場仿真中的關(guān)鍵問題包括由偏微分方程 (PDE) 或代數(shù)方程制定的多物理場耦合機(jī)制、考慮多個場強(qiáng)相互作用的材料本構(gòu)關(guān)系模型、耦合 PDE 和傳遞機(jī)制的數(shù)值離散化以及有效求解復(fù)雜代數(shù)方程問題等 [66][67]。電 - 熱 - 力多場耦合仿真技術(shù)的復(fù)雜性呈指數(shù)增長,對先進(jìn)封裝技術(shù) [65]和相關(guān)的設(shè)計技術(shù)(如數(shù)值模擬)提出了更高的要求。在封裝技術(shù)的設(shè)計過程中,包括材料參數(shù)、對象和布局尺寸的選擇,盡早采用數(shù)值模擬方法進(jìn)行探索和試錯,可以顯著降低試驗成本。
綜上所述,隨著集成電路技術(shù)的發(fā)展和芯片系統(tǒng)集成度的提升,面向集成芯片的可制造性需求,芯粒尺度的電 - 熱 - 力多場耦合仿真技術(shù)愈發(fā)重要。多物理場仿真可以幫助評估芯粒設(shè)計性能參數(shù)、調(diào)查故障機(jī)制、提高可靠性并改進(jìn)封裝方法。多物理場耦合求解的主要問題和最終目標(biāo)是實現(xiàn)穩(wěn)定、可靠、快速和準(zhǔn)確的數(shù)值計算。這種計算的前提是數(shù)學(xué)模型本身的清晰合理的發(fā)展,以及對物理過程基本原理的理解。為了提高模擬結(jié)果的準(zhǔn)確性和可靠性,未來的研究重點包括先進(jìn)的數(shù)值模擬優(yōu)化算法和加速求解方法,開發(fā)更精確的材料模型,結(jié)合更全面的環(huán)境條件,通過實驗驗證實現(xiàn)對多物理場耦合效應(yīng)的準(zhǔn)確模擬。
4.4 集成芯片的可測性和測試
集成芯片的可測性和測試技術(shù)相比傳統(tǒng)芯片面臨許多新的挑戰(zhàn)。集成芯片的制造良率需要考慮兩部分:單顆芯粒自身的良率和多芯粒封裝過程的良率。為保證集成芯片的良率,需要對每一顆芯粒進(jìn)行缺陷測試,并對芯粒封裝過程進(jìn)行良率測試。如果存在缺陷的芯粒在基板上集成,或者封裝過程中產(chǎn)生缺陷,整個集成芯片將無法實現(xiàn)預(yù)期功能。
如圖 4.4 所示,針對集成芯片測試,需要從單顆芯粒的測試技術(shù)和封裝互連的測試技術(shù)兩方面開展新的探索。針對單顆芯粒的測試技術(shù),通過使用探針臺結(jié)合單個芯粒的 DFT(Design for Testing)結(jié)構(gòu)進(jìn)行測試 [69]。為了提升集成芯片的良率,還需要進(jìn)行 KGD(Known Good Die) 測試以及基板互連測試 [70]。由于芯粒種類繁多,不同芯粒可能采用不同的接口協(xié)議、不同的 I/O 管腳速率約束以及不同的植球方式,需要對芯粒測試提供一個最大公約測試集,基于該測試集標(biāo)準(zhǔn),所有的芯粒生產(chǎn)廠商均應(yīng)提供符合該標(biāo)準(zhǔn)的測試向量。針對封裝互連的測試技術(shù),由于集成芯片中包含大量的芯粒間并行傳輸總線結(jié)構(gòu),先進(jìn)封裝工藝的良率問題可能導(dǎo)致某些互連總線發(fā)生橋接 / 短路故障,或者導(dǎo)致信號偏移率過大,無法滿足高速數(shù)據(jù)傳輸?shù)臅r序要求。集成芯片先進(jìn)封裝與傳統(tǒng) PCB 板級封裝有顯著區(qū)別,一旦有互連線或互連部件發(fā)生故障,很難對其進(jìn)行替換。因此需要研究并行傳輸總線結(jié)構(gòu)的可測性設(shè)計和互連線層面的冗余設(shè)計,設(shè)計在線的互連線修復(fù)機(jī)制和數(shù)據(jù)傳輸協(xié)議修復(fù)機(jī)制。根據(jù)故障發(fā)生的模式,對數(shù)據(jù)發(fā)送和接收端口進(jìn)行動態(tài)重配置,保證接口功能和時序的正確性。
圖 4.4 2.5D 芯粒結(jié)構(gòu)示意圖
圖 4.4 針對集成芯片的可測性,需要研究可測性設(shè)計結(jié)構(gòu)將各個芯粒有效隔離,以提升集成芯片的魯棒性。如果采用傳統(tǒng)芯片菊花鏈?zhǔn)降目蓽y性設(shè)計,一旦其中一個芯粒發(fā)生故障,整個可測性設(shè)計結(jié)構(gòu)就無法正常工作,也無法準(zhǔn)確定位缺陷位置。為此需要將關(guān)鍵信號或者線網(wǎng)直接連接到凸植球,并通過基板連接到封裝的引腳,便于對這些關(guān)鍵信號進(jìn)行測試和觀察。此外需要對傳統(tǒng)的可測性設(shè)計結(jié)構(gòu)進(jìn)行改進(jìn),增加芯粒級內(nèi)部信號狀態(tài)的可測性。例如對于時鐘和復(fù)位等信號,需要設(shè)置單獨的鎖相環(huán) DFT 結(jié)構(gòu),使內(nèi)部寄存器狀態(tài)可以在單獨的鎖相環(huán)驅(qū)動下進(jìn)行外部輸出。需要配置專門的模擬信號監(jiān)測模塊,用于監(jiān)測各個芯粒內(nèi)部的供電噪聲和紋波。為了更有效地測試芯粒間互連故障,還需要研究類似 IEEE1149.1 標(biāo)準(zhǔn)的回環(huán)測試,將互連總線兩端的芯粒進(jìn)行配對,形成回環(huán),對數(shù)據(jù)發(fā)送端和接收端進(jìn)行單獨測試,更有效地定位互連總線故障。
在生產(chǎn)制造環(huán)節(jié)的測試之外,針對集成芯片整個生命周期的工作狀態(tài)檢測和可靠性也是亟待解決的關(guān)鍵問題。需要研究集成芯片生命周期管理技術(shù),例如在芯粒內(nèi)部或基板上配置傳感器,對器件參數(shù)偏移、供電電壓以及環(huán)境溫度進(jìn)行監(jiān)測,并根據(jù)芯粒的工況和老化情況進(jìn)行新的協(xié)議或時序配置,延長集成芯片的使用壽命。探索利用 DFT 中的冗余設(shè)計,對某些芯粒或互連線老化效應(yīng)超過閾值的部分進(jìn)行替換或修復(fù)。
相比無源硅基板,有源基板能夠?qū)崿F(xiàn)更高的靈活性和可擴(kuò)展性。如何對基于有源基板的集成芯片進(jìn)行測試和可測性設(shè)計成為新的問題。由傳統(tǒng)的 JTAG 測試結(jié)構(gòu)擴(kuò)展的 IJTAG 1687 可以用于有源基板集成芯片的層次化測試。通過對 TAP 控制器的重配置,可以將每個芯粒配置成旁路模式或者測試模式。根據(jù)測試時機(jī)不同,IJTAG 測試標(biāo)準(zhǔn)可以用于芯粒封裝前的綁定前測試,封裝過程中的綁定中測試,以及封裝完成之后的綁定后測試。
綜上所述,集成芯片的可測性和測試技術(shù)對提升集成芯片制造良率、定位缺陷位置、提升集成芯片可靠性具有重要意義。需要研究面向集成芯片的最大公約芯粒測試集、互連線冗余和協(xié)議修復(fù)機(jī)制、可測試性結(jié)構(gòu)設(shè)計、全生命周期管理、有源硅基板測試等關(guān)鍵技術(shù),實現(xiàn)缺陷的快速檢測、替換或修復(fù),提升集成芯片制造良率并降低制造成本。
5、集成芯片的工藝原理
5.1 RDL/ 硅基板(Interposer)制造工藝
與傳統(tǒng)封裝基板(Substrate)級 2D 互聯(lián)相比,集成芯片工藝引入了銅互連工藝等芯片制造技術(shù),也因此形成了一些新形態(tài),新功能的芯粒。其中,最具有代表性的就是2.5D集成中硅基板(Interposer)。圖 5.1 展示了利用硅通孔 (Through Silicon Via, TSV) 技術(shù)實現(xiàn)的,基于硅基板的 2.5D 封裝集成芯片結(jié)構(gòu)。
圖 5.1 典型 3D 集成芯片結(jié)構(gòu)
硅基板與上層芯粒、底層封裝基板通過微凸點(Micro-bump)和 C4 凸點(C4 bump)實現(xiàn)電信號連接。Interposer 可以用于提高芯片的性能和帶寬,使芯片更加緊湊。芯粒間的互連線是在硅基板上的多層銅互連金屬工藝實現(xiàn),因此可以實現(xiàn)微米級的間距布線。當(dāng)工藝設(shè)備受限時,也可以采用重分布層(Redistribution Layer,RDL)工藝取代銅互連工藝,實現(xiàn)較高密度互連。硅通孔(TSV)是硅基板工藝相比一般 CMOS 芯片工藝新增的工藝。TSV 的制造工藝是通過激光鉆孔或深反應(yīng)離子刻蝕(Deep Reactive Ion Etching,DRIE)在硅基片上形成垂直穿孔結(jié)構(gòu)。這些孔可穿透多個層次,連接不同的電路層,然后進(jìn)行襯底沉積(通常是一層絕緣材料,如二氧化硅),以提供電隔離和機(jī)械支撐。再通過物理蒸鍍或電化學(xué)填充等技術(shù),在 TSV 孔中沉積導(dǎo)電金屬(如銅),以建立電連接。最后,使用化學(xué)機(jī)械拋光(Chemical Mechanical Planarization,CMP)等技術(shù),將金屬填充的表面與基片表面平坦化,以便后道工續(xù)。由于 TSV 的深度一般小于硅片的厚度,還要將硅基板減薄后才能將 TSV 露頭。為了保證高性能芯片的電源完整性,在硅基板中還會制造高深寬比、高電容密度的的深槽電容(Deep Trench Capacitor,DTC)用于對電源的退耦。其原理是,在硅槽中一個頂部電極層和一個底部電極層之間填充電容高介電常數(shù)材料,通過將深溝槽(DT)蝕刻到硅襯底中而形成三維垂直電容器。DTC 的電容密度為 300nF/mm2。不難發(fā)現(xiàn),在 2.5D 集成芯片中,硅基板的面積決定了集成芯片的面積。因此,突破硅基板的面積上限是一項重要的挑戰(zhàn)。臺積電對未來的硅基板面積擴(kuò)大已制定了明確的技術(shù)規(guī)劃。一般地,單芯片制造的最大面積上限由光刻機(jī)的光罩尺寸(reticle)決定,如何實現(xiàn)超過 3-4 個光罩尺寸的硅基板是一項重要的課題。
圖 5.2 TSMC 對硅基板面積的技術(shù)路線圖
在大尺寸硅基板的制造上,仍然存在這多個科學(xué)問題有待攻克。最具代表性的翹曲與應(yīng)力建模。由于 TSV 的深度一般小于硅片的厚度,因此需要將硅基板減薄到 100 微米以下,此時大面積硅基板易發(fā)生翹曲,甚至斷裂。建立合理的應(yīng)力模型,準(zhǔn)確預(yù)測在包含 TSV、DTC 等工藝后晶圓的翹曲程度將有助于突破硅基板的面積上限。但這一模型的科學(xué)基礎(chǔ)需要力學(xué)、工程材料領(lǐng)域的交叉研究。此外,多次曝光 / 拼接縫合(stiching)技術(shù)、高密度高深寬比的 TSV 工藝也是硅基板制造中的難題。
5.2 高密度凸點鍵合和集成工藝
“一代芯片需要一代封裝”,目前半導(dǎo)體先進(jìn)制程紛紛邁入了 7nm、5nm,開始朝 3nm 和 2nm邁進(jìn),晶體管尺寸不斷接近物理極限,先進(jìn)制程的持續(xù)微縮難度越來越高,迫切的需求刺激業(yè)界尋求新的解決方案,封裝集成的重要性不斷顯著。在集成芯片中,互連密度已由傳統(tǒng)的百微米級節(jié)距演進(jìn)至微米級節(jié)距,并快速向亞微米級節(jié)距發(fā)展。針對大規(guī)模芯粒及封裝結(jié)構(gòu)高度復(fù)雜、高密度互連和超高密度鍵合,其封裝設(shè)計中缺陷預(yù)測與抑制難度激增,亟需研究高密度高可靠凸點鍵合和集成工藝。
圖 5.3 互連密度的演變 [72]
在三維空間內(nèi),芯片 / 芯粒間互連可分為三類:(1)芯粒表面與外界的垂直互連通道,包括傳統(tǒng)的凸點、微凸點和新興的混合鍵合互連界面;(2)芯粒間水平互連導(dǎo)線,主要指基板或重布線層的導(dǎo)線陣列;(3)芯粒內(nèi)部的垂直通孔結(jié)構(gòu),即硅通孔,主要實現(xiàn)多層芯粒堆疊中的互連。如圖 5.3所示,隨著系統(tǒng)性能對互連密度要求的不斷提高,不僅傳統(tǒng)二維平面內(nèi)互連線節(jié)距不斷微縮,而且穿過芯粒內(nèi)部的硅通孔垂直連接也應(yīng)運而生。三種互連共同組成了先進(jìn)封裝中的三維互連網(wǎng)絡(luò)。在快速發(fā)展的先進(jìn)封裝技術(shù)中,上述三類互連結(jié)構(gòu)都在快速微縮。后兩類互連,互連導(dǎo)線和硅通孔節(jié)距已經(jīng)進(jìn)入了 10 微米以下。在第一類互連中,傳統(tǒng)的凸點鍵合方式已逼近 10 微米的物理極限。混合鍵合可有效突破 10 微米極限,向亞微米級節(jié)距進(jìn)行快速微縮。當(dāng)前比利時 imec 研究所已實現(xiàn) 0.8 微米混合鍵合技術(shù)的成功研發(fā),美國 Intel 公司已實現(xiàn)面向量產(chǎn)的 3 微米節(jié)距混合鍵合技術(shù)的驗證。
混合鍵合技術(shù)是將兩片需要鍵合在一起的晶圓,各自完成制程最后一步的金屬連線層并實現(xiàn)熔合鍵合,此層上只有兩種材質(zhì):銅及介電質(zhì)。與凸點鍵合相比,混合鍵合具有結(jié)構(gòu)、材料上根本的革新,并帶來顯著的性能優(yōu)勢:(1)采用內(nèi)嵌式超平表面銅接口,避免了鍵合對準(zhǔn)過程中接口倒塌變形、鍵合空洞及相應(yīng)失效風(fēng)險;(2)采用預(yù)填充式無機(jī)介電層,相比于傳統(tǒng)有機(jī)底填料,顯著提高了熱穩(wěn)定性。因此,混合鍵合不僅可以支撐互連節(jié)距向亞微米節(jié)距持續(xù)微縮,且對于封裝系統(tǒng)整體的電性能和熱機(jī)械性能具有顯著提升作用 [73]。但是,實現(xiàn)混合鍵合對于工藝和材料提出了新的挑戰(zhàn),需要傳統(tǒng)的晶圓制造企業(yè)和封裝企業(yè)緊密協(xié)同,研發(fā)新型專用工藝。挑戰(zhàn)包括:(1)從當(dāng)前芯片后道工藝(BEoL)大馬士革工藝出發(fā),制造適合混合鍵合的頂部金屬 - 介電層,保證高鍵合強(qiáng)度;(2)開發(fā)面向混合鍵合的高精度高潔凈度劃片技術(shù),保證鍵合前后芯片邊緣無崩邊、隱裂;(3)控制晶圓整體翹曲和表面平整度,實現(xiàn)整片晶圓或芯片的無空洞完整鍵合。
高密度凸點鍵合和集成工藝是在系統(tǒng)集成密度、系統(tǒng)的復(fù)雜程度以及元件的集成度提高需求下帶來的的先進(jìn)封裝技術(shù)需求。其工藝相對簡單,集成密度高,能夠同時實現(xiàn)電學(xué)連接和物理支撐,是集成芯片先進(jìn)封裝領(lǐng)域研究和發(fā)展的重點。為了實現(xiàn)高密度凸點鍵合和集成工藝,仍然需要大量研究工作,包括優(yōu)化設(shè)計和工藝參數(shù),提高晶圓對準(zhǔn)精度,實現(xiàn)低溫退火以及降低成本等。隨著集成芯片的發(fā)展,芯粒集成度(種類和數(shù)量)不斷提升的需求將進(jìn)一步推動先進(jìn)封裝和集成工藝的發(fā)展,進(jìn)一步縮小互連節(jié)距,提升互連密度和互連帶寬。
5.3 基于半導(dǎo)體精密制造的散熱工藝
高性能、高集成度已成為現(xiàn)代電子芯片的發(fā)展趨勢,超高功率芯粒的高密度異質(zhì)異構(gòu)集成將導(dǎo)致其熱耗和熱流密度急劇攀升,給芯粒集成芯片熱管理提出了重大挑戰(zhàn)。在高運行溫度下,芯片內(nèi)各種輕微物理缺陷造成的故障更容易顯現(xiàn)出來,高溫會使芯片內(nèi)延時增加,降低 CPU 的工作效率。同時,隨著芯片溫度升高,芯片漏電流增大,由于 IR Drop 導(dǎo)致工作電壓降低,容易出現(xiàn)可靠性降低甚至失效的問題。
芯片熱管理技術(shù)路線主要可分為以下三個階段 [75](如圖 5.4 所示):第一階段主要采用逐層散熱的方法,芯片封裝外殼下方是基板,基板下方布置微通道熱沉冷板,各界面間涂覆熱界面材料,散熱能力可達(dá) 200 W/cm²。第二階段將組件殼體集成于流道側(cè)面,冷卻液直接進(jìn)入組件殼體,傳熱路徑為芯片→熱沉→組件殼體,減少了傳熱環(huán)節(jié),消除了組件與冷板之間的接觸熱阻和冷板熱阻,熱流密度可提升至 500 W/cm²。第三階段,近結(jié)點冷卻技術(shù),它采用高效對流 - 蒸發(fā)傳熱特性的微通道直接集成到基底材料內(nèi)部或非常靠近發(fā)熱元件以實現(xiàn)高效散熱,并集成微泵、微傳感器和微換熱器等微熱控元件,實現(xiàn)芯片一體化閉式廢熱排散的冷卻循環(huán),如圖 5.5 所示。近結(jié)點冷卻通過引入微納工藝,大幅減小了散熱過程中的傳熱路徑和環(huán)節(jié),散熱能力可達(dá) 1000 W/cm²以上 [76][77]。
圖 5.4 芯片熱管理技術(shù)分類 [75]
集成芯片的功率未來將達(dá)到數(shù) kW 甚至十幾 kW,芯片熱流密度將超過數(shù)百 W/cm²,芯片熱點的熱流密度將突破 kW/cm²量級。近結(jié)點微通道散熱技術(shù)將是重要的技術(shù)發(fā)展方向,不僅可以實現(xiàn)高熱流密度芯片的高效散熱,突破芯片熱耗墻,同時還可以將熱管理系統(tǒng)微型化,集成到芯粒芯片中,大幅提升芯片集成化程度。在工藝實現(xiàn)上,目前微通道散熱技術(shù)主要有兩種方案,如圖 5.5 所示:圖 5.5(a)給出了轉(zhuǎn)接板集成微通道的近結(jié)點微通道散熱系統(tǒng)架構(gòu),圖 5.5(b)給出了晶圓級集成微通道的近結(jié)點微通道散熱系統(tǒng)架構(gòu)。轉(zhuǎn)接板集成微通道的散熱架構(gòu)集成封裝更為簡單,無需對 Die( 裸片 )進(jìn)行調(diào)整,但是其散熱性能相對有限;而晶圓級集成微通道的近結(jié)點散熱系統(tǒng)架構(gòu),冷卻工質(zhì)直接引入到 Die 的背面,散熱通道與熱源的距離從 mm 級縮小至 μm 級,散熱性能極大提升,但是其集成封裝較為復(fù)雜,需要在 Die 設(shè)計時就要考慮微流道結(jié)構(gòu)設(shè)計。
圖 5.5 近結(jié)點微通道冷卻技術(shù) [76][77]
與傳統(tǒng)的熱沉冷板技術(shù)相比,上述兩種技術(shù)架構(gòu)不僅需要綜合考慮材料的導(dǎo)熱能力、熱膨脹特性、電學(xué)特性和材料的加工制造能力等因素,以實現(xiàn)流-固-熱-力-電的良好兼容,而且芯片上元件眾多,材料屬性差異顯著,往往還需在芯片級集成微閥、連接管道等部件,三維堆疊芯片內(nèi)的流體與電學(xué)連接更加復(fù)雜,亟待突破近結(jié)點微通道設(shè)計優(yōu)化與強(qiáng)化換熱方法、多層異質(zhì)界面封裝集成方法、芯粒集成芯片熱 - 電 - 力 - 流一體化協(xié)同設(shè)計等關(guān)鍵技術(shù)。
6、白皮書觀點:集成芯片的機(jī)遇與挑戰(zhàn)
6.1從堆疊法到構(gòu)造法的集成芯片,是符合我國國情和產(chǎn)業(yè)現(xiàn)狀的一條現(xiàn)實發(fā)展道路
在摩爾定律尺寸微縮的經(jīng)典路徑指導(dǎo)下,當(dāng)前集成電路設(shè)計采用自下而上的堆疊法,核心是基礎(chǔ)器件與制造工藝。如圖 6.1,芯片設(shè)計是基于 EDA 工具,將器件集成到電路,再發(fā)展到完整芯片的過程。隨著經(jīng)典摩爾定律的發(fā)展路徑,芯片規(guī)模和集成度不斷提升,工藝主導(dǎo)的行業(yè)局面越來越凸顯,國外持續(xù)向“尺寸微縮”注力,為延續(xù)光刻機(jī)、EDA 等關(guān)鍵瓶頸提供技術(shù)保障,以此來控制整個產(chǎn)業(yè)鏈。因此,國外集成芯片發(fā)展路徑,仍然是一條工藝為主、集成為輔的發(fā)展路徑。例如蘋果最新的M1 Ultra 芯片,利用 5nm 的先進(jìn)制造技術(shù),進(jìn)行了兩個芯粒的集成,促成了高性能新產(chǎn)品的發(fā)布。
圖 6.1 集成芯片設(shè)計路線:從堆疊法到構(gòu)造法
與自下而上的堆疊法不同,集成芯片采用自上而下的構(gòu)造法這一可行的發(fā)展路線。面向集成度進(jìn)一步提升的集成芯片設(shè)計,構(gòu)造法從整體系統(tǒng)的角度出發(fā),自上而下研究芯粒的分解與組合優(yōu)化理論。為了對應(yīng)芯粒構(gòu)件這一新層次,如圖 6.2 所示。參考物理、化學(xué)、生物等學(xué)科,除了微觀、宏觀理論,也部署了介觀理論。介觀理論對集成芯片的構(gòu)造法研究具有重要意義。芯片的介觀形態(tài)是區(qū)別于微觀的晶體管 / 基礎(chǔ)部件、宏觀的集成芯片 / 系統(tǒng)芯片的中間形態(tài),介觀更多表現(xiàn)在芯粒、IP 層次。從功能描述來看,微觀的布爾邏輯、宏觀的復(fù)雜系統(tǒng)都已經(jīng)有扎實的數(shù)學(xué)基礎(chǔ)和物理描述;從設(shè)計方法學(xué)角度來看,邏輯門綜合、高層次系統(tǒng)綜合已能對芯片的微觀和宏觀進(jìn)行描述。而在芯片介觀形態(tài)和構(gòu)造上,都缺乏相應(yīng)的數(shù)學(xué)、物理基礎(chǔ),在設(shè)計方法學(xué)、體系結(jié)構(gòu)以及制造工藝等都存在科學(xué)與技術(shù)挑戰(zhàn)。自上而下的構(gòu)造法能夠通過介觀芯粒解耦,實現(xiàn)應(yīng)用 - 集成 - 設(shè)計 - 工藝協(xié)同,從系統(tǒng)和應(yīng)用需求出發(fā),依靠自上而下的方法學(xué),可以發(fā)展出費效比低的系統(tǒng)。
圖 6.2 集成芯片的介觀理論
采用構(gòu)造法設(shè)計集成芯片是符合我國國情和當(dāng)前產(chǎn)業(yè)現(xiàn)狀的一條現(xiàn)實發(fā)展道路。從中短期來看,中國集成電路產(chǎn)業(yè)無法在短時間內(nèi)破解 EUV 光刻機(jī)瓶頸,實現(xiàn) 7nm 以下自主制造工藝難度很大。我國的產(chǎn)業(yè)優(yōu)勢在于龐大的市場規(guī)模,集成芯片技術(shù)可以基本滿足我國的中短期需求,并利用大規(guī)模的市場需求來刺激技術(shù)進(jìn)步,同時帶動其它路徑發(fā)展。市場規(guī)模龐大帶來的另外一個特點是應(yīng)用需求的種類多、碎片化,傳統(tǒng)的芯片設(shè)計制造成本高,無法滿足種類繁多的應(yīng)用需求。而集成芯片可以利用其模塊化的芯粒復(fù)用技術(shù),大幅降低成本,從而滿足更多行業(yè)的芯片需求。同時,從整個集成電路的產(chǎn)業(yè)鏈來看,我國在封裝測試環(huán)節(jié)占據(jù)一定的比例,具有一定的產(chǎn)業(yè)優(yōu)勢。對我國而言,依托龐大的市場需求和領(lǐng)先的先進(jìn)封裝產(chǎn)業(yè),以集成為主的構(gòu)造法方案可基于國內(nèi)現(xiàn)有產(chǎn)業(yè)鏈實現(xiàn)高性能芯片,技術(shù)上可行且能解決當(dāng)下的市場需求。自上而下的構(gòu)造法是一條由系統(tǒng)和應(yīng)用主導(dǎo)產(chǎn)業(yè)發(fā)展的集成芯片發(fā)展新路徑,符合我國國情和當(dāng)前產(chǎn)業(yè)特點。
6.2 集成芯片的三大科學(xué)問題與十大技術(shù)難題
集成芯片的發(fā)展仍處于初級階段,目前國內(nèi)外的商業(yè)化集成芯片產(chǎn)品普遍面臨集成度低的問題,如芯粒數(shù)量一般少于 10 個、芯粒種類少于 5 種,遠(yuǎn)遠(yuǎn)未能發(fā)揮該設(shè)計應(yīng)有的性能優(yōu)勢。
我們認(rèn)為:集成芯片的集成度(種類和規(guī)模)的提升,是推動集成芯片技術(shù)體系的主要驅(qū)動力量。
集成度的大幅提升,將引發(fā)從芯片設(shè)計方法學(xué)、體系結(jié)構(gòu)、仿真工具到底層工藝制備等一系列的科學(xué)問題。
科學(xué)問題一:芯粒的數(shù)學(xué)描述和組合優(yōu)化理論。面向分解中的數(shù)學(xué)問題,目的是解決如何將復(fù)雜的功能需求,分解并映射到大規(guī)模的芯粒構(gòu)件上。在少量芯粒集成時,映射關(guān)系較為簡潔,而將復(fù)雜功能分解到大量芯粒時,則需要借助數(shù)學(xué)運算來完成和優(yōu)化。傳統(tǒng)集成電路針對微觀晶體管的數(shù)學(xué)描述并不適用于芯粒尺度,因此亟需建立新的數(shù)學(xué)理論。傳統(tǒng)集成電路設(shè)計依靠的布爾代數(shù)、符號邏輯等方法,不適用于介觀尺度的芯粒功能分解。這一理論不是簡單的 Top-Down 的宏觀系統(tǒng)拆分方法的遷移,需要探究應(yīng)用場景下芯粒的抽象表達(dá),為大規(guī)模集成芯片的分解提供理論基礎(chǔ)。
科學(xué)問題二:大規(guī)模芯粒并行架構(gòu)和設(shè)計自動化。面向芯粒組合并行挑戰(zhàn)的信息科學(xué)問題,解決隨著芯粒的數(shù)量和種類大幅提升,怎樣應(yīng)對芯片設(shè)計復(fù)雜度的爆炸式增長問題。需要設(shè)計超越多核架構(gòu)的高并行效率新架構(gòu),充分釋放芯粒組合并行的算力潛能,破解阿梅達(dá)爾定律和計算 - 通信屋頂曲線模型等帶來的擴(kuò)展性和并行極限難題。另一方面,少量芯粒集成時由于涉及的芯粒種類少、復(fù)用率低、空間維度小,現(xiàn)有 EDA 工具主要用于以晶體管為單元的二維電路設(shè)計,無法輔助以芯粒為單元的三維布局開發(fā)。因此需要突破芯粒層面的設(shè)計語言和綜合問題,探索新布局布線方法,形成集成芯片 EDA 新工具,大幅降低集成芯片設(shè)計周期。
科學(xué)問題三:芯粒尺度的熱力電多場耦合機(jī)制與界面理論。面向集成挑戰(zhàn)的物理科學(xué)問題,目的是解決不同功能和種類的芯粒在形成界面時,如何優(yōu)化熱、電傳導(dǎo),避免應(yīng)力破壞等問題。大規(guī)模芯粒集成將擴(kuò)展到三維空間,多層堆疊結(jié)構(gòu)帶來了復(fù)雜界面的物理量傳導(dǎo)耦合問題。集成芯片需要準(zhǔn)確預(yù)測系統(tǒng)在多物理場中運行狀態(tài),特別是電磁場、熱和應(yīng)力翹曲,并在跨尺度下形成較為完整的研究體系。然而,現(xiàn)有的宏觀結(jié)構(gòu)力學(xué)、工程熱學(xué)與量子器件的微觀表面力學(xué)等理論缺乏深層次耦合交互。以熱仿真為例,微觀層面上在器件、量子尺度的熱仿真理論采用波爾茨曼輸運理論等,宏觀層面上在大封裝尺度的熱理論采用熱傳導(dǎo)、擴(kuò)散方程等,在芯粒尺度的熱界面理論不完善;在集成芯片須明晰多芯粒系統(tǒng)中的電磁、熱和應(yīng)力的相互作用,探索跨尺度的多物理場交互的仿真方法與工具。
在以上集成芯片的科學(xué)問題基礎(chǔ)上,集成芯片前沿技術(shù)科學(xué)基礎(chǔ)專家組進(jìn)一步提出十大技術(shù)難題(2023 版),見下圖,希望這些問題能為集成芯片的發(fā)展起到牽引作用。
圖 6.3 集成芯片十大技術(shù)難題
7、參考文獻(xiàn)
