專家觀點

智慧型製造數據分析的經典問題－晶圓製造缺陷模式分析 2016/12/01

晶圓製造缺陷模式分析
專家: 胡竹生/工業技術研究院機械所所長

一、前言
不能免俗的，這個文章的題目加上了”智慧型”三個字，所謂"智慧型"，從學理的演化派別來看，就是以類神經網路或機器學習模型為架構的計算模式，有別於其他派別的主張，因為其非線性與隨機性現象難以捉摸，卻在某些例子上展現驚人的效果，超越了預期。說穿了就是研究界對於非線性與隨機性問題的根本學理仍在摸索，而且現有方法在解題上仍有缺口，從大自然演化的仿生結構（神經元與網路）與統計學習理論出發，或許可以找到捷徑，這個手法在很多工程技術上都常被用到。

之所以要寫這篇文章，因為我對晶圓缺陷模式這個問題有點淵源，加上製造數據的分析，是現今廣大製造業提升的必經之路，也是未來一個重點的工作。晶圓缺陷模式分析是製造數據分析的經典，是因為它所呈現的問題非常複雜，一般傳統統計分析方法不易對付。但是一個製作完成的晶圓其成本和價值都非常高，且良率決定了晶圓製造廠能否獲利，例如單一客戶動輒每月數百萬顆晶片的產出，1%的不良率就可能是很可觀的損失，因此非得弄清楚製造缺陷的成因。所以相較於其他產業，晶圓製造產業一開始就必須面對這個困難的問題。讀者諸公也很清楚晶圓製造廠網羅了很多一流的專家與工程師，這其中所開發的技術，恐怕很多都無法公開。因此現在我們對廣大的製造業，在談製造數據分析技術，可能有些正要經歷他們走過的路。

二、晶圓製造檢測數據分析
那麼到底晶圓缺陷分析是個甚麼問題?我們先用簡單的情況看一下下面的晶圓圖，其中紅色的代表符合規格的晶片（OK），藍色的代表不合格（NG）。你可以想像這是一個圓形的棋盤格，就像圍棋一樣，OK是白子，NG是黑子，而良率的要求跟下圍棋類似，生產者持白子，要把NG的黑子數量盡量減少，甚至到零是最好，而持有黑子的對手是製程機器的失誤。注意到圖中這缺陷分布似乎有聚集於中心與邊緣的模式，但是也有像是隨機分布的部分。晶圓缺陷分析的第一個目標是辨別缺陷分布模式究竟屬系統性或隨機性，接下來的任務是找出各種系統性模式的成因與規則（root cause）。這僅僅是三個圖，對於一個每月生產十幾萬片晶圓的廠，可以想像缺陷分布模式的複雜與龐大。

晶圓缺陷圖

晶圓缺陷圖，取材至http://www.datasciencecentral.com/profiles/blogs/data-science-applications-in-semiconductor-manufacturing

拿圍棋作比喻，恰好2016年Google的AlphaGo打敗了人類的冠軍棋士，造成全世界轟動，因為圍棋所擁有的可能性是天文數字，過去許多演算法都很難打敗人類的智慧。圍棋有361個棋位，每個棋位有黑子，白子以及空位三種可能性，所以是3的361次方（大約是10的172次方）。針對單純的晶圓檢測（OK與NG），每顆晶片有2種可能性，只要超過573顆晶片，該晶圓所擁有的缺陷分布可能性就超過圍棋，而實際上每片晶圓的晶片數動輒上千。這就不難想像要去辨識晶圓缺陷的模式，甚至歸類的複雜度。以上的描述對個別晶片僅有OK與NG的狀態，實際上NG的晶片通常還包含缺陷的類別與數目，如果加入考慮，那麼蘊含的變化數量級將更大。

其次我們都知道圍棋雖然呈現的模式很複雜，但是規則很簡單，目的是基於這個規則的運用方式打敗對手。而晶圓製造過程中，缺陷的產生規則卻是事先不知道的（經驗豐富的製程工程師或可掌握少量的規則），也就是說，晶圓缺陷分析的目的是要去找到缺陷發生的成因與規則。如果這晶圓經過了十幾道製程，每個製程又有幾十個或幾百個機器參數可以調整，那麼從缺陷分類去尋找到規則，又是另一個天文數字的組合。當然製程工程師會盡量在過程中分段抽樣檢測以縮小範圍，但是太多檢測會拖延製程時間，因此往往沒這個機會。這還有更深一層的挑戰，我們都從報導中看到為了要訓練AlphaGo的演算法，擷取了過去人類累積的大量棋譜，並透過不斷與棋手對弈，或是兩個程式對戰，以產生大量的數據。但是複雜度遠高於圍棋的晶圓製造缺陷模式，卻沒有機會去任意調控機器來產出數據，讓演算法充分去訓練，因為製程機器不從事生產，在財務上就是損失。

我這裡舉的例子，只是晶圓製造數據分析的一部分，實際上還有許多不同的狀況，包含從量測數據結果，對過程中物理與化學現象的掌握等等。經過上述的說明，各位讀者認為晶圓製造的數據分析，是比下圍棋來得簡單還是難呢?或是說台積電面對這麼多不同客戶的產品製造，能夠領先全世界，每年獲利這麼高，是不是很偉大！

三、技術發展歷程
從公開的文獻中，晶圓製造良率分析的研究，最早應該是Bernard T. Murphy博士提出的，Murphy在1963年加入美國貝爾實驗室後，便積極的研究在積體電路的製造良率。在他1964年發表的論文中[1]，就提出傳統半導體元件製造的Poisson分布機率模型，不適用於描述在晶圓上製作大量集成電路的良率現象。這篇論文完全沒有引用任何其他論文，可見其前瞻性與重要性。隨後十幾年間，研究者陸續提出不同的機率模型，特別是在描述晶圓上缺陷的集中現象以及相關機率模型在晶圓空間上的非均勻性。直到1979年在IBM East Fishkill工作的Shih-Ming Hu，對各種已經發表的機率模型提出質疑，認為在數學上都有不正確的假設[2]。

1983年在IBM Essex Junction工作的Charles H. Stapper博士與其同事發表了一篇重要的論文，把晶圓缺陷分布的隨機現象，與製程中缺陷可能的成因，建構其模型並分析，該文章連結了數學理論與實際製造行為[3]。Stapper於1961年加入IBM，在1972年開發出一套對記憶體（SRAM與DRAM）製造的缺陷與良率模型，然後大量運用在製程最佳化。他早期大部分的技術揭露在IBM發行的期刊（IBM Journal of Research and Development）。IBM East Fishkill與Essex Junction是IBM微電子事業的兩個據點，IBM在2006年7月1日正式結束了這個事業，將其轉移給了GlobalFoundries。Stapper是公認在晶圓製造缺陷分析上全球重要的技術推手，1996年國際電機電子學會的超大型積體電路系統缺陷與容錯技術會議，特別以專文紀念他的貢獻[4]。

為了更準確掌握晶圓生產缺陷的狀態，從1980年代起就對於其機率模型有很多修正。然而使用機率模型來分析有其極限，尤其是製程工程師每天面對大量的量測數據，需要更多元的參數模型來涵括各種狀況，同時利用人工經驗來辨識歸類缺陷不僅可能偏差，也很沒有效率。Intel人工智慧實驗室的Digvijay Sikka在1993年發表了一篇不太起眼的學術會議論文[5]，他將晶圓的檢測結果當作影像，使用影像處理以及類神經網路來偵測並分類晶圓缺陷狀況。據稱針對已知的缺陷類別其分類效率達到100[c1] %，論文中並透露這個方法已經在Intel內部成功的使用超過兩年了。1998年在加州聖塔克拉拉Intel製造部門工作的Sean P. Cunningham發表了一篇很完整的期刊論文，正式提出以視覺缺陷計量學（Visual Defect Metrology）來看待晶圓缺陷模式分析技術。從這兩篇文章可以約略猜測Intel在1980年代後期就已經發現，使用影像處理與人工智慧技術來對付晶圓缺陷的量測數據，可以有很好的結果。

從以上的文獻追溯揭示對於這個問題重要的研究起源並非學術界，而是AT&T的貝爾實驗室，IBM，以及Intel，因為這些公司從事積體電路製造，才能發現實際問題。同時因為公司規模大，可以雇用研究人員去發掘創造適用的理論與方法。台灣從1980年成立新竹科學園區，開始建立積體電路製造的能力，也一定面臨同樣的問題。從台灣的博碩士論文資料庫，不難發現鄰近科學園區的清華大學與交通大學，從1990年起有若干研究團隊也致力於晶圓製造良率的研究，例如清華大學的簡禎富教授，在這方面有相當傑出的研究成果。在2000年，清華大學工業工程系的陳飛龍教授，發表了一篇以類神經網路偵測晶圓缺陷的空間分布模式的論文在國際電機電子工程學會的半導體製造期刊[6]，從學術文獻歷史來看，當時這是相當領先的研究。這代表在20年前，其實台灣就已經運用人工智慧的技術於解決晶圓製造的良率問題，只是其他製造業的環境與條件，還未能大量採用而已。近來因為智慧製造被炒熱成為下一世代的製造趨勢，以及AlphaGo造成的人工智慧風潮，許多報導不是慨嘆我們的落後，就是對於未來的不確定性感到懼怕，其實都是不了解我們已經有的潛在基礎。然而不論是數據科學或是人工智慧（例如深度學習），線性代數、機率統計、機器學習與優化理論都是必要的基礎，不可否認的，現今能夠掌握運用這些知識的人才非常稀缺。

四、結語
本文旨在闡述大量數據資料在製造上的重要性，台灣引以為傲的積體電路製造業，已經在很多年前就已經開始探索並善用製造數據，多年的研究與知識累積，造就了無可取代的競爭力。而台灣廣大的製造業，不乏才正要開始導入並實作這些觀念與技術。當我們從報導中看到國外許多在消費市場，醫療與公共行政上的大數據案例，可千萬不要捨近求遠，台灣經濟發展基石的製造業，其實有太多數據值得我們去發掘，探索，分析與產生價值。

自從德國提出工業4.0的口號，市場上就到處充斥著各種不同關於智慧製造的報導與分析，太多的面向與角度，以及帶有行銷企圖的口氣，讓很多製造業，尤其是中小企業，常常覺得無所適從。特別是從大數據分析技術的角度來看，認為一切只需要提供數據，最好是利用人工智慧的分析與資料探勘，可以從數據中撈到令人意想不到的關聯性，就像中獎一樣，進而產生了價值。這種說法其實是另一種型式的賭博，風險非常高。對製造業而言，萬變不離其宗，一切都必須從企業的核心價值出發，思考何種數據可以增加這個價值，如何取得這些數據，以及如何分析善用這些數據。如果對於某一些製造領域內長久存在的已知問題，其所呈現的數據隱含豐富的資訊量，這就可能是個金礦。只要能善用資料分析與建模技術解決這些問題，很可能一下子就把競爭對手遠遠甩開。另一方面，通過解析資料的異常數據以及潛藏規律也可能發掘過去所不為人所知的製造問題，譬如，AlphaGo經常奕出人類無法理解的棋步即為一例。

最後，從前文所述晶圓缺陷分析技術的發展歷史，可以看到這是長時間的功夫累積，以及學理基礎的必要性，絕對不是靠人工經驗與僥倖可以成功的。這代表企業必須下定決心投資在建立堅實的數據科學和人工智慧知識與技術，以及教育界必須積極培養所需的人才。

誌謝：
本文要感謝周志成教授對內容寶貴的建議與修正。

參考文獻：

Bernard T. Murphy, "Cost-size optima of monolithic integrated circuits." Proceedings of the IEEE 52.12 (1964): 1537-1545.
Hu, S. M. "Some considerations in the formulation of IC yield statistics." Solid-State Electronics 22.2 (1979): 205-211.
Stapper, Charles H., Frederick M. Armstrong, and Kiyotaka Saji. "Integrated circuit yield statistics." Proceedings of the IEEE 71.4 (1983): 453-470.
Stapper, Charles H., The proceedings of the 1996 Symposium on Defect and Fault Tolerance in VLSI Systems, IEEE Computer Society, November 6 - 8, 1996, Boston, Massachusetts, USA.
Sikka, Digvijay, "Automated feature detection and characterization in sort wafer maps." The proceedings of 1993 International Joint Conference on Neural Networks, Vol. 2, IEEE, 1993.
Cunningham, Sean P., and Scott MacKinnon. "Statistical methods for visual defect metrology." IEEE Transactions on Semiconductor Manufacturing 11.1 (1998): 48-53.
Chen, Fei-Long, and Shu-Fan Liu. "A neural-network approach to recognize defect spatial pattern in semiconductor fabrication." IEEE transactions on semiconductor manufacturing 13.3 (2000): 366-373.

[c1]一般來說，自動分類與人工分類的吻合度大概只有80~90%，實際情況是常常兩個工程師都無法有一致的判別。

回列表頁