【品質管理】深入淺出 FMEA:半導體測試廠 TFMEA 實戰案例解析
【品質管理】深入淺出 FMEA:半導體測試廠 TFMEA 實戰案例解析
一、FMEA 的核心定義與業界分類
FMEA 的英文全稱是 Failure Mode and Effects Analysis,中文通常翻譯為:失效模式與效應分析(或故障模式與影響分析)。
簡單來說,它是一種預防性的品質管理工具。在產品還沒大量生產、甚至還在設計階段時,團隊就先聚在一起「腦力偵錯」,預測未來可能會發生什麼慘事(失效模式)、發生了會有多慘(效應),並提前想出應對辦法。
💡 這些 FMEA 分類是業界通用的嗎?
是的,這些絕對是業界通用的標準術語。特別是在汽車業(IATF 16949 規範)、半導體業和電子製造業,FMEA 是不可或缺的標配。以下是常見的三大分類:
- DFMEA (Design FMEA - 設計 FMEA):針對「產品設計」階段。評估產品在圖紙、架構、材料設計上,有沒有可能在未來失效。
- PFMEA (Process FMEA - 製程 FMEA):針對「製造與組裝」階段。評估在工廠生產線、機台操作、人員組裝時,有哪些流程會出錯。
- TFMEA (Test FMEA - 測試 FMEA):在測試廠(Test House)或測試單位,大家會特別聚焦在測試流程、測試程式(Test Program)、測試治具(Load Board / Probe Card)的失效風險。它本質上是 PFMEA 的一個專門分支,在半導體封測業是標準通用的語言。
二、FMEA 的核心四大指標:S、O、D 與 AP
在填寫 FMEA 表格時,我們要怎麼量化「某個風險到底有多嚴重」?以前我們會看 RPN(風險順序數),但根據 AIAG & VDA 最新的 FMEA 國際標準,現在業界更流行使用 AP (Action Priority,行動優先級)。這四個詞的定義如下:
● 1. Severity (S) - 嚴重度
意義:當這個失效真的發生時,後果有多嚴重?
分數:通常為 1 到 10 分。1 分代表客戶根本沒感覺;10 分代表會危及人身安全或違反法律法規。
注意:嚴重度通常無法透過製程改善來降低,除非更改產品的原始設計。
● 2. Occurrence (O) - 頻度(發生率)
意義:這個失效原因發生的機率有多高?或者是發生的頻率如何?
分數:通常為 1 到 10 分。1 分代表極低機率發生(或有極強的預防措施);10 分代表幾乎每次都會發生。
● 3. Detection (D) - 難檢度(偵測度)
意義:在產品出廠或流向下一站之前,我們現有的檢測手段有多大的把握能「抓到」這個錯誤?
分數:通常為 1 到 10 分。分數越高代表越難抓到!(1 分代表 100% 能自動攔截;10 分代表完全瞎子摸象,根本驗不出來)。
● 4. AP (Action Priority) - 行動優先級
意義:這是新版 FMEA 的核心。過去是將 S、O、D 三者相乘得到 RPN 分數,但這樣容易盲目追求低分。新版改用 AP,直接將 S、O、D 的組合對照一張查檢表,將風險定義為三個等級:
- High (H - 高):必須立刻採取行動,改善設計或製程。
- Medium (M - 中):應視情況採取行動,評估是否能提升防呆或檢測能力。
- Low (L - 低):風險在可接受範圍,維持現狀即可。
三、半導體測試廠 TFMEA 典型案例表
我們以半導體測試廠(Test House)最常見的 FT (Final Test) 成品測試流程為例。主要任務是預防「把壞的晶片當成好的(漏檢,Test Escape)」或是「把好的晶片誤判為壞的(過殺,Overkill)」,同時保護昂貴的測試設備。
| 測試製程步驟 | 潛在失效模式 (Failure Mode) |
潛在失效效應 (Effects) |
S | 潛在失效原因 (Causes) |
O | 現行控制檢測方法 (Detection) |
D | AP | 建議改善措施 (Recommended Action) |
|---|---|---|---|---|---|---|---|---|---|
| 1. 載入測試程式 (Load Test Program) |
載入到錯誤版本的測試程式 (Wrong Release Version)。 | 導致測試規格不符,可能造成漏檢 (Escape) 讓不良品出貨給客戶。 | 8 | 測試工程師(TE)手動手誤選錯檔案;系統未強制綁定。 | 3 | 生產前由作業員人工核對工單上的程式名稱。 | 7 | H | 系統自動化:導入 MES 系統與測試機連線,掃描工單條碼後自動載入指定程式,禁止人工選擇。 |
| 2. 硬體架設 (Hardware Setup) |
測試治具(Load Board / Socket)接觸不良或針腳磨損。 | 訊號衰減,導致良率異常偏低 (Overkill),平白損失產能。 | 5 | Socket 達使用壽命上限,或清針(Clean pins)頻率不足。 | 6 | 依靠測試機定期跑的 Golden Standard Check(標準片測試)。 | 4 | M | 預防性維護:系統強制設定 Socket 插拔次數(Touch count)計數器,到達上限自動鎖機,強制清針或更換。 |
| 3. 測試分類 (Sorting / Binning) |
分類機(Handler)將測試結果為 Fail 的晶片誤歸類到 Pass 的晶盒(Bin 1)。 | 嚴重漏檢!壞片流出到市場,引發客戶退貨(RMA)與客訴。 | 9 | 測試機(Tester)與分類機之間的通訊訊號(EOT/SOT GPIB 訊號)延遲或受到雜訊干擾。 | 2 | 目前無即時偵測手段,只能靠後續包裝前的抽檢。 | 8 | H | 硬體驗證與防呆:定期進行「反向驗證(Loopback Test)」,刻意放已知壞片(Bad Unit)測試,確認分類機是否能正確分流;並優化訊號線屏蔽降低雜訊。 |
四、測試廠在寫 TFMEA 時的思維關鍵
🧠 S (嚴重度) 怎麼定?
- 如果失效會導致壞晶片流出到客戶端,嚴重度通常是 8~10 分(極高)。
- 如果失效只是導致產線暫停、良率誤判(好的判成壞的),嚴重度大約是 4~6 分(中等,因為晶片還在廠內可以複測,損失的是產能和成本)。
⚙️ O (頻度) 怎麼降低?
- 測試廠非常講求「自動化(Automation)」。只要是人為操作(如:人工對型號、人工手寫標籤),頻度通常會被評為中高分(4~6 分)。
- 要降低 O 分,最好的方法是透過 MES 系統綁定、條碼自動掃描、機台防呆(Poka-Yoke)。
🔍 D (難檢度) 怎麼降低?
- 不能只靠「人眼檢查」或「工程師日常巡檢」(這會讓 D 分很高,因為很容易漏看)。
- 最好的檢測方法是測試機內建的硬體/軟體檢查。例如:在每批晶片開測前,程式自動跑一遍 Golden Piece(已知是好的晶片),確認測試數據完全正確才允許開工。
💡 小結:TFMEA 不是為了應付稽核的文書作業,而是測試廠保護良率、降低客訴、避免昂貴設備受損的自動化防禦武器。
留言
張貼留言