對於下面這個常見的最佳化式子,不論使用什麼方法求解(direct method, iterative method),其結果的\(x\)可能會過度的在數值上最佳化而遠離理想的答案
\[ \underset{x}{min}{\left \|Ax-b\right \|^2} \]
這時候在後面加上數個限制項使得\(x\)必須要同時滿足其後幾個constrain(或稱penalty),稱之為regularization或正規化,這邊式子為L-2 norm regularization,視\(x\)所需要的特性也可能為L-1 norm或是p-norm。在大多情況下\({\Gamma}_i\)通常為identity matrix,有時則是derivative matrix;\({\lambda}_i\)則代表權重常數
\[ \underset{x}{min}{\left \|Ax-b\right \|^2 + \sum_{i}{{\lambda}_i\left \|{\Gamma}_ix\right \|^2}} \]
對不同norm order的regularization,解法難易度不一,其中最好求解的就是L-2 norm,推導在前篇(Linear quadratic form in optimization problem Ax=b)最後段介紹過。
這邊有幾個常見的regularization特性
- L-2 norm:求解出的\(x\)各個數值會相近,數值雖小但不會是0,有平均化的特性,公式上可微分,有closed form。
- L-1 norm:\(x\)會有sparse的特性(也就是大多數element為0),相當於求解\(x\)每個element的L-1 norm最小化,公式上不可微分,求解較困難。
目前的學術研究方向基本上整個是偏向L-1 norm發展。用個癌症治療比喻,L-2比較像是做化療,效果是影響全身的,大多時候會有副作用;L-1則是接近局部手術切除,通常比較有機會根治,但也可能切的不夠乾淨XD
此外也有L-2的修改療法,概念上就是對均化誤差的\(x\)根據問題做調整,如threshold或scale,來在求解難度和解答品質做個取捨,也是筆者較喜歡的做法。
