二次関数による最適化理論の基礎
最適化における強凸性とL-平滑性という2つの性質が、関数を「二次のサンドイッチ」で挟む形で作用する仕組みと、条件数による最適化難度の関係を説明した記事。
勾配降下法の収束性能を左右する強凸性とL-平滑性の2つの性質は、関数を上下の二次関数で挟む「二次サンドイッチ」として統一的に理解できる。条件数κ = L/μが1に近いほど最適化が容易になる。
強凸性とL-平滑性の定義
微分可能な関数fが μ-強凸であるとは、すべてのx, yに対して f(y) ≥ f(x) + ⟨∇f(x), y - x⟩ + (μ/2)||y - x||² が成り立つことである。一方、L-平滑性は ||∇f(x) - ∇f(y)|| ≤ L||x - y|| で定義される。fが凸かつL-平滑であるとき、f(y) ≤ f(x) + ⟨∇f(x), y - x⟩ + (L/2)||y - x||² が成り立つ。
二次サンドイッチと条件数
強凸性とL-平滑性の組み合わせにより、関数fは上下の二次関数で挟まれる形となる。条件数κ = L/μはこのサンドイッチの厚さを測定する指標であり、κ ≥ 1 が常に成り立つ。κ = 1(すなわちμ = L)のとき、サンドイッチは完全に均衡し、fは厳密に二次関数となる。
ヘッシアン固有値との関係
強凸性は、関数のヘッシアン行列の最小固有値がλ₁(x) ≥ μ > 0 をすべてのxで満たすことと等価である。L-平滑性は最大固有値がλₙ(x) ≤ L を満たすことと等価である。μによる最小曲率の下限とLによる最大曲率の上限は、勾配降下法の収束挙動を直接支配する。
固有値計算を避ける検証方法
fがL-平滑であることは、g(x) = (L/2)||x||² - f(x) が凸関数であることと等価である。逆にfが μ-強凸であることは、h(x) = f(x) - (μ/2)||x||² が凸関数であることと等価である。これらの同値性により、ヘッシアン固有値を直接計算することなく性質を検証できる。
例としてf(x) = -ln(x)を考えると、x = 10 での曲率は0.01、x = 0.1 での曲率は100である。また4次関数f(x) = x⁴の二階導関数はx = 10 で1200 となる。
筆者の見立て
- κ = 1 のとき勾配降下法は1ステップで最小値に達する、と論じている
- 完全なサンドイッチを有する唯一の関数は二次関数である、と解釈している
- 勾配降下法はf(x) = ||x|| のような非微分可能関数を修正なしに扱うことができない、との含意を示唆している
- 強凸性とL-平滑性の間に Fenchel 共役を含む正確な対称性が存在する、と予想している
- よくバランスされたサンドイッチが最適化難度の理解の鍵である、と論じている
この記事は元記事の事実のみに基づいて自動生成されました。
出典
Federico Magnani's blog, "The quadratic sandwich", https://fedemagnani.github.io/math/2026/04/08/the-quadratic-sandwich.html