it.xnews.jp
出典: Federico Magnani’s blog 原文公開: 2026-04-08 生成: 2026-05-23 読了 約 2 分 model: claude-haiku-4-5 原文: https://fedemagnani.github.io/math/2026/04/08/the-quadratic-sandwich.html raw.md

二次関数による最適化理論の基礎

最適化における強凸性とL-平滑性という2つの性質が、関数を「二次のサンドイッチ」で挟む形で作用する仕組みと、条件数による最適化難度の関係を説明した記事。

勾配降下法の収束性能を左右する強凸性とL-平滑性の2つの性質は、関数を上下の二次関数で挟む「二次サンドイッチ」として統一的に理解できる。条件数κ = L/μが1に近いほど最適化が容易になる。

強凸性とL-平滑性の定義

微分可能な関数fが μ-強凸であるとは、すべてのx, yに対して f(y) ≥ f(x) + ⟨∇f(x), y - x⟩ + (μ/2)||y - x||² が成り立つことである。一方、L-平滑性は ||∇f(x) - ∇f(y)|| ≤ L||x - y|| で定義される。fが凸かつL-平滑であるとき、f(y) ≤ f(x) + ⟨∇f(x), y - x⟩ + (L/2)||y - x||² が成り立つ。

二次サンドイッチと条件数

強凸性とL-平滑性の組み合わせにより、関数fは上下の二次関数で挟まれる形となる。条件数κ = L/μはこのサンドイッチの厚さを測定する指標であり、κ ≥ 1 が常に成り立つ。κ = 1(すなわちμ = L)のとき、サンドイッチは完全に均衡し、fは厳密に二次関数となる。

ヘッシアン固有値との関係

強凸性は、関数のヘッシアン行列の最小固有値がλ₁(x) ≥ μ > 0 をすべてのxで満たすことと等価である。L-平滑性は最大固有値がλₙ(x) ≤ L を満たすことと等価である。μによる最小曲率の下限とLによる最大曲率の上限は、勾配降下法の収束挙動を直接支配する。

固有値計算を避ける検証方法

fがL-平滑であることは、g(x) = (L/2)||x||² - f(x) が凸関数であることと等価である。逆にfが μ-強凸であることは、h(x) = f(x) - (μ/2)||x||² が凸関数であることと等価である。これらの同値性により、ヘッシアン固有値を直接計算することなく性質を検証できる。

例としてf(x) = -ln(x)を考えると、x = 10 での曲率は0.01、x = 0.1 での曲率は100である。また4次関数f(x) = x⁴の二階導関数はx = 10 で1200 となる。

筆者の見立て

この記事は元記事の事実のみに基づいて自動生成されました。

出典

Federico Magnani's blog, "The quadratic sandwich", https://fedemagnani.github.io/math/2026/04/08/the-quadratic-sandwich.html

この記事をシェア