数理最適化 および決定理論 において、損失関数 (そんしつかんすう、英 : loss function )またはコスト関数 (英 : cost function 、誤差関数 (英 : error function )とも呼ばれる)とは[ 1] 、ある事象 または1つ以上の変数の値を、その事象に関連する何らかの「コスト」を直感的に表す実数 に対応づける関数 である。最適化問題 は、損失関数を最小化することを目的としている。目的関数 (もくてきかんすう、英 : objective function )とは、損失関数またはその逆関数 (特定の領域では、報酬関数 、利潤関数 、効用関数 、適合度関数 (英語版 ) などと呼ばれる)のいずれかであり、この場合は最大化されることになる。損失関数は、階層のいくつかの層からの項目を含むことがある。
統計学では、損失関数は一般的にパラメータ推定 (英語版 ) に使用され、問題における事象は、あるデータのインスタンスに対する推定値と真値との差の関数である。この概念はラプラス と同様に古くからあり、20世紀半ばにエイブラハム・ウォールド によって統計学に再導入された[ 2] 。たとえば、経済学 の文脈では通常、経済的コスト (英語版 ) や後悔(リグレット) (英語版 ) を指して使われる。分類 では、事例の分類が誤った場合のペナルティのことである。保険数理 では、特に1920年代のハラルド・クラメール の研究以来、保険料に対して支払われる給付金をモデル化するために、保険の文脈で使用される[ 3] 。最適制御 では、損失は望ましい値を達成できなかった場合のペナルティである。金融リスク管理 (英語版 ) では、この関数は金銭的損失にマッピングされる。
例
後悔
レナード・サヴェッジ (英語版 ) は、ミニマックス(minimax) のような非ベイズ法 を用いる場合、損失関数は後悔 (リグレット)(英語版 ) の考え方に基づくべきであると主張した。すなわち、意思決定に伴う損失は、根底にある状況を知っていれば下せたであろう最善の決定の結果と、それを知る前に実際に行った決定との差であるべきという。
二次損失関数
二次 損失関数(quadratic loss function)は、たとえば、最小二乗法 などでよく使用される。この関数は分散 の特性や対称性があるため、他の損失関数よりも数学的に扱いやすいことが多い。目標を上回る誤差は、目標を下回る同じ大きさの誤差と同じ損失をもたらす。目標を t とすると、二次損失関数は、ある定数 C に対して
λ λ -->
(
x
)
=
C
(
t
− − -->
x
)
2
{\displaystyle \lambda (x)=C(t-x)^{2}\;}
となる。定数の値は判定に影響を与えないので、1に等しくすることで無視することができる。これは二乗誤差損失 (squared error loss、SEL)とも呼ばれる[ 1] 。
t検定 、回帰 モデル、実験計画法 などの一般的な統計学 の多くは、二次損失関数に基づく線形回帰 理論を適用した最小二乗法を用いている。
また、二次損失関数は、線形二次最適制御問題 (英語版 ) でも利用されている。このような問題では、不確実性がない場合でも、すべての目標変数の望ましい値を達成することができない場合がある。多くの場合、損失は対象変数の望ましい値からの偏差の二次式 で表わされる。このアプローチは一階微分条件 (英語版 ) となるため扱いやすい (英語版 ) 。確率制御 (英語版 ) の文脈では、二次形式の期待値が使われる。
0-1損失関数
統計学や決定理論 において、よく使用される損失関数は 0-1損失関数 (0-1 loss function )
L
(
y
^ ^ -->
,
y
)
=
I
(
y
^ ^ -->
≠ ≠ -->
y
)
{\displaystyle L({\hat {y}},y)=I({\hat {y}}\neq y)}
で、ここに
I
{\displaystyle I}
は指示関数 である。つまり、入力が真 と評価されれば、出力は 1 となる。そうでなければ、入力が偽 (英語版 ) と評価された場合、出力は 0 となる。
損失関数と目的関数の構築
多くの用途では、損失関数も含む目的関数は、問題の定式化によって決定される。あるいは、意思決定者の好みを引き出し、最適化に適した形のスカラー 値関数(効用関数 ともいう)で表現しなければならない場合がある。ラグナル・フリッシュ は、ノーベル賞講演でこの問題を取り上げた[ 4] 。目的関数を構築するための既存の方法が、2つの専門会議の会報にまとめられている[ 5] [ 6] 。特に、アンドラニク・タンジアン (英語版 ) は、最も有用な目的関数(二次関数と加法関数)が、少数の無差別点によって決定されることを示した。彼は、この性質を利用して、意思決定者とのコンピュータ支援インタビューを通じて得られた名義データ や順序データ (英語版 ) から、これらの目的関数を構築するモデルを作成した[ 7] [ 8] 。とりわけ、ウェストファーレン州の16大学への予算を配分するためや[ 9] 、ドイツの271地域間で失業率を均等化する欧州補助金のための目的関数を構築した[ 10] 。
期待損失
場合によっては、損失関数の値は確率変数 X の結果に依存するため、それ自体がランダムな量となることがある。
統計学
頻度主義統計学 (英語版 ) とベイズ統計学 は、どちらも損失関数の期待値 に基づいて意思決定を行うが、この量は2つのパラダイムで異なって定義されている。
頻度主義統計学の期待損失
まず、頻度主義の文脈で期待損失 (expected loss)L を定義する。これは、観測データ X の確率分布 P θ に対する期待値 をとることで得られる。これは、決定則 δ とパラメータ θ の危険関数 (英 : risk function 、リスク関数 )とも呼ばれる。ここでは決定則が X の結果に依存する。危険関数 R(θ, δ) は次のように定義 される。
R
(
θ θ -->
,
δ δ -->
)
=
E
θ θ -->
-->
L
(
θ θ -->
,
δ δ -->
(
X
)
)
=
∫ ∫ -->
X
L
(
θ θ -->
,
δ δ -->
(
x
)
)
d
P
θ θ -->
(
x
)
{\displaystyle R(\theta ,\delta )=\operatorname {E} _{\theta }L{\big (}\theta ,\delta (X){\big )}=\int _{X}L{\big (}\theta ,\delta (x){\big )}\,\mathrm {d} P_{\theta }(x)}
ここで、θ は固定値であるが、おそらくは未知の自然状態、 X は母集団 から確率論 的に抽出された観測値のベクトル、
E
θ θ -->
{\displaystyle \operatorname {E} _{\theta }}
は X の母集団すべての値に対する期待値、dP θ は X の事象空間上の確率測度 (θ でパラメータ化される)、積分 は X の全台 上で評価される.
ベイズ統計学の期待損失
ベイズ的アプローチでは、パラメータ θ の事後分布 π * を使用して期待値を算出する。
ρ ρ -->
(
π π -->
∗ ∗ -->
,
a
)
=
∫ ∫ -->
Θ Θ -->
L
(
θ θ -->
,
a
)
d
π π -->
∗ ∗ -->
(
θ θ -->
)
{\displaystyle \rho (\pi ^{*},a)=\int _{\Theta }L(\theta ,a)\,\mathrm {d} \pi ^{*}(\theta )}
そして、期待損失を最小化する行動 a* を選択することになる。これにより、頻度主義的リスクを用いるのと同じ行動を選択することになるが、ベイズ的手法の重点は、実際に観測されたデータに基づいて最適な行動を選択することにのみ関心をもつ。これに対し、頻度主義的な手法は、考えられるすべての観測データの関数である最適決定則を選択するというはるかに難しい問題である。
統計学での例
スカラーのパラメータ
θ θ -->
{\displaystyle \theta }
について 、出力
θ θ -->
^ ^ -->
{\displaystyle {\hat {\theta }}}
を
θ θ -->
{\displaystyle \theta }
の推定値とする決定関数と、二次損失関数(二次誤差損失)が
L
(
θ θ -->
,
θ θ -->
^ ^ -->
)
=
(
θ θ -->
− − -->
θ θ -->
^ ^ -->
)
2
,
{\displaystyle L(\theta ,{\hat {\theta }})=(\theta -{\hat {\theta }})^{2},}
とすると、危険関数は推定値の平均二乗誤差
R
(
θ θ -->
,
θ θ -->
^ ^ -->
)
=
E
θ θ -->
-->
(
θ θ -->
− − -->
θ θ -->
^ ^ -->
)
2
{\displaystyle R(\theta ,{\hat {\theta }})=\operatorname {E} _{\theta }(\theta -{\hat {\theta }})^{2}}
となる。平均二乗誤差を最小化することで求められる推定器は、事後分布 の平均を推定する。
密度推定 (英語版 ) において、未知パラメータは確率密度 そのものである。その損失関数は通常、適切な関数空間 におけるノルム として選択される。たとえば、L2 ノルム
L
(
f
,
f
^ ^ -->
)
=
‖ ‖ -->
f
− − -->
f
^ ^ -->
‖ ‖ -->
2
2
{\displaystyle L(f,{\hat {f}})=\|f-{\hat {f}}\|_{2}^{2}\,}
の場合、その危険関数は平均積分二乗誤差 (英語版 )
R
(
f
,
f
^ ^ -->
)
=
E
-->
‖ ‖ -->
f
− − -->
f
^ ^ -->
‖ ‖ -->
2
{\displaystyle R(f,{\hat {f}})=\operatorname {E} \|f-{\hat {f}}\|^{2}}
となる。
不確実性下での経済的選択
経済学では、不確実性の下での意思決定は、しばしば期末資産のような関心のある不確実な変数のフォン・ノイマン=モルゲンシュテルン効用関数 を用いてモデル化される。この変数の値は不確実であるため、効用関数の値も不確実であり、最大化されるのは効用の期待値である。
決定則
決定則 (英語版 ) (decision rules)は、最適化基準を使用して選択を行うものである。よく使われる基準として次のようなものがある。
ミニマックス (minimax)最悪の損失が最も少ない決定則を選ぶ。つまり最悪の場合の損失(最大可能損失)を最小限に抑える。
a
r
g
m
i
n
δ δ -->
max
θ θ -->
∈ ∈ -->
Θ Θ -->
R
(
θ θ -->
,
δ δ -->
)
.
{\displaystyle {\underset {\delta }{\operatorname {arg\,min} }}\ \max _{\theta \in \Theta }\ R(\theta ,\delta ).}
不変性 (英語版 ) (invariance):不変性要件を満たす決定則を選択する。
平均損失が最も少ない(つまり損失関数の期待値 を最小化する)決定則を選ぶ。
a
r
g
m
i
n
δ δ -->
E
θ θ -->
∈ ∈ -->
Θ Θ -->
-->
[
R
(
θ θ -->
,
δ δ -->
)
]
=
a
r
g
m
i
n
δ δ -->
∫ ∫ -->
θ θ -->
∈ ∈ -->
Θ Θ -->
R
(
θ θ -->
,
δ δ -->
)
p
(
θ θ -->
)
d
θ θ -->
.
{\displaystyle {\underset {\delta }{\operatorname {arg\,min} }}\operatorname {E} _{\theta \in \Theta }[R(\theta ,\delta )]={\underset {\delta }{\operatorname {arg\,min} }}\ \int _{\theta \in \Theta }R(\theta ,\delta )\,p(\theta )\,d\theta .}
損失関数の選択
優れた統計学的を実践するためには、特定の応用問題の文脈で経験される実際の許容変動と一致する推定量を選択する必要がある。したがって、損失関数の応用的な使用において、応用問題をモデル化するためにどの統計手法を使用するかは、その問題の特殊な状況下において選択を誤った場合に生じる損失を知ることに依存する[ 11] 。
よくある例としては「位置 (英語版 ) 」の推定がある。一般的な統計学的の仮定では、平均値 は二乗誤差 損失関数のもとで期待損失成績を最小化する位置推定の統計量であり、中央値 は絶対差分損失関数のもとで期待損失成績を最小化する推定量である。また、あまり一般的ではない状況では、他の推定量が最適となることもある。
経済学では、エージェントがリスク中立型 (英語版 ) の場合、目的関数は利益、収入、期末資産などの貨幣数量の期待値として単純に表現される。リスク回避 型エージェントやリスク愛好型 (英語版 ) エージェントの場合、損失は効用関数 の負として測定され、最適化されるべき目的関数は効用の期待値である。
公衆衛生 や安全工学 における死亡率 や罹患率 など、他のコスト尺度も考えられる。
多くの最適化アルゴリズム では、大域的に連続 かつ微分可能 な損失関数を持つことが望ましいとされている。
非常によく使われる損失関数として、二乗損失
L
(
a
)
=
a
2
{\displaystyle L(a)=a^{2}}
、絶対損失
L
(
a
)
=
|
a
|
{\displaystyle L(a)=|a|}
の2つがある。しかし、絶対損失には
a
=
0
{\displaystyle a=0}
で微分できないという欠点がある。二乗損失は、外れ値 によって支配される傾向がある欠点がある。(
∑ ∑ -->
i
=
1
n
L
(
a
i
)
{\textstyle \sum _{i=1}^{n}L(a_{i})}
のように)a の集合を合計すると、最終的な合計は平均的な a 値の表現ではなく、少数の特に大きな a 値の結果となる傾向がある。
損失関数の選択は恣意的なものではない。これは非常に制限的であり、ときには損失関数がその望ましい特性によって特徴付けられることもある[ 12] 。選択原理の中には、たとえば、独立同分布( i.i.d.)観測での対称統計のクラス完全性の必要条件、完備情報 の原則、その他がある。
W・エドワーズ・デミング やナシム・ニコラス・タレブ は、損失関数を選択する際には、優れた数学的特定ではなく経験的現実を唯一の根拠とすべきであり、実際の損失はしばしば数学的に優れたものでなく、微分可能、連続、対称などではない、と主張している。たとえば、飛行場の搭乗ゲートが閉まる前に到着した人は飛行機に乗れるが、その後に到着した人は乗れないという不連続性と非対称性があり、少し遅れて到着する方が少し早く到着するよりもはるかに高コストになる。薬物投与においては、投与量が少なすぎると効果が得られず、多すぎると耐容毒性になることがあるが、これも非対称性の例である。交通機関、導管、梁、生態系、気候などは、ある時点までは負荷やストレスの増加に耐え、ほとんど変化が見られないが、その後、過負荷になったり、壊滅的な破損を起こしたりすることがある。デミングとタレブは、このような状況は現実の問題によくあることで、おそらく古典的な平滑、連続、対称、微分的といった場合よりも多いだろうと主張している[ 13] 。
参考項目
脚注
^ a b Hastie, Trevor; Tibshirani, Robert ; Friedman, Jerome H. (2001). The Elements of Statistical Learning . Springer. p. 18. ISBN 0-387-95284-5 . https://web.stanford.edu/~hastie/ElemStatLearn/
^ Wald, A. (1950). Statistical Decision Functions . Wiley. https://psycnet.apa.org/record/1951-01400-000
^ Cramér, H. (1930). On the mathematical theory of risk
^ Frisch, Ragnar (1969). “From utopian theory to practical applications: the case of econometrics” . The Nobel Prize–Prize Lecture . https://www.nobelprize.org/prizes/economic-sciences/1969/frisch/lecture/ 15 February 2021 閲覧。
^ Tangian, Andranik; Gruber, Josef (1997). Constructing Scalar-Valued Objective Functions. Proceedings of the Third International Conference on Econometric Decision Models: Constructing Scalar-Valued Objective Functions, University of Hagen, held in Katholische Akademie Schwerte September 5–8, 1995 . Lecture Notes in Economics and Mathematical Systems. 453 . Berlin: Springer. doi :10.1007/978-3-642-48773-6 . ISBN 978-3-540-63061-6
^ Tangian, Andranik; Gruber, Josef (2002). Constructing and Applying Objective Functions. Proceedings of the Fourth International Conference on Econometric Decision Models Constructing and Applying Objective Functions, University of Hagen, held in Haus Nordhelle, August, 28 — 31, 2000 . Lecture Notes in Economics and Mathematical Systems. 510 . Berlin: Springer. doi :10.1007/978-3-642-56038-5 . ISBN 978-3-540-42669-1
^ Tangian, Andranik (2002). “Constructing a quasi-concave quadratic objective function from interviewing a decision maker”. European Journal of Operational Research 141 (3): 608–640. doi :10.1016/S0377-2217(01)00185-0 .
^ Tangian, Andranik (2004). “A model for ordinally constructing additive objective functions”. European Journal of Operational Research 159 (2): 476–512. doi :10.1016/S0377-2217(03)00413-2 .
^ Tangian, Andranik (2004). “Redistribution of university budgets with respect to the status quo”. European Journal of Operational Research 157 (2): 409–428. doi :10.1016/S0377-2217(03)00271-6 .
^ Tangian, Andranik (2008). “Multi-criteria optimization of regional employment policy: A simulation analysis for Germany” . Review of Urban and Regional Development 20 (2): 103–122. doi :10.1111/j.1467-940X.2008.00144.x . https://onlinelibrary.wiley.com/doi/10.1111/j.1467-940X.2008.00144.x .
^ Pfanzagl, J. (1994). Parametric Statistical Theory . Berlin: Walter de Gruyter. ISBN 978-3-11-013863-4
^ Detailed information on mathematical principles of the loss function choice is given in Chapter 2 of the book Klebanov, B.; Rachev, Svetlozat T.; Fabozzi, Frank J. (2009). Robust and Non-Robust Models in Statistics . New York: Nova Scientific Publishers, Inc. (and references there).
^ Deming, W. Edwards (2000). Out of the Crisis . The MIT Press. ISBN 9780262541152
推薦文献
Waud, Roger N. (1976). “Asymmetric Policymaker Utility Functions and Optimal Policy under Uncertainty”. Econometrica 44 (1): 53–66. doi :10.2307/1911380 . JSTOR 1911380 .
危険関数
Nikulin, M.S. (2001), “Risk of a statistical procedure” , in Hazewinkel, Michiel, Encyclopedia of Mathematics , Springer, ISBN 978-1-55608-010-4 , https://www.encyclopediaofmath.org/index.php?title=Risk_of_a_statistical_procedure
DeGroot, Morris (2004) [1970]. Optimal Statistical Decisions . Wiley Classics Library. ISBN 0-471-68029-X . MR 2288194
Robert, Christian (2007). The Bayesian Choice (2nd ed.). New York: Springer. doi :10.1007/0-387-71599-1 . ISBN 0-387-95231-4 . MR 1835885
Template:Differentiable computing