典型的なローレンツ曲線
平成17年度国勢調査速報を元に作成したローレンツ曲線(都道府県別)
ローレンツ曲線 (ローレンツきょくせん、英 : Lorenz curve )とは、ある分布 を持つ事象 について、確率変数 が取り得る値を変数 とし、確率変数の値が与えられた変数の値を超えない範囲における確率変数と対応する確率 の積 の和 (あるいは確率変数と確率密度関数 の積の積分 )を、その分布に対する確率変数の期待値 で割って規格化 したものとして与えられる関数 の幾何学的 な表現のことである。言い換えると、ある集団に含まれる下位集団に対する期待値を全体の期待値で割ったものをその下位集団ごとにプロットしたものとも言える。
あるいは、確率変数の値がある値を下回る集団の割合はそれらがとり得る確率変数の値の上限 と一対一に対応付けられる ため、全体に対する下位集団の割合を変数とする関数としても表すことができる。
ローレンツ曲線は下位集団の割合を変数 F として、関数 L (F ) によって定義される。集団全体の期待値を μ で表せば、連続的な分布に対するローレンツ曲線 L (F ) は次のように定義される。
L
(
F
)
=
∫ ∫ -->
0
F
x
(
F
′
)
d
F
′
μ μ -->
{\displaystyle L(F)={\frac {\int _{0}^{F}x(F')\,dF'}{\mu }}}
この定義から明らかなように、期待値 μ が 0 または ±∞ であるような分布に対しては、ローレンツ曲線を定めることができない。言い換えると、期待値が 0 でない有限の値をとるような集団に対してのみローレンツ曲線が定義される。
ローレンツ曲線は事象の集中度合いを評価するために用いられる。1905年 にアメリカの経済学者 、マックス・O・ローレンツ が発表した。富の集中を論じる際に用いられることが多い。
概要
国家の所得格差の統計に当てはめて、ローレンツ曲線について説明する。国民一人一人を所得が小さい順に並べ、下から 10F 割に属する人の所得の合計値が、国民全員の所得の合計値の 10y 割であるとき、
y
=
L
(
F
)
{\displaystyle y=L(F)}
と表される関数 L (F ) をローレンツ曲線 という。
社会に所得格差 が全く存在しなかった場合、ローレンツ曲線は45度線(均等分配線 、英 : line of perfect equality )と一致する。45度線とローレンツ曲線とで囲まれる部分の面積を 2 倍 したものはジニ係数 を与える。所得格差が全く存在しない場合、ローレンツ曲線は45度線と一致するので、ジニ係数は 0 になる。一方で、たった一人に全ての富が集中している場合(=最も所得格差が激しい場合)、ローレンツ曲線は"┘"の形になるので、ジニ係数は 1 になる。以上からジニ係数は所得格差を計る尺度と見なせる。
どんな分布でも、ローレンツ曲線 L (F ) は確率密度関数 f (x ) または累積分布関数 F (x ) を用いて以下のように書くことができる。
L
(
F
)
=
∫ ∫ -->
− − -->
∞ ∞ -->
x
(
F
)
x
f
(
x
)
d
x
∫ ∫ -->
− − -->
∞ ∞ -->
∞ ∞ -->
x
f
(
x
)
d
x
=
∫ ∫ -->
0
F
x
(
F
′
)
d
F
′
∫ ∫ -->
0
1
x
(
F
′
)
d
F
′
{\displaystyle L(F)={\frac {\int _{-\infty }^{x(F)}xf(x)\,dx}{\int _{-\infty }^{\infty }xf(x)\,dx}}={\frac {\int _{0}^{F}x(F')\,dF'}{\int _{0}^{1}x(F')\,dF'}}}
ここで x (F ) は累積分布関数 F (x ) の逆関数 である。逆関数の性質より、
d
x
(
F
)
d
F
=
1
d
F
(
x
)
d
x
|
x
=
x
(
F
)
=
1
{
d
F
(
x
(
F
)
)
d
x
}
{\displaystyle {\frac {dx(F)}{dF}}={\frac {1}{\left.{\frac {dF(x)}{dx}}\right|_{x=x(F)}}}={\frac {1}{\left\{{\frac {dF(x(F))}{dx}}\right\}}}}
を満たすので、積分
∫ ∫ -->
− − -->
∞ ∞ -->
x
(
F
)
x
f
(
x
)
d
x
{\displaystyle \int _{-\infty }^{x(F)}xf(x)\,dx}
の積分変数を x から F' に変えたものは、累積分布関数の定義より F (−∞) = 0 となるから、次のように書き換えられる。
∫ ∫ -->
0
F
x
(
F
′
)
f
(
x
(
F
′
)
)
d
x
(
F
′
)
d
F
′
d
F
′
=
∫ ∫ -->
0
F
x
(
F
′
)
f
(
x
(
F
′
)
)
1
{
d
F
(
x
(
F
′
)
)
d
x
}
d
F
′
{\displaystyle \int _{0}^{F}x(F')f(x(F'))\,{\frac {dx(F')}{dF'}}dF'=\int _{0}^{F}x(F')f(x(F'))\,{\frac {1}{\left\{{\frac {dF(x(F'))}{dx}}\right\}}}dF'}
また累積分布関数 F (x ) は、対応する確率密度関数の積分 f (x ) で置き換えられる。従って、その導関数 dF (x )/ dx は確率密度関数 f (x ) を与えるから、変数変換後の積分からは確率密度関数を消去することができ、上記の積分は以下のように書くことができる。
∫ ∫ -->
− − -->
∞ ∞ -->
x
(
F
)
x
f
(
x
)
d
x
=
∫ ∫ -->
0
F
x
(
F
′
)
d
F
′
{\displaystyle \int _{-\infty }^{x(F)}xf(x)\,dx=\int _{0}^{F}x(F')dF'}
出典
参考文献
関連項目