数学において、二項分布(にこうぶんぷ、英: binomial distribution)は、成功確率 p で成功か失敗のいずれかの結果となる試行(ベルヌーイ試行と呼ばれる)を独立に n 回行ったときの成功回数を確率変数Xとする離散確率分布である。
二項分布に基づく統計的有意性の検定は、二項検定と呼ばれている。
二項分布の典型例を次に示す。全住民の5%がある感染症に罹患しており、その全住民の中から無作為に500人を抽出する。ただし住民は500人よりずっと多いとする。このとき、抽出された集団の中に罹患者が30人以上いる確率はどれくらいだろうか。
500人のうちの感染症患者の分布は、大抵の場合は全住民のうちの患者の分布(真の分布)とおおよそ似通っていると考えられる。しかし、低確率ではあるが、選んだ500人の中に1人も患者が含まれないような真の分布とかけ離れた分布が得られる場合もある。直観的には、真の分布に近い分布が得られる確率は、真の分布から遠い分布が得られる確率より大きい。たとえば、500人中の患者の数が500×0.05=25人である確率は、24人や26人である確率より大きいだろうと思われる。しかし、その確率は定量的にどれほどだろうか。 これを定量的に表すことのできる分布が二項分布である。
抽出された集団の中に含まれる罹患者数を確率変数 X で表すとき、X は n = 500, p = 0.05 の二項分布に近似的に従う。ここで、罹患者が30人以上いる確率は Pr[X ≥ 30] である。
単純な定義としては、成功確率pの試行を独立にn回行い、成功回数を横軸にとってヒストグラムを作成した時のグラフの形である。このグラフの関数は下記の性質を持つ。
2つの母数p(0 ≤ p ≤ 1となる実数), n(自然数)に対して、0 以上の整数を値としてとる確率変数Xを定める。このとき、Xは試行の成功回数なので、(0 ≤ X ≤ n)である。
そして、X = xとなるような確率についての関数(確率質量関数)fX(x)について、
となることが性質よりわかる。
また、fX(x)は確率であるため、
も明らかである。
上記を定義として、xをkに書き換え、
で与えられるとき、Xは二項分布B(n, p)に従う、という。これはX ∼ B(n, p)と表記される[1]。
ここで、
は n 個から k 個を選ぶ組合せの数、すなわち二項係数を表す。二項分布という名前は、この二項係数に由来している。
n = 1 の場合を特に、ベルヌーイ分布と呼ぶ。
上の定義式は次のように解釈することができる。1回の試行において成功する確率が p であるとき、pk は k 回成功する確率を表し、(1 − p)n−k は n − k 回失敗する確率を表している。ただし、k 回の成功は n 回の試行の中のどこかで発生したものであるから、nCk 通りの発生順序がある。これら全てを掛けると、n 回の独立な試行を行ったときの成功回数が k となる確率を求めることができる。
二項分布 B(n, p) に従う確率変数 X に対し、X の期待値 E[X] を求めると
ここで、k′ = k − 1とおくと、
これは全ての順序付けられた試行パターンについての平均値でもある。
続いて、分散 V[X] は
上と同様に
合計して、
となる[2]。
二項分布 B(n, p) に従う確率変数 X の r 次モーメント E[Xr] は
というやや複雑な表示をもつ[3]。ここで S(r, j) は第二種スターリング数。低次から
となる。一方 X の r 次階乗モーメント(英語版) E[(X)r] は
という単純な表示をもつ[4]。ここで (n)r = n!/(n − r)! はポッホハマー記号。低次から
となる。
二項分布は再生性を有する。すなわち B(n, p) に従う確率変数 X と B(m, p) に従う確率変数 Y が互いに独立であるとき、確率変数の和 X + Y は二項分布 B(n + m, p) に従う。
二項分布の近似として、以下の小節に挙げる分布などが知られている。 近似を用いることで計算の労力を削減できるという利点がある一方、各近似にはそれを適用可能とするための条件が存在する。 そのため、それらの条件や近似を用いることで生じる誤差が許容可能な範囲内に収まっていることの確認が必要となる。 特に、二項分布の母比率の信頼区間を求める際には、用いる近似と変数の値の組み合わせにより、厳密に求められた信頼区間との間に近似誤差が生じることになるため注意が必要である[5]。
期待値 np および分散 np(1 − p) が 5 よりも大きい場合、二項分布 B(n, p) に対する良好な近似として正規分布がある。ただし、この近似を適用するにあたっては、変数のスケールに注意し、連続な分布への適切な処理がなされる必要がある。より厳密に述べれば、n が十分大きくかつ、期待値 np および 分散 np(1 − p) も十分大きい場合、期待値 np, 分散 np(1 − p) の正規分布 N(np, np(1 − p)) で近似することができ、期待値からの差 |k − np| が標準偏差 n p ( 1 − p ) {\textstyle {\sqrt {np(1-p)}}} と同程度となる k に対して
が漸近的に成り立つ。二項分布が一定の条件下で正規分布に近づく、この近似式は数学者アブラーム・ド・モアブルが1733年に著書 The Doctrine of Chances の中で紹介したのが最初であり、ド・モアブル=ラプラスの極限定理またはラプラスの定理と呼ぶことがある[6]。これは、今日でいうところの中心極限定理の特別な場合に相当する。この正規分布への近似と標準正規分布表により、計算の労力を大きく削減することができる。
例えば、多数の住民の中から n 人を無作為に抽出し、ある質問について同意するかどうかを尋ねる場合を考える。同意する人数の割合は、もちろんサンプルに依存する。n 人を無作為に抽出する作業を何度も繰り返し行うとき、同意する人々の割合の分布は、実際の全住民の合意割合 p とほぼ等しい平均を持ち、標準偏差 σ = p ( 1 − p ) / n {\textstyle \sigma ={\sqrt {p(1-p)/n}}} である正規分布に近似される。未知の変数 p は、標準偏差が小さいほど正確な推定が可能である。そのため、抽出する人数 n は多い方が好ましい。
95%信頼区間ならば、正規分布で近似すると、その範囲は
となる。たとえば、p = 50% の場合、n = 100 なら40%–60%、n = 1000 ならば47%–53%、n = 10000 ならば49%–51%となる。n = 10 の場合、正規分布近似ではなく、本来の定義に従って計算すると、89%信頼区間で、30%–70%となる[7]。
n が大きく p が十分小さい場合、np は適度な大きさとなるため、λ = np を母数とするポアソン分布が二項分布 B(n, p) の良好な近似を与える。すなわち、n が十分大きいとき、期待値 λ = np とおくと、
が成り立つ(詳細はポアソン分布の項を参照)。この結果は数学者シメオン・ドニ・ポアソンが1837年に著書 Recherches sur la probabilite des jugements (Researches on the Probabilities) の中で与えており、ポアソンの極限定理と呼ばれる。