回帰(かいき、(英: regression)とは、統計学において、Y が連続値の時にデータに Y = f(X) というモデル(「定量的な関係の構造[1]」)を当てはめること。別の言い方では、連続尺度の従属変数(目的変数)Y と独立変数(説明変数)X の間にモデルを当てはめること。X が1次元ならば単回帰、X が2次元以上ならば重回帰と言う。Y が離散の場合は分類と言う。
回帰分析(かいきぶんせき、(英: regression analysis)とは、回帰により分析すること。
回帰で使われる、最も基本的なモデルは Y = A X + B {\displaystyle Y=AX+B} という形式の線形回帰である。
「回帰」という用語は、英語の「regression」からの翻訳であるが、元々は生物学的現象を表すために19世紀にフランシス・ゴルトンによって造られた[2]。ゴルトンは、背の高い祖先の子孫の身長が必ずしも遺伝せず、先祖返りのように平均値に戻っていく、すなわち「逆戻り、後戻り(=regression)」する傾向があることを発見した。これを「平均への回帰」という。ゴルトンはこの事象を分析するために「線形回帰(英: linear regression)」を発明した。ゴルトンにとって回帰はこの生物学的意味しか持っていなかったが、のちに統計学の基礎となり、「回帰(英: regression)」という用語も統計学へ受け継がれたのである。
回帰分析では独立変数と従属変数の間の関係を表す式を統計的手法によって推計する。
従属変数(目的変数)とは、説明したい変数(注目している変数)を指す。独立変数(説明変数)とは、これを説明するために用いられる変数のことである。経済学の例を挙げてみると次のようになる。経済全体の消費( Y {\displaystyle Y} )を国民所得( X {\displaystyle X} )で説明する消費関数が Y = a X + b {\displaystyle Y=aX+b} というモデルで表されるとする。この例では、消費 Y が従属変数、国民所得 X が独立変数に対応する。そして a {\displaystyle a} 、 b {\displaystyle b} といった係数(パラメータ)を推定する。
最も単純な方法は上式のような一般化線形モデルを用いる線形回帰であるが、その他の非線形モデルを用いる非線形回帰もある。
線形(一般化線形モデル、一般線形モデルなど)
非線形
パラメータを推定する代表的な方法として、最小二乗法がある。これは、二乗和誤差を最小化する最尤推定法の一つである。
最小二乗法の概要は次の通りである。初めに回帰式(目的変数を説明変数で計算する式)を設定する。次に、回帰式の係数を求めるが、「従属変数の測定値と、独立変数の測定値および回帰式を用いて求めた推定値の差の二乗和誤差」が最小になるように求める。線形モデルの場合、回帰式の係数で推定値の差の2乗平均を微分し0と置いた連立方程式を解いて求められる。
また、初めから外れ値と判明しているデータについては、除外してから最小二乗法を用いるケースもある。その他の外れ値への対応策はこちらを参照されたり[3]。
マーケティングやアンケートでよく使う一般的な重回帰の場合、複数の説明変数同士は強い相関がないという仮定が入っている。そのため、一般化線形モデルで説明変数同士が関連性の高いものを使うと係数が妙な値になることがあるので注意する必要がある(これは多重共線性と呼ばれる)。
これは、線形モデルの問題であるため、線形モデルが不適切ならば、非線形モデルを使用すればよい。また、共分散構造分析という重回帰より複雑な関係を適切に説明できるモデルもある。
回帰は語源的には回帰効果(平均への回帰)に由来する。回帰効果は相関(直線的な関係)が低い場合に顕著に現れる。しかし回帰分析では必ずしも直線的関係を仮定しない。また「目的変数yを説明変数xに回帰する」といい、「回帰」という言葉が由来とは異なる意味に使われている。
(拡充予定)