Статистика — измеримая числовая функция от выборки, не зависящая от неизвестных параметров распределения элементов выборки.
Пусть задана случайная выборка x m = ( x 1 , … , x m ) {\displaystyle x^{m}=(x_{1},\ldots ,x_{m})} наблюдений x i ∈ X {\displaystyle x_{i}\in X} . Как правило, поскольку речь идёт о задачах математической статистики, распределение элементов этой выборки известно исследователю не полностью (например, содержит неизвестные числовые параметры).
Статистикой называется произвольная измеримая функция выборки T : X m → R {\displaystyle T:X^{m}\to \mathbb {R} } , которая не зависит от неизвестных параметров распределения.
Условие измеримости статистики означает, что эта функция является случайной величиной, то есть определены вероятности её попадания в интервалы и другие борелевские множества на прямой.
Наиболее содержательный аспект данного понятия, отличающий его от прочих случайных величин, зависящих от выборки, заключается в том, что от неизвестных параметров эта функция не зависит, то есть исследователь может по имеющимся в его распоряжении данным найти значение этой функции, а, следовательно — основывать на этом значении оценки и прочие статистические выводы.
Предположим, что имеется числовая выборка x m = ( x 1 , x 2 , … , x m ) {\displaystyle x^{m}=(x_{1},x_{2},\ldots ,x_{m})} , элементы которой имеют нормальное распределение N ( a , σ ) {\displaystyle {\mathcal {N}}(a,\sigma )} . Допустим, что значение параметра a {\displaystyle a} (математического ожидания) известно, то есть это некоторое конкретное число, а значение среднеквадратичного отклонения σ {\displaystyle \sigma } неизвестно (и его требуется оценить). Для этого может быть использована следующая статистика:
Однако если значение параметра a {\displaystyle a} также неизвестно, то данная функция не является статистикой. В этом случае её по-прежнему можно исследовать теоретически (например, доказывать, что математическое ожидание T {\displaystyle T} равно σ 2 {\displaystyle \sigma ^{2}} ), однако вычислить её числовое значение нельзя, поэтому для получения непосредственных статистических выводов она не может быть использована. В этом случае оценка параметра σ {\displaystyle \sigma } строится другим способом (см. ниже).
Ниже приведены примеры некоторых часто используемых статистик. Все они предполагают, что наблюдения x i {\displaystyle x_{i}} являются числовыми, X = R {\displaystyle X=\mathbb {R} } .
В последние годы активно развивается также статистика объектов нечисловой природы.
Выборочный коэффициент асимметрии:
Если плотность распределения симметрична, то γ 1 = 0 {\displaystyle \gamma _{1}=0} . Если левый хвост распределения «тяжелее», то γ 1 > 0 {\displaystyle \gamma _{1}>0} , если «тяжелее» правый хвост — то γ 1 < 0 {\displaystyle \gamma _{1}<0} .
Выборочный коэффициент асимметрии используется для проверки распределения на симметричность, а также для грубой предварительной проверки на нормальность. Он позволяет отвергнуть, но не позволяет принять гипотезу нормальности.
Выборочный коэффициент эксцесса:
Нормальное распределение имеет нулевой эксцесс: γ 2 = 0 {\displaystyle \gamma _{2}=0} .
Если хвосты распределения «легче», а пик «острее», чем у нормального распределения, то γ 2 > 0 {\displaystyle \gamma _{2}>0} .
Если хвосты распределения «тяжелее», а пик более «приплюснутый», чем у нормального распределения, то γ 2 < 0 {\displaystyle \gamma _{2}<0} .
Выборочный коэффициент эксцесса часто используется для грубой предварительной проверки на нормальность. Он позволяет отвергнуть, но не позволяет принять гипотезу нормальности.
Эмпирическое распределение случайной величины x {\displaystyle x} , построенное по случайной выборке x m {\displaystyle x^{m}} , есть функция:
При любом фиксированном a ∈ R {\displaystyle a\in \mathbb {R} } значение F m ( a ) {\displaystyle F_{m}(a)} можно рассматривать как статистику.
Порядковые статистики основаны на вычислении вариационного ряда, который получается из исходной выборки x m = ( x 1 , … , x m ) {\displaystyle x^{m}=(x_{1},\ldots ,x_{m})} путём упорядочивания её элементов по возрастанию:
Значение x ( k ) {\displaystyle x^{(k)}} называется k {\displaystyle k} -й порядковой статистикой.
Значение r i {\displaystyle r_{i}} называется рангом элемента выборки x i {\displaystyle x_{i}} , если x i = x ( r i ) {\displaystyle x_{i}=x^{(r_{i})}} .
Ранговой статистикой называется любая статистика, которая является функцией от рангов элементов r i {\displaystyle r_{i}} , а не от их значений x i {\displaystyle x_{i}} . Переход от значений к их рангам позволяет строить непараметрические статистические критерии, которые не опираются на априорные предположения о функции распределения выборки. Они имеют гораздо более широкую область применения, чем параметрические статистические критерии.
Аналогом выборочного среднего является средний ранг:
Многие используемые на практике ранговые статистики принадлежат семейству линейных ранговых статистик, либо асимптотически приближаются к линейным при m → ∞ {\displaystyle m\to \infty } . Линейная ранговая статистика в общем случае имеет вид:
где a ( i , j ) {\displaystyle a(i,j)} — произвольная заданная числовая матрица размера m × m {\displaystyle m\times m} .