Достаточная статистика

Достаточная статистика

Достаточная статистика для параметра \theta \in \Theta,\;, определяющая некоторое семейство F_\theta распределений вероятности — статистика T = \mathrm{T}(X),\; такая, что условная вероятность выборки X = X_1, X_2, \ldots, X_n\; при данном значении \mathrm{T}(X)\; не зависит от параметра \theta\;. То есть выполняется равенство:

\mathbb{P}(X \in \bar{X}|\mathrm{T}(X)=t,\theta) = \mathbb{P}(X \in \bar{X}|\mathrm{T}(X)=t), \,

Достаточная статистика  \mathrm{T}(X),\; таким образом содержит в себе всю информацию о параметре \theta\;,, которая может быть получена на основе выборки X. Поэтому понятие достаточной статистики широко используется в теории оценки параметров.

Наиболее простой достаточной статистикой является сама выборка \mathrm{T}(X) = X,\;, однако действительно важными являются случаи, когда размерность достаточной статистики значительно меньше размерности выборки, в частности, когда достаточная статистика выражается лишь несколькими числами.

Достаточная статистика S = \mathrm{S}(X)\; называется минимально достаточной, если для каждой достаточной статистики T существует неслучайная измеряемая функция g, что S(X) = g(T(X)) почти всюду.

Содержание

Теорема факторизации

Теорема факторизации даёт способ практического нахождения достаточной статистики для распределения вероятности. Она даёт достаточные и необходимые условия достаточности статистики и утверждение теорем иногда используется в качестве определения.

Пусть \mathrm{T}(X)\; — некоторая статистика, а f_\theta(x) — условная функция плотности или функция вероятности (в зависимости от вида распределения) для вектора наблюдений X. Тогда \mathrm{T}(X)\; является достаточной статистикой для параметра \theta \in \Theta,\;, если и только если существуют такие измеримые функции h и g,, что можно записать:

f_\theta(x)=h(x) \, g(\theta,\mathrm{T}(x))\,\!

Доказательство

Ниже приведено доказательство для частного случая, когда распределение вероятностей является дискретным. Тогда f_\theta(x) = \mathbb{P}(X = x |\theta) — Функция вероятности.

Пусть данная функция имеет факторизацию, как в формулировке теоремы, и \mathrm{T}(x) = t.

Тогда имеем:

\begin{align} \mathbb{P}(X = x |\mathrm{T}(X)=t,\theta) & = \frac{\mathbb{P}(X = x |\theta)}{\mathbb{P}(\mathrm{T}(X)=t |\theta)} & = \frac{h(x) \, g(\theta,\mathrm{T}(x))}{\sum _{x : \mathrm{T}(x) = t} h(x) \, g(\theta,\mathrm{T}(x))} \\ & = \frac{h(x) \, g(\theta,t)}{\sum _{x : \mathrm{T}(x) = t} h(x) \, g(\theta,t)} & = \frac{h(x) \,}{\sum _{x : \mathrm{T}(x) = t} h(x) \,}. \end{align}

Отсюда видим, что условная вероятность вектора X при заданном значении статистики \mathrm{T}(X)\; не зависит от параметра и соответственно \mathrm{T}(X)\; — достаточная статистика.

Наоборот можем записать:

\mathbb{P}(X = x|\theta) = \mathbb{P}(X = x|\mathrm{T}(X)=t,\theta) \cdot \mathbb{P}(\mathrm{T}(X)=t | \theta). \,

Из приведённого выше имеем, что первый множитель правой части не зависит от параметра  \theta\; и его можно взять за функцию h(x) из формулировки теоремы. Другой множитель является функцией от  \theta\; и \mathrm{T}(X),\; и его можно взять за функцию g(\theta,\mathrm{T}(x)). Таким образом, получена необходимая декомпозиция, что завершает доказательство теоремы.

Примеры

Распределение Бернулли

Пусть X_1, X_2, \ldots, X_n\; — последовательность случайных величин, что равны 1 с вероятностью p и равны 0 с вероятностью 1 — p (то есть, имеют распределение Бернулли). Тогда

\mathbb{P}(x_1, \ldots x_n | p) =  p^{\sum x_i}(1-p)^{n-\sum x_i}=p^{\mathrm{T}(x)}(1-p)^{n-\mathrm{T}(x)} \,\!

если взять \mathrm{T}(X) = X_1 + \ldots + X_n.\,\!

Тогда данная статистика является достаточной согласно теореме факторизации, если обозначить

g(p,\mathrm{T}(x_1, \ldots x_n)) = p^{\mathrm{T}(x_1, \ldots x_n)}(1-p)^{n-\mathrm{T}(x_1, \ldots x_n)}\,
h(x_1, \ldots x_n) = 1

Распределение Пуассона

Пусть X_1, X_2, \ldots, X_n\; — последовательность случайных величин с распределением Пуассона. Тогда

\mathbb{P}(x_1, \ldots x_n |\lambda) =  {e^{-\lambda} \lambda^{x_1} \over x_1 !} \cdot {e^{-\lambda} \lambda^{x_2} \over x_2 !} \cdots {e^{-\lambda} \lambda^{x_n} \over x_n !} =     e^{-n\lambda} \lambda^{(x_1+x_2+\cdots+x_n)} \cdot {1 \over x_1 ! x_2 !\cdots x_n ! } = e^{-n\lambda} \lambda^{\mathrm{T}(x)} \cdot {1 \over x_1 ! x_2 !\cdots x_n ! }


где \mathrm{T}(X) = X_1 + \ldots + X_n.\,\!

Данная статистика является достаточной согласно теореме факторизации, если обозначить

g(p,\mathrm{T}(x_1, \ldots x_n)) = e^{-n\lambda} \lambda^{\mathrm{T}(x)}\,
h(x_1, \ldots x_n) = {1 \over x_1 ! x_2 !\cdots x_n ! }

Равномерное распределение

Пусть X_1, X_2, \ldots, X_n\; — последовательность равномерно распределённых случайных величин X_1, X_2, \ldots, X_n\; ~ U (a, b) . Для этого случая

 \mathbb{P}(x_1, \ldots x_n |\lambda) = \left(b - a \right)^{-n} \mathbf{1}_{ \{ a \, \leq \, \min_{1 \leq i \leq n}X_i \} } \mathbf{1}_{ \{ \max_{1 \leq i \leq n}X_i \, \leq \, b \} }.

Отсюда следует, что статистика T(X) = \left(\min_{1 \leq i \leq n}X_i,\max_{1 \leq i \leq n}X_i\right)\, является достаточной.

Нормальное распределение

Для случайных величин X_1, X_2, \ldots, X_n\; с нормальным распределением \mathcal{N}(\mu,\,\sigma^2) достаточной статистикой будет \mathrm{T}(X) = \left(\sum_{i=1}^nX_i, \sum_{i=1}^nX_i^2\right)\,.

Свойства

  • Для достаточной статистики T и биективного отображения \phi статистика \phi(T) тоже является достаточной.
  • Если \delta(X) — статистическая оценка некоторого параметра \theta,  \mathrm{T}(X),\; — некоторая достаточная статистика и  \delta_{1}(X) = \textrm{E}[\delta(X)|T(X)] то \delta_{1}(X) является лучшей оценкой параметра в смысле среднеквадратичного отклонения, то есть выполняется неравенство
\textrm{E}[(\delta_{1}(X)-\vartheta)^{2}]\leq\textrm{E}[(\delta(X)-\vartheta)^{2}]
причём равенство достигается лишь когда \delta является измеряемой функцией от T. (Теорема Рао — Блэквелла — Колмогорова)
  • Из предыдущего получается, что оценка может быть оптимальной в смысле среднеквадратичного отклонения лишь когда она является измеряемой функцией минимальной достаточной статистики.
  • Если статистика T = \mathrm{T}(X),\; является достаточной и полной (то есть, из того, что E_{\theta}[g(T(X))] = 0, \, \forall \theta \in \Theta следует, что P_\theta ( g(T(X)) = 0 ) = 1 \, \forall \theta \in \Theta
), то произвольная измеряемая функция от неё является оптимальной оценкой своего математического ожидания.

См. также

Литература


Wikimedia Foundation. 2010.

Игры ⚽ Поможем написать курсовую

Полезное


Смотреть что такое "Достаточная статистика" в других словарях:

  • ДОСТАТОЧНАЯ СТАТИСТИКА — См. статистика, достаточная …   Толковый словарь по психологии

  • ДОСТАТОЧНАЯ СТАТИСТИКА — для семейства распределений вероятностей {Pq; } или для параметра статистика (векторная случайная величина) такая, что для любого события Асуществует вариант условной вероятности Pq( А|Х=x), не зависящий от 9. Это эквивалентно требованию, что… …   Математическая энциклопедия

  • Достаточная статистика —         совокупность функций от результатов наблюдений, которые содержат ту же статистическую информацию о неизвестных величинах, что и сами результаты наблюдений. В случае существования Д. с. можно обширную совокупность результатов наблюдений… …   Большая советская энциклопедия

  • МИНИМАЛЬНАЯ ДОСТАТОЧНАЯ СТАТИСТИКА — необходимая достаточная статистика, статистика X, являющаяся достаточной статистикой для семейства распределений и такая, что для любой другой достаточной статистики Yимеет место , где g нек рая измеримая функция. Достаточная статистика… …   Математическая энциклопедия

  • НЕОБХОДИМАЯ ДОСТАТОЧНАЯ СТАТИСТИКА — см. Минимальная достаточная статистика …   Математическая энциклопедия

  • СТАТИСТИКА, ДОСТАТОЧНАЯ — Статистика, которая использует все доступные данные в выборке для обеспечения оценки параметра популяции …   Толковый словарь по психологии

  • Статистика — (Statistics) Статистика это общетеоретическая наука, изучающая количественные изменения в явлениях и процессах. Государственная статистика, службы статистики, Росстат (Госкомстат), статистические данные, статистика запросов, статистика продаж,… …   Энциклопедия инвестора

  • РАО - БЛЭКУЭЛЛА - КОЛМОГОРОВА ТЕОРЕМА — утверждение из теории статистич. оценивания, на основе к рого построен метод улучшения несмещенных статистич. оценок. Пусть X случайная величина, принимающая значения в выборочном пространстве , , причем семейство вероятностных распределений ,… …   Математическая энциклопедия

  • РАО - КРАМЕРА НЕРАВЕНСТВО — н е р а в е нс т в о Ф р е ш е, н е р а в е н с т в о и н ф о р м а ц и и, неравенство в математич. статистике, устанавливающее нижнюю границу риска в задаче статистич. оценивания неизвестного параметра относительно квадратичной функции потерь.… …   Математическая энциклопедия

  • НЕЙМАНА СТРУКТУРА — структура, определяемая статистикой, не зависящей от достаточной статистики. Понятие Н. с. введено Ю. Нейманом (J. Neyman, см. [1]) в связи с задачей построения подобных критериев в теории проверки статистич. гипотез, при этом сам термин Н. с.… …   Математическая энциклопедия


Поделиться ссылкой на выделенное

Прямая ссылка:
Нажмите правой клавишей мыши и выберите «Копировать ссылку»