F-дивергенция

f-дивергенцией (f-расхождением) называется класс функционалов D f ( P Q ) {\displaystyle D_{f}(P\parallel Q)} , определяющих в общем случае несимметричную меру расхождения между двумя распределениями вероятностей P {\displaystyle P} и Q {\displaystyle Q} . Обычно применяется в теории информации и теории вероятностей. Функционал однозначно определяется (порождается) функцией f ( t ) {\displaystyle f(t)} , удовлетворяющей определённым условиям.

Данный класс дивергенций был введён и изучался независимо друг от друга учёными Чисара[1], Моримото[2], а также Али и Силви[3]. Поэтому иногда можно встретить названия f-дивергенция Чисара, дивергенция Чисара—Моримото или расстояние Али—Силви.

Определение

Пусть P {\displaystyle P} и Q {\displaystyle Q} — распределения вероятностей, заданные на множестве Ω {\displaystyle \Omega } , такие что P {\displaystyle P} абсолютно непрерывно по отношению к Q {\displaystyle Q} . Пусть функция f ( t ) {\displaystyle f(t)} выпукла при t 0 {\displaystyle t\geq 0} и f ( 1 ) = 0 {\displaystyle f(1)=0} . Тогда функция f {\displaystyle f} задаёт f-дивергенцию P {\displaystyle P} относительно Q {\displaystyle Q} следующим образом:

D f ( P Q ) = Ω f ( d P d Q ) d Q = E Q f ( d P d Q ) . {\displaystyle D_{f}(P\parallel Q)=\int _{\Omega }f\left({\frac {dP}{dQ}}\right)dQ=\operatorname {E} _{Q}f\left({\frac {dP}{dQ}}\right).}

Если μ {\displaystyle \mu } — любая мера на Ω {\displaystyle \Omega } , и оба распределения P {\displaystyle P} и Q {\displaystyle Q} непрерывны относительно μ {\displaystyle \mu } , т.е. существуют функции p = d P d μ {\displaystyle p={\frac {dP}{d\mu }}} и q = d Q d μ {\displaystyle q={\frac {dQ}{d\mu }}} , тогда f-дивергенция может быть записана как

D f ( P Q ) = Ω f ( p q ) q d μ . {\displaystyle D_{f}(P\parallel Q)=\int _{\Omega }f\left({\frac {p}{q}}\right)q\,d\mu .}

В случае лебеговой меры μ = x {\displaystyle \mu =x} распределения имеют плотности p ( x ) {\displaystyle p(x)} и q ( x ) {\displaystyle q(x)} , тогда f-дивергенция принимает вид

D f ( P Q ) = Ω f ( p ( x ) q ( x ) ) q ( x ) d x . {\displaystyle D_{f}(P\parallel Q)=\int _{\Omega }f\left({\frac {p(x)}{q(x)}}\right)q(x)\,dx.}

Для дискретных распределений P = { p i } {\displaystyle P=\{p_{i}\}} и Q = { q i } {\displaystyle Q=\{q_{i}\}} , где i = 1 , . . . , N {\displaystyle i=1,...,N} ,

D f ( P Q ) = i = 1 N f ( p i q i ) q i . {\displaystyle D_{f}(P\parallel Q)=\sum _{i=1}^{N}f\left({\frac {p_{i}}{q_{i}}}\right)q_{i}.}

Функция f ( t ) {\displaystyle f(t)} определена с точностью до слагаемого c ( t 1 ) {\displaystyle c(t-1)} , где c {\displaystyle c} — произвольная константа. Действительно, вид f-дивергенции не зависит от выбора c {\displaystyle c} , поскольку слагаемое c ( t 1 ) {\displaystyle c(t-1)} функции f ( t ) {\displaystyle f(t)} даёт нулевой вклад в значение интеграла. Кроме того, функция f ( t ) {\displaystyle f(t)} может содержать положительную мультипликативную константу k {\displaystyle k} , которая определяет единицу измерения дивергенции. В связи с этим некоторые авторы (например, Бассевиль[4]) указывают дополнительные ограничения, налагаемые на функцию f ( t ) {\displaystyle f(t)} :

f ( 1 ) = 0 , {\displaystyle f'(1)=0,}
f ( 1 ) = 1. {\displaystyle f''(1)=1.}

Первое из этих ограничений фиксирует константу c {\displaystyle c} , второе — константу k {\displaystyle k} . Условие f ( 1 ) = 0 {\displaystyle f'(1)=0} может быть полезно тем, что в этом случае f ( t ) 0 {\displaystyle f(t)\geq 0} с минимумом в точке t = 1 {\displaystyle t=1} (см. Лизе и Вайда[5]), и выражение для f-дивергенции интуитивно проще воспринимается. Однако такой способ конкретизировать функцию f ( t ) {\displaystyle f(t)} не всегда удобен: например, для существования непрерывной версии f-энтропии, связанной с данной f-дивергенцией, может потребоваться другое значение константы c {\displaystyle c} .

f-дивергенция может быть разложена в ряд Тейлора и записана в виде взвешенной суммы расстояний χ-типа (см. Нильсен и Нок[6]).

Частные случаи f-дивергенции

Многие известные дивергенции, такие как дивергенция Кульбака—Лейблера, квадрат расстояния Хеллингера, расстояние хи-квадрат и ряд других, являются частными случаями f-дивергенции, которым соответствует определённый выбор функции f ( t ) {\displaystyle f(t)} . В следующей таблице приведены некоторые распространённые виды дивергенций между распределениями вероятностей и соответствующая им функция f ( t ) {\displaystyle f(t)} (см. Лизе и Вайда[5]).

Дивергенция Порождающая функция f ( t ) {\displaystyle f(t)}
Дивергенция Кульбака—Лейблера t ln t {\displaystyle t\ln t}
Обратная Дивергенция Кульбака—Лейблера ln t {\displaystyle -\ln t}
Квадрат расстояния Хеллингера 1 2 ( t 1 ) 2 , 1 t , t t {\displaystyle {\frac {1}{2}}({\sqrt {t}}-1)^{2},\,1-{\sqrt {t}},\,t-{\sqrt {t}}}
Расстояние полной вариации 1 2 | t 1 | {\displaystyle {\frac {1}{2}}|t-1|\,}
Расстояние χ 2 {\displaystyle \chi ^{2}} Пирсона ( t 1 ) 2 , t 2 1 , t 2 t {\displaystyle (t-1)^{2},\,t^{2}-1,\,t^{2}-t}
Расстояние χ 2 {\displaystyle \chi ^{2}} Неймана 1 t 1 , 1 t t {\displaystyle {\frac {1}{t}}-1,\,{\frac {1}{t}}-t}
Альфа-дивергенция { 4 1 α 2 ( t t ( 1 + α ) / 2 ) , если   α ± 1 , t ln t , если   α = 1 , ln t , если   α = 1 {\displaystyle {\begin{cases}{\frac {4}{1-\alpha ^{2}}}{\big (}t-t^{(1+\alpha )/2}{\big )},&{\text{если}}\ \alpha \neq \pm 1,\\t\ln t,&{\text{если}}\ \alpha =1,\\-\ln t,&{\text{если}}\ \alpha =-1\end{cases}}}
Альфа-дивергенция (другие обозначения) { t α t α ( α 1 ) , если   α 0 , α 1 , t ln t , если   α = 1 , ln t , если   α = 0 {\displaystyle {\begin{cases}{\frac {t^{\alpha }-t}{\alpha (\alpha -1)}},&{\text{если}}\ \alpha \neq 0,\,\alpha \neq 1,\\t\ln t,&{\text{если}}\ \alpha =1,\\-\ln t,&{\text{если}}\ \alpha =0\end{cases}}}

Свойства

  • Неотрицательность: ƒ-дивергенция всегда неотрицательна, и равна нулю, только если распределения P {\displaystyle P} и Q {\displaystyle Q} совпадают. Это непосредственно следует из неравенства Йенсена:
    D f ( P Q ) = Ω f ( d P d Q ) d Q f ( Ω d P d Q d Q ) = f ( 1 ) = 0. {\displaystyle D_{f}(P\!\parallel \!Q)=\int _{\Omega }\!f{\bigg (}{\frac {dP}{dQ}}{\bigg )}dQ\geq f{\bigg (}\int _{\Omega }{\frac {dP}{dQ}}dQ{\bigg )}=f(1)=0.}
  • Монотонность: если κ {\displaystyle \kappa } — произвольная переходная вероятность, которая переводит меры P {\displaystyle P} и Q {\displaystyle Q} соответственно в P κ {\displaystyle P_{\kappa }} и Q κ {\displaystyle Q_{\kappa }} , тогда
    D f ( P Q ) D f ( P κ Q κ ) . {\displaystyle D_{f}(P\!\parallel \!Q)\geq D_{f}(P_{\kappa }\!\parallel \!Q_{\kappa }).}
    Равенство здесь имеет место тогда и только тогда, когда переход порождается достаточной статистикой по отношению к { P , Q } {\displaystyle \{P,Q\}} .
  • Совместная выпуклость: для любого 0 λ 1 {\displaystyle 0\leq \lambda \leq 1}
    D f ( λ P 1 + ( 1 λ ) P 2 λ Q 1 + ( 1 λ ) Q 2 ) λ D f ( P 1 Q 1 ) + ( 1 λ ) D f ( P 2 Q 2 ) . {\displaystyle D_{f}{\Big (}\lambda P_{1}+(1-\lambda )P_{2}\parallel \lambda Q_{1}+(1-\lambda )Q_{2}{\Big )}\leq \lambda D_{f}(P_{1}\!\parallel \!Q_{1})+(1-\lambda )D_{f}(P_{2}\!\parallel \!Q_{2}).}
    Это следует из выпуклости отображения ( p , q ) q f ( p / q ) {\displaystyle (p,q)\mapsto qf(p/q)} на R + 2 {\displaystyle \mathbb {R} _{+}^{2}} .
  • Самодвойственность: если D ( P Q ) {\displaystyle D(P\parallel Q)} является f-дивергенцией, то D ( Q P ) {\displaystyle D(Q\parallel P)} тоже является f-дивергенцией, т.е. класс f-дивергенций содержит как прямые, так и обратные (двойственные) дивергенции. Действительно,
    D f ( P Q ) = d f D f ( Q P ) = Ω f ( d Q d P ) d P = Ω f ( d P d Q ) d Q = D f ( P Q ) , {\displaystyle {D^{*}}_{f}(P\parallel Q){\stackrel {\mathrm {df} }{\;=\;}}D_{f}(Q\parallel P)=\int _{\Omega }f\left({\frac {dQ}{dP}}\right)dP=\int _{\Omega }f^{*}\left({\frac {dP}{dQ}}\right)dQ=D_{f^{*}}(P\parallel Q),}
    где f ( t ) = t f ( 1 / t ) {\displaystyle f^{*}(t)=tf(1/t)} — двойственная порождающая функция. Нетрудно видеть, что f ( 1 ) = f ( 1 ) = 0 {\displaystyle f^{*}(1)=f(1)=0} , f ( t ) {\displaystyle f^{*}(t)} непрерывна (кроме, быть может, точки t = 0 {\displaystyle t=0} ) и f ( t ) = 1 t 3 f ( 1 / t ) 0 {\displaystyle {f^{*}}''(t)={\frac {1}{t^{3}}}f''(1/t)\geq 0} почти всюду на t 0 {\displaystyle t\geq 0} в силу выпуклости f {\displaystyle f} , т.е. функция f ( t ) {\displaystyle f^{*}(t)} удовлетворяет условиям порождающей функции f-дивергенции.

С учётом последнего свойства класс f-дивергенций можно было бы эквивалентным образом определить как D f ( P Q ) = E P f ( d Q d P ) {\displaystyle {D^{*}}_{f}(P\parallel Q)=\operatorname {E} _{P}f\left({\frac {dQ}{dP}}\right)} . Подобное определение встречается, например, у Чжана[7]. Таким образом, интерпретация распределения Q {\displaystyle Q} как истинного, которая следует из определения f-дивергенции, не является её фундаментальным свойством, а является лишь следствием соглашения о порядке следования аргументов в определении. Иными словами, аргументы P {\displaystyle P} и Q {\displaystyle Q} концептуально равноправны.

f-дивергенция является безразмерной величиной независимо от размерности множества Ω {\displaystyle \Omega } .

Связанные понятия

Кроме f-дивергенции, И. Чисар определил связанное с ней понятие f-энтропии (Чисар[8]).

Примечания

Литература

  • Csiszár, I. Eine informationstheoretische Ungleichung und ihre Anwendung auf den Beweis der Ergodizitat von Markoffschen Ketten (нем.) // Magyar. Tud. Akad. Mat. Kutato Int. Kozl : magazin. — 1963. — Bd. 8. — S. 85—108.
  • Morimoto, T. Markov processes and the H-theorem (англ.) // J. Phys. Soc. Jpn.[англ.] : journal. — 1963. — Vol. 18, no. 3. — P. 328—331. — doi:10.1143/JPSJ.18.328. — Bibcode: 1963JPSJ...18..328M.
  • Ali, S. M.; Silvey, S. D. A general class of coefficients of divergence of one distribution from another (англ.) // Journal of the Royal Statistical Society, Series B[англ.] : journal. — 1966. — Vol. 28, no. 1. — P. 131—142. — JSTOR 2984279.
  • Liese, F.; Vajda, I. On divergences and informations in statistics and information theory (англ.) // IEEE Transactions on Information Theory[англ.] : journal. — 2006. — Vol. 52, no. 10. — P. 4394—4412. — doi:10.1109/TIT.2006.881731.
  • Nielsen, F.; Nock, R. On the Chi square and higher-order Chi distances for approximating f-divergences (англ.) // IEEE Signal Processing Letters : journal. — 2013. — Vol. 21. — P. 10—13. — doi:10.1109/LSP.2013.2288355. — Bibcode: 2014ISPL...21...10N. — arXiv:1309.3029.
  • Basseville, M. Divergence measures for statistical data processing (англ.) // Publications Internes de l’IRISA : journal. — 2010. — Vol. 11. — P. 1—23.
  • Zhang, J. Divergence Function, Duality, and Convex Analysis (англ.) // Neural Computation[англ.]. — 2004. — Vol. 16. — P. 159—195.
  • Csiszár, I. A class of measures of informativity of observation channels (англ.) // Periodica Math. Hungar : journal. — 1972. — Vol. 2. — P. 191—213.