Классификация образов динамической биометрии

Классификация образов динамической биометрии, особенно представленных рукописью и клавиатурным набором, осуществляется сходными методами. Это позволяет рассматривать эти методы инвариантно к типу динамической биометрии.

Конечной целью использования БСКД является определение принадлежности предъявленного на ее входы неизвестного образца определенному субъекту из списка зарегистрированных в ББД субъектов (идентификация) или установление степени соответствия предъявленного образца личности биометрическому эталону предъявителя (верификация). Операции классификации (идентификации и верификации) реализуются на уровне машинных репрезентаций в устройстве сопоставления образцов (мэтчере) БСКД.

Подходы, методы и алгоритмы классификации тесно связаны с видами машинных репрезентаций образов.

В динамических БСКД наиболее часто используются следующие подходы к классификации образов:

  • • измерение близости между образцами на основе меры Хэмминга;
  • • измерение близости между образцами геометрическими мерами близости Евклида, Махаланобиса и др.;
  • • использование обучаемой искусственной нейронной сети;
  • • параметрические методы;
  • • статистические методы.

Классификация образов с помощью меры Хэмминга. Для упрощения изложения принципов работы мэтчеров БСКД далее будем ориентироваться на реализацию операции верификации. Это не нарушает общности получаемых решений, поскольку на уровне мэтчера решение задач верификации и идентификации принципиально ничем не отличается.

Наиболее простым методом верификации рукописных образцов является мера близости Хэмминга, описываемая как количество не совпадающих разрядов двоичных кодов сравниваемых векторов признаков X и Y:

Пусть на этапе регистрации (обучения БСКД) авторизованный i- пользователь предъявил L реализаций образца своей биометрии Vb что соответствует L реализациям вектора биометрических параметров Vib Vi2, ..., V;L. Путем анализа этих реализаций можно определить характерные для данного i-пользователя минимаксные интервалы изменения компонент векторов Vib Vi2,ViL:

Измеренные минимаксные интервалы можно считать машинной репрезентацией биометрического образца и запомнить в системе как биометрический эталон данного i-пользователя.

Пусть на этапе верификации претендент на доступ назвал себя i- пользователем и предъявил свой биометрический образец, которому будет соответствовать некоторый вектор информативных биометрических параметров Vj*. БСКД производит анализ предъявленного вектора У*на попадание его компонент Vj в установленные в эталоне i-пользователя интервалы. Результаты анализа представляются в виде вектора Хэмминга

Если компонента v, вектора V*попадает в установленный интервал, то соответствующая компонента е} вектора Хэмминга Е принимается равной О, в противном случае компонента е} вектора Хэмминга Е принимается равной 1. В результате анализа будет последовательно сформирован вектор

Хэмминга Е претендента на доступ. Для авторизованного на этапе регистрации i-пользователя этот вектор будет содержать большое число нулей. Для неавторизованного пользователя, выдавшего себя за i-пользователя, вектор Хэмминга Е будет содержать много единиц. Общее число непопаданий, измеряемых числом единиц в векторе Хэмминга Е, трактуется как абсолютное значение расстояния Хэмминга Ev от предъявленного образца V/ до биометрического эталона V}. Расстояние Хэмминга - Еу всегда положительно и изменяется от 0 до N.

Пороговое значение расстояния Хэмминга, отделяющее «своего» пользователя от «чужого», можно определить двояко:

  • • экспериментальным путем, соблюдая необходимое соотношение ошибок первого и второго рода;
  • • аналитически на основе оценок распределения меры Хэмминга Е.

Второй способ применим при использовании достаточно большого

числа контролируемых биометрических параметров vj в эталонах пользователей. В этом случае закон распределения значений меры Хэмминга Е, близок к нормальному, и пороговое значение меры Хэмминга Еп можно определить через оценки характеристик математического ожидания и дисперсии нормального распределения значений меры Хэмминга для i- пользователя:

где m(Ei) - математическое ожидание распределения меры Хэмминга;

L - число использованных при обучении образцов;

Р1 - заданное значение вероятности ошибок первого рода (в этих операциях принимают Р1 =0,1);

t[L, (1 — Pj)] - коэффициенты Стьюдента.

Для вычисления математического ожидания т(Е^) распределения меры Хэмминга можно использовать обычную оценку

При использовании этой оценки в процессе обучения необходимо запоминать значения всех L измеренных параметров. С точки зрения экономии памяти, более удобной является рекуррентная оценка:

При использовании этой оценки необходимо помнить только общее число использованных образцов и текущую итерацию значения математического ожидания.

Аналогичные оценки используются для вычисления дисперсия распределения меры Хэмминга:

или

Практический пример классификации рукописных образов с использованием меры Хэмминга. В Южном федеральном университете была разработана БСКД по рукописи, в которой использован способ извлечения контролируемых информативных параметров рукописи на основе разложения функций x(t), y(t) по ортогональному базису Фурье.

Для обучения системы ей были предъявлены 40 рукописных образцов «своего» пользователя и 40 рукописных образцов «чужого» пользователя, пытавшегося выдать себя за «своего» путем имитации его почерка. Гистограмма распределения значений меры Хэмминга с контролем N = 64 параметров для предъявленных образцов показана на рис. 3.28.

Гистограмма распределения значений меры Хэмминга

Рис. 3.28. Гистограмма распределения значений меры Хэмминга

Классификация образов динамической биометрии на основе меры близости Хэмминга наиболее проста в реализации, но при сильно коррелированных параметрах пользователей может давать значительный процент ошибок.

Классификация образов с помощью меры близости Евклида.

Пусть на этапе регистрации авторизованный i-пользователь предъявил L реализаций образца своей биометрии Vb что соответствует L реализациям вектора биометрических параметров Vib Vi2, ..., ViL. Путем анализа этих реализаций можно определить математические ожидания распределения компонент Vj,j = 1,2, ...,N векторов Vib Vi2, V^:

Измеренные математические ожидания можно считать машинной репрезентацией биометрического образца Vj и запомнить в системе как биометрический эталон i-пользователя:

где

Пусть на этапе верификации претендент на доступ назвал себя i- пользователем и предъявил свой биометрический образец, которому будет соответствовать некоторый вектор информативных биометрических параметров:

БСКД вычисляет евклидово расстояние между векторами V[ и V^:

которое и будет мерой близости между предъявленным от имени i- пользователя вектором V[ и эталонным вектором V; i-пользователя.

Классификация образов с помощью искусственной нейронной сети. Образы динамической биометрии обладают высокой вариабельностью. Это свойство затрудняет сопоставление таких образов на основе использования формальных алгоритмов. В этой ситуации целесообразно использование искусственных нейронных сетей (ИНС), которые по самой своей сути предназначены для решения плохо формализуемых задач. Классификация образов динамической биометрии, несомненно, относится именно к таким задачам. Поэтому попытки применения ИНС в мэтчерах динамических БСКД вполне естественны.

Принцип построения и функционирования мэтчера динамической БСКД с использованием ИНС достаточно прост. На этапе обучения сети в произвольном порядке предъявляются образцы биометрических данных (векторов V) как авторизованных пользователей («своих»), так и произвольных не авторизованных пользователей («чужих»). На этапе верификации (идентификации) на входы обученной сети предъявляется вектор биометрических параметров V претендента на доступ, и сеть должна классифицировать его как «свой» (вектор Ус) или «чужой» (вектор Уч) (рис. 3.29).

Схема классификации вектора V на основе ИНС

Рис. 3.29. Схема классификации вектора V на основе ИНС

Выбор типа сети и алгоритма обучения зависит от вида, распределения входных данных и других априорных сведений о задаче. Для задач динамической биометрии хорошо подходят многослойные нейронные сети с сигмоидальными передаточными функциями, радиальные нейронные сети и вероятностные нейронные сети на основе ядерных функций. В том случае, когда нет достаточных априорных сведений о законах и характеристиках распределения входных данных, целесообразно использование многослойной сети с сигмоидальными передаточными функциями. Обучение сети может осуществляться с использованием одного из классических алгоритмов обучения, например, «backpropagation».

Полученный в Южном федеральном университете опыт использования ИНС для распознавания образов динамической биометрии показывает, что нейросетевые классификаторы потенциально обладают более высокой точностью, чем, например, классификаторы на основе меры Хэмминга. Однако нейросетевые классификаторы существенно более сложны в разработке, реализации и эксплуатации, часто требуют значительного (часто неопределенного) времени на обучение, имеют свои проблемы, связанные с возможностью возникновения тупиков обучения и эффекта паралича сети. Кроме того, применение ИНС для классификации биометрических образцов порождает свою специфичную проблему -формирования обучающей выборки «чужих».

Проблема обучения ИНС на «чужих». Проблему обучения ИНС на «чужих» рассмотрим для многослойного перцептрона, как наиболее мощного, универсального и широко используемого типа сети.

Обучение ИНС на «своих» и «чужих» пользователей в классическом варианте осуществляется на основе обучающего множества 4*, состоящего из подмножества 4с - образцов биометрических векторов «своих» Vc и подмножества 4ч - образцов векторов «чужих» Уч:

где подмножество Ч'с представлено L образцами, а подмножество 4ч представлено Ь2 образцами.

Формирование обучающего подмножества 4с обычно не вызывает трудностей, поскольку в него могут быть включены «живые» образцы реальных пользователей БСКД, при прохождении ими процедуры регистрации. Проблема возникает при попытке формировать обучающее подмножество 4ч. Формирование 4/ч - на основе «живых» образцов реальных пользователей, которых можно квалифицировать как «чужих» - не решает проблему, поскольку вынужденно ограниченное число образцов L2 не даст полной картины области распределения векторов V4 произвольных «чужих» (мощность подмножества Ч'ч всегда будет недостаточна). Как следствие, ИНС при обучении не сможет построить достаточно точную разделяющую границу между классамиЧ/с и Ч/ч, и остается значимая вероятность появления реальных «чужих», параметры распределения которых будут классифицированы сетью неправильно. Иллюстрация ситуации в двумерном пространстве приведена на рис. 3.30.

В предельном, худшем случае многочисленные области «чужих» могут полностью охватывать компактную область «свой», образуя вокруг большую интегральную область «все чужие». Очевидно, что именно на этот предельно плохой случай и следует ориентироваться при обучении ИНС (рис. 3.31).

Один из возможных путей решения указанной проблемы основан на создании методов искусственной генерации обучающего подмножества Ч/ч, приближенно моделирующего интегральную область «все чужие». В Южном федеральном университете были предложены два таких метода.

Пример ошибочной классификации

Рис. 3.30. Пример ошибочной классификации

Описание указанных методов ориентировано на задачу верификации пользователя, претендующего на доступ. Это связано с тем, что в системы логического доступа, как правило, встроена процедура именования пользователей, поэтому задача биометрической идентификации (сопоставление «один ко многим») всегда может быть сведена к задаче верификации (сопоставление «один к одному»).

Образование интегральной области «все чужие»

Рис. 3.31. Образование интегральной области «все чужие»

Метод обучения ИНС на основе аппроксимации областей распределения данных. Распределение биометрических параметров личности,

представленных обучающим подмножеством Ч'с векторов Уа, i = 1, Lj 9 в N- мерном пространстве близко к нормальному. Следовательно, при Ц —» оо область распределения векторов VCi геометрически будет описываться N- мерным эллипсоидом (гиперэллипсоидом) рассеивания. Центр распределения векторов Vq будет находиться в точке (?ь ?2, •••? ?n)> определяемой N математическими ожиданиями mvi = mv2 = ?2, ..., mvN = ?N. Центральные моменты второго порядка распределения векторов VCi образуют квадратную матрицу моментов (ковариационную матрицу) Q.

В общем случае компоненты биометрических векторов VCi коррелиро- ваны между собой, и для проведения построений, связанных с метрикой векторов VCb необходимо их декоррелирующее преобразование:

где D 1 - матрица декоррелирующих преобразований, которая находится обращением собственной матрицы D, состоящей из собственных векторов ковариационной матрицы Q.

Пересечение поверхности декоррелированного гиперэллипсоида с его осями определяют 2N точек (Сдь Сдг)» j =1»N, которые будут аппроксимировать область рассеивания векторов VCi N-мерным параллелепипедом (гиперпараллелепипедом).

Для учета возможной ошибки, связанной с вариацией биометрических параметров «своего» (ошибка первого рода), расширим аппроксимированную область на величину допуска А, отмеряя ее на осях гиперэллипсоида от точек (?Cjb Cq2) во внешнее пространство. Результатом такого построения будут новые 2N точек (?Cji+A, ?q2_A), j=l,N, которые можно рассматривать в качестве координат векторов V4i обучающего подмножества Уч, формирующего область «все чужие».

Величину А целесообразно задать в виде коэффициента Стьюдента t, исходя из величины ошибки первого рода Р i:

Координаты точек (Сдь Сдг)» j — 1? N определятся соотношениями:

Координаты точек (?4jl, Cnj2)> j - 1,N, в свою очередь, определятся соотношениями:

Полученные точки (Счд, ?42)* j = 1, N задают координаты векторов

V4J1, V4j2? которые можно использовать в качестве векторов обучающего

подмножества ЧЛр V4i, i = 1, L2 . Размер обучающего подмножества при этом будет фиксированным, равным 2N.

Для иллюстрации метода рассмотрим двумерный случай (N = 2). Эллипс рассеивания, аппроксимирующий начало области «все чужие» будет задаваться точками:

Границы интегральной области «все чужие» определятся как:

На рис. 3.32 показан принцип формирования границ интегральной области «все чужие».

Такой метод формирования подмножества Ч'ч может быть использован при малых размерах Li подмножества Ч'с. При больших значениях Ц вычисление координат точек (Счц, ?>чр), J =1?N целесообразно осуществлять на основе статистических характеристик распределения векторов Vc. подмножества Чо

Принцип формирования интегральной области «все чужие»

Рис. 3.32. Принцип формирования интегральной области «все чужие»

Преимущество метода состоит в возможности формирования области «все чужие» на основе ограниченного подмножества Ч/ч (L2 = 2N).

Недостатком метода является невысокая точность идентификации, обусловленная слишком грубой аппроксимацией области «свой». В процессе обучения ИНС этим методом, за счет возможных вариаций пространственного расположения гиперплоскостей, в моделируемой области «свой» могут образоваться «выбросы» в периферийные зоны пространства (рис. 3.33). Случайное попадание биометрических параметров реального «чужого» в область такого выброса приведет к ошибке верификации второго рода.

Возникновение ошибки верификации

Рис. 3.33. Возникновение ошибки верификации

Метод обучения на основе копирования областей распределения данных. Зададим в области распределения «свой» L N-мерных радиус- векторов г, начинающихся в точке математических ожиданий

(4» и оканчивающихся в точках vCi., i = l,L, j =1, N, соответствующих значениям компонент декоррелированных векторов Ус. обучающего множества Ч*с.

Для формирования области «все чужие» увеличим длину радиус- векторов г. в к; раз:

Коэффициенты удлинения кь целесообразно задать через коэффициенты Стьюдента, исходя из величины ошибки первого рода:

где Gj среднеквадратические отклонения радиус-векторов г , соответствующие дисперсиям в ковариационной матрице Q.

<_w 2

Математические ожидания m(vc) и дисперсии а у вычисляются по обычным формулам статистических оценок.

По известным значениям координат радиус-векторов г и значениям

коэффициентов удлинения ^определяем координаты радиус-векторов R..

Для этого можно воспользоваться формулой деления вектора, заданного своими координатами, в заданном отношении:

где V.. - координаты j-компоненты вектора V. и радиус-вектора Г ; vKj - координаты j-компоненты удлиненного радиус-вектора R.;

vRi. - координаты j-компоненты удлиненного радиус-вектора Rj.

В итоге, искомое обучающее подмножество Ч*ч «все чужие», будет представлено L векторами V4i

координаты которых совпадают с координатами векторов R;.

Рис. 3.34 иллюстрирует метод в двухмерном пространстве (N = 2).

Метод формирования обучающего множества «все чужие»

Рис. 3.34. Метод формирования обучающего множества «все чужие»

После формирования обучающего подмножества «чужих» 4*4 нейронная сеть обучается в соответствии с общепринятой процедурой. При этом обучающая выборка будет содержать 2L образцов, по L образцов каждого из двух подмножеств 43с и 43ч.

Таким образом, предложенный метод позволяет обучать нейронную сеть как на «своих», так и «чужих» пользователей, имея в распоряжении только образцы биометрических параметров «своих» пользователей. По сравнению с предыдущим методом, размеры обучающих подмножеств 43ч и 43с одинаковы. При достаточно больших размерах 43с это позволяет в процессе обучения снизить вероятность возникновения выбросов области «свой» в периферийные зоны пространства. Вместе с тем увеличение 'Тс неизбежно приводит к росту длительности обучения. Оптимальное соотношение между допустимыми ошибками аутентификации и длительностью обучения в конечном итоге определяется особенностями конкретной биометрической системы, а также типом и способом реализации ИНС.

Параметрический метод классификации. Распределение данных динамической биометрии (векторов биометрических параметров Vj) в N- мерном пространстве, как правило, близко к нормальному. Это позволяет аналитически задать дискриминантную функцию g(V), разделяющую области «свой» и «все чужие», в виде функции плотности нормального распределения векторов Vj с неизвестными средними. Тогда параметрический метод обучения динамической БСКД будет состоять из трех последовательных этапов.

  • 1. Определяется в явном виде зависимость дискриминантной функции g(V) от параметров, характеризующих функцию плотности нормального распределения векторов Vj.
  • 2. По обучающему множеству векторов Vj оцениваются значения параметров нормального распределения.
  • 3. Значения оценок параметров нормального распределения используются в выражении для дискриминантной функции g(V), полученном на этапе 1.

Для упрощения изложения рассмотрим параметрический метод классификации применительно к задаче верификации. В этом случае классификация биометрических образцов осуществляется на два класса «свой» и «чужой». Реализуется такой классификатор с использованием одной дискриминантной функции g(V), знак которой и будет определять принадлежность предъявленного вектора V к одному из двух классов: «свой» - вектор Ус или «чужой» - вектор Уч. При этом области распределения биометрических параметров «чужих» в совокупности можно рассматривать как интегральную область «все чужие», расположенную вокруг области «свой».

Зададим область распределения биометрических параметров «своего» множеством образцов Ч'с, состоящим из L векторов VCi, i = 1, L, нормально распределенных в N-мерном пространстве ортогональной системы координат. Каждый вектор Vq, i = 1, L представлен своими N компонентами:

Центр распределения векторов Vq находится в точке (?ь ?2, ?n)>

которая определяется N математическими ожиданиями mvi = mv2 = ?2, ..., mvN = ?n- Центральные моменты второго порядка распределения векторов

Vci образуют ковариационную матрицу Q = Xjk

Функция плотности нормального распределения векторов Vq, i = 1, L, имеет вид

где det Х-к — определитель ковариационной матрицы Q = Xjk .

Коэффициенты Ajk составляют матрицу Л= Ajk , обратную ковариационной матрице Q — . Для их вычисления используется стандартная

формула

где Mjk- минор определителя det Xjk 5 получаемый из него вычеркиванием j-строки и к-столбца.

Выражение, фигурирующее в показателе экспоненты функции плотности нормального распределения f(ylfy2,... ,у^), является положительно определенной квадратичной формой. Поверхности, на которых эта форма постоянна, являются поверхностями равных плотностей вероятностей в N- мерном пространстве и представляют собой N-мерные гиперэллипсоиды равной плотности (гиперэллипсоиды рассеивания), которые группируются

вокруг точки (Si, S2, •••, Sn)-

Обозначим указанную форму через к :

Константа к задает коэффициент пропорциональности между длинами aj главных полуосей гиперэллипсоида и соответствующими среднеквадратическими отклонениями }:

Для учета рассеивания векторов Vq можно ограничиться единичным гиперэллипсоидом рассеивания с длинами а} главных полуосей, равными соответствующим среднеквадратическим отклонениям a, (k= 1):

Кроме того, в БСКД при обработке биометрических данных рассматриваются распределения выборочных статистик, поэтому рассеивание векторов VCi целесообразно задавать на основе t-распределения Стьюдента. Тогда граница, разделяющая области «свой» и «все чужие», определится путем «расширения» единичного гиперэллипсоида рассеивания векторов Vci на коэффициент Стьюдента t(N), который определяется, исходя из величины ошибки первого рода (вероятности Pi ложного отказа «своему»

пользователю) и числа образцов L векторов Vq, i = 1, L: где

В результате выражение для дискриминантной функции g(V), разделяющей области «свой» и «все чужие», будет иметь вид

Для вычисления математических ожиданий mvl = mv2 = ?2, •••? mvN = ?n* может использоваться обычная оценка выборочного среднего.

Принцип работы БСКД, реализующей параметрический метод классификации. В режиме обучения по образцам векторов VCi, из обучающей выборки определяются оценки выборочных средних функции плотности распределения «своего» пользователя f(y1,v2,... ,vN), которые используются затем для построения дискриминантной функции g(V). Процедура повторяется для всех к пользователей, к = 1, М . Результатом обучения является набор эталонов ^jk всех М пользователей.

В режиме верификации пользователь, претендующий на доступ, предъявляет свои биометрические параметры в виде вектора V и какой- либо дополнительный идентификатор ID. По дополнительному идентификатору пользователя ID БСКД извлекает из своей ББД соответствующий

биометрический эталон в виде значений параметра ^jk, j = 1, N, который в совокупности со значением вектора V используется для вычисления дискриминантной функции g(V).

Уравнение g(V) = 0 будет определять искомую разделяющую поверхность, а знак функции g(V) - принадлежность предъявленного вектора V к одному из двух классов: «свой» или «чужой»:

Иллюстрация метода для N = 2 приведена на рис. 3.35.

Параметрический метод верификации

Рис. 3.35. Параметрический метод верификации

Параметрическое обучение классификатора БСКД по сравнению с геометрическими методами и методами, основанными на использовании ИНС, обладает рядом преимуществ.

По сравнению с геометрическими методами точность верификации существенно возрастает, вследствие более точной аппроксимации области распределения векторов Vc. Повышение точности при этом «оплачивается» дополнительным объемом вычислений, связанным с получением функции g(V). Но, учитывая, что эти вычисления производятся по стандартным, фиксированным во времени процедурам, ощутимой задержки времени не возникает.

По сравнению с методами классификации на основе ИНС исчезает необходимость неопределенно длительного обучения БСКД в классическом его понимании (как подбор весов дискриминантной функции g(V)). Как следствие, исчезают проблемы возникновения тупиков и «паралича» сети, а также проблема обучения ИНС на «чужих» пользователей.

Изложенный метод реализован в Южном федеральном университете в программных моделях БСКД BioSing и BioKey. БСКД BioSing предназначена для аутентификации пользователей компьютерных систем по особенностям рукописного воспроизведения парольной фразы, вводимой с помощью стандартного двухкоординатного графического планшета. БСКД Bio- Key реализует аутентификацию пользователей по особенностям клавиатурного набора парольной фразы. Обе системы разработаны для учебных целей, поэтому для сравнения в каждой из них реализованы два метода классификации биометрических данных: метод с использованием меры Хэмминга и параметрический метод.

Проведенные экспериментальные исследования на программах BioSing и BioKey показали, что параметрический метод классификации по точности в 38 раз превосходит метод классификации с использованием меры Хэмминга.

Таким образом, параметрический метод классификации биометрических образцов, эффективно сочетает в себе простоту реализации, высокую степень защиты от несанкционированного доступа, фиксированное малое время обучения и принятия решения. Эти качества позволяют широко использовать его в мэтчерах БСКД самого различного назначения.

Статистический метод верификации. Более общим и сложным является случай, когда нет априорных сведений не только о параметрах, но и о законе распределения биометрических параметров пользователей. Тогда применяются непараметрические методы распознавания. Целью обучения в такой ситуации является получение оценок условных плотностей вероятностей.

Конечной целью обучения БСКД является формирование эталонных описаний классов. Форма этих описаний определяется способом их использования в решающих правилах. Природа данных динамической биометрии носит случайный характер, поэтому вид решающего правила может быть заимствован из теории статистических решений и сведен к формированию отношения правдоподобия условных плотностей распределения и сравнению его с некоторым порогом Си:

где wr(V|Sj) - условная совместная r-мерная плотность вероятности выборочных значений {Vj}, j = 1 при условии их принадлежности к классу Sj.

Особенность реализации отношения правдоподобия при непараметрической классификации состоит в том, что плотности wr(V|Sj) априорно не известны и должны быть представлены своими оценками wr(V|Sj), полученными при обучении на основе образцов векторов {Vj, i = 1, L.

Существует множество непараметрических методов восстановления плотности вероятности. Наиболее распространенными являются гистограммный, парценовский, к ближайших соседей, полигональный, разложения по базисным функциям. Рассмотрим один из наиболее простейших из них - гистограммный метод.

Пусть образец динамической биометрии представлен r-мерным вектором биометрических параметров:

каждая компонента Vj, j = 1,2, ...,г которого соответствует значению соответствующей функции времени, отражающей процесс воспроизведения текста за период Т. Вектор биометрических параметров V можно рассматривать как биометрический образец данного пользователя.

Для получения биометрического эталона пользователя необходимо иметь серию из L биометрических образцов этого пользователя, которые составят обучающую выборку образцов s-класса, соответствующего данному пользователю

В общем случае в системе может быть зарегистрировано множество К = {кь к2, км} пользователей, каждый из которых будет представлен своим биометрическим эталоном и будет соотнесен с одним классом из множества s = {si, s2, ..., sM}. Таким образом, образуется однозначное отображение совокупности пользователей {К} на множество классов: {s}. То есть для формирования эталонов всех М легитимных пользователей потребуется М обучающих выборок:

В режиме аутентификации неизвестный х-пользователь предъявляет обученной БСКД образец своей рукописи в виде вектора биометрических параметров = {Vj],j = l,r.

Решение задачи верификации сводится к классификации вектора на два класса: sc - «свой», принадлежащий к какому-либо классу из множества {s}, и вектор 5Ч - «чужой», не принадлежащий ни к одному классу из множества {s}.

Особенность реализации отношения правдоподобия при непараметрической классификации состоит в том, что плотности wr(V|s;) априорно не известны и должны быть представлены своими оценками wr(V|Sj), полученными при обучении на основе образцов векторов {VJ, i = 1, L.

Выделим в r-мерном пространстве Rr ограниченную область /г, содержащую все образцы обучающей выборки = {VJ, i = 1, L, и приведем эту область к началу координат. Определим диапазон изменения каждой компоненты Vj, j = 1, г для всех образцов обучающей выборки

V(s) = {v(}, i = TJ:

Приведенные к началу координат значения всех компонент j = 1, г векторов {VJ, образованные как

определяют координаты приведенной r-мерной области /г распределения векторов {V;},i = l,L.

Разобьем область /г на I одинаковых непересекающихся г-мерных прямоугольных подобластей: , /?,..., 1{:

и подсчитаем число образцов тк обучающей выборки Ч*^ = {VJ, i = 1, L, попавших в каждую подобласть к = 1,1:

Теперь можно сделать оценку плотности распределения векторов

{V;}, i = П:

где 0к - мера области 1к, определяемая по формуле

В качестве примера рассмотрим двумерное (г = 2) смешанное гауссово распределение биометрических признаков с двумя центрами. Распределение представлено обучающей выборкой Ч*^ = {VJ, состоящей из L=50 векторов. Выделим в пространстве R2 ограниченную область /2, содержащую все 50 образцов обучающей выборки Ч*^ = {VJ, приведем эту область к началу координат и разобьем на I = 12 одинаковых непересекающихся двумерных прямоугольных подобластей: /2,/|,..., /12 (рис. 3.36).

Двумерное смешанное гауссово распределение признаков

Рис. 3.36. Двумерное смешанное гауссово распределение признаков

Оценка плотности распределения векторов {VJ будет иметь вид где 0к = vlk ? v2k.

На рис. 3.37. приведена гистограмма оценки плотности распределения векторов w(V), отражающая проведенные вычисления.

Гистограмма оценки плотности распределения векторов w(V)

Рис. 3.37. Гистограмма оценки плотности распределения векторов w(V)

Имея оценки плотности wr(Vsi), S[ = sltsM, можно строить правило для принятия аутентификационного решения путем формировании отношения правдоподобия

где wr(V|sx) - оценка плотности распределения биометрических параметров неизвестного пользователя; щ(УЮ - оценка плотности распределения биометрических параметров «своего» пользователя.

Решающее правило будет иметь вид

где Си - значение порога, выбираемое с учетом ошибок первого рода.

Очевидно, что точность классификации на основе гистограммного метода будет сильно зависеть от выбора числа и размерностей подобластей i{, /J, Известны, в частности, эмпирические рекомендации для выбора числа и ширины подобластей для одномерных распределений. Для многомерных данных в общем случае пользуются адаптивным методом гистограммного оценивания. Суть этого метода состоит в следующем.

Последовательно предъявляются вектора обучающей выборки = {УД и измеряются расстояния от этих векторов до центров распределения уже определенных подобластей 1, — ,1{. В зависимости от результатов измерений принимается решение об отнесении очередного вектора V; к той или иной подобласти или - об образовании новой подобласти с центром V;.

Основное преимущество гистограммного метода оценки плотности распределения его простота и ясный физический смысл. Кроме того, не требуется априорная информация о поведении плотности распределения признаков, кроме ее положительности и отсутствия скачков во всей области своего определения.

В классе непараметрических методов классификации многомерных данных точность гистограммного метода будет выше, чем часто применяемого метода классификации по расстоянию Хэмминга. В последнем случае решение о принадлежности предъявленного образа к определенному классу принимается по результату попадания образца во всю область /г, т. е. в 1 раз более грубо.

К недостаткам метода можно отнести отсутствие способа оптимального разбиения области /г на подобласти Ц, а также невозможность достижения сходимости по вероятности оценки w(V) к истинной плотности w(V) при асимптотическом увеличении объема обучающей выборки L -» 00.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >