Контроль доступа по голосу

Голос является уникальной биометрической характеристикой человека и может использоваться для идентификации его личности. Идентификация личности по голосу является естественной при коммуникации людей и применяется в течение всей истории человечества. Распознавание голоса не следует путать с распознаванием речи. В первом случае решается задача определения личности говорящего, а во втором - задача определения того, что им сказано.

Индивидуальные признаки голоса. На основании проведенных исследований принято считать, что основное проявление индивидуальности голоса человека присутствует в двух основных группах признаков:

  • • анатомические и физиологические особенности механизма речеоб- разования человека;
  • • артикуляционная деятельность, обусловленная работой центральной нервной системы.

Первая группа признаков основывается на модели речевого тракта, состоящей из передаточной функции резонансной системы и генератора импульсов сигнала возбуждения. Передаточная функция практически полностью характеризует индивидуальную геометрическую форму полостей речевого аппарата: задняя глоточная полость, сужение между языком и небом, передняя полость рта, сужение между губами и т. д. Частота импульсов возбуждения находится в прямой зависимости от колебаний голосовых связок, которые, в свою очередь, зависят от длины, толщины и натяжения последних. Основными параметрами здесь являются частота основного тона, параметр тон/шум, звонкость, подъем основного тона и производные от этих параметров.

Для расчета параметров, связанных с физиологическими особенностями речевого тракта, наиболее часто используются методы спектральновременного анализа. Такие методы анализа речевого сигнала адекватны природному механизму восприятия речи. В основе таких методов лежит классический Фурье-анализ или параметрический авторегрессионный анализ (линейное предсказание как частный случай). Тесно связан со спектральным представлением речевого сигнала гомоморфный метод. Этот метод представляет речевой сигнал в виде последовательности векторов кеп- стральных коэффициентов, которые требуют значительно меньшего объема памяти для хранения эталонных образов.

Если первая группа признаков отражает статические свойства речеобразующего тракта, то вторая группа призвана описать его поведение во времени, т. е. артикуляционную динамику речи. Согласно существующему предположению, исходным и основным этапом в организации процесса ре- чеобразования является управляемая центральной нервной системой человека программа комплекса артикуляционных движений, соответствующая планируемому сообщению. При этом индивидуальный характер результата речевой активности определен уже на уровне центральной нервной системы. т. е. на уровне синтеза артикуляционных программ. Решающими факторами, предопределяющими индивидуальные особенности речи, являются: социально обусловленные речевые навыки, индивидуальный опыт, психологический склад (в частности, темперамент), особенности характера и интеллект. Управление речевым процессом не может осуществляться без этих основных компонентов. Артикуляционная программа содержит правила произнесения определенных структур. Эти правила относятся к управлению интонацией речи, ее ритмикой, ударением, громкостью, т. е. к управлению просодическими характеристиками речи.

Исследование ритмической картины речевой фразы показывает, что ее временной рисунок остается инвариантным для индивидуальной артикуляционной программы, независимо от абсолютных длительностей отдельных слов и слогов, входящих в ее состав, т. е. остается инвариантным относительно темпа речи. Это положение позволяет допустить существование в центральной нервной системе некоторых уникальных для каждого человека схем, обеспечивающих генерирование определенной и повторяющейся последовательности действий речевого аппарата во времени. При этом внутрислоговая артикуляция не диктуются центральной нервной системой, а получаются чисто рефлекторно.

Для расчета параметров, описывающих артикуляционную динамику речи, также могут быть использованы методы спектрально-временного анализа данных. Однако необходимо отметить такую особенность расчета просодических параметров, как их жесткая связь с лексическим и синтаксическим контекстом исследуемой фразы. Это требует комплексного применения как средств лингвистического анализа, так и параметрических методов обработки, что явно определяет сложность анализа данных характеристик. При этом основной задачей является установление прямой связи между динамикой артикуляционных движений и характеристиками спектральной картины потока речи.

Интегральные параметры речи. Весьма интересным является вопрос о наличии и использовании интегральных параметров речи. Эти параметры в силу своей природы не могут быть отнесены ни к одной из указанных выше характеристических групп, но сильно коррелированы с ними и формируются под воздействием как анатомических особенностей речеобразующего тракта, так и артикуляционной деятельности человека.

Субъективные методы исследования позволяют считать, что конкретный источник голоса существует в речевом сигнале в виде некоторого постоянного фона. Слух человека, легко фильтруя необходимую ему информацию. осуществляет постоянное слежение за окраской голоса. Иногда совсем не различая фонетические элементы речи и даже смысл произносимого. человек легко идентифицирует говорящего по характерному потоку параметров голоса.

Это обстоятельство натолкнуло многих исследователей на мысль использовать в качестве характерных признаков голоса некоторые интегральные свойства речевого сигнала, т. е. свойства, проявляющиеся в виде усредненных значений на отрезке всего анализируемого сигнала. Если длительность сигнала позволяет проявиться таким законам языка, как закономерность появления частот отдельных фонем, то считается, что анализ интегральных параметров речевого сигнала дает возможность определить особенности индивидуального произношения для речевых отрезков различного фонетического содержания. Такое предположение хорошо согласуется с повседневным опытом, когда устойчивая идентификация диктора не зависит от фонетического содержания речи.

Один из самых широко распространенных интегральных признаков является средневзвешенный спектр речи. Несмотря на то что данный параметр голоса является наиболее простым видом обработки первичных данных, он считается одним из эффективных признаков идентификации голоса в потоке слитной речи. Важное, а в ряде случаев и решающее значение имеет высота голоса диктора, которая может быть выражена в виде среднего значения частоты основного тона речевого сигнала на фиксированном отрезке времени.

Таким образом, описанные выше параметры речевого сигнала характеризуют различные аспекты речеобразования человека. В зависимости от выбранной концепции построения системы идентификации по голосу ее основу будут составлять разные параметры.

Категории голосовых идентификационных систем. Голосовые идентификационные системы можно разделить на несколько категорий в зависимости от требований к распознаванию речи.

Заданный текст. Говорящий начитывает определенные слова или фразы, которые записываются при регистрации. Слова могут быть секретными, тогда они действуют как пароль; в данном случае приложению угрожают атаки воспроизведения, а при необходимости изменения пароля потребуется перерегистрация личности.

Зависимость от текста. Идентификационная система требует от человека произнесения определенных фраз и сравнивает их с произношением ранее записанного текста. Регистрация обычно занимает больше времени, а текст может быть изменен по желанию. Ограниченные системы (например, использующие цифровые цепочки) уязвимы для атак воспроизведения.

Независимость от текста. Голосовые идентификационные системы обрабатывают любую фразу говорящего. Здесь речь может быть ориентирована на задачу, поэтому будет сложно ее записать и воспроизвести, так как речь имитатора имеет собственную целевую установку. Наблюдение может быть продолжительным, и чем больше говорит человек, тем точнее система идентифицирует пользователя. Такие системы могут даже аутентифицировать пользователя, когда он говорит на другом языке. Угрозу для приложений этого класса могут представлять обучаемые системы с синтезом речи.

Диалог. Во время аутентификации требуется произнести секретные слова или, по крайней мере, предоставить информацию, которую нельзя угадать или узнать. При такой комбинации биометрических параметров и специальных знаний ошибки 2-го рода будут ниже, поэтому диалог хорошо подходит для приложений с высоким уровнем безопасности.

Более глубокий смысл понятие «диалог» приобретает в новом направлении построения диалоговых систем, которые в отличие от большинства существующих систем идентификации основаны на анализе просодических характеристик (вторая группа признаков), которые наиболее ярко выражены не при однократном произношении отдельных ключевых слов, словосочетаний и даже предложений, а в осмысленном акте коммуникации между людьми. Этим объясняется стремление построить алгоритмы идентификации в рамках модели общения человека с машиной. Просодические характеристики обладают свойством устойчивости к изменению акустической обстановки, кратковременной и долговременной вариативности параметров речеобразующего тракта диктора.

Следует отметить, что проблема диалога человека с машиной является частью общей проблематики создания систем искусственного интеллекта и находится на стыке нескольких наук, что свидетельствует о ее сложности.

Голосовые БСКД на основе частотной аналоговой фильтрации. Первые системы идентификации личности по особенности голоса строились исходя из частотных представлений и возможностей средств аналоговой фильтрации. В основу их работы положена различная тембральная окраска голосов и индивидуальная неравномерность распределения мощности речевого сигнала по частотному спектру. Базовыми процедурами для этого класса устройств являются узкополосная фильтрация сигнала и восстановление его огибающей.

Полосы пропускания фильтров выбираются при проектировании системы. С одной стороны, они не должны быть слишком узкими, чтобы по возможности снизить зависимость результата идентификации от вариаций частотного спектра голоса. С другой стороны, они не должны быть и очень широкими, чтобы не потерять индивидуальную неравномерность распределения мощности по частотному спектру. Количество фильтров зависит также от ширины полосы пропускания речевого сигнала.

В ранних системах использовалась одинаковая полоса пропускания всех фильтров. В частности, подобная система фирмы Texas Instruments использовала гребенку из 16 узкополосных фильтров с шириной полосы пропускания 220 Гц, равномерно покрывающей частотный диапазон от 300 до 3000 Гц. Структура аналоговой части системы приведена на рис. 3.2.

Идентификация голоса с многоканальным анализом распределения энергии сигнала по частотному спектру

Рис. 3.2. Идентификация голоса с многоканальным анализом распределения энергии сигнала по частотному спектру

Позднее полосы пропускания фильтров стали делать расширяющимися по мере роста частоты. Это связано с большей нестабильностью энергии речевого сигнала на высоких частотах в сравнении с низкими частотами.

Амплитудно-частотная характеристика типичной системы идентификации голоса на основе аналоговой фильтрации с расширяющейся полосой пропускания фильтров, при условии равномерного распределения энергии сигнала по частотному спектру, показана на рис. 3.3.

Амплитудно-частотная характеристика системы с расширяющейся полосой пропускания фильтров

Рис. 3.3. Амплитудно-частотная характеристика системы с расширяющейся полосой пропускания фильтров

При произношении контрольной фразы система идентификации осуществляет приведение сигнала к единому масштабу амплитуд за счет АРУ входного усилителя. Полосовые фильтры и детекторы огибающей их откликов позволяют получить 16 функций времени Ai(t), A2(t),..., Ai6(t), характеризующих распределение энергии звукового сигнала по частотному спектру. Функция Ao(t) описывает изменения значения энергии полного сигнала во всем диапазоне звуковых частот. При обучении система запоминает наиболее вероятные эталонные значения функций (t) для конкретной личности и допустимые коридоры отклонений для этих функций. Минимальный массив данных, необходимый для формирования голосового эталона одной личности, при таком подходе может быть сведен к 16 значениям амплитуд распределения уровней сигнала по частотному спектру. Для идентификации личности этим методом возможно использование статистических методов, а также искусственных нейронных сетей (ИНС).

Одной из проблем, возникающих при идентификации личности по голосу, является то, что часть участков Ak(t), соответствующих шипящим звукам, бесполезны. Более того, фрагменты кривых A^t), соответствующих шипящим звукам, должны обязательно исключаться из данных, по которым принимается решение, так как их учет ухудшает качество идентификации.

О наличии на входе устройства звуковой фонемы судят по наличию существенного значения отклика канала Ao(t), при этом, если на входе устройства присутствует шипящий звук, то его спектр оказывается равномерным, Ak(t)»A0(t)/6. Шипящие звуки являются модулированным по амплитуде белым шумом и легко распознаются. Все другие звуки (не являющиеся шипящими) обязательно имеют ярко выраженную неравномерность спектральной характеристики, и на эту неравномерность как раз существенно влияют индивидуальные особенности мышечной активности речевого тракта личности.

Вероятность присутствия характерных индивидуальных особенностей голоса личности в 18-ти фонемах русского языка приведена в табл. 1.

Таблица 3.1

Вероятность распознавания личности по одной изолированной фонеме

Фонема

э

о

л

а

и

3

Р

в

ж

Р

0,90

0,86

0,84

0,83

0,83

0,79

0,78

0,76

0,74

Фонема

м

г

У

ч

Ц

X

с

ш

к

Р

0,62

0,61

0,60

0,54

0,50

0,48

0,44

0,37

0,30

Табл. 3.1 упорядочивает по информативности фонемы русского языка с позиций решения задачи идентификации личности. Информативными являются фонемы, для которых Р > 0,5 (начало таблицы). Фонемы, для которых Р < 0,5, бесполезны для цели идентификации личности, так как они позволяют распознавать диктора с вероятностью, равной или меньшей 0,5, т. е. с ошибкой > 50 %. Эти фонемы могут отражать особенности голоса личности только в сочетании с другими звуками.

На рис. 3.4 показан пример голосовой фразы с выделенными в ней восемью фрагментами. Фрагмент 7 соответствует информативной фонеме, фрагмент 8 - неинформативной (шумоподобной) фонеме. На рис. 3.5 эти же фонемы показаны в более крупном масштабе.

Информативные фрагменты речи имеют явно выраженный периодический характер. Причем период и характер колебаний индивидуальны. Для одного человека графики очень похожи. У другого человека и период и форма внутренних колебаний значительно отличаются. На рис. 3.6 приведены графики колебаний для информативного фрагмента речи.

Пример голосовой фразы с выделенными в ней восемью фрагментами

Рис. 3.4. Пример голосовой фразы с выделенными в ней восемью фрагментами

Информативная и шумоподобная фонемы

Рис. 3.5. Информативная и шумоподобная фонемы

Весьма важной задачей решаемой при идентификации личности по голосу является нормировка функций A^t) по времени. Как правило, при произнесении парольной фразы длительности составляющих ее звуков и пауз между ними могут варьироваться в пределах от 10 до 50 %.

Возможно использование двух способов компенсации временной нестабильности произнесения диктором парольных фраз:

  • • Подгонка под эталон путем сжатия и растяжения участков, соответствующих отдельным звукам, средствами динамического программирования.
  • • Выделение центра звуковой области и идентификационные измерения в окрестностях центральной части фонемы, тогда абсолютные значения длительностей фонем и пауз между ними не играют существенной роли.
Графики колебаний для информативного фрагмента речи

Рис. 3.6. Графики колебаний для информативного фрагмента речи

Голосовые БСКД на основе частотной цифровой фильтрации. В

отличие от систем аналоговой фильтрации в голосовых БСКД могут использоваться спектральное представление речи на основе использования программных полосовых фильтров, выполняющих дискретное преобразование Фурье (ДПФ). Для этого подлежащий анализу голосовой сигнал вначале сегментируется на участки At длительностью 15-20 мс. Затем к каждому участку At применяется ДПФ:

Результатом преобразования является частотный спектр сигнала x(i) на участках At. На втором этапе выполняются преобразования полученного спектра речевого сигнала:

  • • логарифмическое изменение масштаба в пространстве амплитуд и частот;
  • • сглаживание спектра с целью выделения его огибающей;
  • • кепстральный анализ (cepstral analysis), т.е. обратное преобразование Фурье от логарифма прямого преобразования.

Эти преобразования позволяют учитывать такие особенности речевого сигнала, как понижение информативности высокочастотных участков спектра, логарифмическую чувствительность уха, и т. д.

Линейные предсказатели речевого сигнала. Частотный подход к идентификации личности вначале реализовывался средствами аналоговой фильтрации. Впоследствии средства аналоговой фильтрации стали замещаться средствами цифровой фильтрации. Кроме того, подход, основанный на частотных методах идентификации, был дополнен методами, основанными на анализе волновой структуры речевого сигнала.

Звуки человеческой речи подразделяются по двум возможным способам их воспроизведения. Первая категория звуков охватывает так называемые вокализованные звуки, возникающие как результат вибрации голосовых связок. В результате такой вибрации воздух проходит из легких в речевой тракт. Интервал между такими выходами воздуха, возбуждающими речевой тракт, называют периодом основного тона. Другими словами, основной тон есть частота возбуждения речевого тракта. Вокализованные звуки возникают при генерации гласных и определенной части согласных звуков. Пример формы сигнала вокализованного звука приведен на рис. 3.7.

Форма сигнала вокализованного звука

Рис. 3.7. Форма сигнала вокализованного звука

При произношении вокализованных звуков хорошо видна волновая структура речевого сигнала. Вокализованный звук состоит из последовательности затухающих волн, возбуждаемых говорящим с периодом основного тона. При этом соседние волны волновой пачки достаточно похожи друг на друга.

Вторая категория звуков включает щелевые, или не вокализованные звуки. Они возникают как результат продолжительного продувания воздуха из легких и прохождения его через речевой тракт, который несколько суживается для того, чтобы образовывалась турбулентность (трение). Не- вокализованные звуки соответствуют нескольким согласным, таким как «ф», «ж», «с» и «х». Пример формы сигнала невокализованного звука приведен на рис. 3.8. Как видно из рисунка, форма сигнала невокализованного звука имеет гораздо более случайный характер, чем вокализованного.

Форма сигнала невокализованного звука

Рис. 3.8. Форма сигнала невокализованного звука

Таким образом, одним из наиболее эффективных способов кодирования вокализованных участков речи является кодирование одного периода основного тона и использование полученного кода как шаблона для каждого следующего периода основного тона в том же звуке. Период основного тона обычно находится в пределах от 5 до 20 мс для мужчин и от 2,5 до 10 мс для женщин. Если типичный вокализованный звук длится примерно 100 мс, то в нем может содержаться от 20 до 40 периодов основного тона.

Реализацией этих методов стали так называемые линейные предсказатели (ЛП) речевого сигнала, которые обеспечивают возможность получения фонетической оценки речевого сегмента сигнала во временной области.

Модель ЛП основывается на предположении, что любой отсчет речевого сигнала s(n) можно приближенно оценить линейной комбинацией некоторого числа р предшествующих ему отсчетов, что приводит к следующему соотношению:

где alf а2,..., ар - коэффициенты предсказания;

и(п) — нормализованная последовательность возбуждения;

G - коэффициент усиления.

В этом случае коэффициенты предсказания в z-области задают передаточную функцию:

Ошибка предсказания определяется как разность

Таким образом, метод линейного предсказания построен на аппроксимации соседних волн в звуковой пачке переходным процессом линейного цифрового фильтра. При описании звукового сигнала методом линейного предсказания исходный сигнал разбивается на отдельные интервалы анализа фиксированной длины (обычно длина интервала анализа составляет 20 мс). Далее определяется тип звука внутри интервала анализа (шум или тональный звук). Если внутри интервала находится шумовой участок, то определяются только его энергетические параметры Ao(t). Если внутри интервала анализа присутствует тональный фрагмент, то сигнал дополнительно описывают путем задания коэффициентов ЛП (линейного цифрового фильтра) и задания периода импульсов основного тона, возбуждающих переходные процессы на выходе ЛП. То есть система возбуждается импульсной последовательностью для вокализованных звуков речи и шумом для невокализованных.

Модель ЛП имеет следующие параметры: классификатор вокализованных и невокализованных звуков, период основного тона для вокализованных сегментов, коэффициент усиления G и коэффициенты цифрового фильтра аг, а2,..., ар. Все эти параметры медленно изменяются во времени. Структура описания речевого сигнала методом ЛП отображена на рис. 3.9.

Структура описания модели речевого сигнала методом ЛП

Рис. 3.9. Структура описания модели речевого сигнала методом ЛП

Коэффициенты ЛП могут быть найдены различными способами.

Если в качестве ЛП используется рекурсивный цифровой фильтр, то коэффициенты аг2, ...,ар могут быть найдены решением системы линейных корреляционных уравнений. Этот подход удобен тем, что он экономичен (требуется вычисление малого числа коэффициентов), не требует предварительной классификации тон/шум и знания периода основного тона Т0. Задача классификация тон/шум и поиск функции T0(t) могут быть решены позднее по ошибке ЛП. Основным недостатком использование ЛП с рекурсивной структурой является их потенциальная неустойчивость из-за наличия обратной связи.

Еще одним подходом к решению задачи является использование устойчивого ЛП с нерекурсивной структурой. В этом случае его коэффициенты аг, а2, ...,ар повторяют импульсную переходную функцию h(t), но для точного описания h(t) число коэффициентов существенно увеличивается. Формально вектор коэффициентов ЛП может быть получен непосредственно из параметров звуковой волны без решения системы линейных уравнений, однако для этого требуется знать период импульсов основного тона и моменты прихода импульсов основного тона на вход ЛП. В первом приближении моменты времени прихода импульсов возбуждения основного тона могут быть найдены как левое пересечение нулевого уровня максимальным по модулю импульсом.

Независимо от типа используемого ЛП, после дробления парольной фразы на последовательные интервалы наблюдения и их обработки, получают описание особенностей голоса личности в виде характерных функций T0(t), Ao(t) и коэффициентов аг, а2р. Все эти данные обладают существенной индивидуальностью, но они должны быть правильно фрагментированы на отдельные фонемы и приведены к единому масштабу времени и амплитуды.

При обучении система идентификации личности по голосу анализирует несколько произношений парольной фразы и создает биометрический эталон, определяя наиболее вероятные значения функций T0(t), Ao(t), и коэффициентов а12> ...,ар для регистрируемой личности, а также допустимые отклонения этих функций от средних значений.

Важным моментом при аутентификации личности по голосу является удаление из речевого сигнала пауз и шипящих звуков. Спектр шипящих звуков практически одинаков для различных дикторов и близок к белому шуму. Поэтому при использовании таких участков речевого сигнала для аутентификации дикторов значительно ухудшается правильность распознавания. Для удаления пауз и шипящих звуков можно использовать фильтр, основанный на ИНС. При прохождении речевого сигнала через фильтр полностью удаляются как паузы, так и шипящие звуки.

Другие техники анализа голосового сигнала. В настоящее время кроме описанных выше принципов построения голосовых БСКД применяются и другие техники анализа голосового сигнала. Все эти техники имеют как общие черты, так и определенные особенности. Общим этапом предобработки голосового сигнала, полученного от микрофона, является его оцифровка. Следующий шаг - это отделение речи от неречевых частей (таких, как тишина). Затем в спектре голосового сигнала обычно выделяются и удаляются шумовые участки, бесполезные для анализа. После этого большинство систем голосового распознавания выделяют формы, основанные на частоте голоса.

Например, часто используется краткосрочный спектральный анализ с окнами в 20 мс для вычисления коэффициентов Фурье. Этот спектр преобразовывается далее в кепстр (метод, позволяющий сильнее разграничить в спектре частот низкочастотные и высокочастотные составляющие голосового сигнала). Кепстр затем обрабатывается для компенсации несоответствия канала перед построением или сопоставлением моделей отдельных пользователей. Эффективными являются комбинации ЛП с последующим вычислением кепстра.

В современных технологиях обработки и распознавания сигналов применяются также вейвлет-преобразования и вейвлет-анализ. Термин вейвлет (wavelets) можно перевести как «маленькая волна». В чем отличие анализа Фурье от вейвлет-анализа? Фурье-анализ предполагает разложение исходной периодической функции в ряд, в результате чего исходная функция может быть представлена в виде суперпозиции синусоидальных волн различной частоты (спектр сигнала).

При вейвлет-анализе входной сигнал раскладывается в базис функций, характеризующих как частоту, так и время. Поэтому с помощью вейвлетов можно анализировать свойства сигнала одновременно и в частотном и во временном пространствах. Базисные функции для вейвлет-преобразований конструируются на основе производных функций Гаусса.

Сопоставление голосовых репрезентаций. Техники сопоставления голосовых репрезентаций при аутентификации личности по голосу значительно различаются, а количество признаков, применяемых в репрезентации, зависит от специфики алгоритма.

Одна из классификаций, предложенная Рейнолдсом, делит мэтчеры на четыре категории:

  • • использующие технику оптимизации, называемую деформацией динамического времени, которая применяется для достижения сопоставимости двух сигналов;
  • • использующие технику сопоставления соседних величин путем вычисления суммы расстояний между полученным при анализе вектором голосовых признаков личности и ближайшим голосовым эталоном, соотносящимся с предполагаемой личностью говорящего;
  • • основанные на технологиях искусственных нейронных сетей. Они разработаны лучше и выдают более статистически точные результаты, однако требуют времени для обучения;
  • • основанные на использовании скрытых марковских моделей (СММ). Позволяют кодировать не только сами векторы признаков, но также и изменение этих признаков в процессе произнесения речи. Требуют большого количества обучающих данных.

Преимущества и недостатки голосовой идентификации. Общие преимущества голосовых систем идентификации:

  • • Способ голосовой идентификации является традиционным для людей и не вызывает психологической неприязни.
  • • Это единственный биометрический способ, который может применяться для идентификации личности по телефону.
  • • Применение голосовой идентификации в БСКД к компьютерам не требует дорогостоящего оборудования. Микрофоны и звуковые карты стали стандартным оборудованием современных компьютеров.

Одна из указанных причин привлекательности технологий голосового распознавания - это распространенность и низкая стоимость сенсоров, необходимых для регистрации речевого сигнала. Микрофоны сейчас присутствуют и в телефонах, и в ноутбуках, и в настольных компьютерах. Все они могут быть использованы в качестве сенсоров.

Аутентификация говорящего, однако, зависит от особенностей применяемых микрофонов и передающих каналов. Процедура обычно вызывает трудности, если условия регистрации и условия последующей аутентификации не совпадают (например, когда регистрация происходит через наземные линии связи, а аутентификация - по сотовому телефону). Такое неизбежно случается, когда центральный сервер проводит аутентификацию на базе телефонного сигнала. Фоновый шум может также стать проблемой при определенных обстоятельствах, а влияние изменений голоса на точность аутентификации, вызванных болезнью, эмоциями или старением, требует дополнительного изучения.

Преимущества текстонезависимой голосовой аутентификации:

  • • возможна удаленная аутентификация по обычному телефону;
  • • пользователям не требуется запоминать пароль;
  • • пользователи не должны проходить отдельную процедуру верификации, так как любой текст, произносимый во время общения, может быть использован для ненавязчивой верификации.

Недостатки голосовых БСКД:

  • • большие ошибки первого и второго рода (1-2 %);
  • • большой размер хранящихся «голосовых отпечатков» (15-40 Кб памяти для хранения одного «голосового отпечатка»);
  • • для систем, использующих парольную фразу, трудно сохранить ее в тайне благодаря развитым технологиям подслушивания и звукозаписи;
  • • голос меняется в зависимости от эмоционального состояния, времени суток, состояния здоровья и с возрастом;
  • • влияние акустики помещения на результаты аутентификации;
  • • различные технические несоответствия (разные микрофоны для регистрации и верификации, изменения в расположении микрофонов и т. п.).

Серьезным недостатком голосовых БСКД, безусловно, является возможность подслушивания и записи голосового пароля. Современные средства акустического прослушивания позволяют достаточно успешно осуществлять несанкционированное копирование парольной фразы. Решение этой проблемы осуществляется по нескольким направлениям.

  • • Переход к идентификации личности на произвольных фразах (текстонезависимая аутентификация).
  • • Случайный розыгрыш парольных фраз.
  • • Идентификация речи по параметрам речевого сигнала, распространяющегося не в воздушной среде. В частности, есть работы по замене микрофонов, предназначенных для восприятия звука в воздушной среде, на ларингофоны и пьезодатчики, воспринимающие звуковые сигналы через костные и хрящевые ткани человека. В таких системах учитываемые идентификационные признаки невозможно заполучить путем записи акустически прослушиваемых речевых сообщений.

Применение голосовых БСКД. Интерес к проблеме идентификации по голосу обусловлен, прежде всего, преимуществами установления и проверки подлинности личности: голос невозможно украсть и очень трудно подделать, в процессе идентификации не требуется непосредственный контакт с пропускной системой.

Голосовая идентификация личности может применяться при контроле прав доступа как к физическим, так и информационным объектам: служебным и индивидуальным помещениям, каналам связи; компьютерам; базам данных; банковским системам и др.

На сегодняшний день созданы десятки различных систем идентификации по голосу, имеющих различные параметры и требования к процессу идентификации в зависимости от приложений. К сожалению, на сегодняшний день разработанные БСКД по голосу не отличаются надежностью, простотой обучения, удобством использования или низкой стоимостью. Поэтому применяются они чаще как дополнительные средства проверки подлинности там, где необходимо обеспечить высокую степень надежности систем идентификации.

Основная область применения БСКД по голосу - это телефония. Другие биометрические идентификаторы в настоящее время для нее не применимы. Приложения с высоким уровнем безопасности, такие как банковские услуги по телефону и мобильная коммерция, являются потенциальной сферой применения голосовых технологий. Голосовая идентификация используется для аудио- и видеоиндексирования. Если одновременно с получением образца голоса можно принимать видеосигнал, то в дополнение к распознанию голоса используется идентификация по движению губ. Разработки, сочетающие в себе распознавание голоса и обмен информацией в интерактивном аутентификационном протоколе (диалоговые биометрические техники), могут обеспечить более высокую точность.

Другие области применения:

  • • Радио и телевизионные компании используют системы голосовой идентификации для обеспечения безопасности данных, передаваемых на расстояния.
  • • Распознавание голоса может использоваться для диктовки текста компьютеру и управления компьютером.
  • • По голосу обеспечивается удаленный доступ к закрытым Web- страницам, серверам и базам данных.
  • • Двухуровневая идентификация по голосу и смарт-карте используется при доступе к локальным и удаленным приложениям.

В настоящее время в этом секторе биометрического рынка присутствуют более 20 фирм. Сектор биометрических систем на основе голоса составляет около 3%.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >