Александр Горшков, директор по развитию бизнеса «АЙРИС ДЕВАЙСЕЗ»
Сегодня прорывы в ИИ принято связывать с бурным развитием нейросетевых моделей в сторону больших языковых моделей (LLM) для текстов и мультимодальных GenAI-систем, способных работать с мультимедийными данными. Каким образом это развитие сказывается на эволюции биометрических продуктов, решений, услуг?
О мифических опасностях GenAI для биометрии
Наиболее значимое влияние на развитие биометрических продуктов окажет улучшение систем искусственного зрения, алгоритмов распознавания образов и выделения объектов на изображениях, а также генерация фото- и видеоизображений. Правда, уровень хайпа в обществе не отражает реальных достижений в этой сфере, а порой даже провоцирует мифы, не имеющие отношения к реальности.
К сожалению, в общественном сознании укрепилось мнение, что для обучения и тестирования решений биометрической идентификации можно использовать сгенерированные изображения. Возможно, для нагрузочного тестирования такое решение может быть оправданным. Но для обучения биометрических нейросетевых алгоритмов такой подход может привести к непредсказуемым результатам. Высока вероятность возникновения следующей проблемы: обучив систему на сгенерированных с искажением данных, можно получить обратный эффект по точности идентификации при работе с реальными данными.
Ещё один пример — синтез речевых сообщений на разных языках, который объявляется новой большой угрозой решениям биометрической идентификации. Опасность представляют не мультиязыковые алгоритмы генерации речи, а принципиальные возможности генерации голоса. Дело в том, что мошенники обычно воздействуют на вполне определённую целевую аудиторию, и мультиязыковая генерация речи для этих целей не требуется. Атака с использованием сгенерированного голоса обычно нацелена на определённую страну, регион или группу лиц. А для финансовых учреждений голосовые атаки могут вполне быть сведены к минимуму.
Основная проблема идентификации по голосу для банков заключается в том, что они могут использовать только контекстнозависимую биометрию и не могут идентифицировать всех звонящих в контактный центр без их согласия. После первичной идентификации звонящего по номеру телефона, уточнения имени/отчества становится известно, давал ли клиент согласие на биометрическую идентификацию. И если такое согласие было дано, то клиента просят назвать кодовое слово. Такую процедуру банк осуществляет сейчас. Но в данном случае можно реализовать контекстнозависимую биометрическую идентификацию по ключевому слову или даже целой фразе. И здесь опять не нужны мультиязыковые генераторы речи.
Конечно, наибольшую огласку в СМИ получают впечатляющие описания целевых APT-атак с использованием сгенерированных фейковых изображений, голоса, видео. Для защиты от атак с использованием дипфейков надо понимать, против чего или кого надо реализовать такую защиту. Если мы обсуждаем пример с переводом крупных сумм после телефонных или видеозвонков, как в широко растиражированной истории с кражей миллионов долларов у гонконгской компании с помощью ряда сеансов видеосвязи со сгенерированными персонажами, то в этом случае может защитить соблюдение разработанных регламентов. Например, перевод средств свыше определённой суммы — только по письменному распоряжению. Возможно, даже за подписью нескольких сотрудников или руководителей. Конечно, в этом случае обман и мошенничество нельзя исключать полностью, но такой обман можно реализовать и без использования дипфейков.
Аналогичная ситуация — с видеодоказательствами. Никакой суд не примет некий видеоролик в качестве видеодоказательства: необходимо доказать происхождение этого видео, найти автора или свидетеля того, что оно было сделано именно в том месте и в то время, о которых говорит заявитель.
Ещё один момент, который обычно упускают из виду: почему-то биометрию и риски её использования связывают исключительно с лицом и голосом. Вероятно, это связано с тем, что использование этих модальностей регулируется законом. Но ведь есть и другие биометрики, которые значительно сложнее подделать, например, радужная оболочка глаз или рисунок вен ладони. Пока вообще неизвестны случаи обмана с использованием дипфейков алгоритмов мультимодальной и мультиспектральной биометрической идентификации. Понятно, что в ходе эволюционного развития отрасли биометрии будут появляться новые методы идентификации. Например, по акустике слухового канала или частотным характеристикам кожи.
При этом надо понимать, что в отсутствие прямого глобального противостояния остаётся миф о непобедимости западных, американских или китайских технологий LLM и мультимодальных моделей. А для того чтобы этот миф оставался нерушимым, каждая страна проводит свои тесты и демонстрации. Вот только такие состязания не отражают реальной ситуации, так как зачастую в состязаниях принимают участие алгоритмы разных поколений. Наиболее достоверная информация имеется, наверно, только у спецслужб, но они ею делиться не будут…
… И о реальных методах защиты
Сегодня наибольшую опасность представляет не генерация поддельных видео, а создание при помощи алгоритмов искусственного интеллекта поддельных документов. А именно замена фотографии поддельного документа на сгенерированную специальным образом, когда созданная фотография для документа одновременно похожа и на лицо владельца паспорта, и на мошенника. Правда, и от такого мошенничества есть достаточно простая и эффективная защита с применением биометрических решений.
Таким образом, на вопрос, нужно ли компаниям уже сегодня срочно вносить риски дипфейков в список обязательных мероприятий ИБ, есть однозначный ответ: в компаниях для идентификации человека всегда есть регламенты и скрипты, и безопасность в конечном счёте зависит от того, насколько качественно эти скрипты написаны и соблюдаются. Например, когда ко мне через взломанный аккаунт WhatsApp обращаются с просьбой срочно перевести деньги товарищу, я задаю вопрос, почему этот человек не обратился к своему брату? А я знаю, что брат у моего товарища есть. А потом спрашиваю, почему он не обратился к сестре? А вот сестры у товарища-то и нет… Скрипты можно усложнить конкретными именами или деталями, например: «Твой брат из Владимира может тебе перевести, я ему недавно вернул долг». Есть ещё один простой способ защиты от подобного типа мошенничества, и я его использую. Просто сразу отвечаю, что деньги перевёл, а на недоумённый вопрос как, если мне ещё не передали реквизиты карты, отвечаю, что по номеру телефона. Мошенник сразу исчезает.
Отдельная тема — лёгкость создания и сложности обнаружения политических дипфейков, что нередко обсуждается в блогосфере. В части этих «страшилок», с одной стороны, нужно помнить о том, что «каждый суслик — агроном»: каждый блогер считает себя экспертом, а миллионы подписчиков им внемлют и верят всей чепухе, которую несут такие блогеры. С другой стороны, есть официальные каналы информации, которые отвечают за достоверность распространяемой информации. И вот если эти каналы будут взломаны и через них станут распространять недостоверную информацию, то никакие методы обнаружения дипфейков уже не помогут. В этом случае надо в первую очередь позаботиться о защите таких информационных каналов.
И вот это, действительно, серьёзный вызов. По сути, сегодня нет никаких технологических ограничений для создания качественных онлайн-дипфейков. Дипфейки создаются настолько хорошо, насколько за это готовы платить заказчики. Если это шуточный розыгрыш, то незначительные отличия никого не будут смущать. А если это целенаправленная атака, то тот, кто готов всецело верить всем и во всём, поверит и в случае посредственной реализации. Если люди верят «сотрудникам полиции» с явным зарубежным акцентом, почему бы им не поверить и в наспех сделанный дипфейк?
Так к какому будущему стоит готовиться?
В военном деле и в информационной безопасности есть такое понятие, как эшелонированная защита. Только комплексный подход обеспечит действенную защиту критической инфраструктуры, секретность информации, персональных данных и финансов. Исходя из этого, и надо выстраивать физическую и информационную защиту.