Искусственный интеллект в DLP и как не дать себя обмануть

На этом мероприятии мы разберем, как искусственный интеллект применяется в DLP, почему вендор должен уметь это делать, и как не дать ввести себя в заблуждение. Несмотря на повсеместное активное движение технологий вперед и вверх, все еще встречается отношение к искусственному интеллекту в DLP как к пустой рекламе. Это мнение тиражируется в том числе и некоторыми вендорами, которые не вкладываются в RnD и стараются всеми силами «размыть повестку», убеждая, что лучше делать все по старинке.

Сегодня мы обсудим, какие конкретно задачи из области защиты информации решаются с помощью ИИ. И почему применение искусственного интеллекта в DLP – это не избыточный технологический наворот, а стандарт для любой современной системы защиты информации от утечек.

Чего боятся вендоры в гонке технологий, что из высказанного на конференциях – лишь маркетинговые уловки и как на них не попасться заказчику.

Какие задачи ИБ сегодня не решить без ИИ. Кейсы применения искусственного интеллекта в информационной безопасности.

Как с помощью искусственного интеллекта автоматизированно исследовать 100% документов компании и распределить их по категориям за 1 день. И настроить политики безопасности за пару минут.

Почему применение искусственного интеллекта станет стандартом в ИБ и почему важно использовать его уже сейчас.

Александр Клевцов, руководитель по развитию продукта InfoWatch Traffic Monitor, начал свое выступление с того, что рассказал какие задачи можно решать с помощью ИИ, озвучил сомнения и разочарования, которые звучат на рынке, и как разрешить и развеять эти сомнения.

ИИ используется во многих отраслях, но на DLP рынке по этом поводу наблюдается некий скепсис. Он звучит и от вендоров, и от представителей заказчиков. Есть недоверие к технологиям ИИ.

На слайде даны три причины недоверия и три стадии. На первой стадии у людей был энтузиазм, применение ИИ в ИБ – это круто, представители вендоров рисовали воздушные замки. ИИ стал заложником хайпа. Это стало вызывать раздражение у тех, кто непосредственно занимался эксплуатацией ИБ-продуктов.

Вторая стадия – сырые технологии. Те вендоры, которые поставили на рынок какие-то решения с использованием ИИ, они использовали нейронные сети, машинное обучение, но пользоваться ими очень тяжело, технологии были сырыми.

Третья стадия – разочарование. Следовательно нет таких задач, где бы ИИ эффективно работал.

Почему же технологии, связанные с ИИ, достаточно требовательная вещь?

Если над ними как следует не поработать, то эти технологии действительно будут сырыми. К сожалению, ИИ и МО требуют очень много испытаний и тестирований. Они должны быть разноплановыми, много надо провести полевых исследований, только после этого можно выдавать эти технологии на рынок.

У InfoWatch есть технология, заменяющая человека, ей «скармливаешь» первичные документы, она через минуту выдает готовый лингвистический словарь. Эту технологию мы долго тестировали, мы сравнивали эту технологию с работой живого человека. Эта технология в отдельных случаях по качеству превосходила человека. Было проведено много полевых тестирований. Продукт был готов, но тестирование у нас заняло 2 года. Когда мы убедились, что данная технология хорошо работает, только тогда мы предоставили ее рынку.

Нельзя поставлять на рынок технологии, которые очень требовательны к исходным данным. Нужно в ряде случаев вводить предварительную предобработку исходных данных, использовать технологии нормализации, приведение исходных данных к каноническому виду, вот только тогда можно заказчикам передавать технологию.

Существует и проблема с интерпретацией результатов. ИИ – это всегда некий черный ящик, и надо сделать так, чтобы можно было доверять ИИ.

Другая проблема вендоров, которые занимаются ИИ – это отсутствие своих собственных исследований. Кто-то берет и оцифровывает методичку, не понимая при этом что делают, оцифровывают какой-то принцип работы.

Технологии InfoWatch основаны на наших исследованиях. Предиктивная аналитика InfoWatch по выявлению аномального поведения основана на исследованиях. Вендору важно иметь свою научную базу.

Технологии окажутся сырыми, если было проведено недостаточно испытаний и тестирований. Многие вендоры создают капризные технологии, не создают удобных юзабилити интерфейсов, которые позволяют обучать эти технологии, переобучать их и т.д. Вендоры недостаточно уделяют времени для интерпретации ИИ и результата работы попадают в некий черный ящик. Можно ли принимать решение на основе работы этого инструмента или не нельзя. И важно, чтобы вендор, занимающийся ИИ имел свою научную базу, понимал что он программирует.

Теперь о третьей стадии – о разочаровании. Вендоры стали говорить, что это всё хайп, это всё реклама, ИИ требует дорогостоящего железа, наличия в штате дата-аналитиков, поэтому пользоваться ИИ невозможно. Да и задач, которые можно решить с ИИ просто нет.

Вот три примера технологий, которые уже реализованы в компании InfoWatch. Это уже коммерческие продукты, которые давно продаются. Детерминированные подходы и статический анализ уже не помогал, задача вынуждала использовать ИИ.

Первая задача – выявление графической конфиденциальной информации. Вторая задача – предсказывать риски и угрозы, связанные с сотрудниками, выявлять аномальное поведение сотрудников на рабочем месте. Третья задача – разгружать сотрудников ИБ и сокращать временные затраты на рутинные операции.

Начнем с распознавания картинок. Часть конфиденциальной информации заказчиков – это просто графики без текста, в этом случае OCR нечего распознавать. InfoWatch стал использовать технологию машинного зрения. Сначала мы сами обучали капризную систему, которая требовала чистых исходных данных, потом эта технология была усовершенствована и теперь через графический интерфейс заказчик может обучать систему сам. Планы помещений, химические формулы органической химии, у кого какая задача стоит и какие есть информационные активы имеются.

На слайде приведены примеры скриншотов планов застройки и планы георазведки.

На выше представленном слайде приведены примеры кредитных карт, в нижнем правом углу можно прочитать номер карты. Многие вендоры говорят, что не нужно машинное зрение, OCR может распознать эти карты. После реальной проверки ни одна программа OCR не распознала номера на этих кредитных картах. На том же слайде пример фото паспорта, если бы это был скан паспорта, то OCR скорее всего справился с распознаванием, но здесь ломинированный документ с бликами, с такой задачей OCR не справляется. Технология машинного зрения справляется с такой задачей.

Теперь несколько слов про технологию формирования лингвистических словарей. Зачем здесь нужен ИИ? С текстом справляются технологии и без ИИ. На слайде приведено много готовых словарей, 289 категорий словарей доступны из коробки. У заказчика может возникнуть какая-то специфика, которая потребует создания нового словаря или доработки существующего для снижения ложных срабатываний. Некоторые заказчики не могут допустить лингвистов к совей конфиденциальной информации, чтобы они разложили первичную документацию и составили новый словарь и новую политику. Информация слишком конфиденциальная. Мы создали технологию МО, которая позволяет заказчику самостоятельно обучать DLP систему для распознавания новых категорий информации и для выявления новых инцидентов. Для обучения требуется всего одна минута, загружается первичная информация (Excel, Word, pdf) и создается новая категория словаря. Это сильно снижает нагрузку на ИБ-работников.

Коммерческий релиз (первая версия) этого продукта запланирован на этот год. Компания решила расширить возможности по созданию политик и создала инструмент, который позволяет исследовать документооборот клиента и автоматически разложить все документы, участвующие в этом документообороте, по категориям.

Этот инструмент позволяет автоматически исследовать переписку проверяемого отдела и разложить все по категориям, составить аннотацию. Важно, что обучение происходит без учителя, эта система не содержит никаких словарей и никаких предустановленных настроек. При этом совсем не нужно специальным образом как-то подготавливать данные, не нужно их вычищать. Многие говорят, что ИИ требует больших вычислительных мощностей, да он требуют дополнительных мощностей, но только на момент обучения (5-10 минут), но в момент детектирования, во время выявления конфиденциальной информации в потоке событий, он работает так же как обычный детерминированный алгоритм.

Теперь несколько слов об InfoWatch Prediction. Эта система позволяет выявлять аномальное поведение, выявлять девиации в поведении сотрудников на рабочих местах и соотносить с каким-нибудь риском, может сотрудник собирается уволиться, либо незаконно вывести информацию, а пока сотрудник аккумулирует информацию либо потихоньку выводит ее из компании.

Сейчас на главной