Контроль над потоком

Как отфильтровать вредоносные письма и спам от полезной корреспонденции?

Поток корпоративной корреспонденции, поступающий в электронном виде, растет постоянно, однако не все письма одинаково полезны для компании. Среди входящих и исходящих отправлений есть такие, которые не следовало бы ни получать, ни отправлять. Но как их отличить от огромного количества полезных или хотя бы безвредных писем? Здесь на помощь приходят специализированные системы лингвистической фильтрации. Они позволяют выделить в общем потоке подозрительные письма и применить к ним правила, предписанные российским законодательством и внутренней политикой работы с информацией.

Архитектура

Из каких компонентов должна состоять такая система? Наименее сложной является техническая часть: обработка почтовых протоколов, декодирование вложенных файлов вместе с распаковкой любых архивов и разбором различных форматов файлов. Ядро обрабатывает как входящую, так и исходящую почту: во входящей обычно фильтруются вирусы и спам, а в исходящей — конфиденциальная информация. Такое ядро имеют практически все программы лингвистической фильтрации почты.

Более сложными компонентами являются различные фильтры, через которые проходит каждое письмо. Можно выделить фильтры антивирусные, антиспамерные и специальные, для конфиденциальных, нецензурных, оскорбительных, личных и множества других типов сообщений.

Каждый отдельный фильтр обычно состоит из нескольких блоков: морфологии, распознавателя терминов, механизма исполнения бизнес-правил и системного журнала. Распознаватель по входящей почте и терминам из рубрикатора (тезауруса), найденным в письме, определяет возможные темы письма, которые в дальнейшем используются при применении корпоративных правил. Бизнес-логика должна связывать три компонента: тип документа, определенный распознавателем, группу пользователей, к которой относится получатель, и действие, которое нужно предпринять с письмом. Действия, производимые с письмом, должны фиксироваться в системном журнале, по которому в дальнейшем будет выполняться анализ и производиться разбор инцидентов.

В систему, обеспечивающую, полноценную лингвистическую фильтрацию, должно входить рабочее место лингвиста, занимающегося настройкой терминологической базы, и рабочее место сотрудника службы безопасности, который определяет бизнес-логику. Дополнительно хорошо бы иметь рабочее место аналитика, который будет работать с системным журналом, готовить отчеты и анализировать работоспособность системы.

Практика

Существующие системы фильтрации, такие как «Дозор-Джет» компании «Инфосистемы Джет» или различные продукты ClearSwift и Computer Associations, уже имеют необходимый набор программных компонентов, однако эффективность их работы зависит от того, насколько правильно составлена лингвистическая база, — в большинстве случаев она генерируется автоматически по эталонному набору документов. В то же время услуги по тонкой настройке таких баз не предоставляет практически никто. Например, когда представителя ClearSwift спросили о русификации его продукта, он ответил, что все используемые в России кодировки поддерживаются. Более понятной позиции придерживается российский разработчик лингвистического фильтра — компания «Инфосистемы Джет». Ее менеджер по маркетингу продукта «Дозор-Джет» Олег Слепов, считает, что «составление и пополнение базы лингвистических терминов, которая используется для фильтрации информации, входит непосредственно в задачи разработчиков».

В общем случае разработчики средств безопасности либо полагаются на механизмы автоматической каталогизации документов, либо считают, что ключевые слова может легко подобрать и сам клиент, поскольку он лучше знает предметную область. Однако автоматическую систему, да и фильтрацию по ключевым словам может легко сбить с толку, например, такая фраза: «Наверняка это то самое и есть!» В целом это хороший заголовок спамерского письма, но по ключевым словам эта фраза не фильтруется, поскольку каждое слово в отдельности встречается слишком часто и у фильтра будет очень много ложных срабатываний, что неприемлемо.

Составление терминологических баз лучше поручить лингвистам, которые, например, не забудут внести синонимы и правильно настроить тематическое разделение документов. При этом у администратора безопасности должен оставаться инструмент, который позволит быстро выделять копии одного письма на тот случай, если кто-то пошлет на адреса компании много рекламных или оскорбительных писем. Тем не менее фильтры без квалифицированных лингвистов работают неэффективно, и поэтому часто клиенты остаются разочарованными.

Лингвистика

Продукты для фильтрации конфиденциальной информации должны продаваться вместе с консультационными услугами, первоначальной базой терминов и руководством по ее пополнению. Выверенная терминологическая база является основой любого лингвистического фильтра. Поэтому рассмотрим ее работу подробнее. Такая база состоит из двух частей: набора терминов, которые распознаватель выделяет в обрабатываемом письме, и рубрикатора, или тезауруса, содержащего привязку терминов с помощью весовых коэффициентов к дереву тем. Когда распознаватель находит в обрабатываемом письме термин из базы, он передает его в рубрикатор, который накапливает его весовые коэффициенты. После того как все письмо полностью обработано, по полученным в результате весовым коэффициентам можно будет с определенной долей вероятности отнести его к одной из тем. Это распределение вероятности и передается в блок обработки бизнес-правил.

Тезаурус обычно содержит не только темы, которым соответствует документ, но и его тип. Так, компаниям было бы удобно в корпоративной переписке выделять официальные документы, такие как договоры, прайс-листы, пресс-релизы, счета фактуры и многое другое, и обрабатывать их отдельно. В некоторых случаях полезно также выделять и личную переписку: резюме, поиск работы и знакомств, попытки рассылки спама, юмор, оскорбительные послания и др. Подробная классификация электронных сообщений позволяет быстро создавать новые правила для оперативного вмешательства в поток электронной почты.

Бизнес-логика фильтра читает метку, поставленную распознавателем, затем определяет, к какой группе пользователей относится получатель письма, а дальше делает с ним то, что указано в правиле: пропускает, блокирует, пересылает на другой адрес, складывает в архив или выполняет любое другое действие. Например, если в компании запрещена личная переписка, а одно из писем определилось как личное, то его можно уничтожить. Аналогично можно контролировать деловые контакты менеджеров, чтобы не потерять клиентов при их уходе, блокировать передачу за пределы компании конфиденциальной информации, фильтровать спам (как входящий, так и исходящий), выяснять источники рассылки оскорбительных писем. В общем, лингвистические фильтры позволяют реализовать любую политику работы с корпоративной информацией.

Законы

Некоторые считают, что фильтрация конфиденциальной информации противоречит российскому закону о тайне личной переписки, однако это не совсем так. Закон запрещает не просмотр сообщений, а их разглашение. При автоматическом уничтожении письма никакого разглашения не происходит, поэтому и ссылаться на данный закон неправомерно.

Чтобы не возникало юридических проблем при использовании лингвистических фильтров, Алексей Лукацкий, заместитель директора по маркетингу компании «Информзащита», рекомендует предпринять следующие организационные меры: составить в компании список конфиденциальной информации, ввести правила на запрет обработки личной информации на корпоративных компьютерах и получить согласие сотрудников на ознакомление с пересылаемыми ими по корпоративной сети данными. После таких подготовительных действий можно уже вводить фильтрацию личной корреспонденции на соответствующей договорной базе.

По данным Игоря Ашманова, генерального директора компании «Ашманов и партнеры», в России востребованы в основном решения, которые блокируют утечку конфиденциальной информации, в то время как на Западе более популярны средства контроля за передачей ненадлежащей информации (compliance), которая противоречит национальному законодательству. Поскольку фильтр для конфиденциальной информации более сложен (он должен лучше подстраиваться под требования заказчика), то западные решения к нашим условиям не всегда подходят.

Спам

С точки зрения технологии лингвистической фильтрации мусорная почта или спам ничем не отличается от конфиденциальной информации, поэтому то же программное обеспечение можно использовать и для избавления от этого зла. В следующем году ожидается повышение активности спамеров, при котором около 70% электронных сообщений будут мусорными. Это скажется и на расходах на подключение к Internet, и на работоспособности почтовых серверов, и на занятости сотрудников, которые будут тратить время на разбор мусора. Поэтому одним из наиболее очевидных применений лингвистических фильтров станет защита от спама — она пригодится даже тем компаниям, которые не обмениваются конфиденциальной информацией в электронном виде.

Рынок спама — это искаженный до неузнаваемости рынок рекламы. По оценкам Игоря Ашманова, его объем в России составляет около 1 млн. долл. А раз есть финансовая заинтересованность в доставке «рекламных» сообщений в корпоративные почтовые ящики, то спамеры всегда придумают различные способы обхода фильтров. Однако спам, в отличие от конфиденциальной информации, не уникален, поэтому услуги по его фильтрации могут предоставлять многие компании. В частности, компания «Лаборатория Касперского» совместно с фирмой «Ашманов и партнеры» разработала продукт Kaspersky Anti-Spam, который сейчас установлен на крупнейшей российской системе электронной почты Mail.ru. Продукт распознает до 500 различных тем писем и позволяет их фильтровать.

Вообще же лингвистические фильтры сегодня не пользуются особой популярностью. «Основная проблема продажи любого средства защиты, — говорит Алексей Лукацкий, — состоит в том, что трудно убедить клиента в необходимости затрат на информационную защиту». В то же время необходимость защиты от спама более очевидна для всех эшелонов корпоративной власти, и получить на эти цели деньги здесь куда реальнее. Скорее всего, именно на волне борьбы со спамом в компаниях и можно будет начать широкое внедрение лингвистических фильтров.