Лица, отвечающие в компаниях за электронную почту, знают, что спам, на долю которого приходится около 95% всех электронных писем, безудержно пожирает ресурсы корпоративной почтовой службы. Поэтому действует следующее базовое правило: чем меньше нежелательных сообщений будет приниматься, доставляться и архивироваться, тем лучше. В борьбе со спамом ключевую роль играет соответствующее специальное решение: с одной стороны, оно вносит свой вклад в повышение степени удовлетворенности пользователей, получающих заметно меньше нежелательных сообщений, а с другой, обеспечивает разгрузку имеющихся ресурсов, так как освобождается емкость хранения.
По каким же признакам можно узнать, какое решение наиболее эффективно для предприятия? Администраторам нужны фактические данные и стандарты, на которые они смогут ориентироваться при сравнении предлагаемых решений. Расчет этих значений осуществляется с помощью различных параметров, позволяет объективно определить эффективность отдельных продуктов и выбрать наиболее подходящий вариант. К счастью, подобные математические задачи оказываются ненамного сложнее, чем простые процентные расчеты, что и доказывает следующий пример.
Исходным пунктом служит «уровень фильтрации». Он представляет собой процентное значение и высчитывается по количеству всех полученных электронных писем и содержащейся там доли спама. Так, при получении 1000 сообщений, 900 из которых являются спамом, уровень фильтрации составит 90%.
Помимо рассчетного уровня фильтрации, необходимо принять во внимание еще два значения, чтобы прийти к верному заключению: долю нераспознанных сорных сообщений (Negative Rate) и долю ошибочных распознаваний (Positive Rate). Их можно рассчитать по окончании процедуры фильтрации на основе неверно распознанного спама.
Доля нераспознанных сообщений характеризует весь спам, который не был определен в качестве такового и в результате попал в почтовые ящики. Этот параметр рассчитать так же легко, как и уровень фильтрации. Negative Rate получается из количества нераспознанных после фильтрации сорных сообщений, и для нашего примера подсчет выглядит так: если из полученных ста электронных писем десять все-таки являются сорными, то Negative Rate равен 1%. Хочется надеяться, что на практике такое значение никогда не будет достигнуто, ведь при нормальных обстоятельствах оно должно колебаться в пределах десятых долей процента. Предположим, получателем является провайдер услуг Internet, профильтровавший 6 млн электронных писем, из которых 10 тыс. были пропущены ошибочно. Итоговая доля нераспознанных сорных сообщений составляет 0,16% — вполне приемлемый показатель.
К сожалению, идеальных компьютерных систем не существует, поэтому к сорным письмам, которые фильтр не блокирует, добавляются еще и так называемые ошибочно отфильтрованные (False Positive) сообщения. Речь идет о легитимных письмах, классифицированных как спам. Доля ошибочных распознаваний рассчитывается по такому же принципу, как и доля нераспознанного спама. В сумме оба значения определяют точность применяемого антиспам-решения.
СРАВНЕНИЕ РЕШЕНИЙ
На первый взгляд кажется, что наилучший способ проверки решений для фильтрации спама от разных производителей — предоставление идентичного комплекта электронных писем и последующее сравнение полученных результатов. К сожалению, такой алгоритм действий слишком упрощает проблему. Как можно увидеть по представленным графикам (см. Рисунок 1 и 2), показатели спама колеблются изо дня в день и от месяца к месяцу, то есть решения не всегда идеальны. Насколько они плохи на самом деле, можно определить лишь позднее, когда уровень точности падает постоянно или показатели значительно варьируются, а пользователи жалуются на «просачивающийся» спам. В качестве критерия оценки все чаще называют скорость, с которой уровень точности снова растет. Чем быстрее это происходит, тем лучше производитель реагирует на новейшие формы спама и отфильтровывает их. Настоящим критерием оценки качества является постоянная динамичная адаптация на протяжении длительного промежутка времени.
Однако наиболее точные результаты можно получить, если пользователь поддерживает долгосрочные отношения с одним производителем. На практике же большинство пользователей постоянно пребывают в поиске новых «лучших» решений и легко их меняют. Алгоритм действий, при котором сначала формируется стандартный массив сорных сообщений, а затем выбирается продукт с лучшим показателем фильтрации, недостаточен и с точки зрения качества: ведь собранный «старый» спам на момент тестирования уже известен, так что такой тест говорит лишь о том, что проверяемое решение в прошлом распознавало определенный вид спама. Однако подобный результат бесполезен для новых угроз.
Высокую скорость реакции на неизвестные формы спама предоставляют, к примеру, решения, позволяющие сразу отправлять ответ в случае новых атак. Благодаря им такие нападения сдерживаются и отражаются гораздо быстрее, чем в случае со статичными решениями, для которых вначале необходимо создать новые правила, а затем обновить программу. Итак, лишь длительное наблюдение позволяет сделать заключение о том, какое решение окажется наиболее подходящим.
Саша Зикманн — инженер технической поддержки в компании Cloudmark.
© AWi Verlag
Рисунок 1. Уровень фильтрации изображен в виде желтой линии, лежащей выше 90%, — типичное значение, достигаемое на многих предприятиях.
Рисунок 2. Если точность решения составляет менее 99,5%, оно нуждается в модернизации.
Свой среди чужих
Проблема ошибки первого рода (false positive) порождает много вопросов относительно эффективности применения решений для борьбы со спамом. Как указывает Александр Ковалев, ИО директора по маркетингу SecurIT, перспектива неполучения важного делового письма, чреватая финансовыми потерями или другими проблемами, вынуждает внедрять спам-фильтры в «мягком» режиме, когда подозрительные письма не блокируются, а только маркируются как спам и в таком виде пересылаются пользователю. В противном случае электронная почта может стать очень ненадежным и неудобным способом общения, поскольку после каждого отправленного сообщения придется перезванивать адресату с просьбой подтвердить его доставку, а получателю — перенастраивать спам-фильтр, если обнаружится, что письмо заблокировано.
Иными словами, время от времени пользователь должен просматривать папку с сообщениями, помеченными как спам, для того чтобы не пропустить важное письмо. Таким образом, система антиспама превращается из важного компонента корпоративного ИТ, обеспечивающего существенную экономию рабочего времени, в сортировщик писем, раскладывающий их по папкам в зависимости от содержания. Поэтому, как считает Александр Ковалев, борьба производителей антиспам-систем за улучшение точности идентификации спама на доли процента все больше напоминает войну с ветряными мельницами. Для клиентов же затраты на приобретение и внедрение таких систем обоснованы, только если риск ложного срабатывания нейтрализован каким-либо другим методом (например, для фильтра спама составлен и поддерживается в актуальном виде «белый список» всех корреспондентов, от которых могут приходить важные письма) или потенциальный ущерб от отнесения важного письма к категории нежелательной почты незначителен.
Впрочем, сами разработчики систем для фильтрации спама считают опасения по поводу потери важной деловой корреспонденции во многом надуманными. Так, Дамьен Ингелер, технический специалист французской компании GOTO Software, чью технологию VadeRetro использует в своих продуктах Dr. Web, приводит следующие цифры: при уровне ложных срабатываний 0,2% большая часть неправильно распознанных (как спам) писем приходится на новостные рассылки. Он указывает на опыт использования подобных продуктов в компании France Telecom, где в течение первых трех месяцев сохраняли все отфильтрованные письма, но после подтверждения эффективности решения от этой практики отказались. Все сообщения с весом более 200, в соответствии со внутренней шкалой оценок, стопроцентно относятся к спаму, при этом «весовое» значение у спама может достигать 10000. Таким образом, пользователю остается просмотреть только папку карантина с несколькими подозрительными письмами, что не занимает много времени.
Уровень детектирования спама, безусловно, является определяющим фактором выбора той или иной системы, особенно если речь идет о первом опыте общения с решениями для борьбы со спамом. Однако, как указывает Дмитрий Дмитриев, директор по новым технологиям Netwell, это не единственный фактор выбора. Зачастую предпочтение отдается ценовой составляющей и узнаваемости торговой марки, даже если выбор делается в ущерб надежности системы. Не каждое тестирование может показать, насколько система стабильна (тем более когда тесты проводятся не на реальном трафике), поэтому мало кто хочет устанавливать в работающую сеть незнакомое решение. Достоверная статистика появляется после определенного периода практической эксплуатации. Как правило, достаточно годовой лицензии, чтобы понять, насколько компанию устраивает та или иная система и какова ее эффективность для текущей деятельности.
Как указывает Дмитрий Дмитриев, программно-аппаратные комплексы (ПАК) на порядок надежней своих программных аналогов. Операционные системы (ОС) для ПАК разрабатываются с учетом конкретных условий работы, среди которых — решение узкого круга задач, учет аппаратной составляющей, повышенное внимание безопасности ОС. Между тем, программные комплексы в большинстве своем устанавливаются на ОС общего назначения со всеми вытекающими последствиями. Учитывая то, что стоимость ПАК приближается к стоимости программных решений, компании все чаще предпочитают внедрять именно готовые программно-аппаратные комплексы.