Объем нежелательных почтовых сообщений, обычно называемых спамом, увеличивается. Одновременно спамеры становятся все более изобретательными, обходя традиционные методы фильтрации почты. Таким образом, задача заключается в том, чтобы в помощь к применяемым способам фильтрации придумать действенные и эффективные методы борьбы со спамом. Два из них — Distributed Checksum Clearing House (DCC) и Statistical Token Analysis (STA).

Нежелательные коммерческие почтовые сообщения (спам) порождают все возрастающую проблему. Они составляют около 50% объема почтовых сообщений во всем мире, и до настоящего момента нет никаких признаков того, что расширение этого потока замедлится. Содержимое спама агрессивно, он переполняет почтовые ящики, блокирует серверы и ведет к затратам драгоценного рабочего времени. К тому же спамеры часто оказываются на один шаг впереди и находят изобретательные пути для обхода препятствий в виде продуктов для борьбы со спамом. Многочисленные программные продукты с применением исключительно фильтрации содержания базируются на сравнительно старых технологиях. Причем все подобные программы осуществляют поиск ключевых слов, которые либо системный администратор задает вручную, либо предприятие получает от соответствующей сервисной службы. В любом случае такой метод требует постоянных административных усилий по обработке списков ключевых слов. И нет никакой гарантии, что они действительно эффективны.

В последнее время спамеры очень хорошо освоили подобные методы и разработали целый ряд технических приемов для обмана и обхода фильтров содержания. Сделать ключевые слова неузнаваемыми очень просто: растянуть их так, чтобы, например, Free Offer выглядело как F.R.E.E. O.F.F.E.R. или вставить неправильные знаки препинания и буквы (см. схему «Потенциальные ключевые слова сделаны неузнаваемыми»). Часто сообщение просто отправляется в виде текста HTML, тогда ключевые слова можно без труда спрятать в теги HTML (см. врезку «Сообщение в формате HTML»).

Единственный способ остановить сообщения, подобные этим, с помощью фильтра содержания состоит в том, чтобы задать новое правило — к примеру, такое, которое будет распознавать aging и на основании этого блокировать данное сообщение. Впрочем, достаточно велика вероятность того, что следующие теги HTML этого или аналогичного типа будут находиться совсем в другом месте. Поэтому поддерживать систему на базе фильтра в курсе текущих событий означает практически постоянно подвергать себя риску и когда-нибудь быть обреченным на провал.

Но не все надежды потеряны. Две новые технологии — DCC и STA — обещают отличные результаты в борьбе со спамом (см. также врезку «Jamspam — взгляд в будущее»).

DISTRIBUTED CHECKSUM CLEARING HOUSE

Метод DCC (http://www.rhyolite.com/anti-spam/dcc) заключается в том, что для каждого входящего сообщения определяется специальная контрольная сумма. Это число отправляется на специальный сервер, где сверяется с базой данных. По проверочной сумме сервер оценивает, как часто сообщение уже регистрировалось у других получателей и параллельно фиксирует увеличение количества таких сообщений. Сообщения с высокой регистрационной суммой DCC могут быть отнесены к категории спама. Регистрационные суммы DCC направляются в виде пакета UDP программой фильтрации спама, установленной у клиента, или шлюзом для блокировки спама на сервер DCC, и точно так же происходит получение ответа. В каждом случае пересылается только контрольная сумма, но не само сообщение.

Контрольные суммы первоначально были разработаны не для борьбы со спамом, а служили для выявления ошибок при передаче данных. С высокой степенью надежности значения контрольных сумм не совпадают даже тогда, когда два сообщения отличаются друг от друга только на один-единственный бит. Поэтому в качестве технологии против спама контрольные суммы не достаточно эффективны, так как спамеры очень часто вставляют в свои сообщения произвольный текст или отдельные компоненты, дабы ввести в заблуждение обычные проверки контрольных сумм и методы фильтрования (см. врезку «Спам в обход метода проверки контрольных сумм»).

Так называемые «нечеткие контрольные суммы», напротив, составлены таким образом, что определенные части текстового сообщения не учитываются. Благодаря этому сервер DCC может присваивать сообщениям, содержащим одинаковые высказывания, идентичные регистрационные суммы. Используемые алгоритмы игнорируют интервалы (пробелы), удаляют имена пользователей из URL и пропускают случайные текстовые компоненты. Успех метода DCC целиком зависит от кооперации: рассчитанные контрольные суммы для новых сообщений передаются на центральные серверы DCC, а те, в зависимости от них, изменяют регистрационные суммы. Сервер DCC подсчитывает общее число адресов, на которые было послано данное сообщение, затем сравнивает его с зарегистрированными проверочными суммами других клиентов DCC, из внутренней базы данных. Клиентом может быть, например, почтовый сервер, в частности Mail-Firewall. На отправленный Mail-Firewall запрос приходит ответ DCC в виде проверочной суммы. Он содержит количество адресов, на которые точно такое же сообщение уже было отправлено. Обычно это только один адрес, но для некоторых сообщений сумма оказывается значительно выше. Сервер DCC прибавляет новую контрольную сумму к внутренней проверочной сумме и дает ответ в виде новой общей суммы. Если последняя превышает оценочное значение 16 млн, то дополнительно передается оценка Many (начиная со значения, превышающего 16 млн, сервер DCC прекращает подсчет).

Некоторые серверы DCC работают и с приманками для спама. Эти системы предназначены для того, чтобы привлекать и собирать спам. Они могут быть сконфигурированы таким образом, чтобы обозначать как Many каждое поступающее к ним сообщение. Это надежный и эффективный метод, с помощью которого другие пользователи DCC могут гарантированно идентифицировать сообщение как спам.

STATISTICAL TOKEN ANALYSIS

В случае STA речь идет, как уже видно из названия, о статистическом методе надежного распознавания сообщений, содержащих спам и хэм. «Хэм» — не очень известное выражение компьютерного жаргона для обозначения легитимных сообщений. Система Statistical Token Analysis идентифицирует спам и легитимные сообщения путем анализа слов и знаков соответствующего сообщения с помощью значений частот и статистических сравнений. В базе данных сохраняются все знаки (слова и буквенные последовательности), а затем подсчитывается и оценивается частота, с которой они до сих пор встречались в проанализированных спаме или хэме. С помощью этой базы данных для каждого знака можно очень быстро определить величину, на основании которой удается безошибочно установить, относятся ли сообщения к спаму или хэму. Если в каждом сообщении STA обнаружил 15 «самых интересных последовательностей знаков», то вероятность спама составляет более 50%. Если аналитические методы Байеса скомбинировать с вероятностью принадлежности к спаму этих идентифицированных символов, то мы получим значение вероятности принадлежности к спаму или хэму для всего сообщения.

АНАЛИЗ БАЙЕСА

Анализ Байеса представляет собой методику комбинирования вероятности и основан на правиле Байеса, которое математик Томас Байес открыл еще в XVIII в. Приведем пример: если рост человека составляет более 2,15 м, то с вероятностью 60% речь идет о баскетболисте, если же у него под мышкой баскетбольный мяч, то вероятность увеличивается до 72%. Согласно правилу Байеса, комбинируя две вероятности a и b с двумя подтверждениями, мы получим следующую формулу общей вероятности:

ab/[ab + (1 - a)(1 - b)]

Для конкретного примера с баскетболистом это будет выглядеть следующим образом:

[0,6 x 0,72]/[0,6 x 0,72 + (1 - 0,6)(1 - 0,72)]

откуда получается комбинированная вероятность 0,79, или 79%.

Применим формулу к сообщению, содержащему необычную комбинацию слов viagra и firewall. Предположим далее, что слово viagra имеет вероятность принадлежности к спаму 90%, и дополнительно, что сообщение, содержащее слово firewall, относится к спаму с вероятностью не более 5%. Согласно правилу комбинированных вероятностей Байеса это значит:

[0,9 x 0,05]/[0,9 x 0,05 + (1 - 0,9)(1 - 0,05)]

что соответствует числовому значению 0,32, или 32%. Строгость и убедительность анализа Байеса заключается в учете как положительных, так и отрицательных индикаторов спама. Слова и другие последовательности знаков, которые с высокой степенью вероятности встречаются в спаме, одновременно повышают вероятность отнесения к спаму всего сообщения. Если же эти значения, наоборот, низкие, то вероятность принадлежности к спаму всего сообщения уменьшается.

Анализ Байеса, в противоположность обычным методам фильтрации по содержанию, имеет три решающих преимущества. Во-первых, анализ проводится для двух различных видов знаков: те, что свидетельствуют о спаме, и те, которые указывают на легитимные сообщения. Методически это намного точнее и надежнее, чем чистая фильтрационная техника. Во-вторых, правило Байеса работает совершенно независимо от используемого языка оригинала, и, в-третьих, пользователям не нужно постоянно контролировать и корректировать списки фильтрации.

САМООБУЧАЮЩИЕСЯ АЛГОРИТМЫ С STA

Внутренние тесты STA показали, что успех метода зависит от наличия безошибочно проанализированных примеров идентифицированного спама или хэма. Затем на их основании могут быть созданы надежные базы данных с соответствующими таблицами частотности. Впрочем, содержание деловых сообщений будет значительно отличаться от содержания личных писем; наполнение сообщений у разных предприятий имеет принципиальные различия, к тому же и сам язык может быть другим.

Помимо реализации STA специализированные компании в своих продуктах предоставляют дополнительно таблицы частотности для спама и хэма, составленные на основании собственного анализа, которые они комбинируют с самообучающимся алгоритмом. Исходящие сообщения рассматриваются как легитимные, их знаки и последовательности знаков подвергаются анализу, и таким образом происходит постоянное пополнение индивидуальной таблицы частотности хэма данного предприятия. Подобный метод обеспечивает конфиденциальность сообщений, так как анализу подлежат исключительно отдельные слова и последовательности на предмет их частоты, а контекст может полностью игнорироваться.

Массовые сообщения, классифицированные по методу DCC как спам, также исследуются и включаются в базу данных. Этот метод самообучения на практике оказался очень эффективным для индивидуальной идентификации легитимных сообщений каждого отдельного предприятия, снижения до минимума количества неправильных положительных сигналов и одновременного достижения максимального процента выявления спама.

STA очень надежно работает при обнаружении спама, если таблицы частотности скорректированы в соответствии с конкретной ситуацией. Входящие сообщения четко располагаются в начале или в конце всего спектра вероятностей, в зависимости от высокой или низкой вероятности принадлежности к спаму.

ЭФФЕКТИВНОСТЬ DCC И STA

Внутренние тесты с Mail Firewall компании Borderware показали, что DCC и STA являются очень действенной комбинацией в борьбе со спамом. В Таблице 1 показаны значения DCC и STA, полученные в результате исследования почты одного пользователя за май.

Всего было прислано 2463 «сорных» сообщений, из них 1438 обнаружены с помощью DCC, а остальные 856 — с помощью STA. STA обнаруживает меньшее количество «сорных» сообщений, чем DCC, поскольку DCC на этом Mail Firewall установлен до анализа STA. От DCC и STA получены всего лишь пять неправильных положительных сигналов (False Positive, FP). Последующий анализ сообщений показал, что преимущественно это были сообщения неделового характера, например в рамках списков рассылки. Их происхождение легко идентифицировали и затем добавили во внутренний «белый» список во избежание ошибочной классификации в будущем. В Таблице 1 приводится также статистика сообщений, являющихся «возможным спамом». Причем речь идет о письмах, вероятность принадлежности к спаму которых была высока (характерная вероятность составляет от 66 до 90%), но еще не превысила заданное пороговое значение. В большинстве приложений у заказчиков такие сообщения маркируются и перенаправляются в папку входящих сообщений адресата. Как и ожидалось, частота передачи неправильных положительных и неправильных отрицательных сигналов (False Nedative, FN) выше, чем в категории «возможный спам». В целом DCC и STA в этой комбинации обнаружили 99,1% спама, а фактическое количество неправильных положительных сигналов составило 0,2%.

Петер Кокс — вице-президент Borderware Technologies по международным делам. С ним можно связаться через сайт http://www.bborderware.com.


? AWi Verlag


Потенциальные ключевые слова сделаны неузнаваемыми

From: Finn@a-plus-access.com


Sent: 06 May 2003 23:54

To: info@borderware.

Subject: [MAYBE SPAM-UK] Re[2]:Re: subtract those pounds, the e4zy way

own vvfayycheuctt

Subtract 20 yea,rs from your a,ge

E,asy and che,ap, slim down at the same time:

http://scrumptious@www.healthproductsnow.net/ humang/index.php?i

d=780

b hcyw qlhfe tkglasec mtt fmqgxthx vjnx qidc ya ps phyaultnb-sacdibjwnz

Сообщение в формате HTML

Код HTML


Subject: TODO be young

As seen on NBC, CBS and CNN, and even Oprah! The health

discovery that actually reverses aging while burning fat, without diet or exercise!
Сообщение, как его видит получатель
Subject: TODO be young

As seen on NBC, CBS and CNN, and even Oprah! The health disco-very that actually reverses aging while burning fat, without diet or exercise! This proven discovery has even been reported by the New England Journal of Medicine. Forget aging and dieting forever! And its


Jamspam — взгляд в будущее

DCC и STA — новейшее оружие в борьбе против спама, и довольно долго оба метода будут представлять собой исключительно эффективное средство контроля спама. Эти технологии обойти не так легко, как традиционные фильтры содержания. Несмотря на это, соревнование на скорость между спамерами и разработчиками инструментов против спама продолжится.

Все применяемые сегодня технологии — в том числе DCC и STA — являются реактивными. Они были созданы для того, чтобы иметь возможность различать спам и легитимные сообщения и отфильтровывать спам при его поступлении. Некоторые из самых современных методов устраняют проблему уже в ее истоке. Спам должен быть остановлен там, откуда он берет начало.

«Вершина» этих многообещающих методов — консорциум Jamspam (http://www.jamspam.org). Он сосредоточил свои усилия на тех способах, которые, в первую очередь, должны значительно усложнить отправку спама вообще, и ставит своей целью найти надежный метод аутентификации адреса отправителя почтового сообщения. Это даст пользователям возможность блокировать все сообщения, поступающие от неаутентифицированных отправителей. Для последовательного осуществления этого предложения, впрочем, необходима кооперация провайдеров Internet во всем мире. Дополнительно понадобилась бы официальная регистрация конечного пользователя, чтобы провайдеры Internet получили средство против злоупотреблений и предотвращали регистрацию злоумышленников.

Этот принцип находится еще в стадии рассмотрения. Если он однажды осуществится, то его преимуществами станут контролируемый и эффективный почтовый сервис, при котором необходимые предприятию сообщения будут достигать адресата, а не тонуть в океане спама или, что еще хуже, отсортировываться плохо сконфигурированным фильтром содержания.


Спам в обход метода проверки контрольных сумм

From: "Life Quotes" 
To: 
Subject: [BULK] Get a $250,000 Policy For
 as little as .30
cents a Day!
Date: Tue, 20 May 03 10:56:50 GMT
- link to image removed hv unvhmoo yck lf vbtss ai r dsnvqt