Исходные требования

Конкурсная комиссия напоминает, что к заказанному архиватору предъявлялись требования:

1) сжимать английские тексты,
2) коэффициент сжатия должен быть не менее 100.

Была поставлена задача предельно исключить избыточность из английских текстов, для чего использовать Максимально Ограниченный Словарь (МОС) в двух вариантах: минимальный МОС в 510 слов и максимальный МОС в 35 000 слов. Первый вариант был предпочтительным, так как требовалось обеспечить одностороннее понимание: "Американский фермер должен понимать своего президента", а длина словаря фермера оценивалась в 510 слов.

А. Осадчий предложил следующий вариант реализации:

а) каждому слову ставится в соответствие его Номер По Порядку в МОС (НПП-МОС);
б) слова сжимаемого сообщения заменяются на их НПП-МОС.

В конце заявки А. Осадчий сформулировал еще одно требование, которое комиссия сочла дополнительным (оно следовало после завершения основных формулировок): сжатый английский текст должен разворачиваться в русский. С этим была связана дополнительная цель: "Российские фермеры тоже должны понимать американского президента".

Предложенный вариант решения предполагает согласованность кодировок слов в английском и русском МОС и включение этих кодировок в системы Билла Гейтса из корпорации Microsoft (мы взяли на себя исправление опечатки, допущенной А. Осадчим в имени уважаемого Билла).

"Зачем" и "почему"

А теперь чуть меньше иронии. Ведь не просто ради смеха мы опубликовали это "Предложение другу". Впрочем, наша первая реакция на "Предложение" была отрицательной и звучала примерно так: "Подумай-ка лучше сам, дорогой Осадчий". Но затем мы:

а) учли, что письмо — шуточное, имитирующее известный "фидошный" стиль;
б) увидели в нем полную аналогию с требованиями заказчиков (а часто — и с предложениями своих же программистов), возникающими в реальных проектах, только в реальности оценка требования вовсе не лежит на поверхности, а переубеждать гораздо сложнее;
в) разглядели среди пожеланий автора несколько "условно-разумных", то есть таких, которые действительно всерьез обсуждаются в некоторых "корпоративных" структурах.

Поскольку тогда уже планировался этот выпуск рубрики о работе с требованиями к ИС, мы напечатали письмо Осадчего и предложили желающим оценить его требования. Для чего и был объявлен конкурс.

Сначала мы получили отклики, обвиняющие Осадчего в полной безграмотности. Они нас не удивили, мы сами через это уже прошли.

Потом стали приходить обоснования, авторы которых проявили соразмерное собственное чувство юмора и в шуточном или в серьезном стиле, но выделяли отдельные положения, ради которых стоило искать какое-то иное РЕШЕНИЕ ПРОБЛЕМ, СТОЯЩИХ ЗА ИСХОДНЫМИ ТРЕБОВАНИЯМИ.

Наши призеры

Наконец, нам пришло письмо от Е. Старкова, в котором содержалось два обоснования сразу, причем одно — критическое (и в тоне самого "Предложения"), а другое — "позитивное", которое является маленькой иллюстрацией анализа исходных требований к ИС. Обратите внимание: Старков вовсе не защищает идею архиватора "как есть". Он выделяет те области жизни, где есть реальные потребности, питающие часть исходных требований, и где — при выполнении описанных Старковым условий — их обслуживание может быть оправданным. Поэтому мы публикуем вторую часть письма Старкова и присуждаем ему первый приз — подписку до конца года на четыре издания: Computerworld Россия, "Открытые системы", "Сети" и LAN.

Впрочем, это было не единственное письмо, где содержались и "за" и "против". По этой причине мы отказались от двух номинаций и назначали призовые места — просто "за лучшее обоснование".

Второе и третье места поделили А. Мясников и И. Сергеев. Каждый из них получает CD-ROM с библиотекой изданий "Открытых систем".

Мясников — после выражения понятных сомнений в идее Осадчего — не только наметил способ совершенствования работы со словарем, который улучшит RATIO, но и, главное, предложил место возможного использования подобной системы в корпоративной среде (в отличие от произвольных обменов в Internet). И все же обоснованию Мясникова не хватило стоящего за письмом Старкова всестороннего знакомства с жизнью.

Сергеев же выделил более шуточные доводы "за", но его характеристика "архиватора Осадчего" как одной из возможных антикризисных мер произвела на нас сильное впечатление.

Наконец, мы решили отметить еще троих участников. Двое из них прислали только доводы "против", но в их обоснованиях содержались интересные замечания, говорящие о неисчерпанности темы. Это В. Родионов, отметивший связь метода Осадчего с возможными последствиями применения иероглифического письма, и Д. Посулихин, вспомнивший про "забитые мусором FTP". Третий, В. Андреев, выделен за очень серьезный подход к "архиватору Осадчего". Правда, насторожила его заключительная фраза: "...для Интернета он непригоден, а для чего же еще он может быть нужен?". Хотелось бы не замыкаться даже в бескрайней Сети.


Спасибо всем соискателям (особая благодарность А. Осадчему за сотрудничество), а призеров мы приглашаем прислать на cwr@osp.ru свои обычные почтовые адреса для отправки им призов. А для надежности просто зайти за призами в редакцию.


    
Ответ другу

(В первой части своего письма автор в "остро-критической" форме высказал все о невозможности использования произвольного словаря, особенно в части его двуязычного применения.)

Вторая часть чуть посерьезнее.

Сначала — об "универсальном" подходе к сжатию "L1 в L2". В нем строка L1 переводится по алгоритму А1 в строку L2, длина которой меньше длины (L1), причем для А1 существует алгоритм А2, выполняющий обратную функцию в строгом математическом смысле. Такие способы и "коммерческие" продукты давно известны. Они не сжимают тексты в 100 и даже в 10 раз, но не зависят не только от языка, но вообще "ни от чего" в составе L1. Казалось бы, говорить больше не о чем, но не исчерпывается zip-ами и arj-ами богатство возможностей. Поскольку не исчерпывается ими разнообразие потребностей. Другое дело, что надо быть аккуратным в требованиях и во встречных предложениях.

О более серьезном применении идеи "сжатие информации для ее архивации на основе электронных словарей" можно рассуждать (заметьте — еще не "ваять") в организации с четко определенной предметной областью, для которой уже устоялась терминология, так что в рамках "информатизации" этой организации удается на практике обеспечить создание и ведение целевого словаря без высокой динамики его изменения.

Такие разработки возможны и достаточно эффективны. Сжатие действительно может быть больше чем в 100 раз. Усилия, при которых положительный эффект достигается, могут быть оправданны, если, например:

  • количество сообщений, сохраняемых в архиве, должно быть больше, чем, к примеру, 10 новых сообщений, поступающих за одну минуту;
  • словарь обновляется редко (а до обновления новые слова и термины либо запрещаются, либо передаются "прямым текстом");
  • система хранения рассчитана на многолетнюю (например, более 25 лет) архивацию текстовой части всех сообщений с функцией оперативного контекстного поиска ограниченным кругом лиц;
  • словарь является не общим для случайного писателя и читателя, а специальным глоссарием слов, терминов и выражений, применяемых в этой узкой предметной области, плюс минимальная общая лексика, но с фиксированным смыслом слов и выражений.

Любой словарь надо поддерживать, отслеживать изменения и своевременно их тиражировать пользователям. В серьезных организациях эта работа проводится специальной службой. Как правило, словари организации достаточно замкнуты, на начальном этапе формирования словаря обсуждается каждая из его статей специалистами в данной предметной области, внесение изменений в словарь жестко регламентируется.

Только при выполнении всех описанных условий финансирование постоянно действующей службы сопровождения такого архива может быть оправданно, обеспечено и выгодно.

Часто подобным процедурам сжатия/индексирования подвергают только "этикетку" документа или набор поисковых ключевых слов. Тогда словарь невелик и проблем меньше. Но общий объем архива только растет, а поиск по любому слову и контексту становится невозможен. А каждый может посчитать число сообщений в таком архиве уже лет через десять. Поскольку дело тут не в ограничениях на емкость дисков, подобные подходы и обсуждаются всерьез.

Ясно, что до начала реализации подобной системы необходимо подготовить настоящее технико-экономическое обоснование. Но, во всяком случае, "коммерческим" продуктом такая система быть не может.

— Е. В. Старков, тоже инженер (адрес — в редакции).

P. S. Надо добавить несколько слов о "человеческом факторе". Человек слаб, вот и я сначала не удержался и отвел душу, поязвив по поводу нашего "заказчика". Но ведь с какими только пожеланиями не приходилось сталкиваться в жизни. И жизнь научила не отвергать их с порога, а искать что-то осмысленное. Иногда заказчик не может понятно описать свои цели, и ему нужно предложить что-то реальное, что можно сделать и что ему поможет. А иногда самое нелепое требование содержит идею, которая вполне может пригодиться совсем в другом случае.