\главная\р.л. конструкции\ схемы и мануалы\...

DjVu - все уже было 

Автор: АЛЕКСЕЙ КЛИМОВ , 
Дата публикации:08.02.2000

Рассказ о новом "тексто-графическом" формате я начну с воспоминаний о теплом летнем дне, когда выпускники художественного училища рисовали на асфальте "дембельский альбом". Больше всего меня поразила удивительно точная репродукция картины "Бурлаки на Волге". Изобразить такое цветными мелками - это отдельное искусство. Увы, я не сделал копии того рисунка и теперь только на словах могу объяснить, как велико влияние техники живописи на восприятие картины. Ну, например, нарисовать "Джоконду" акварелью - все равно что сыграть "Мурку" на арфе. Мы редко задумываемся над этим, когда дело касается репродукций виртуальных: BMP, JPG, TIFF... графические форматы если и интересуют неспециалистов, то только с точки зрения размеров файла.

С текстовой информацией ситуация совсем запущенна: прекрасно понимая разницу между словом рукописным и напечатанным, мы почти не публикуем в Сети первоисточников в их реальном формате [1]. Мировые музеи и библиотеки уже оцифровали все сколько-нибудь ценные рукописи, однако размеры полученных файлов не позволяют ознакомиться с ними через Internet.

Сжатие полноцветной информации о документе формата А4 до размера средней Web-странички (46 Кбайт согласно данным на 1999 г.) теоретически вполне возможно. Учитывая растущую общественную потребность [2] в доступе к "подлинникам", кажется удивительным, что стандарт на графику такого назначения формируется только сегодня.

Претенденты на роль законодателей нового формата уже появились. Успехи фирмы AT&T в этом направлении может оценить каждый, установив plug-in для браузера (www.djvu.att.com/download.html) и посетив виртуальный архив манускриптов (dejavu.research.att.com/links, krasnodar.online.ru/hamradio/sch.htm, русские ресурсы) в новом "тексто-графическом" формате DjVu.

Формат DjVu [3] - первый шаг к "цветному факсу" - ориентирован на передачу, просмотр в сети и распечатку преимущественно текстовых документов, для которых важное значение имеет не только содержание, но и форма: цвет и фактура пергамента, оторванный уголок и следы от складывания вчетверо, клякса после подписи и круглое пятно от винной бутылки рядом с печатью. Архивы всего мира накопили огромное число исторических бумаг с неповторимым колоритом такого рода.

Существующие компактные форматы JPG, GIF, факс-стандарт CCITT и JBIG обеспечивают достаточное сжатие, однако узко специализированны либо на фотографиях, либо на черно-белой графике и тексте. Поэтому смешанные изображения в их исполнении выглядят нечитаемыми. Хороший тому пример - JPG-скриншоты на сайтах софтверных фирм: либо текст не разберешь, либо грузятся по полчаса. Разработчики DjVu, должно быть, учли безуспешный опыт создания "универсального солдата", их детище представляет собой бригаду из трех форматов "в одном флаконе". В основу разделения "обязанностей" внутри DjVu положены простые наблюдения и факты.

- Текст и другие контрастные рисунки удобочитаемы при сканировании с разрешением не менее 300 dpi.

- Напротив, легкое размытие фоновой графики даже улучшает восприятие текста. Поэтому фон без потерь для общего впечатления сохраняется с разрешением 100 dpi в отдельный слой "background".

Параметры компонентов изображения в формате DjVu.

Имя слоя Пояснение Разрешение, dpi Глубина цвета, bits/pix
Mask монохромная маска-трафарет 300 1
Background цветной фон 100 24
Foreground цвета маски 25 24
- Основная проблема - отделить текст от фона, особенно если это цветной текст, и более того, разноцветный. К счастью, цвет текста в большинстве документов практически одинаков в рамках одного знака. Это позволяет сохранять цветовую информацию о тексте с разрешением всего 25 dpi (слой "foreground") (см. табл.).

Разделение изображения на текст и фон (формирование слоя-маски) основано на так называемой мультимасштабной кластеризации. Изображение разбивается на разноразмерные вложенные сетки, в каждой ячейке которых происходит распознавание текстовых и фоновых цветов по максимальным пикам на гистограмме. Отделив текст от фона в самой крупной сетке, алгоритм переходит к уточнению на основе данных из сеток меньшего размера. Разработчиками найдено эмпирическое соотношение: цвет, определенный как "текстовый" в наибольшей ячейке, смешивается с "текстовым" цветом в меньшей, вложенной ячейке в пропорции 20% к 80% [4]. Результат смешения принимается за цвет текста для расчетов в еще более мелкой сетке по тому же принципу 20/80.

Очевидно, смешение одинаковых цветов даст тот же самый цвет. В этом случае вложенные ячейки игнорируются, и общий объем информации о слое-маске уменьшается на 10...30% по сравнению с разбиением одноразмерной сеткой наименьшего шага.

Рис.Мультимасштабная кластеризация не всегда дает ожидаемые результаты (рис. 1). При переводе некоторых документов (например, обложка "Компьютерры" #331, www.computerra.ru/2000/2) в формат DjVu даже человеку порой непонятно, что является значимой информацией, а что - фоном. Программные конвертеры (я пользовался DjVuerPro [5], http://www.feith.com/) предоставляют возможность выбора параметров границы фон-текст. Как правило, это фильтры размера, цвета и инверсии. Фильтр размера позволяет отнести к фону слишком большие буквы (аршинный заголовок и т. п.). Действие двух других фильтров не столь очевидно - их функция в чем-то схожа с системами OCR (оптического распознавания текста).

Мне представляется такая некомпьютерная аналогия формата DjVu, в виде набора инструментов художника-агитатора: баллончики с красками для быстрого и грубоватого "подмалева" фона (например, небо и радуга) - слой "background"; аккуратный трафарет для основного лозунга (или логотипа) - слой-маска "blaсk&white", и поролоновый валик для накатки трафарета - слой "foreground".

Используя эту аналогию, легко понять еще один принцип экономии битов в DjVu: если трафаретный текст занимает значительную площадь изображения, следует ли сначала вырисовывать фон в тех местах, которые позже будут все равно закрашены по трафарету? Даже для живого художника это вопрос эвристической логики, если учитывать не только расход красок, но и время выполнения работы.

В DjVu для сжатия фона, маски и цветовой информации о маске применяются различные алгоритмы. Фон сжимается вейвлет-алгоритмом IW44 (4х4 wavelets), слой-маска, не содержащая цветовой информации, упаковывается методом JB2, аналогичным применяемому в факсах. Цветовая информация о тексте так же кодируется IW44, но предварительно загрубляется до 25 dpi.

Формат IW44 очень близок к новому стандарту JPEG2000 ("КТ" #331, стр. 7), но, по заверениям разработчиков, менее требователен к системным ресурсам при декомпрессии изображения во время просмотра. Попробуйте открыть в любом графическом редакторе какой-нибудь стандартный JPG размером 2500х3500 точек, и вы оцените важность этого преимущества.

Слой-маска перед упаковкой JB2 претерпевает оптимизацию с целью освобождения от "случайных" штрихов и "шума сканера" на основе так называемого Soft pattern matching algorithm, описываемого непереводимым для меня бытовым английским в манере стихов В. Маяковского:

Segment image into marks
for each mark do
Find "acceptable match", if any
if there is a match
Code index of matching mark
Code bitmap using matching mark
Conditionally add new mark to library
else
Code bitmap directly
Add new mark to library
end if
Code mark location as offset
end for

В результате каждый пиксел маски кодируется менее чем одним (!) битом, но только в том случае, если алгоритм способен предсказать его цвет на основе 3...8 рядом лежащих точек с вероятностью более 50%. Это не так сложно - каждый из нас производит подобные расчеты в виндусовской игре "Сапер".

Рис.
Описание DjVu в более научных терминах вы можете найти на страницах разработчиков: (dejavu.research.att.com/djvu/sci/djvuspec), откуда я позаимствовал рисунок 2.

У нового формата много применений: онлайновые книжные магазины, картографическая информация и даже е-хиромантия, где отправленная по почте фотография ладони обрабатывается подобным образом.

Переход к DjVu с его четким текстом, по мнению экспертов, начнется с сайтов СМИ, копирующих свои бумажные издания. Освойте новинку сегодня, возможно, завтра она потребуется, чтобы прочитать "Компьютерру On-line".

Архиватор Интернета

В. Смирнов
Компьютерный журнал 'Интернет'

  В Интернете все ьез заговорили о deja vu — явлении, при котором человеку кажется, что он где-то это уже видел. Он не может точно сказать, где и при каких обстоятельствах. Мозг просто сообщает, что похожие впечатления он уже испытывал.
  И при чем тут Итернет? Неужели пользователи видят фантомные сайты или им кажется, что они уже общались с каким-то из членов чата? На самом деле все намного прозаичнее: появилась новая технология сжатия графических файлов, называемая dejavu (дежавю). Объяснение названия просто: ее назначение — это сосканированные документы, к примеру, страницы из цветных журналов. Вы могли видеть статью на бумажном носителе, а чуть позже зайти в Интернет и увидеть ее электронный аналог. Причем, это будет не просто комбинация из текста и картинок на базе HTML, а самая настоящая графическая копия. Идея переноса документов из книг и журналов на просторы Сети не так уж нова. Но задумайтесь, сколько занимает отсканированный документ, сохраненный в формате TIFF (этот формат не искажает графические данные и передает их с достоверной точностью). В среднем файл с качеством порядка 300 dpi может занимать до 25–30 МВ. Я не стану спорить: такой файл можно поместить на свой сайт. Можно даже надеяться, что кто-то просидит всю ночь, чтобы посмотреть на первую страницу вашей книги, радостно узнав, в какой типографии она была отпечатана и когда сдана в печать. Если сканировать с меньшим качеством, т.е. примерно в 100 dpi, то теряется наглядность. Такой документ надо будет показывать только на старых компьютерах и при этом заявлять: «Видишь, какая плохая у тебя видеокарта!».
  Так что TIFF отадает, как носитель информации он неэкономичен. Поэтому самым распространенным форматом сохранения растровых данных в Интернете стал JPEG. Этот формат позволяет достаточно прогрессивно сжимать данные. Сравните: 25 МВ у TIFF и 600 КВ JPEG. Такой размер более или менее подходит для транспортировки по Сети в условиях хорошего и стабильного коннекта. Единственная проблема: удерживание приемлемого качества изображения — система компрессии данных приводит к потере информации, которую считает «лишней». Мы видим ужасные искажения, резкие цветовые переходы размыты, о первоначальном качестве можно забыть.
  И JPEG отпадаеткак формат для сохранения документации в Сети (мне кажется, я где-то уже читал похожие строки. А-а, это было про TIFF!). Многие пророчили большое будущее детищу Adobe под названием PDF. В настоящее время большинство компаний выкладывает документацию о своих продуктах именно в этом формате. Успеху способствует использование объектов ActiveX, позволяющих запускать Acrobat Reader прямо в окне Internet Explorer. К сожалению, PDF также излишне прожорлив: средний размер файла зачастую превышает 100 КВ.
  Менее признанны, а значит, менее популярным является формат сжатия данных для факсимильных аппаратов. Он позволяет неплохо сжимать данные, хотя и с заметными потерями в качестве. Правда, от факсов никогда не требовалось идеального совпадения с оригиналом.
  Исходя из вышепречисленных факторов, компания AT&T решила создать нечо новое, способное произвести революцию на ниве публикации в Интернете. Так, был создан формат dejavu, сжимающий информацию в восемь раз эффективнее, чем JPEG. Качество же картинки почти не изменяется. Цветная страница из журнала, сосканированная при 300 dpi, имеет размер всего каких-то 20-79КВ. Черно-белое изображение может вообще опуститься до планки в 10КВ. Безусловно, на настоящий момент dejavu является самым совершенным компрессионным форматом. Давайте разберемся, в чем же успех технологии?
  Основная идея фрмата, вокруг которой и нарастали остальные возможности, зиждется на том понятии, что текст и картинки не являются равнозначными составляющими документа. Для текста существует большое количество компрессионных методов, причем процент сжатия информация довольно велик. Но, к сожалению, данные методы не могут архивировать графику. В dejavu применяется специальная технология, отделяющая от сканированного образа весь текст и сжимающая его, сохраняя первоначальное качество. Картинки же переводятся в 100 dpi и подвергаются сжатию по технике вейвлетов (очень популярный ныне метод, использующийся для он-лайновой декомпрессии данных). Дополнительно происходит обработка фоновых частей образа — так удается исключить из конечного файла фрагменты изображения, которые просто не видны (к примеру, стоят за картинками или за текстом).
  Каждая картинкаподдается некоторым преобразованиям, призванным сократить размер файла. Прежде всего она разделяется на несколько слоев, из которых можно затем ее реконструировать. А чаще всего деление происходит на подложку, маску и передний план. Для этого используется довольно простой алгоритм: растровый файл просматривается пиксель за пикселем. Все светлые точки автоматически причисляются к фону, темные — к маске или переднему плану.
  Все пиксели, выодимые на экран, получают цвет на базе логических вычислений, построенных на значениях соответствующих цветов из всех слоев. Такое разделение помогает наиболее эффективно сжимать графику. Маска, имеющая обычно всего один цвет, архивируется по методу сжатия документов факсимильных аппаратов, называемому JB2. Идея такого разделения не нова, впервые ее предложила корпорация Xerox, использующая подобный подход при создании формата XIFF.
  Браузер, которы просматривает файл типа djvu (такое расширение имеет формат), декодирует данные на лету — ему не надо держать в памяти закомпрессованные и декодированные варианты изображения: уменьшаются системные ресурсы. Вейвлеты же призваны не только сжимать данные и быстро их распаковывать, позволяя просматривать файлы даже на компьютерах нижней ценовой группы. К примеру, минимальным процессором, на котором можно просматривать dеjаvu, является Pentium 90.
  Сосканированныйобраз обрабатывается в специальном программном обеспечении, созданном АТ&Т и распространяемомбесплатно. Скачать его можно с сайта компании. Теперь поговорим о работе dejavu в Сети.
  Если располагат специальным плагином, можно «наблюдать» dejavu в любом Интернет-браузере. При этом вы можете загружать довольно объемные тома технической документации, полные схем, диаграмм, иллюстраций и быть уверенными — это не приведет к огромным счетам за телефон. Каждая страница цветной книги занимает в среднем 30КВ — можно даже читать иллюстрированные журналы, которые отсканировали и разместили в Интернете. Видя успех технологии, многие онлайновые магазины решили создавать каталоги своей продукции на базе dеjаvu. К примеру, сетевой торговец драгоценностями TeleTrade. com опубликовал фотографии своей продукции. Журнал Hobby сделал иллюстрированный каталог авиационных моделей.
  Мы познакомилис с теорией, пора проверить все на практике.
  Запускаем браузр (где-то я уже видел это окошко и серые панельки!) и вписываем адрес: http://www.djvu.att.com/download. После загрузки этой страницы надо выбрать тип инсталляции. Автоматический режим — это, конечно, хорошо, но при некоторых настройках безопасности ActiveX-сценарий может и не запуститься. Намного проще и привычнее загрузить плагин вручную. Размер не так уж велик: 665 КВ. Как только он оказался у вас на винчестере, надо просто запустить setup (в папке с плагином, конечно). Во время установки ваш компьютер в срочном порядке будет проверен на наличие браузеров — инсталляция производится для всех программ: от IE и Netscape до Opera.
  Перезагружаемся вновь соединяемся с Интернетом. Найти djvu-файлы нетрудно: легче всего вновь вернуться на центральный сайт технологии (будьте уверены, у вас будет стопроцентное чувство, что вы там уже были). На нем вы найдете множество ссылок на различные интересные Интернет-ресурсы. После загрузки Djvu-сайта стартует плагин. Внешне он очень похож на Acrobat Reader, сходство касается даже рисунков на кнопках (Неужели мы опять это уже видели?).
  Следуем взглядо вдоль панели. В самом начале находятся меню выбора типа вывода. К примеру, можно выводить текст только черно-белым или только фон. Следующее меню отвечает за размер документа на экране. Рядом примостились кнопки Zoom In, Zoom Out. После них идет панель контроллера, управляющего переключением между страницами и перемоткой взад и вперед (т.е. от корешка до корешка).
  Первое впечатлеие от внешнего вида документа: качество не потрясает. Конечно, там нет лишних пикселей, нет рваных краев на буквах (что заметно при увеличении). Но все равно создается ощущение некоторой потертости картинки. Правда, читать можно без проблем, и это главное. Скроллинг осуществляется «ладошкой». При этом страница не мигает — двигаться по документу легко и удобно. Попробуем увеличить картинку, качество почти не страдает, особенно если дело касается текста. Графические изображения внутри документа могут быть довольно большими, но благодаря системам сжатия занимают относительно мало места. Правда, качество может заметно страдать. В целом впечатления самые хорошие, особенно, учитывая быстроту загрузки. Но, если задуматься, понимаешь: бесплатного сыра не бывает. Вы не можете сохранить текст из документа, возможна лишь одна операция — чтение. Функции же копирования в буфер обмена не существует. Безусловно, можно сохранить картинку, но это не является выходом из положения. Для чтения статьи в Word приходится запускать какую-нибудь программу для распознавания символов (OCR) («Электронный офис» #11/99). Это отнимает время и не всегда приводит к хорошему результату: появляются ошибки и глюки в тексте. Такая информация расстраивает и заставляет относиться к формату более скептически.
  Плагин управляеся и настраивается через контекстное меню. Первые пункты отвечают исключительно за вывод изображения и за навигацию по документу. Save as сохраняет файл на диске (он имеет расширение djv или djvu). Print — печатает. Page Information выводит окошко с ключевыми параметрами файла: размер фона, маски, верхних слоев, а также текста, последнее значение таблицы указывает величину диапазона сжатия данных.
  Основные опции рограммы настраиваются через пункт Preferences. Правда, параметров достаточно мало, среди них яркость картинки, горячая клавиша для вывода гиперссылок, размер буфера декодирования (полезен для слабых машин).
  Для испытания тхнологии надо отправится в Сеть, и попробовать технологию в жестоких условиях Интернет-коннекта. Для начала пусть это будет сетевой аукцион, ведь они наиболее заинтересованы в публиковании в Сети обширных и красочных каталогов предметов, выставляемых на торги. Самым известным аукционом, использующем djvu, является Teletrade (www.teletrade.com ). Он торгует главным образом маленькими но ценными предметами, к примеру, монетами, алмазами и пр. (размер мал, но приятно). Заходим на центральную страницу и щелкаем по ссылке coins, чтобы посмотреть на монеты. В списках лотов выбираем опцию Imaged lots. Затем лишь выбираем больше приглянувшееся название. Картинка загружается быстро, хотя кажется, что с этой задачей Jpeg бы справился на таком же уровне. Размер образа 50 КВ, при этом он полноцветный, и незаметны ни малейшие искажения и преломления. А что если нажать на +, будет ли виден растр? Пробуем один раз. Пикселей не видно. Второй, третий… Оказывается, что изображение просто огромно, но при этом так мало занимает места! Монету можно было рассмотреть крайне детально, увидев даже мелкие зазубринки.
  Если перейти в аздел старых спортивных билетов (а троллейбусные они не покупают?) или марок, то там каждый из экспонатов снабжен иллюстрацией: покупатель должен видеть товар лицом. Просматривая эти каталоги можно убедится, что все-таки djvu труден в настройке. Специалист, обрабатывающий монеты знала свое дело лучше, спортивные же билеты «потекли», видны явные искажения, особенно на цветовых переходах.
  Что касается теста, то можно зайти в какую-нибудь онлайновую библиотеку, содержащую обширные архивы старых журналов. К примеру, на собрание статей по акустике http://asa.aip.org/djvu/. Грузится все очень быстро, внешне документ выглядит, как PDF, правда, текст слишком смазан. Размер, безусловно, меньше, чем у обычного офисного документа — 20 КВ, но больше, чем у HTML-странички с тем же содержанием.
  Теперь давайте одытожим впечатления от технологии dejavu. Теоретическая основа поражает. Чего стоит один метод вейвлетовых преобразований для сжатия графики или разделение картинок на слои для уменьшения размеров файла. Из-за прогрессивных возможностей сжатия данных и онлайнового декодирования содержимого многие аналитики прогнозируют, что в будущем данная технология заменит HTML (пока он лишь плагин, надстройка). Теоретически сайт на базе Djvu будет намного меньше сегодняшних аналогов, даже если те используют только форматированный текст, лишенный графики.
  Но на практике се оказывается несколько иначе. Данный формат незаменим для публикации огромных пакетов документации в Интернете (да, думаю, и домашний винчестер будет не против, если инструкции по использованию программ и железа будут занимать меньшее пространство). Он является также прекрасным решением для публикации Интернет-журналов: отсканировал бумажные страницы — и в Сеть.
  Но существует нсколько факторов, способных остановить развитие технологии: текст невозможно сохранить, качество нельзя назвать безупречным, кодировка загружает процессор больше любого HTML. Не стоит забывать, что все-таки прогресс движется не в сторону меньших размеров данных, а в сторону повышения скоростей коннекта — к технологии могут потерять интерес. А что касается HTML, этот язык совсем не собирается на пенсию. Его принципы ознаменовывают основные позиции Сети: код твоей странички может видеть любой человек, независимо от компьютерной платформы, может программировать на нем, он прост и быстр. Djvu — это бинарный файл, программирование осуществляется лишь в специальном редакторе, что ограничивает круг людей, которые могли бы его создавать. Ну и последнее: он излишне сложен.


"ДЕЖА ВЮ" - ЭТО ФОРМАТ, А НЕ ДИАГНОЗ

Денис КИМ  
15 июня, 06:26

 

Вообще, в жизни человеческой полно проблем. Кому-то нужно машину отремонтировать, кому-то денег на пиво не хватает, а кто-то хочет свою библиотеку в компьютер загнать. При чем здесь библиотека? А при том, что это тоже проблема, и ее нужно решать: до сих пор 90% информации в мире хранится на бумаге – какая уж тут может идти речь о глобальном переходе информационного обмена в компьютерные сети.


Как сейчас решается вопрос с переводом информации из бумажного вида в электронный? Понятно, что первым делом книга, журнал, газета, не суть важно что – сканируется. Что можно сделать потом? Очевидно, дальше имеет смысл распознать отсканированный текст. Конечно, это самое грамотное решение, позволяющее использовать все преимущества цифрового представления информации. Основная проблема в этом случае заключается в том, что невозможно поставить распознавание на поток. Распознавание большого количества материалов – крайне трудоемкий процесс.


 

Поэтому для перевода в цифру большого количества материалов, как правило, их просто сохраняют в виде картинки. Но и тут есть целый ряд трудностей. Дело в том, что сейчас распространены только два компрессирующих формата представления цифровых изображений – GIF и JPEG, говорить о некомпрессирующих форматах, по большому счету, бессмысленно. Ведь основная задача представления информации в цифре – это возможность передавать ее через Сеть, а если одна журнальная страница будет весить тридцать мегабайт, например, в TIFF, то кому она вообще будет нужна?


При этом у двух существующих компрессирующих форматов существуют серьезные недостатки. GIF, к примеру, не может содержать больше 256 цветов. Для текста, конечно, этого более чем достаточно, но что делать, если на странице напечатаны красивые цветные фотографии? Для представления фотографий обычно используют формат JPEG, и свои задачи, в подавляющем большинстве случаев, он реализует "на ура". Но в то же время, сохранять в JPEG текст или, скажем, чертежи (lineart) – полнейший абсурд: JPEG "размоет" и испортит их. Разделять же представляемую информацию на разные форматы не менее трудоемко, чем распознавать тексты, но при этом еще и страшно неудобно в дальнейшем использовании.


Очевидно, что идеальным выходом из сложившейся ситуации стало бы либо появление крайне умных систем распознавания, не делающих ошибок, либо создание нового графического формата, умеющего компрессировать и объединяющего все преимущества существующих форматов – качественное представление текста, как в GIF, и качественное представление фотоизображений, как в JPEG.


Оказывается, такой формат уже придуман. При чем придуман по умному, хотя и не без недочетов. Называется он DjVu ("дежа вю"). Работает примерно следующим образом. Сначала выделяет на странице весь текст и lineart, после чего отдельно отображает картинки. При чем и то и другое – качественно. Да и объем файла, представляющего обычную страницу A4 с текстом и фотографиями в разрешении 300 DPI получается примерно 45-50 килобайт, что, по последним исследованиям, равно усредненному весу web-странички.


Для того чтобы иметь возможность просматривать подобные картинки, необходимо установить специальный plug-in, который весит немногим меньше девятисот килобайт. При этом сделан он очень интересно. Дело в том, что, в отличие от обычных программ-просмотрщиков, DjVu не расшифровывает сжатый файл полностью, а только ту его часть, которую в данный момент демонстрирует. Это позволяет просматривать файлы огромного размера и разрешения даже на очень слабых компьютерах. Да и демонстрировать эти картинки он может постепенно – по мере скачивания. Скажем, после того как вы зашли на дежавюшную страничку, в течении пары секунд вы можете полностью увидеть макет страницы. Еще через пару секунд сможете прочитать текст, а подождав еще буквально чуть-чуть – видите картинки. Конечно, web-сёрфер и так имеет то же самое – сначала текст, потом постепенно картинки. Но не забывайте – то, что вы видите с помощью DjVu – это полностью графика, а не комбинация распознанного текста и картинок.


Дежавю или DjVu?

Электронные библиотеки стали уже привычным явлением в нашей жизни. В цифровом виде сейчас хранится громадное количество различных публикаций и изданий: журналы, диссертации, технические отчеты, материалы конференций и многое другое.
Быстрыми темпами растет и количество книг, которые теперь кроме традиционной бумажной версии имеют и электронный вариант. Причем многие из них продаются уже сразу в электронном виде. Широко начинает распространяться технология publish-on-demand, в которой по заказу покупателя книга быстро печатается на месте и высылается покупателю.

Формат DjVu С новыми изданиями и публикациями ситуация довольно безоблачна - публикации уже давно везде готовятся в цифровом формате, что сводит к минимуму затраты издательств и библиотек на перевод их в цифровой формат, наиболее подходящий для хранения в электронных библиотеках и удобный читателям.
Наиболее распространенными форматами представления изданий и публикаций в цифровом виде являются форматы PDF, PostScript, Tex, Html. Хотя в научном сообществе по традиции сильны позиции Tex и PostScript, сейчас наиболее популярным во всех областях постепенно становится формат PDF.
Наличие современных мощных издательских систем и различных средств обработки и конвертации электронных документов, сводит практически к минимуму различия между этими форматами, позволяя переводить документ в необходимый формат, если есть его версия в каком-нибудь распространенном цифровом формате.
Но есть одна большущая проблема. Существует громадное количество изданий, публикаций, документов, которые были выпущены в бумажном виде еще до засилья компьютерных технологий. И среди них много таких, которые будут безвозвратно потеряны для человечества, если их не перевести в цифровой формат. В особенности, это касается документов в многочисленных исторических архивах, редких изданий и т.п. В нашей же стране эта проблема возникает к тому же еще и со многими изданиями, которые были, например, выпущены малыми тиражами и стали биографической редкостью. А надеяться в ближайшее время на их переиздание не приходится. В их числе большое количество научно-популярных изданий, учебников по многим дисциплинам и многое другое.
Поправить эту ситуацию пытаются некоторые интернет-проекты - VIVOS VOCO!, Наука и Техника и другие. Но это капля в море, и основной причиной этого, в первую очередь, является сложность перевода бумажных документов в цифровой формат, удобный как электронным библиотекам, так и читателям.

Да, конечно, вы скажете, что есть куча программ для оптического распознавания текста (OCR), которые и предназначены как раз для перевода бумажных документов в цифровой вид с максимально возможным сохранением форматирования исходного документа.
К сожалению, полностью автоматизировать процесс перевода бумажного оригинала в цифровой формат невозможно, требуется участие человека-оператора (за исключением редких случаев). Например, автоматически преобразовать в цифровой формат учебник с кучей формул и рисунков не выйдет. А что говорить про рукописные документы, старинные издания или документы, для которых необходимо сохранить не только текст, но и все цветовое оформление.
И что получается? Для того чтобы создать цифровую копию возможно близкой по содержанию и оформлению бумажному оригиналу, приходится хранить цифровую копию в отсканированном с высоким разрешением виде в каком-нибудь из растровых форматов - gif, tiff ил jpeg. Но ни один из подобных форматов не удовлетворяет всей совокупности качеств, требующихся для хранения документов в электронных библиотеках. Один формат плохо сжимает изображения, другой - хорошо сжимает только векторные рисунки, третий, наоборот, только фотоизображения и т.п.

Формат DjVu Что же делать в такой непростой ситуации?
Исследователи из лабораторий AT&T Labs предлагают свое решение - новую технологию сжатия изображений DjVu, которая позволяет легко размещать в Интернете высококачественные версии отсканированных документов.
По оценкам разработчиков предлагаемая технология позволяет добиться коэффициента сжатия 1000:1 (отсканированная при 300dpi цветная страница занимает - 30-80кб, черно-белая - 10-30кб). Сжатое цветное изображение, содержащее текст и рисунки, в 5-10 меньше сжатого по методу JPEG при аналогичном качестве. Черно-белые страницы сжимаются в 10-20 раз лучше, чем JPEG.
Потенциальной сферой применения технологии разработчики называют обработку отсканированных книг, журналов, каталогов, руководств, исторических и редких документов и размещение их цифровых копий в Интернете.
Для просмотра изображений в новом формате пользователь должен установить небольшой plugin - дополнение к браузеру. Малый размер plugina - 700-800 кб, легкая установка, поддержка всех основных браузеров и ОС делают шансы на широкое распространение данного формата весьма высокими. Также свободно доступны программные средства для просмотра, создания и редактирования изображений в формате DjVu.
Постепенно все больше и больше компаний начинают использовать этот формат, на специальной страничке собраны наиболее интересные проекты, использующие этот формат. Есть там и русскоязычные проекты.
Этот формат может ожидать большое будущее, если вспомнить, на что способны в AT&T Labs, откуда вышли многие ключевые технологии XX века такие, как телефон, транзистор, сотовый телефон и многие другие.

Ваш гид - Сергей Утляков (sergu@rb.ru).


Графика в Сети

Графика - существенный элемент любого сайта, хотя бы в декоративном смысле. А в ряде случае - и жизненно необходимый. Например, если содержание сайта - геологические данные. Ведь геология принадлежит к тем наукам, где ничего нельзя доказать и поэтому очень важно убедить (Марк Блок, по памяти). А убедить с помощью карт, фотографий и зарисовок обнажений - проще, чем с помощью слов и фраз. Впрочем, это касается не только геологии... В этом случае графика оказывается элементом не дизайна, но контента.

Приедставлению графики в Сети посвящена обширная литература, как в печатной так и в электронной форме. Достаточно сослаться на недавний обзор на iXBT Software. Однако в основном рассматриваются вопросы использования графики как элемента дизайна. Настоящая же заметка посвящена графическому представлению контента. На примере, разумеется, классово близкого автору контента геологического. О том же, как такой контент создается - можно посмотреть в заметке Геологическая картография и Интернет.

Подавляющее большинство графики в Сети представлено в растровой форме. Мало-мальски приемлемый стандарт на сетевую векторную графику не сложился (хотя в последнее время Macromedia со своей Flash'ю прилагает для этого титанические усилия), поэтому от природы векторные рисунки (такие, как карты и диаграммы) приходится трансформировать в растровую форму.

Физическая скорость соединения накладывает ограничения на объем графического материала в Сети. Поэтому основные сетевые графические форматы - GIF и JPEG, использующие сжатие и понимаемые любыми браузерами, поддерживающими графику. Есть, правда, еще PING, но распространения он не получил. Во первых, он требует plug-in'а для распознавания стандартными браузерами (а я так и не нашел, где же этот plug-in взять). Во вторых, хотя он и сжимает без потери качества, но сжимает очень мало - конечный файл получается раза в два-три больше, чем, скажем, GIF. И еще: недвано появился новый формат, который имеет все шансы стать стандартным. Именуется он DjVu ("дежавю", по нашински).

Замечание: для просмотра рисунков к этой заметке (часть из которых - как раз в формате DjVu) необходимо установить plug-in, который находится здесь; впрочем, его можно скачать и непосредственно с моего сайта. Он встраивается в Explorer или Navigator (начиная с четвертых версий - точно, с более ранними - не проверял). Однако требуется также и поддержка этого типа файлов (то есть *.djvu) со стороны сервера. Мой (http://www.spaceport.com )- поддерживает, не смотря на свою халявность. Из описанных в моей заметке о романтике виртуальной дороги , формат этот поддерживается также на XOOM'е. А вот на любимой Virtual Avenue - не поддерживается. остальные - не проверял.

И так, что же представляют собой сетевые графические форматы и для чего они годятся? Начнем в GIF'а, поскольку исторически он был первым (в Сети). Он основан на индексации цветовой палитры и сведению ее к 256 (максимум, можно и меньше; универсальная палитра, более или менее адекватно передаваемая на различных платформах, включает 216 цветов) цветам. Формат этот постоянно модифицируется, последняя его вариация носит название GIF89a. Опциональными особенностями GIF'а являются transparancy (то есть прозрачность некоего фонового цвета) и interlaced (черезстрочная прорисовка картинки при загрузке, создающая иллюзию процесса, а не ожидания результата). Кроме того, существует так называемый анимированный GIF, но на нем в этой заметке я останавливаться не буду.

Для чего предназначен GIF? Поскольку он оперирует неким фиксированным набором цветов, применение его оптимально для передачи того, что называют обычно бизнес-графикой. В геологической практике это геологические карты, разрезы, диаграммы и т.д. В этом случае, во первых, достигается наибольшая степень сжатия (таблица), во-вторых, представление материала в Сети наиболее близко к печатному (или рисованому) варианту. Передача изображений (каковыми являются, например, фотографии или спектрозональные аэро- и космоснимки), содержащих большое количество цветовых переходов, неизбежно огрублена. Также не идеален GIF для передачи черно-белых фотографий, особенно содержащих рисованые объекты и надписи - поскольку в этом случае вместо 256 цветов мы получаем 256 граждаций серого, изображение либо огрубляется, либо файл практически не поддается сжатию . А ведь черно-белые фотографии с рисоваными линиями - это не что иное, как отдешифрированные космо- и аэрофотоснимки, без которых невозможны никакие геолого-картировочные работы. Эта же форма представления - наиболее эффективна для анализа данных DEM (digital elevation modelling, о чем написано в заметке о геологической картографии). Не вполне эффективен GIF и при передаче трехмерных (разумеется, псевдотрехмерных) изображений.

JPEG, в отличие от GIF'а, изначально был создан для сжатия изображений с большим количеством цветов. И потому передает до 16 миллионов таковых (так называемый true color - истинный цвет). Сокращение размера достигается путем слияния близких оттенков в один. Естественно, это приводит к потере качества изображения, но для экранного представления (не для полиграфического воспроизведения) его вполне достаточно. Контроль за сжатием осуществляется визуально, путем подбора оптимального соотношения размера файла и качества изображения. Соответственно, этот формат вполне пригоден для передачи цветных фотографий. Однако при преобразовании в JPEG геологических карт или тех же полутоновых рисунков (вне зависимости от степени сжатия) можно видеть размывание линий (геологических границ) и надписей, вплоть до полной их нечитаемости. Это делает JPEG непригодным для представления в Сети большинства видов геологической графики. Правда, псевдотрехмерная блок-диаграмма в виде JPEG-файла, оптимизированного по качеству, выглядит вполне пристойно, однако имеет изрядный размер; при оптимизации же по размеру - качество резко падает (см. таблицу).

Таблица

Формат Цветная геологическая схема - kamcape.*, byte Полутоновая карта с границами и подписями - ner.*, byte Цветная блок-диаграмма - tklev3d.*, byte
TIFF (* - BMP) 1 133 777 1 357 121 *443 318
GIF 32 323 110 486 147 625
JPEG - best quality 57 003 119 006 203 970
JPEG - small size 37 964 83 897 19 243
DjVu - 100 dpi 65 809 134 007 86 819
DjVu - 200 dpi 34 232 69 904 42 665
DjVu - 300 dpi 13 546 26 608 17 139

Комментарии к таблице: исходные TIFF-файлы созданы экспортом из CorelDraw с размером 800*сколько получится и экранным разрешением 300*300 dpi. GIF'ы и JPEG'и преобразованы из TIFF'ов в программе Macromedia Fireworks 2 (установки по умолчанию). DjVu-файлы получены в программе DjVuer 1.6 при разрешениях источника 100, 200 и 300 dpi (величина dpi обратно пропорциональна качеству получаемого изображения) и качестве целевого изображения 100%.

Кроме того, и GIF, и JPEG имеют один общий недостаток - они не масштабируются. А при анализе геологической графики очень существенно иметь возмодность видеть один и тот же объект в различных масштабах - от предельно генерализованного для выявления региональных структур до максимально детального для локальных особенностей. Этого недостатка лишен недавно появившийся (и потому относительно малоизвестный) формат DjVu, изобретенный софтверным отделением (или как это там у них называется) небезызвестной фирмы AT&T. Посему на его описании остановлюсь поподробнее.

Насколько я понял из описания на сайте, этот формат был придуман для помещения в Сеть сканированных изображений, совмещенных с текстом. Оптимизация его основана на том, что фоновое изображение (например, фотография) как бы отделяется от текста и оптимизируется по алгоритму, сходному с JPEG'овским, а текст - сжимается отдельно (вероятно, путем индексирования аналогично GIF'у - впрочем, это только мое впечатление; может быть, кто-то имеет более точные сведения? буду рад узнать). Когда я прочитал об этом (уже не помню, как я попал на тот сайт, вероятно, чисто случайно), я подумал: это именно то, что нужно для геологической графики. И приступил к экспериментам. Предварительно скачав plug-in для просмотра Дежавю-картинок и соответствующий инструментарий, именуемый DjVuer - программу для преобразования всяких растровых форматов в формат djvu. Программа эта бесплатная, хотя сущесвует и вариант за 195 долларов. В чем отличие - я не очень понял.

И так, программа DjVuer (текущая версия 1.6, скачал несколько дней назад) представляет собой самораспоковывающийся exe'шник объемом чуть больше 2,2 мегабайт. К нему прилагается DjVexin - насколько я понял, некий модуль, осуществляющий взаимодействие с ActiveX (у меня при инсталляции сообщил о какой-то ошибке, посему не знаю, что это такое). После инсталляции DjVu и запуска программы появляется такое вот окошечно (рис. 1).

Далее следует открытие файла для преобразования. DjVuer понимает форматы (кроме собственного, разумеется - *.djvu) TIFF, JPEG, BMP, IW44 и PNM (что такое два последние - не знаю, может, кто просветит?). Изображение можно превратить в негатив, трансформировать в градации серого (цветное - правда, после этого оно становится почему-то в несколько раз больше), вращать, зеркально отразить или перевернуть по горизонтальной оси. И после этогозаписать в собственном формате, в формате BMP или PPN (что это - тоже не знаю). А перед этим - установить настройки записываемого изображения.

Таковых - две: разрешение исходного изображения и качество целевого. Поскольку изначальное предназначение программы - сканирование изображений (пока не пробовал, так как сканера у меня сейчас нет), качество исходного изображения определяется разрешением сканирования. Имеет три градации: высокое (300 dpi и выше), среднее (200-300 dpi) и низкое (100 dpi и ниже). То есть то, что отсканировано с минимальным разрешением, подвергается наибольшему улучшению. Поэтому значение исходного разхрешения (ИР) обратно пропорционально качеству получаемой картинки. Качество целевого изображения определяется установкой ползунка в позиции от 20 до 100 (верятно, процентов чего-то). Представление о степени сжатия файла при различных исходных разрешениях (качество целевого изображения во всех случаях - 100%) можно видеть в таблице.

После записи файл можно просмотреть через браузер с соответствующим plug-in'ом. При просмотре по щелчку правой клавишей мыши могут быть выбраны многочисленные опции: цветной или черно-белый режим, zoom (от 25 до 300% исходного изображения или по ширине окна браузера), подробная информация о файле (количество пикселей, разрешение, степень компрессии). Естественно, изображение может быть распечатано.

Гиперссылка на файл DjVu может быть дана стандартным тэгом a href="*.djvu". Однако мне не удалось встроить djvu-файл в файл html, ни, естественно, тэгом img scr="*.djvu", ни в качестве объекта. Соответственно, изображению нельзя приписать заголовок, подрисуночную подпись и прочие атрибуты, если это не сделано непосредственно на рисунке.

Что можно сказать о качестве изображения? Оно различно для различных типов графики. Цветная геологическая карта хорошо смотрится при исходном разрешении (ИР) 100 dpi, вполне пристойно - при ИР 200 dpi, резко ушудшаясь только при ИР 300 dpi. Хотя, как видно из таблицы, только в этом последнем случае обеспечивается выигрышь в размере по сравнению с GIF'ом.

Полутоновая карта (shadow map по данным GTOPO30 DEM с отдешифрированными границами и подписями (то есть то, ради чего вся история и затевалась) при ИР 100 dpi выглядит вполне сопоставимо с GIF' при чуть большем размере и при этом масштабируется до 300%, сохраняя пристойный вид. При ИР 200 dpi карта неплохо выглядит в размере 100% от исходного (будучи существенно меньше GIF'а), но при увеличении масштаба границы и надписи становятся расплывчатыми. Карта с ИР 300 dpi - просто плохо.

Аналогичная картина и с третьим типовым изображением - трехмерной блок-диаграммой: хорошее качество при ИР 100 dpi, приемлемое - при 200 dpi и плохое - при 300 dpi. Однако в этом случае при ИР достигается максимальный выигрыш в размере по сравнению с GIF'ом (см. таблицу).

Подведем итоги. Нет в жизни совершенства, как говорил персонаж известного романа. И формат DjVu не панацея на все случаи жизни. Однако в ряде случаев он безусловно полезен. При сопоставимом с GIF'ом размере и точности проработки деталей он поддается масштабированию, что очень удобно при помещении в Сети многих видов графики. Примером чему является рассмотренная геологическая графика. И потому заслуживает всяческого внимания со стороны тех, кому по роду своей деятельности требуется представление карт различного, аэро- и космоснимков, в том числе с нанесенными результатами дешифрирования. Поэтому напоминаю адреса, по которым можно получить Plugins for viewing DjVu и инструментарий для его создания DjVuer. Должен только предупредить: plug-in на сайте ATT существует в двух версиях - с номером меньше единицы (точно не помню) и с номером 2 и пометкой beta (от 9 апреля сего года). Сначала я поставил первый вариант (второго тогда еще не было), и все работало стабильно. С появлением новой версии, естественно, из жадности обновил - и стало несколько хуже: после двух деястков просмотров, не зависисмо от того, в Сети или с локальной машины, начинают появляться сообщения об ошибке в установке plug-in'а, а затем вообще перестает что бы то ни было показывать, кроме слова "готово" в статусной строке. Так что, как говорил Винни-Пух, а не слишком ли я жадный?

Алексей Федорчук
Москва, 16 апреля 1999 года


Возврат