ЦИФРОВАЯ БИБЛИОТЕКА GREENSTONE ОТ БУМАГИ К КОЛЛЕКЦИИ

Chapter 3 ОРС: оптический распознаватель символов

Contents

Процесс ОРС
Производительность и доступные ресурсы
Альтернатива ОРС
Совмещение сканирования с ОРС

Оптический распознаватель символов или ОРС трансформирует отсканированное цифровое изображение в текст. Исходный материал - это цифровое изображение в формате TIFF или Bitmap — желательно чтобы он был хорошего качества. После прохождения через ОРС вы можете получить файл в формате RTF, Word, HTML на ваше усмотрение.

Вот шаги, используемые при переводе бумажных документов в цифровой формат:

  • сканирование
  • анализ
  • распознавание
  • сканирование изображений и таблиц.

Следуя им, вы можете проводить контроль качества полученных файлов и сохранять их в соответствующей папке.

На рынке существует достаточно много хороших программ ОРС стоимостью от $100-400[1]. Вот несколько из них:

  • Read-Iris (http://www.readiris.com/)
  • Omnipage (http://www.omnipage.com/)
  • Fine-Reader (http://www.finereader.com/)

Вся информация, включая перечень дистрибьютеров, находится на Интернет сайте производителей. Среди них, по опыту автора, самые легкие в использовании Fine-Reader и Omnipage. Fine-Reader является самым дешевым и стоит всего $100. Он предлагает гибкие возможности и наибольшее количество разных языков.

Вам нужно решить, проводить ли сканирование и ОРС своими усилиями или поручить это компании, специализирующейся в этой сфере. Для того, чтобы провести этот процесс своими усилиями, вам нужен сканер, программное обеспечение ОРС, развитие навыков в работе с ОРС, работники, нацеленные на качество исполнения работы.

3.1 Процесс ОРС

Процесс ОРС различается во всех программах ОРС, и любая из выбранных программ требует добротного изучения. Инструкция по эксплуатации каждой программы объясняет этот процесс в деталях. Четыре пункта процесса ОРС заслуживают особого внимания: контроль качества, таблицы, изображения и специфический материал - такой, как формулы, иностранный язык и т.д.

Контроль качества

Мы снова и снова хотим заострить ваше внимание на контроле качества. Контроль качества лучше поручать людям, чей родной язык является таким, на котором написан документ, или они владеют этим языком в совершенстве. Лучшие работники - это школьники и студенты, потому что молодые люди более внимательны и более сконцентрированы при таком виде работы, нежели пожилые люди.

Обычно существует четыре этапа контроля качества.

Первый проводится одновременно с процессом ОРС. Каждая программа ОРС имеет встроенную проверку орфографии, которая подчеркивает подозрительные по написанию слова.

Второй этап - общая проверка текста после завершения процесса ОРС. Очень часто встречаются такие ошибки, как пропуск страниц, абзацев, названий глав и т.д. Нужно провести общий обзор на наличие всех страниц и проверку заголовков, названий глав, абзацев и таблиц.

Третий этап - проверка орфографии в Microsoft Word. В Word, как правило, орфографические словари более исчерпывающие, чем в программах ОРС. Путем импорта документа в Word и проведения орфографической проверки можно определить и исправить большее число ошибок. Не забудьте ввести в параметры проверки комплексные слова и термины, которые присущи такого рода текстам, на наличие в них ошибок.

И наконец, на четвертом этапе завершенный документ должен быть проверен другим человеком, занимающимся составлением полной книги, проверяющим орфографию, наличие проблем с таблицами, изображениями и общим видом завершенного текста. Только после этого электронную книгу можно распространять.

Таблицы

Программы ОРС плохо справляются с таблицами. Более того, таблицы трудно проверять. Они содержат много цифр и такие символы, как точки, запятые, которые по ошибке могут быть перенесены программой в другой столбец или строку. Поэтому при проверке необходимо внимание, упорная работа, терпение и контроль качества. С ними можно работать тремя обычными способами.

Первый состоит в том, что можно работать с таблицами как с изображением. Это включает в себя черно-белое сканирование изображений таблиц и перенос их в этой форме в нужное место документа. Это самый легкий путь. Не будет никаких ошибок, и все потраченное время уйдет только на создание изображения. Однако, полученные изображения таблиц будут занимать больше компьютерной памяти. Также разрешение экрана компьютера может быть недостаточным при выводе на экран больших таблиц. Если вы захотите разместить всю таблицу на экране, то разрешение экрана может быть недостаточным. Если таблица слишком широка, то пользователю придется просматривать все колонки и строки, не видя их названий.

Второй метод состоит в создании таблиц вручную, определив нужное количество строк и столбцов, и вручную впечатать в них данные.

Третий способ заключается в том, что таблицу можно провести через ОРС. Это сохранит больше времени, чем второй метод, но потенциальное количество ошибок увеличится. Некоторые колонки иногда сливаются, а иногда программа не распознает точки и запятые.

Изображения

Документы содержат три основных вида изображений:

  • Черно- белые рисунки
  • Черно-белые фотографии
  • Цветные фотографии

Черно-белые рисунки следует сканировать в штриховом режиме (line art mode) и желательно сохранять в виде файлов GIF или PNG. Чернобелые фотографии следует сканировать в режиме grayscale и сохранять как файлы GIF или JPEG. Цветные фотографии нужно сканировать в цветном режиме и сохранять как файлы JPEG. Обычно файл JPEG среднего качества имеет необходимое разрешение.

Многие рисунки занимают наибольшее пространство в коллекции, сохраненной на жестком диске или на CD-ROM. Поэтому очень важно оптимизировать настройки изображения, сделав его как можно разборчивее и четче, в то же время уменьшая его размер. Для сохранения места предпочтительнее не включать некоторые изображения, не относящиеся к тексту.

Рисунки должны быть отсканированы каждый по отдельности. Мы рекомендуем называть эти рисунки первыми 6 буквами названия документа, а остальными цифрами номер страницы, на которой он располагается. В качестве альтернативы, предполагая, что каждый документ находится в своей директории, можно просто использовать букву, после чего идет страница, на которой находится это изображение. Если на одной странице существуют несколько рисунков, то соответственно используйте другие буквы для их обозначения. Например, если изображение в формате JPEG появится на странице 36 публикации u7548е, то оно будет помещено в файл названный u7548e36.jpg или p36.jpg.

После того, как изображения отсканированы, вы можете использовать специализированные программы для редактирования размера и расположения рисунка.

Специализированный материал

Многие документы содержат технические термины, такие как специализированные символы, формулы и неразборчивые страницы. Эти трудно распознаваемые символы, как правило, связаны с разными язьпсами. Для каждого документа вам необходимо выбрать соответствующий язык в опциях программы ОРС. Формулы нужно будет перепечатывать вручную, так как во многих случаях ОРС их не распознает, и их необходимо вводить в Word. Неразборчивые страницы могут содержать материал, который трудно воспроизвести из-за каких-либо повреждений и т.д., поэтому такие места придется перепечатывать.

3.2 Производительность и доступные ресурсы

Как было упомянуто ранее, вы не должны недооценивать сложность процесса ОРС. Хотя процесс ОРС нужно рассматривать отдельно от сканирования, для его оценки применяются схожие практические рекомендации: необходимые ресурсы для приобретения компьютеров, доступность рабочей силы и умение руководить; зарплата; общее количество страниц, нуждающихся в обработке; можно ли передавать эти документы третьим лицам.

В следующим разделе мы поделимся с вами нашим опытом работы с ОРС в таких странах, как Бельгия, Индия и Румыния. Все исследования, подсчеты и результаты выполнены для типичных условий - документы средней сложности (включая таблицы и изображения), которые встречаются в большинстве библиотек и архивов, высокое качество результатов и средняя-долгая длительность работы.

Интенсивный ОРС

Процесс ОРС является трудным. Он требует большой концентрации внимания и умения. Перед попыткой достигнуть максимальных результатов требуется порядка 6 недель работы, в процессе которой идет нарастание опыта.

Обычно максимальная производительность достигается в первые часы начала дня. После трех часов работы с ОРС она резко падает, примерно на 50% от начального уровня. После 6 часов большинство людей очень устают.

То же самое происходит в течение первых недель работы. В первые недели продуктивность находится на высоком уровне, но после этого 2/3 людей устают и теряют интерес к работе. Такие люди либо уходят, либо продолжают работать на очень низком уровне, влияющем на качество и производительность. Даже те, кто выстоял критические 1-5 недель и становится частью рабочей команды, часто уходят в поисках лучшей работы в промежутке 6-12 месяцев.

Заметки, которые были сделаны в части 3.1 о рабочей силе, относятся в особенности к интенсивному ОРС. Контроль качества лучше поручать людям, чей родной язык является тем же, на котором написан документ или они владеют этим языком в совершенстве. Лучшие работники - это школьники и студенты, потому что молодые люди могут быть более внимательны и более сконцентрированы при таком виде работы, нежели более взрослое поколение и пожилые люди. Условный критерий отбора таков - люди в возрасте от 18 до 23 лет обычно лучше подходят на такую работу, нежели те, кому больше 25.

И наконец, процесс ОРС очень рутинен и скучен. Поэтому нужно как-то поддерживать рабочий дух, мотивацию и привязанность к работе.

Вот итог вышеперечисленного:

  • Молодые люди в возраста 18-25 лет самые лучшие кандидаты на такую работу.
  • Так как первые часы работы являются самыми продуктивными, следует нанимать рабочих на пол-дня, и только самым усердным работникам позволять работать целый рабочий день.
  • Две трети работников покидают работу от усталости или от рутины в течение 3-5 недель, все это отражается на ухудшении продуктивности в этот период.
  • Нужен постоянный приток работников для покрытия затрат на обучение, поддержание усердия и рабочего духа.

Достижимая производительность

Table 2  продуктивность процесса ОРС

Рабочие часы/день

Страницы/день

Страницы/месяц

Начальная подготовка (6 недель)

3

6

120

Оптимальный уровень продуктивности

3

9

150 to 200

 

7

28

500 to 600


В Таблице 2 приведены средние цифры продуктивности работы на ОРС. Документы приходят разными и по размеру, и по содержанию. При составлении этой таблицы были учтены такие факторы, как разнообразие документов содержащих среднее количество изображений и таблиц - к примеру один рисунок и одна таблица 5 на 5 на каждые восемь страниц. Также предположено, что изображения являются среднего-высокого качества. Заметьте, как это было уже рассмотрено, что это зависит от качества сканирования и также от того, насколько хорошо работники знают язык, на котором написаны документы.

В таблице также приведены данные о тех, кто находится в процессе обучения, и тех, которые уже работают в оптимальном режиме. Если член руководящей команды уделит до трех часов в день на процесс ОРС, то он может достигнуть результата 180-200 страниц в месяц. Для постоянного работника, прошедшего хорошую подготовку, с высокой внимательностью и отдачей достигнуть 500-600 страниц в месяц не будет проблемой.

Тем не менее, с неразборчивыми документами плохого качества и изобилием таблиц и рисунков эти цифры будут ниже — наверное 300-400 страниц для постоянного работника.

Представьте, что зарплата для мотивированного постоянного работника составляет $400 в месяц, а затраты на менеджмент, компьютеры, аренду, коммунальные услуги и т.д. стоит $300-400 на человека в месяц. Плата за 1 страницу ОРС $ 1.2-1.6. Учитывая подготовительный период, общий объем, время, затраты на увольнение при закрытии бизнеса, эти цифры поднимутся до $1.5-2.5 за страницу.

Стоимостьвыполнения работы самим нужно сравнивать со стоимостью, если поручить эту работу профессиональным ОРС компаниям. Неправительственная организация в Румынии предлагает такие услуги, и цена для гуманитарных некоммерческих организаций ниже и граничит от $1.2 до $2 за страницу. Если у вас есть какие-либо вопросы, пишите нам на scanning@humaninfo.org.

3.3 Альтернатива ОРС

Существуют две альтернативы проведению ОРС.

Ручное перепечатывание

Используя этот метод, можно не использовать сканер вообще, применив простой текстовой редактор. Единственное, что остаётся сделать, это отсканировать обложку и изображения, поэтому можно обойтись без дорогих сканеров и программ ОРС.

Люди, вьшолняющие эту работу, не обязательно должны вникать в суть текста. Все, что от них требуется, это аккуратно и безошибочно печатать то, что они видят. Тем не менее, перепечатывание вносит ошибки, поэтому используется метод двойного набора. Два человека перепечатывают один и тот же текст, после чего специальная программа проверяет обе электронные версии этого документа, слово в слово сравнивая его с оригиналом. Предполагается, что слово, напечатанное одинаково в обоих случаях, является правильным, хотя это не всегда так, поэтому также практикуется и метод тройного набора.

Положительной особенностью использования метода перепечатывания является то, что можно снизить затраты, так как нет необходимости приобретать программы ОРС компьютеры могут быть более старой модификации или б/у, в то время как для проведения ОРС нужны мощные компьютеры. К тому же работа может выполняться менее квалифицированными работниками. Один недостаток состоит в том, что необходим подготовительный период, как минимум до двух месяцев. Набор одним человеком приводит к множеству ошибок, поэтому приходится проводить двойной или тройной набор текста, что связано с дополнительными затратами.

Все издержки зависят от уровня зарплаты. Обычно люди, занимающиеся печатанием, в развивающихся странах получают около $150 в месяц. Их производительность может составлять 20-30 страниц в день, соответственно 400 страниц в месяц, включая изображения. С двойным набором это становится $300 в месяц плюс другие затраты.

Файлы Изображения

Очень дешевой альтернативой ОРС является использование простого формата PDF для всех отсканированных документов. Цена составляет всего лишь часть от стоимости ОРС — около $0.1 за страницу.

После того, как завершено сканирование и доступным файлы TIFF, автоматический конвертер может (обычно Adobe Acrobat, Adobe Photoshop) преобразовать все файлы формата TIFF в файлы PDF.

Отрицательной чертой таких документов является то, что по ним нельзя осуществлять поиск. К тому же они довольно больших размеров, обычно 50кб на страницу плюс 20% в зависимости от качества файла TIFF.

Файлы PDF очень долго загружаются с Интернета (в развивающихся странах это очень дорого и многим не по карману). Они редко помещаются на флоппи-диске и не поддерживают такие необходимые функции, как "вырезать" и "вставить".

Прибегать к использованию PDF-файлов необходимо только тогда, когда нет денег на ОРС, и для документов, которые будут использованы относительно малым количеством людей, имеющих быструю Интернет-связь.

3.4 Совмещение сканирования с ОРС

Если сканер напрямую подключен к компьютеру, на котором установлена программа ОРС, то большинство этих программ может проводить процесс сканирования и ОРС одновременно. Этот метод является хорошей стратегией, если вы работаете с небольшим объемом информации, но займет очень много времени, если он велик.

Если вы желаете придерживаться темпа 100-150 страниц в месяц, то этот метод для вас. Для большего объема документов быстрее и удобнее совершать сканирование отдельно от ОРС.


[1] требование что все средства рассчитываются по курсу американского доллара на 2001 год


Copyright © 2002 2003 2004 2005 2006 2007 by the New Zealand Digital Library Project at the University of Waikato, New Zealand.

Permission is granted to copy, distribute and/or modify this document under the terms of the GNU Free Documentation License, Version 1.2 or any later version published by the Free Software Foundation; with no Invariant Sections, no Front-Cover Texts, and no Back-Cover Texts. A copy of the license is included in the section entitled “GNU Free Documentation License.”