BIBLIOTECA DIGITAL GREENSTONE DEL PAPEL A LA COLECCIÓN

Chapter 3 OCR: reconocimiento óptico de caracteres

Contents

El proceso de OCR
Productividad y recursos necesarios
Alternativas al proceso de OCR
Combinación de escaneado y OCR

Los sistemas de reconocimiento óptico de caracteres (OCR) transforman en texto una imagen escaneada. El punto de partida es una imagen digitalizada en formato TIFF o Bitmap, de la mayor nitidez y calidad posibles, y el resultado final un archivo de texto (generalmente en formato RTF o Word) o para la Web (formato HTML).

El proceso de conversión de un documento impreso en un archivo informático comprende las siguientes etapas:

  • escaneado;
  • análisis de la compaginación;
  • reconocimiento óptico de caracteres;
  • escaneado de ilustraciones y cuadros.

A lo largo del proceso se efectúan controles de calidad de los archivos resultantes y se memorizan éstos en el formato apropiado.

El mercado ofrece muchos y buenos programas de OCR, con precios que oscilan entre los 100 y los 400 dólares[1]. Entre muchos otros ejemplos cabe citar los siguientes:

  • Read-Iris (http://www.readiris.com/)
  • Omnipage (http://www.omnipage.com/)
  • Fine-Reader (http://www.finereader.com/)

En los sitios Web de los fabricantes se ofrece toda la información necesaria, comprendida la lista de distribuidores locales. Los autores, de acuerdo con su experiencia,  consideran que los programas de más fácil manejo son Fine-Reader y Omnipage. El primero, que cuesta unos 100 dólares, es el más barato y ofrece no sólo gran flexibilidad sino también el mayor repertorio de idiomas.

Es necesario decidir si se efectúan los procesos de escaneado y OCR internamente o se subcontratan a una empresa especializada. Hacerlo por cuenta propia exige disponer de un escáner, de un programa de OCR, de conocimientos técnicos en la materia y de personal muy motivado y atento a los requisitos de calidad.

3.1 El proceso de OCR

El proceso de OCR difiere según se utilice uno u otro programa de OCR, y cada uno de ellos exige un tiempo considerable de aprendizaje. En el manual de cada programa se exponen todos los detalles relativos al proceso. Hay cuatro aspectos que merecen especial atención: el control de calidad, los cuadros, las ilustraciones y los textos especiales como fórmulas, caracteres extranjeros, etc.

Control de calidad

Es preciso insistir en la importancia del control de calidad. Lo ideal es que esos controles estén a cargo de personas cuya lengua materna sea el idioma en que está escrito el documento o de gente con un excelente dominio del mismo. El perfil idóneo es el de alguien con estudios universitarios o secundarios. Conviene saber además que en este tipo de tarea los jóvenes suelen mantener un nivel de concentración superior.

Normalmente hay cuatro controles de calidad.

El primero se efectúa al mismo tiempo que el proceso de OCR. Cada programa tiene un verificador ortográfico incorporado que señala todas las posibles letras erróneas y muestra la imagen de la palabra entera para facilitar la comprobación y eventual corrección del error.

El segundo es un control general del texto una vez finalizado el proceso de OCR. Uno de los errores más frecuentes es la omisión de una página, un párrafo, los títulos de un capítulo, etc. Debe llevarse a cabo un repaso general para comprobar que no falta ninguna página. Es esencial asimismo comprobar los títulos, los encabezamientos de capítulo, los párrafos y los cuadros.

El tercer control es el ortográfico, para el que en general se utiliza Word de Microsoft porque su diccionario suele ser más completo que el de los programas de OCR. Importando el libro a un archivo Word y realizando un control ortográfico con este programa se puede detectar y corregir un mayor número de errores. Es indispensable añadir al verificador ortográfico cualquier palabra especialmente difícil o susceptible de generar una señal de error, así como los términos científicos y técnicos que abunden en el tipo de publicación con que se esté trabajando.

Finalmente, otra persona debe efectuar un último control del documento finalizado, tomando al azar fragmentos del libro completo y cerciorándose de que no haya errores o problemas con los cuadros, las ilustraciones, las leyendas o el aspecto general del documento. Sólo después de este último control puede considerarse que el libro está listo para su difusión electrónica.

Cuadros

Los cuadros suelen plantear dificultades a los programas de OCR. Controlar su contenido es además una labor ardua: contienen muchos dígitos, a veces con puntos y comas, y es fácil que las cifras acaben colocadas en la casilla equivocada. Es una tarea que exige concentración, dedicación, un intenso trabajo de relectura, comprobaciones minuciosas y un buen control de calidad. Hay básicamente tres formas distintas de proceder.

La primera consiste simplemente en escanear los cuadros como si fueran imágenes en blanco y negro e insertarlos con este formato en el lugar correspondiente del documento. Esta es la solución más sencilla, pues no genera errores y no exige más tiempo que el necesario para crear la imagen. Pero consume más memoria que las dos restantes, y además la resolución obtenida no siempre basta para trabajar en la computadora con cuadros de gran tamaño: si se reduce todo el cuadro a los límites de la pantalla, la resolución es demasiado pequeña; si por el contrario el cuadro desborda la pantalla, el usuario debe desplazarse para ver todas las columnas y filas, con lo que pierde visión de conjunto.

El segundo método es la copia manual: crear un nuevo cuadro con el mismo número de filas y columnas y copiar los valores correspondientes a cada casilla, carácter por carácter.

La tercera solución consiste en someter el cuadro al proceso de OCR. Aunque este procedimiento ahorra tiempo en comparación con el manual, la probabilidad de error es más alta. A veces las columnas quedan fusionadas, o el programa es incapaz de reconocer los puntos y comas.

Ilustraciones

Las ilustraciones contenidas en una publicación corresponden en general a tres grandes tipos de imagen:

  • ilustraciones en blanco y negro, sin tonos intermedios;
  • fotografías en blanco y negro;
  • fotografías en color.

Las ilustraciones en blanco y negro deben escanearse en modo “dibujos de líneas simples” y guardarse en formato GIF o PNG. Para las fotografías en blanco y negro conviene utilizar el modo “escala de grises” y guardar el resultado en archivos GIF o JPEG. En cuanto a las fotografías en color, es preciso escanearlas en modo “color” y guardarlas en archivos JPEG. En términos generales, el formato JPEG de calidad media ofrece una resolución suficiente.

Las ilustraciones suelen consumir gran parte del espacio que ocupa una colección en el disco duro o el CD-ROM. De ahí la importancia de lograr para cada imagen la mayor claridad y visibilidad junto con el menor tamaño posible. Para ahorrar espacio cabe la posibilidad de prescindir de algunas imágenes o de todas ellas cuando no sean necesarias para entender el texto.

Las ilustraciones deben escanearse por separado, una por una. Para denominar los archivos gráficos recomendamos un nombre compuesto por los cinco o seis primeros caracteres utilizados para designar el documento seguidos del número de la página en que se encuentre la ilustración. Una alternativa, suponiendo que haya un directorio para cada documento, consiste simplemente en utilizar la letra p [ picture ] seguida del número de la página. Cuando en una misma página haya varias ilustraciones, bastará con añadir una letra a, b, c ... al nombre del archivo. Por ejemplo, a una imagen JPEG que aparezca en la página 36 de la antedicha publicación u7548e corresponderá un archivo llamado u7548e36.jpg o p36.jpg.

Una vez escaneadas las imágenes, se pueden aplicar programas de procesamiento por lotes para modificar las dimensiones o mejorar la definición de todas las imágenes a la vez.

Textos con características especiales

Muchos documentos contienen elementos que conviene tratar aparte (caracteres especiales, fórmulas, páginas especialmente dificultosas, etc.). Los caracteres especiales suelen provenir de idiomas distintos u ostentar marcas diacríticas. En tal caso hay que seleccionar el idioma del que se trate en la opción “idioma” del programa OCR. Las fórmulas deberán reproducirse manualmente, lo que a veces es imposible con un programa de OCR, en cuyo caso hay que recurrir a un procesador de texto como Word de Microsoft. Las páginas de las que no pueda obtenerse una imagen nítida, ya sea por la complejidad del texto o por el mal estado en que se encuentren, deberán ser reproducidas manualmente.

3.2 Productividad y recursos necesarios

Como hemos dicho, no hay que subestimar la dificultad del proceso de OCR. Aunque conviene estudiar separadamente las alternativas económicas y prácticas del proceso de escaneado y del de OCR, ambos plantean interrogantes parecidos: la inversión necesaria en computadoras, la disponibilidad de personal y de capacidad de gestión, la formación del personal, los costos salariales, el número total de páginas que deben tratarse y las posibilidades de subcontratar el trabajo a terceros.

Esta sección se basa en la experiencia de los autores en el trabajo de OCR en Bélgica, Rumania y la India. Todos los ejemplos, cálculos y cifras que aquí se exponen corresponden a una situación ordinaria: documentos de dificultad normal (con cuadros e ilustraciones) como los que pueden encontrarse en la mayoría de los archivos o bibliotecas, resultados de muy buena calidad y trabajo a medio o largo plazo.

Trabajo intensivo de OCR

El OCR es un proceso difícil, que exige gran concentración y destreza. Antes de alcanzar un nivel óptimo de rendimiento y calidad, el operador necesita un periodo de aprendizaje de unas seis semanas.

Los mejores resultados y la productividad más alta se consiguen por lo general durante las primeras horas de trabajo. Al cabo de tres horas la productividad baja con rapidez, quizá hasta un 50% del nivel inicial. Al cabo de seis horas, la mayoría de la gente se encuentra muy cansada.

Algo parecido ocurre durante las primeras semanas de trabajo, en las que todo el mundo alcanza una productividad bastante elevada. Posteriormente, sin embargo, hasta dos tercios de los operadores de OCR empiezan a sentirse aburridos y descontentos. A la larga esas personas acaban abandonando el trabajo o rindiendo poco en términos de calidad y productividad. Incluso los que superan el periodo crítico de tres a cinco semanas y se integran en el equipo de trabajo suelen renunciar y partir en busca de una mejor ocupación al cabo de 6 a 12 meses.

Las observaciones sobre el personal que formulamos en la sección 3.1 son especialmente aplicables al trabajo intensivo de OCR. Los controles de calidad resultan mejores cuando corren a cargo de hablantes nativos o profundos conocedores del idioma en cuestión. En general los jóvenes pueden mantener un nivel de concentración superior al de las personas mayores en las labores de OCR. La experiencia demuestra que las personas de entre 18 y 23 años de edad tienden a adaptarse mejor a ese cometido que las mayores de 25 años.

Por último, considerando lo aburrido que puede resultar el trabajo de OCR, la motivación y un constante prurito de calidad son elementos de excepcional importancia.

De todo lo dicho se desprenden las siguientes directrices generales sobre el proceso de OCR:

  • Los jóvenes de entre 18 y 25 años de edad son los más aptos para este tipo de trabajo.
  • Dado que las primeras horas son siempre las más productivas, conviene organizar turnos de trabajo a tiempo parcial o, en su defecto, encomendar la labor a jornada completa a las personas más motivadas y con mayor capacidad de concentración.
  • Después de tres a cinco semanas de actividad, dos tercios de los operadores tienden a renunciar o a sentirse hastiados. Ello se traduce en un descenso de la calidad y la productividad en las últimas semanas.
  • Es preciso un suministro periódico de trabajo para justificar la necesaria formación del personal, mantener la concentración y conservar alta la moral del equipo.

Objetivos asequibles de productividad

Table 2  Productividad en el proceso de OCR

Horas de trabajo/día

Páginas/día

Páginas/mes

Formación inicial (seis semanas)

3

6

120

Nivel óptimo de productividad

3

9

150 a 200

 

7

28

500 a 600


En el Cuadro 2 se presentan las cifras más frecuentes de productividad en el trabajo de OCR. Teniendo en cuenta que puede tratarse de documentos de todos los tamaños y niveles de calidad, estas cifras parten del supuesto de que el conjunto de documentos contiene un número promedio de ilustraciones y cuadros (por ejemplo una ilustración y un cuadro de 5x5 cada ocho páginas), que las ilustraciones son de calidad entre media y alta (recordemos que ello depende de la calidad del escaneado) y que los operadores de OCR dominan el idioma en que está escrito el documento.

En el Cuadro 2 se distingue entre las estadísticas de personas en periodo de formación y las de quienes han alcanzado su nivel óptimo de productividad. Si un miembro del personal administrativo dedicara tres horas diarias al trabajo de OCR, su rendimiento sería de entre 180 y 200 páginas al mes. Un operador a jornada completa bien formado, con gran capacidad de concentración y escrupulosa atención a los criterios de calidad, en cambio, podría alcanzar una productividad de entre 500 y 600 páginas al mes.

Sin embargo, con páginas de especial dificultad y escasa calidad, con abundantes cuadros o columnas, se obtienen cifras muy inferiores (quizá de 300 a 400 páginas mensuales a jornada completa).

Supongamos que el costo salarial de un operador a jornada completa muy aplicado y motivado asciende a 400 dólares mensuales, y que los gastos generales (gastos de gestión, computadoras, espacio de oficina, instalaciones, etc.) suponen otros 300 a 400 dólares mensuales por persona. En tal caso, el costo del proceso de OCR viene a ser de 1,2 a 1,6 dólares por página. Si además se toma en cuenta el periodo de formación, el volumen total, el lapso de tiempo considerado y los eventuales costes de la suspensión de las operaciones cuando falte el trabajo, el costo asciende a un valor entre 1,5 y 2,5 dólares por página.

Conviene comparar los costos del proceso de OCR efectuado por cuenta propia con los de la subcontratación a una empresa especializada. Estas empresas suelen cobrar entre 1,5 y 4 dólares por página, incluyendo las ilustraciones y los cuadros. Human Info/Simple Word, que posee una unidad de este tipo en Rumania, aplica tarifas especiales para las organizaciones humanitarias sin fines de lucro (entre 1,2 y 2 dólares por página). Puede solicitarse información o asesoramiento escribiéndonos a la dirección:scanning@humaninfo.org.

3.3 Alternativas al proceso de OCR

En las siguientes líneas exponemos dos posibles alternativas al OCR.

Mecanografiado manual

La primera posibilidad, que además elimina buena parte del escaneado, consiste en mecanografiar de nuevo los documentos con un programa de tratamiento de texto. Utilizando este procedimiento hay que escanear únicamente las ilustraciones y la cubierta (y no las restantes páginas), lo que hace innecesario disponer de un escáner y un programa de OCR potentes.

No es preciso que los operadores entiendan el texto. Sólo tienen que ser buenos mecanógrafos y reproducir exactamente lo que ven. Dado que este proceso suele generar errores, a menudo se utiliza el doble mecanografiado para detectarlos y corregirlos. Este método requiere que dos personas mecanografíen independientemente el mismo documento, después de lo cual un operador provisto del texto original compara ambas versiones electrónicas palabra por palabra, con ayuda de un programa informático especial. Se parte de la premisa de que si una misma palabra ha sido escrita dos veces por separado de la misma manera, será correcta. Pero ello no siempre es así, y cuando se quiere trabajar con la máxima fiabilidad se recurre al triple mecanografiado.

Teniendo en cuenta que el uso de un programa de OCR entraña el de computadoras de gran potencia, la ventaja básica de este método es que prescinde del OCR y por lo tanto permite utilizar computadoras más antiguas, sencillas o de segunda mano, lo que supone un ahorro considerable. Además, esta labor requiere trabajadores menos especializados. En cuanto a sus inconvenientes, éstos residen en el periodo de formación (de al menos dos meses) que se necesita y en la abundancia de errores que suelen darse con un proceso de mecanografiado único, lo que obliga a trabajar por duplicado o triplicado.

Los costos de este procedimiento dependen exclusivamente del nivel salarial. Los mecanógrafos de países en desarrollo suelen cobrar unos 150 dólares mensuales. Su productividad oscila entre 20 y 30 páginas diarias, lo que equivale a 400 páginas mensuales, comprendidas las ilustraciones. Suponiendo que se trabaje por duplicado, los costos salariales suman en total 300 dólares al mes, sin contar los gastos generales.

Archivos gráficos

Una alternativa sumamente barata al proceso de OCR consiste en utilizar simplemente una versión gráfica en PDF de las páginas del documento, lo que reduce los costos a unos 0,1 dólares por página (una pequeña fracción de lo que costaría un proceso de OCR).

Una vez concluido el escaneado y creados los archivos TIFF, se utiliza un convertidor automático (en general Acrobat o Photoshop de Adobe) para convertir en formato PDF todos los archivos TIFF correspondientes a las páginas del libro.

El problema es que en esos archivos no se pueden efectuar búsquedas y que además son bastante pesados (por lo general 50 Kb por página, con un margen de variación del 20% según la calidad del archivo TIFF original).

La descarga de un archivo gráfico PDF es un proceso lento, a veces imposible o de precio prohibitivo en los países en desarrollo. Esos archivos caben rara vez en un disquete y no admiten operaciones de manipulación del texto como la de “cortar y pegar”.

Sólo se optará por esta solución cuando se carezca del presupuesto necesario para un proceso de OCR o cuando se trate de documentos destinados a un público poco numeroso y provisto de una conexión a Internet de bajo costo y alta velocidad.

3.4 Combinación de escaneado y OCR

La mayoría de los programas de OCR pueden escanear una página y efectuar inmediatamente el reconocimiento óptico, a condición de que el escáner esté conectado directamente a la computadora que ejecuta el programa. Aunque escanear y efectuar el OCR página a página es un método razonable cuando se trabaja con pocos documentos, resulta muy largo para trabajos más voluminosos y continuos.

Esta solución es adecuada para cantidades entre 100 a 150 página al mes. Para tratar volúmenes superiores, en cambio, es más rápido y eficaz escanear en primer lugar el documento y aplicar después el proceso de OCR a todas las páginas de una sola vez.


[1] Recordemos que todos los importes están expresados en dólares estadounidenses de 2001 y corresponden a las tarifas vigentes en 2001.


Copyright © 2002 2003 2004 2005 2006 2007 by the New Zealand Digital Library Project at the University of Waikato, New Zealand.

Permission is granted to copy, distribute and/or modify this document under the terms of the GNU Free Documentation License, Version 1.2 or any later version published by the Free Software Foundation; with no Invariant Sections, no Front-Cover Texts, and no Back-Cover Texts. A copy of the license is included in the section entitled “GNU Free Documentation License.”