
Los sistemas que, a partir de un texto escrito o impreso en papel o similar, crean un fichero de texto en un soporte de almacenamiento informático, se denominan Sistemas de OCR (Optical Character Recognition), o de Reconocimiento Óptico de Caracteres. En 1929, Gustav Tauschek obtuvo una patente sobre OCR en Alemania, luego, Handel en 1933 obtiene la patente de OCR en Estados Unidos. En 1935, a Tauschek también se le concedió una patente en ese país por su método. En 1950, David Shepard, utilizó esta tecnología en la agencia de seguridad de las fuerzas armadas de los Estados Unidos. El primer sistema comercial fue instalado en Readers Digest en 1955. El servicio postal de Estados Unidos utilizó las máquinas de OCR para clasificar el correo desde que 1965, basados en la tecnología ideada por el inventor Jacob Rabinow. El primer uso del OCR en Europa sucedió en la oficina de Gran Bretaña. En 1965 se comenzó a planear un sistema de actividades bancarias completo, Nacional Giro, usando la tecnología del OCR, ideó un proceso que revolucionó los sistemas del pago de cuentas en el Reino Unido. El correo postal de Canadá utilizó sistemas OCR desde 1971. El reconocimiento exacto de la escritura latina, ahora se considera en gran parte un problema solucionado. La exactitud excede el 99%, requiriendo la revisión humana para los errores. "Google Libros” es un servicio que busca el texto completo de los libros que Google digitaliza, convierte el texto por medio de reconocimiento óptico de caracteres y los almacena en su base de datos en línea. El servicio era conocido como Google Print cuando fue introducido en la Feria del Libro de Fráncfort en octubre de 2004.
Gallica es la biblioteca digital de la Biblioteca Nacional de Francia. De acceso gratuito, incluye libros digitalizados, cartularios, diarios, fotos y una colección de códices miniados. El 10 de febrero de 2010, Gallica ha digitalizado el documento un millón. Toda la colección almacenada en Gallica supuso un volumen de 1.519 terabytes al 31 de diciembre de 2014.
El sitio web de "British Newspaper Archive” proporciona acceso a los archivos digitalizados de los periódicos británicos e irlandeses. Fue lanzado en noviembre de 2011.
La Biblioteca Virtual de Prensa Histórica es una hemeroteca digital española. Fundada en 2009 y gestionada por el Ministerio de Educación, Cultura y Deporte de España, ha digitalizado numerosas publicaciones periódicas, desde el siglo XVIII hasta el XXI.
En Argentina tímidamente aparecen dos referentes de este recurso son Biblioteca Digital de Tratados y la Biblioteca del Colegio Nacional Buenos Aires. Existe un atraso o brecha tecnológica en Argentina y en nuestra provincia en este tipo de recurso. El mayor acervo de periódicos antiguos de la Provincia de San Juan está en el Museo Histórico Agustín Gnecco, que no presenta medidas de conservación que marcan las normativas y no utiliza tecnología OCR. Según la Ley 11.723, Régimen legal de la propiedad intelectual, hay libros de autores sanjuaninos que son de dominio público y no están digitalizados ni subidos a la web.
Existen subsidios internacionales del Consejo Internacional de Archivos y de Iberarchivos que promueven la conservación de libros y periódicos históricos.
Por Ricardo Sánchez Alonso
Licenciado en Ciencias de la Educación
