Crónica Actualízate 2017: Presentación y I sesión

El pasado 12 de Diciembre de 2017 tuvo lugar en la Facultad de Ciencias de la Documentación de la Universidad Complutense de Madrid la Jornada Actualízate, dirigida a estudiantes y profesionales de la información y en la que algunas empresas, relacionadas con la gestión de la información, muestran sus productos o servicios más innovadores con el fin de crear un foro de discusión en torno a la evolución y las tendencias tecnológicas y formativas en el sector de la información documental, buscando así puntos de unión y sinergias entre la actividad profesional y el ámbito universitario (investigador y docente).

Queremos mostraros lo que allí se comentó y se debatió de manera pormenorizada, ¡comenzamos en este post con su inicio y la primera sesión!

La apertura de la jornada corrió a cargo de María Teresa Fernández Bajón y Blanca San José Montano. En esta introducción se destacó la importancia de reflexionar sobre las ciencias de la documentación, conectando a los docentes con el mercado laboral y en definitiva con la profesión de documentalista. Se debe impulsar la idea de integración y colaboración para saber que ocurre en el ámbito documental y difundir los escenarios y herramientas para establecer planteamientos adecuados en los estudios de información y documentación.

1ª Sesión

En la primera sesión participaron Luis Collado y José Antonio Magán Vals, para hablar sobre el proyecto de colaboración en la digitalización del fondo de la colección bibliotecaria de la UCM con Google. El acuerdo comenzó hace 10 años y se han digitalizado unos 150.000 libros.

Al crear una colección digital se pretendía mostrarla a todo tipo de usuario, difundir el conocimiento que contenía la universidad y la investigación que producía; para ello Google era una gran herramienta. Ahora la colección de la UCM se divide en tres apartados: trabajos académicos, materiales de apoyo a la investigación y patrimonio bibliográfico.

En cuanto al proyecto de colaboración Google-Complutense, la universidad fue pionera en Europa, en el mundo no anglosajón, con la digitalización de sus fondos respecto a otras bibliotecas. Hay que destacar que Google puede digitalizar en días lo que a la universidad le costaría años, a pesar de ser la mayor institución que se dedica a digitalizar en España.

Ha sido el proyecto bibliotecario más importante que ha asumido la biblioteca complutense en las ultimas décadas. Para digitalizar los libros tienen que estar en buen estado, y hay que recatalogarlos en un sistema automatizado. En la biblioteca de la UCM además del trabajo diario, había que introducir las obras digitales y al final se priorizaba lo que más se usa; además, la biblioteca histórica no disponía de recursos para catalogarlo todo. En 2006 un 80% del fondo estaba sin catalogar y este proyecto dio un gran impulso para poder hacerlo.

La visibilidad de los textos en Google son en su mayor parte a texto completo pero hay un 15% con vista reducida, debido a derechos de autor. En cuanto a acceso hay 65.000 visualizaciones diarias de libros anteriores a 1870, hasta el momento esto era impensable en una biblioteca histórica. En Google libros, el latín no es una lengua muerta, es la segunda más descargada, solo 8 veces menos que el inglés.

Los libros son accesibles en muchas pasarelas entre ellas Hathitrust. La complutense utilizó esta pasarela por ser una biblioteca digital cooperativa, que evita ser simples recolectores y duplicar la información.

A continuación Luis Collado nos habló de otros proyectos externos y el futuro de la digitalización.

Únicamente desde 2004 se ha empezado a realizar la digitalización de libros, por lo tanto, la información de calidad que a lo largo del tiempo los editores han publicado en papel no aparecía en internet, pero gracias a este proyecto ha sido posible incluirla.

La idea era digitalizar todos los libros del mundo y ponerlos a disposición de la sociedad. Para ello había que plantarse:

  • Esclarecer la situación legal respecto a los derechos de propiedad intelectual. Unos son de dominio público, otros ya no se publican y otros están en un limbo porque el autor es desconocido. Sin dominio público no se puede hacer nada.
  • Decidir cuántos libros se van a digitalizar. Nadie sabía cuántos libros se han impreso. Se hizo una estimación de 180 millones, aunque no se puede contrastar y el ISBN es un sistema muy moderno y optativo.

Conforme pasaba el tiempo, se fueron incluyendo más y más bibliotecas en el proyecto. Mientras tanto, este proyecto no estuvo exento de polémica por digitalizar libros de instituciones públicas. Sin embargo, se llegaron a acuerdos y se avanzó. Hay que recordar que el patrimonio es de la humanidad, la UCM lo preserva para su uso y difusión. Incluso en las leyes de patrimonio se incide en la difusión, el problema en ese momento fue gran la cantidad de libros que albergaba el proyecto.

A día de hoy, se sigue digitalizando aunque cada vez es más difícil encontrar libros sin derechos para procesarlos. El ritmo de digitalización es de un millón al año y en más de 450 idiomas. Este aspecto por si solo es un reto, conlleva una gran complejidad: no es solo una imagen digital, sino un reconocimiento de palabras, textos, orientación de lectura,… es un proceso de digitalizar pero también indexar, identificar y hacer accesible los contenidos.

Al principio la digitalización se hacía cerca de los centros que poseían el material pero ahora solo hay cuatro grandes centros y no se mueven: dos en EEUU, Munich y Roma; son los libros los que se desplazan.

La mayoría de los libros digitalizados son de bibliotecas de EEUU, seguido de acuerdos con editoriales o derechos de autor, que sí tienen en su mayoría copyright y por último con bibliotecas europeas.

Criterios que se siguen a la hora de digitalizar:

  • Preservar y difundir.
  • Universalidad: con la variedad de idiomas.
  • Digitalización no destructiva: si existe algún riesgo no se lleva a cabo.
  • Aprendizaje común.
  • Compartir tecnología y experiencia: con OCR y metadatos.

Actualmente trabajan hacia la mejora del OCR, la disminución de errores y la calidad de la imagen. Pero también continúan retos como: textos en mal estado, libros en miniatura, páginas sueltas, blanquear páginas en sepia, hojas que se traslucen, identificación de caracteres,… Otro problema también es no digitalizar dos veces el mismo ejemplar.

La innovación es un proceso de acometida continua y en la actualidad, el móvil deber ser la fuente de acceso al conocimiento. Aún es muy bajo el número de consultas de libros debido a la baja optimización de los contenidos en estos dispositivos, y la experiencia de usuario no es buena. Se necesita mejorar la calidad de visualización en los diferentes dispositivos digitales y la adaptación de millones de contenidos a ellos. Así mismo, se trabaja en el perfeccionamiento de la tecnología en digitalización, como la iluminación de libros, e incluso en el proceso humano, en cómo los operarios pueden ahorrar segundos en cada libro al colocarlo o pasar páginas.

Líneas de trabajo actuales:

  • OCR: machine learning, que las propias maquinas mejoren la identificación de contenido.
  • Metadatos: técnicas para que mejore la calidad.
  • Algoritmo de búsqueda dentro del contenido de los libros.

En el momento de gran ebullición mediática de la digitalización si se trabajaron con libros del siglo XX, huérfanos o descatalogados; sin embargo fue imposible llevarlo a cabo sin una sentencia favorable que lo permitiera. En cualquier caso, ya hay mucho trabajo con libros en abiertos y con copyright, que al final son los más interesantes para el público.

En el ámbito de la rentabilidad de digitalizar, Google invierte mucho sin beneficio directo. Lo hay indirecto porque más gente usa Google y se dan otras ventajas, como los propios productos y servicios de Google que se alimentan de la digitalización para ofrecer un mejor producto al usuario final, es el caso del traductor o el buscador.

Ahora cada palabra, de cada línea de cada libro se le puede ofrecer a la sociedad, ya que Google Libros lo incluye en el buscador. Aunque es verdad que el usuario no utiliza la plataforma de la propia institución, bien por desconocimiento o por comodidad, la información si está disponible a usuario.

Por último se destacó que el machine learning aplicado a la digitalización de contenido es la principal tendencia como valor añadido al producto. Incluso la efectividad del OCR también ha mejorado de forma exponencial con el machine learning, así como los metadatos.

En cuanto a los derechos de autor se ha retrocedido, porque se van amplían los años de protección de estos derechos y dificultan el acceso libre. A veces hay un limbo en el que las empresas no están interesadas en reeditar el ejemplar y tampoco está en dominio público. Debería hacerse disponible si nadie le saca provecho económico.

 

Sara Guiu Garrido
Documentalista

Deja un comentario