El desarrollo en estos años del movimiento de Ciencia Abierta  ha evidenciado cada vez más la necesidad por parte de los investigadores de disponer de recursos humanos, materiales e intelectuales de forma libre y compartida. De esta forma, se pretende reducir, en la medida de lo posible, la mercantilización de la ciencia, y las brechas geográficas y económicas en el quehacer científico. Dentro de este movimiento, también se plantea como una demanda legítima la capacidad de acceder a grandes volúmenes de datos (Open Data), que permitan una disponibilidad más democrática de estos recursos científicos, al tiempo que refuerza la reproducibilidad y el análisis crítico de los resultados de investigación.

Tradicionalmente, se ha considerado datos de investigación a la cuantificación y tabulación de datos experimentales y observacionales, los cuales generalmente han estado disponibles en repositorios de datos desde donde ha sido posible su descarga. Sin embargo, el desarrollo de la Web como fuente de información (medios, base de datos institucionales, registros, etc.) y medio de interacción social (redes sociales) ha generado también la necesidad académica de obtener datos generados de la propia Web.

La disponibilidad de datos de investigación es un elemento fundamental de la Ciencia Abierta

Esta demanda ofrece una oportunidad inmejorable a las bibliotecas universitarias para situarse como referentes de este suministro de datos web. Hasta ahora, su tradicional papel como distribuidoras de información científica, puede complementarse con la de proveedoras directas de datos, rompiendo el paradigma de meras intermediarias, y pasando al de suministradoras de datos. Para los documentalistas, este cambio de perspectiva ofrece una oportunidad laboral al especializarse en unas tareas que ofrecen más valor añadido, suministrando datos, en vez de fuentes. Inclusive, y con capacidades analíticas, es posible ofrecer informes técnicos basados en estadísticas y gráficos basados en estos datos, ampliando el perfil de brokers de la información a la de consultores.  

Sin embargo, una de las mayores dificultades para extraer y procesar esta información ha residido en el hecho de que la propia Web no es un medio estructurado, donde la información se presente en un formato tabular listo para su procesamiento. Cada espacio web tiene su propia estructura interna y su diseño particular, lo que ha dificultado su extracción y procesamiento. Pese a esta falta de normalización, el diseño web se fundamenta en etiquetas (HTML) que nos permiten identificar dónde se localiza el dato y qué significado tiene. Tradicionalmente, la extracción de datos de la Web generalmente ha requerido de capacidades en programación (R, Python) para poder escribir el código que automatice la navegación y la posterior extracción de datos. Por otro lado, muchos de los repositorios de datos utilizan tecnologías semánticas (linked data) para organizar la información, lo que requiere también de lenguajes específicos de consulta (SPARQL).

Para paliar estas limitaciones, están surgiendo pequeñas aplicaciones que nos ayudan a ejecutar proyectos de extracción de datos web de forma más sencilla e intuitiva, sin que sea necesario estar familiarizado con lenguajes de programación.

Con la extracción de datos las bibliotecas universitarias pueden ampliar su apoyo a la investigación

El curso Técnicas básicas para la extracción de información en la Web: Web Scraper” ofrece una introducción inicial al mundo de la obtención de datos en la Web, tanto a través de consultas a bases de datos enlazadas (linked data), como a la extracción de texto en páginas webs (web scraping). Para ambas modalidades se introducirán los conceptos básicos, las fuentes más importantes de fuentes de datos (repositorios, buscadores, etc.) y la sintaxis más elemental para iniciarse en los procesos.

De esta forma, el curso se estructura en dos bloques. Para el primer bloque, el alumnado realizará consultas a dos bases de datos enlazadas: la DBPedia, que reproduce la estructura de la Wikipedia, y SemOpenAlex, que hace lo mismo con la base de datos académica OpenAlex. Para el segundo bloque, se utilizará un plug-in de navegador (Web scraper) para familiarizarse con la técnica de web scraping y desarrollar un proyecto propio de extracción de datos de una web. Toda esta formación estará apoyada por un temario, múltiples ejemplos de consultas y scripts, y diversos videos demostrativos sobre las actividades a realizar.

La extracción de datos debe suponer una habilidad añadida a la búsqueda de información por parte del documentalista científico

Con todo esto se pretende que el alumnado pueda introducirse en el mundo de la extracción de datos. Conociendo y aplicando dos enfoques diferenciados, uno centrado en la consulta a bases de datos estructuradas y otro en la tabulación de datos sin estructura proveniente de la Web. El fin último es abrir una nueva dimensión formativa en la documentación científica en la que los nuevos profesionales adquieran destrezas en estas técnicas como complemento a su perfil profesional. Estas habilidades permitirán la incorporación de servicios de extracción de datos en las bibliotecas académicas, lo que enriquecerá el valor de estas como agente de apoyo a la labor investigadora.

José Luis Ortega (ORCID: 0000-0001-9857-1511)

Instituto de Estudios Sociales Avanzados (IESA), Consejo Superior de Investigaciones Científicas (CSIC)