PyDataBibPub: script en Python para extraer Datos de Bibliotecas Públicas de España

He desarrollado un script para automatizar la obtención de datos de bibliotecas públicas de España. Se trata de un script con Python para descargar datos de Bibliotecas Públicas de España a nivel de Municipios. Para ejecutarlo hay que instalar pandas y time, os y datetime. Yo lo ejecuto en mi Debian 12 con XFCE. Es la segunda versión que simplifica a la primera.

Necesidad

El sistema de datos de bibliotecas públicas de España es de difícil consulta por su estructura. En su web se ve que los datos se clasifican por categorías. Dentro de cada categoría, primero los datos aparecen por comunidades autónomas; si accedemos a una, vemos los datos de sus provincias; y accediendo a cada provincia, vemos los datos de sus municipios. Esta estructura dificulta la consulta de datos a nivel de municipios, por ejemplo, de diferentes provincias; y también, dificulta la consulta incluso de diferentes datos de las mismas provincias y hasta comunidades autónomas por tener que movernos por las diferentes categorías antes.

La web de CULTURABase del Ministerio de Cultura y Deporte que se menciona en la anterior fuente tampoco permite obtener los datos a nivel de municipios. Se pueden consultar diversas variables pero solo a nivel nacional, por comunidades autónomas, por provincias, o por tamaño de municipio, pero no por municipio.

De todo ello, surge la necesidad de disponer de una manera más sencilla de los datos a nivel de municipios.

Antecedentes

En 2022 desarrollé un método de descarga de datos con wget. Los archivos de datos a nivel de municipios eran en realidad una url. Añadía las urls a un archivo txt y descargaba todas las urls volcándolas a un ods. Todo ello lo presenté y utilicé en algunos trabajos: https://doi.org/10.31219/osf.io/8a9dq y https://osf.io/8bjpk/; y con un vídeo en TubEdu: https://tubedu.org/w/6vySSWdrFkRdWPvd8yBUah.

¿Por qué y para qué este script?

Me dedico a la investigación en evaluación y calidad de bibliotecas. Este script satisface mi necesidad de disponer de datos a nivel de municipios de forma automatizada.

¿Qué hace exactamente el script?

El script hace lo siguiente:

  • Descarga datos según se especifique a nivel de comunidades autónomas de España, provincias o muncipios; para unos años que se especifiquen (entre 2010 y 2021 incluidos y que son los disponibles en la fuente); y para las variables que se especifiquen. Tanto variables como el nivel de región se pueden consultar en diccionarios dentro del script.
  • El script está diseñado para unificar en un CSV cada variable con todos los años seleccionados y códigos por región y nivel. Si hay más de una variable, crea un CSV para cada una. Estos CSV se guardan en una carpeta creada en cada ejecución del script.

En cuanto al tiempo de descarga, hay que considerar que depende de las variables, años y municipios definidos. Una descarga de 5 variables para 5 años de todos los municipios, supone en realidad 5x5x52 descargas; más todo el trabajo de unificación en los CSVs.

Limitaciones y posibilidades de futuro del script

El script satisface mi necesidad actual. Esta necesidad puede variar en el futuro. También, otras personas pueden tener otras necesidades y el script no ajustarse a ellas. Por otro lado, las páginas web de los datos y su estructura podrían cambiar en el futuro y el script no funcionar. Es lo que ha sucedido entre la versión 1 y la 2: la web de los datos a cambiado su URL debido a un cambio del Ministerio por el nuevo Gobierno.

Sobre la descarga o disponibilidad del script

En el aviso legal de la web de los datos se dice lo siguiente:

“Se autoriza la reproducción total o parcial de los textos proporcionados por el portal, siempre que se mantenga su integridad y que se cite expresamente al Ministerio de Cultura y Deporte como fuente de la información. Para el resto de contenidos la licencia de uso se limita a la descarga por parte del usuario de dicho contenido y el uso privado del mismo, siempre que los citados contenidos permanezcan íntegros, quedando su uso, reproducción, distribución, comunicación pública, transformación o cualquier otra actividad similar o análoga, totalmente prohibidos salvo que medie expresa autorización del Ministerio de Cultura y Deporte” (fuente: https://www.culturaydeporte.gob.es/cultura/areas/bibliotecas/mc/ebp/comunes/aviso-legal.html)

Esta prohibición choca con el carácter público del Ministerio y de las bibliotecas públicas en sí y con la idea y concepto de los datos abiertos y la información pública. Choca también con la "Iniciativa de datos abiertos del Gobierno de España" (https://datos.gob.es/es/) y las licencias con que se publican allí datos sobre bibliotecas y en general por parte las diferentes Administraciones. Se considera que la fuente de los datos debería replantearse la licencia de los datos en el sentido de los datos abiertos, pues estamos hablando de bibliotecas de naturaleza pública y que además son por y para las personas: incluso los datos han sido generados por las personas.

Por todo ello, he optado por no publicar directamente el script aquí. Si alguien quiere más información al respecto del script, puede escribirme a:

  • blog[at]pedrolr[dot]es

Publicado el 1 octubre de 2023 por Pedro Lázaro Rodríguez; con licencia Creative Commons CC BY-NC-SA 4.0 y en la categoría "Bibliotecas, Software Libre"

Volver al top de la página