Open Archive Initiative-Protocol for Metadata Harvesting (OAI-PMH) está financiado por National Science Foundation, y tiene como misión desarrollar y promover estándares de interoperabilidad para facilitar la difusión eficiente de contenidos en Internet.
Se centra en la transmisión de metadatos sobre cualquier material en soporte electrónico. Es requisito que los metadatos puedan ser codificados en el modelo Dublin Core sin calificaciones, aunque, paralelamente a ello, se puede usar cualquier esquema de metadatos.[1]
Tiene su origen en la Convención de Santa Fe de 1999[2] y su primera versión se hizo pública en enero de 2001.
Historia
Alrededor del año 1990 empezaron a surgir los primeros archivos, también llamados repositorios de documentos electrónicos. Se pretendía conseguir una comunicación activa de los resultados de las investigaciones, siendo conocidos estos documentos como EPrints. Los primeros repositorios que aparecieron eran temáticos. En 1991, Paul Ginsparg creó ArXiv.org especializado en física, más tarde generaron RePec dedicado íntegramente a la economía, de forma seguida CogPrints en materia de psicología, NCSTRL en informática y NDLTD en tesis.[3]
Los días 21 y 22 de octubre de 1999 se organizó la Convención de Santa Fe (Nuevo México, EUA) con la intención de llegar a un consenso en materia de interoperabilidad de archivos EPrints,[3] consiguiendo aumentar el impacto en la sociedad científica. Con este acuerdo, era viable intercambiar registros y, a su vez, realizar búsquedas en una misma materia o disciplina. En la reunión acudieron especialistas de bibliotecas digitales y representantes de los principales y más importantes repositorios (anteriormente mencionados).
Con la intención de encontrar nuevos modelos de comunicación científica, transformar los archivos en interoperables y construir servicios que recuperen información de distintos repositorios, se concretó la creación de un protocolo bautizado como OAI-PMH (Open Archives Initiative – Protocol for Metadata Harvesting).
Si es cierto que ya existía un protocolo llamado Z39.50, en este caso, era mucho más complejo y ofrecía otro tipo de servicios, como el control de sesiones. Además, Z39.50 daba ciertos problemas en los servicios de búsqueda a través de servidores autónomos. Las razones principales fueron: interpretaciones difusas, problemas de escalabilidad, dependencia de la disponibilidad de los servidores y rendimiento.
En los primeros años de OAI-PMH, el protocolo se basó en el prototipo UPS, modelo RePec, servicio SODA, protocolo Dienst y el trabajo del grupo Santa Fe. A partir del año 2000, se empezó a hacer diferentes reconsideraciones, el interés por este nuevo protocolo fue en aumento, hasta tal punto, que la iniciativa iba más allá de las comunidades EPrints.[2]
La Digital Library Federation y la Coalition of Networked Information, de Estados Unidos, ofrecieron soporte de su organización para el desarrollo de la iniciativa. Se crearon dos comités, uno de gestión y otro técnico, encargados de la coordinación del programa.
En 2001 y en fase experimental, llega OAI-PMH versión 1.0 con la introducción de los elementos del estándar Dublin Core no cualificado (metadatos descriptivos). Es lo mínimo para la interoperabilidad de los metadatos.
En junio de 2002 y arreglados los problemas de definición y funcionalidad, se lanzó la versión 2.0. El protocolo ya estable, tiene por objeto “el intercambio recurrente de metadatos de recursos entre distintos sistemas”. Se estuvo trabajando en el proyecto SOAP (Simple Object Access Protocol) hasta la versión 1.2. El grupo de trabajo se cerró en 2009.
Características
El Protocolo OAI-PMH presenta las siguientes características:[4]
Su funcionamiento se basa en una arquitectura cliente-servidor en la que un servicio recolector de metadatos pide información a un proveedor de datos.
Las peticiones se expresan en HTTP, utilizando únicamente los métodos GET o POST.
Todas las respuestas deben ser documentos XML bien formados codificados en UTF-8.
Fechas y tiempo se codifican mediante la ISO 8601 y se expresan en UTC.
Soporta la difusión de registros en diversos formatos de metadatos.
Tiene control de flujo.
Cuando hay un error o una excepción los repositorios deben indicarlos distinguiéndolos de los códigos de estado HTTP por incluir uno o más elementos de error en la respuesta.
Protocolo de peticiones
El servicio recolector puede realizar 6 peticiones distintas:[4]
GetRecord, para obtener un registro determinado.
Identify, para obtener información sobre el servidor.
ListIdentifiers, para obtener encabezamientos.
ListRecords, para obtener registros completos.
ListSets, para obtener registros pertenecientes a una clase determinada creada por el servidor.
ListMetadataFormats, para obtener la lista de los formatos bibliográficos usados por el servidor.
Servicios recolectores
Los servicios recolectores recogen metadatos generados por los proveedores de datos y los utilizan como base para dar servicios de valor añadido. Son servicios recolectores registrados en la web de OAI-PMH:[5]
Lower Saxony State and University Library Göttingen (SUB) and the University Library "Georgius Agricola" of the Technische Universitt Bergakademie Freiberg (UBF)
Harvester@UABT: Harvester of University of Tlemcen Algeria
La instauración del protocolo OAI-PMH en España ha sido escaso en su desarrollo, en consecuencia, ha existido y sigue encontrándose poca difusión de publicaciones españolas[7] de investigación científica en las comunidades internacionales.
Este protocolo se da en su mayoría en las bibliotecas universitarias donde casi el 50% de las publicaciones son artículos de revistas o comunicaciones a congresos. De forma muy desapercibida se encuentran las bibliotecas públicas que apenas disponen de repositorios. Algunos de los recolectores españoles o con colaboración española que utilizan el protocolo OAI-PMH son:
Recolecta: Es una plataforma que recoge todos los repositorios científicos nacionales de acceso abierto y cuyo fin es facilitar servicios a los investigadores.
Hispana: Recolector de contenidos de bases de datos de colecciones digitales. Destacan los repositorios institucionales, las bibliotecas digitales de las comunidades autónomas y los contenidos de la Red Digital de Colecciones de Museos de España.
Rebiun: La Red de Bibliotecas Universitarias Españolas da la posibilidad de consultar los fondos de 74 bibliotecas universitarias y de investigación españolas.
Dialnet: Es un depósito de materiales bibliográficos digitales. Es un portal de difusión de producción científica principalmente hispánica.
Americanae: La Agencia Española de Cooperación Internacional para el Desarrollo (AECID) junto con el Centro de Documentación de Canarias y América (CEDOCAM[8]) desarrolla el programa Americanae, un programa que busca recopilar el patrimonio cultural americano conservado en instituciones culturales (archivos, bibliotecas y museos).
Europeana: Es una biblioteca digital europea de acceso abierto, un portal de patrimonio cultural europeo cuya colección está formada por una gran variedad de documentos de 45 idiomas.
FUNDACIÓN ESPAÑOLA PARA LA CIENCIA Y LA TECNOLOGÍA. Recolector de Ciencia Abierta. [en línea]. [Consulta: 16 de diciembre de 2016]. Disponible en: https://www.recolecta.fecyt.es/
GARCÍA, Arianna Becerril; ESPINOSA, Rafael Lozano; ESPINOSA, José Martín.Molina., 2016. Enfoque semántico para el descubrimiento de recursos sensible al contexto sobre contenidos académicos estructurados con OAI-PMH. Computación y Sistemas [en línea], vol. 20, no. 1, pp. 127-142. Disponible en: http://www.cys.cic.ipn.mx/ojs/index.php/CyS/article/view/2189/2100
GÓMEZ DUEÑAS, Laureano Felipe., 2005. La iniciativa de Archivos Abiertos (OAI), un nuevo paradigma en la comunicación científico y el intercambio de información. Revista Códice [en línea], vol. 1, pp. 21-48. Disponible en: http://eprints.rclis.org/9539/1/OAI.pdf