En español
Uno de los principales objetivos de los repositorios digitales es el brindar mecanismos de interoperabilidad, a fin de permitir la recuperación de sus registros por otros sistemas y de ofrecer a sus usuarios información y servicios a partir de registros obtenidos desde otros repositorios. El intercambio de registros entre repositorios digitales brinda un mecanismo para agilizar el poblamiento cruzado, mediante el cual un repositorio puede obtener recursos de otro repositorio para corroborar datos cruzados, completar información faltante o desactualizada, e incluso para incorporar nuevos registros a su acervo propio. Esto resulta de particular interés para repositorios institucionales con investigadores de múltiple dependencia, que quizás realizan el autoarchivo de su producción en el repositorio de una de las instituciones en las que realizan sus actividades, o en muchos casos en repositorios temáticos utilizados tradicionalmente en cada área, como ser arXiv, REPEC o PubMed Central.
Existen múltiples formas de obtener documentos en masa de distintos repositorios, y una de ellas es mediante el protocolo OAI-PMH, que permite la transmisión de registros de metadatos bajo el esquema Dublin Core. Haciendo uso de las interfaces que expone cada repositorio, se puede realizar una cosecha de los metadatos deseados. Si bien la obtención de los documentos a importar a un repositorio es crucial para el proceso de importación en masa, existen una serie de etapas subsiguientes a ésta que son de suma importancia y que a su vez presentan ciertos obstáculos que deben ser solucionados para garantizar la integridad y calidad de los datos. Estas etapas pueden agruparse, además de la obtención de los documentos, en transformación de los metadatos y detección de registros duplicados. Se describe el proceso general de obtención de documentos e importación de los mismos a un repositorio, así como también las herramientas desarrolladas para dar soporte a las distintas etapas del proceso.
En inglés
One of the main objectives of digital repositories is to provide interoperability mechanisms in order to allow the recovery of their records by other systems and to offer their users information and services from records obtained from other repositories. The exchange of records between digital repositories provides a mechanism to streamline cross-population, whereby a repository can obtain resources from another repository to corroborate cross-data, complete missing or outdated information, and even to incorporate new records into its own collection. This is of particular interest for institutional repositories with multi-dependency researchers, who may self-archive their production in the repository of one of the institutions in which they carry out their activities, or in many cases in thematic repositories traditionally used in each area, such as arXiv, REPEC or PubMed Central.
There are multiple ways to obtain mass documents from different repositories, and one of them is through the OAI-PMH protocol, which allows the transmission of record metadata under the Dublin Core scheme. Using the interfaces that each repository exposes, you can harvest the desired metadata.
While obtaining the documents to be imported into a repository is crucial for the mass import process, there are a series of steps that are consequential to it, which are of the utmost importance and which in turn present certain obstacles that must be solved to guarantee the data integrity and quality. These stages can be grouped, in addition to obtaining the documents, in transformation of the metadata and detection of duplicate records.
The general process of obtaining documents and importing them into a repository is described below, as well as the tools developed to support the different stages of the process.