HathiTrust

HathiTrust es una asociaci贸n de instituciones acad茅micas y de investigaci贸n que ofrece una colecci贸n de millones de documentos digitalizados provenientes de bibliotecas de todo el mundo, y trabaja para asegurar la accesibilidad y preservaci贸n a largo plazo de los sus registros culturales.

HathiTrust
Tipo Biblioteca digital
Fundaci贸n 2008
Sede central M铆chigan
Sitio web www.hathitrust.org

芦Hathi禄 significa 芦elefante禄[1] en hindi y urdu, un animal c茅lebre por su gran memoria. Su preservaci贸n es uno de los grandes activos de HathiTrust.

Introducci贸n

HathiTrust surgi贸 en 2008 como una colaboraci贸n de las universidades del Comit茅 sobre Cooperaci贸n Institucional (Committee on Institutional Cooperation, CIC) y el sistema universitario p煤blico de la Universidad de California (University of California, UC), con el fin de crear un repositorio para archivar y compartir sus respectivas colecciones digitalizadas. HathiTrust se ha expandido con rapidez, incluyendo nuevos socios y proporcion谩ndoles una manera simple de archivar su contenido digital.

El prop贸sito original de la asociaci贸n fue preservar y proporcionar acceso al contenido digitalizado de libros y revistas pertenecientes a las colecciones de sus socios, incluido material con derechos de autor y de dominio p煤blico digitalizado por Google, el Internet Archive, Microsoft y otras iniciativas privadas. Los socios pretenden construir un archivo que abarque documentaci贸n publicada en todo el mundo, y establecer estrategias comunes para la gesti贸n y el desarrollo colaborativo de su material digital e impreso.

La principal comunidad a la que HathiTrust presta servicio es la formada por los miembros (profesorado, estudiantes y usuarios) de sus bibliotecas asociadas, aunque su material es considerado un bien p煤blico a disposici贸n de usuarios de todo el mundo, siempre y cuando la normativa contenida en leyes y contratos lo permita.

Comunidad de socios

HathiTrust es una comunidad internacional de bibliotecas acad茅micas y de investigaci贸n consagradas al acceso y preservaci贸n a largo plazo de sus fondos culturales digitalizados. Mediante un esfuerzo com煤n y haciendo gala de un profundo compromiso con el bien p煤blico, las bibliotecas respaldan actividades de ense帽anza y aprendizaje del profesorado, los estudiantes o los investigadores en sus respectivas instituciones, as铆 como las necesidades acad茅micas del p煤blico en general.

En la actualidad HathiTrust cuenta con 116 socios,[2] de los cuales 4 son consorcios o sistemas estatales estadounidenses (el Comit茅 de Cooperaci贸n Institucional, el Sistema Universitario Estatal de Florida, la Universidad de California y el Sistema Universitario de Texas), y el resto son instituciones individuales, incluida la Biblioteca del Congreso de Estados Unidos (Library of Congress, LoC).

En noviembre de 2010, la Universidad Complutense de Madrid pas贸 a ser socio de HathiTrust, y se convirti贸 en la primera universidad europea en formar parte de la comunidad.[3]

Misi贸n y metas

Misi贸n

La misi贸n de HathiTrust es contribuir a la investigaci贸n, el estudio y el bien com煤n recogiendo, organizando, preservando, comunicando y compartiendo de forma colaborativa la memoria del conocimiento humano.

Metas

M谩s espec铆ficamente, HathiTrust se encarga de:

  • Construir un archivo digital de material bibliotecario -obtenido a partir de la conversi贸n de las colecciones impresas de las instituciones que la integran- que sea fiable, y cuya propiedad y administraci贸n est谩 cada vez compartida.
  • Mejorar de manera dr谩stica el acceso a este material, de manera que se satisfagan principalmente las necesidades de las instituciones copropietarias, y poniendo especial 茅nfasis en garantizar el acceso a las personas con problemas de lectura.
  • Desarrollar una infraestructura de contenidos digitales que sea rentable y s贸lida y aporte valor a estudiosos e investigadores, incluyendo gran variedad de formatos, adem谩s de materiales originalmente digitales.
  • Definir asociaciones y servicios que garanticen la conservaci贸n de los materiales de HathiTrust y del conjunto de registros acad茅micos impresos y digitales.
  • Redoblar los esfuerzos de coordinaci贸n de estrategias de almacenamiento compartido entre bibliotecas para reducir los costos operacionales y de capital a largo plazo destinados al almacenamiento y cuidado de colecciones impresas.
  • Construir una infraestructura que facilite la colaboraci贸n rentable y productiva entre las instituciones asociadas, para reducir el costo destinado a asegurar los activos intelectuales del campus.
  • Definir y ofrecer un conjunto de servicios que hagan uso del corpus de HathiTrust para servir de apoyo a la investigaci贸n.
  • Crear un marco t茅cnico que permita la creaci贸n -tanto centralizada como distribuida- de herramientas y servicios.
  • Considerar a la empresa HathiTrust como un 芦bien p煤blico禄, y a su vez definir un conjunto de servicios que beneficien a sus socios.

Objetivos funcionales

Objetivos a corto plazo

  • Mecanismo para visualizar y pasar p谩ginas (Page Turner). HathiTrust da soporte a una aplicaci贸n interactiva de lectura y descarga de textos e im谩genes propias.
  • Marcado (iniciativa global; bibliotecas individuales). HathiTrust da soporte al marcado de documentos de sus fondos mediante etiquetas identificativas y marcas de agua de diverso tipo.
  • Validaci贸n, migraci贸n y comprobaci贸n de errores de formato. Hasta la fecha no ha sido necesario realizar ning煤n tipo de migraci贸n, pero en previsi贸n de esta, HathiTrust almacena diversos metadatos de preservaci贸n t茅cnica y digital para cada documento. Adem谩s, se est谩n desarrollando estrategias para asegurar y validar la integridad del material.
  • Desarrollo de APIs que permita a las instituciones asociadas acceder a la informaci贸n e integrarse en los sistemas locales de manera individualizada. HathiTrust dispone de una API bibliogr谩fica que permite la b煤squeda e integraci贸n en el cat谩logo, y una API de datos que ofrece acceso a los datos subyacentes de los recursos digitales.
  • Mecanismos de acceso para personas discapacitadas. HathiTrust ha desplegado una interfaz accesible que facilita su navegaci贸n y uso por personas con discapacidades visuales.
  • Integraci贸n del cat谩logo de HathiTrust en WorldCat. Se ha realizado un piloto de implementaci贸n del cat谩logo HathiTrust para incluirlo en WorldCat, el cat谩logo digital m谩s grande del mundo, que forma parte de OCLC.
  • Capacidad para publicar colecciones virtuales. HathiTrust ha creado una aplicaci贸n constructora de colecciones (Collection Builder) que permite a cualquier individuo crear colecciones p煤blicas (compartidas) y privadas.
  • Mecanismo para incorporar de forma autom谩tica contenido no perteneciente a Google. HathiTrust desarroll贸 un mecanismos de incorporaci贸n autom谩tica de contenido de libros y revistas digitalizados por el Internet Archive, y actualmente se est谩 implementando un marco t茅cnico y normativo para la incorporaci贸n del contenido de libros y revistas de otras instituciones asociadas.

Objetivos a largo plazo

  • Compatibilidad con los elementos necesarios de la lista de criterios y comprobaci贸n de la Auditoria y Certificaci贸n de Repositorios de Confianza (Trustworthy Repositories Audit & Certification, TRAC). El Centro para Bibliotecas de Investigaci贸n est谩 llevando a cabo una evaluaci贸n independiente del repositorio de HathiTrust, fundamentada en los criterios del TRAC.
  • Mecanismos robustos de descubrimiento, como b煤squeda de texto completo a trav茅s de los repositorios. Se ha publicado una implementaci贸n inicial de b煤squeda de texto completo, que ha implicado un considerable esfuerzo en investigaci贸n y desarrollo y que ha sido ampliamente documentada.
  • Desarrollo de una definici贸n de servicio abierto para hacer posible que las bibliotecas asociadas desarrollen otros mecanismos de acceso seguro y herramientas de descubrimiento. HathiTrust ha creado diversas API con este fin, as铆 como un entorno de desarrollo colaborativo para que los socios puedan realizar sus aportaciones y desarrollar nuevas aplicaciones.
  • Soporte de otros formatos m谩s all谩 de los propios de libros y revistas. HathiTrust est谩 investigando y gestionando proyectos piloto sobre aspectos relacionados con el almacenamiento y entrega de publicaciones electr贸nicas (en particular, el formato .epub) y archivos de audio e imagen (como mapas).
  • Desarrollo de herramientas de miner铆a de datos para HathiTrust, y uso de herramientas anal铆ticas provenientes de otras fuentes. HathiTrust ha participado en varias iniciativas estrat茅gicas para dar soporte a la miner铆a de datos en sus colecciones:
    • Distribuci贸n de datos: HathiTrust ha puesto a disposici贸n de los investigadores conjuntos de datos de ejemplo para el procesado y an谩lisis computacional.
    • Centro de investigaci贸n: HathiTrust ha creado un centro de investigaci贸n equipado con diversas herramientas y servicios para permitir realizar una gran variedad de an谩lisis en su corpus de repositorios.

La biblioteca digital

La biblioteca digital de HathiTrust es un almac茅n de preservaci贸n digital y una plataforma de acceso altamente funcional. Proporciona servicios de preservaci贸n y acceso a largo plazo para contenido de dominio p煤blico y con derechos de autor de diversidad de fuentes, incluidos Google, el Internet Archive, Microsoft e iniciativas propias de instituciones asociadas.

Los socios garantizan la fiabilidad y eficiencia de la biblioteca digital apoy谩ndose en los est谩ndares y mejores pr谩cticas de la comunidad, desarrollando pol铆ticas y procedimientos para la gesti贸n de contenidos y servicios escalados, y manteniendo una infraestructura modular y abierta.

En la actualidad, hay digitalizados m谩s de 14 millones de vol煤menes, que representan aproximadamente unos 5000 millones de p谩ginas y 636 terabytes. De todos ellos, aproximadamente el 39% son de dominio p煤blico.

HathiTrust proporciona una referencia para la implantaci贸n de herramientas de acceso al contenido del almac茅n, y trabaja con las bibliotecas participantes para definir, priorizar y desarrollar otras herramientas y servicios. Tambi茅n ha elaborado definiciones de servicio abierto (API) para hacer posible la participaci贸n de las bibliotecas asociadas en el desarrollo de otros mecanismos de acceso seguro:

  • B煤squeda bibliogr谩fica. La b煤squeda bibliogr谩fica (t铆tulo, autor, asunto, ISBN, editor y a帽o de publicaci贸n) est谩 disponible a trav茅s de un cuadro de b煤squeda del cat谩logo principal, en la p谩gina de inicio.
  • B煤squeda global. HathiTrust ofrece adem谩s la posibilidad de realizar una b煤squeda por texto completo para todos los elementos del almac茅n (incluidos trabajos de dominio p煤blico y con derechos de autor).
  • Visor y pasador de p谩ginas (Page Turner). HathiTrust ofrece un mecanismo para visualizar y pasar p谩ginas de vol煤menes individuales de dominio p煤blico. Es capaz de reproducir documentos PDF, texto de OCR (Reconocimiento 脫ptico de Caracteres, Optical Character Recognition) y archivos propios de un navegador.
  • Constructor de colecciones. El constructor de colecciones ofrece a los usuarios finales y a los encargados del desarrollo de la colecci贸n la capacidad de crear y publicar colecciones virtuales o vol煤menes mantenidos en el almac茅n.
  • Mecanismos de acceso para usuarios con discapacidades lectoras. Se ha desarrollado un mecanismo para favorecer el acceso a la biblioteca a personas con discapacidades lectoras, cuyo uso pretende generalizarse para que funcione en toda instituci贸n asociada.
  • APIs. HathiTrust distribuye informaci贸n sobre elementos integradores de su almac茅n a trav茅s de una serie de mecanismos: Conjunto de datos, API bibliogr谩ficas y de datos, archivos delimitados por tabulador, archivos OCLC o fuentes de la Iniciativa de Archivos Abiertos (Open Archives Initiative, OAI).
  • Opciones de b煤squeda adicionales. Se ofrece a las instituciones asociadas la posibilidad de cargar registros bibliogr谩ficos pertenecientes al conjunto de materiales de HathiTrust en sus propios cat谩logos.

Pol铆ticas

Acceso y uso

HathiTrust es una iniciativa bibliotecaria colaborativa. Se anima a los usuarios a citar e incorporar v铆nculos a su contenido digital, y pueden hacerlo sin necesidad de pedir permiso. Dependiendo del origen del material digitalizado, las licencias y otros aspectos contractuales, se puede restringir su distribuci贸n a otros usuarios.

Correcci贸n de metadatos bibliogr谩ficos

Se asume que la gesti贸n de los metadatos bibliogr谩ficos que definen los registros bibliogr谩ficos de HathiTrust es asumida por los colaboradores de los diferentes cat谩logos. Por lo tanto, la pol铆tica general consiste en no corregir o actualizar el contenido de los registros de los colaboradores, salvo cuando sea necesario a fin de garantizar la coordinaci贸n de las funciones del sistema de gesti贸n de metadatos.

Derechos de autor

Siempre que sea posible, HathiTrust aboga por el dominio p煤blico. Sin embargo, hay muchos trabajos de sus colecciones que est谩n protegidas por leyes de derechos de autor, de manera que no se puede mostrar grandes porciones de estas obras sin el permiso del detentor de los derechos de autor. Mientras no se pueda determinar el estatus de una obra, el acceso a la misma queda restringido.

Eliminaci贸n de HathiTrust

En muy raras ocasiones se producen eliminaciones en HathiTrust, y s贸lo ocurre cuando:

  • El volumen es inservible debido a su falta de calidad, o bien existe una copia de calidad superior.
  • La eliminaci贸n ha sido solicitada por el poseedor de los derechos de autor.

Preservaci贸n digital

HathiTrust se rige por los principios de fiabilidad, transparencia y gesti贸n responsable. Proporciona una conservaci贸n garantizada a largo plazo del contenido digitalizado, as铆 como un acceso abierto en la medida de lo legalmente posible, con el fin de maximizar las contribuciones de las instituciones asociadas y hacer un uso lo m谩s eficiente posible de los recursos disponibles.

HathiTrust se compromete a preservar el contenido intelectual, y en muchos casos tambi茅n el aspecto exacto de los materiales que han sido digitalizados para su dep贸sito. Esto incluye:

  • Representaciones digitales (im谩genes) del contenido, tal y como aparece originalmente, con el mismo color y dise帽o (por ejemplo, para ilustraciones y obras art铆sticas), y en el mismo orden.
  • Representaciones textuales de contenido, con tecnolog铆a OCR siempre que sea posible.

HathiTrust hace uso de diversas estrategias para asegurar la integridad a largo plazo de los materiales depositados, incluidas:

  • Uso de formatos de contenido est谩ndar y en abierto aceptados por la comunidad para la preservaci贸n digital, que sean soportados por multitud de plataformas y que se conf铆e que podr谩n ser preservados y migrados a nuevos formatos de preservaci贸n a lo largo del tiempo.
    • HathiTrust conf铆a actualmente en las especificaciones de formatos de archivo, metadatos de preservaci贸n y m茅todos de control de calidad detallados en las especificaciones de digitalizaci贸n de la Universidad de M铆chigan.[4]
    • HathiTrust se compromete con la preservaci贸n a nivel de bit y la migraci贸n de formatos de los materiales creados de acuerdo con estas especificaciones y con la tecnolog铆a, est谩ndares y mejores pr谩cticas que prevalecen en la comunidad bibliotecaria.
    • Entre los formatos preservados en HathiTrust se incluyen archivos TIFF con compresi贸n ITU G4 almacenados a 600 ppp, archivos JPEG o JPEG2000 almacenados a diversas resoluciones entre 200 ppp y 400 ppp, texto Unicode, y archivos XML con un DTD asociado (t铆picamente METS, Metadata Encoding and Transmission Standard).
  • Validaci贸n rigurosa del contenido incorporado. Confianza en est谩ndares para el dise帽o del almac茅n y la confiabilidad tales como OAIS (Open Archival Information System) y TRAC.
  • Confianza en est谩ndares para metadatos como METS y PREMIS.
  • Comprobaciones regulares de la integridad del contenido almacenado mediante:
    • Sistema de comprobaci贸n autom谩tica que verifica la integridad de los objetos digitales con sus versiones incorporadas. Esto se lleva a cabo trimestralmente, para todos los archivos.
    • Acceso de usuarios.
    • Procesos del almac茅n, como la indexaci贸n de texto completo haciendo uso del contenido de forma regular.

As铆 pues, la preservaci贸n en HathiTrust abarca caracter铆sticas de contenido, metadatos y procesos que permiten mantener la integridad a nivel de bit del contenido a lo largo del tiempo, y migrar el contenido a nuevos formatos conforme lo requieran las necesidades en la comunidad bibliotecaria en cuestiones tecnol贸gicas, est谩ndares y mejores pr谩cticas.

HathiTrust se esfuerza en garantizar que el contenido digital que preserva sea preciso, completo y adecuado para la conservaci贸n a largo plazo, adem谩s de 煤til para una gran diversidad de prop贸sitos de acceso. Para ello presta atenci贸n a la calidad, y tiene en cuenta los formatos de los archivos de contenido, los metadatos de preservaci贸n y descriptivos y las rutinas de validaci贸n. HathiTrust mantiene un alto nivel de conformidad con los est谩ndares de toda la comunidad de almacenes digitales, incluyendo el almacenamiento redundante de los materiales en puntos separados geogr谩ficamente.

Directrices de los dep贸sitos digitales

El almac茅n de HathiTrust se dise帽贸 de acuerdo con el marco para OAIS (Open Archival Information Systems), y ha sido implementado dentro del contexto de est谩ndares y criterios ampliamente difundidos para repositorios digitales confiables (Trustworthy Digital Repositories). La log铆stica de operaci贸n de un almac茅n de preservaci贸n de la dimensi贸n de HathiTrust ha dado lugar a soluciones de implementaci贸n que favorecen la consistencia y estandarizaci贸n frente a los cambios, la simplicidad frente a la complejidad (en dise帽o, no funcionalmente), y el aspecto pr谩ctico frente al conceptual. La funcionalidad de HathiTrust se consagra por encima de todo a la satisfacci贸n de las necesidades de preservaci贸n y acceso de sus socios. Aunque HathiTrust sirva por extensi贸n a un p煤blico m谩s amplio, son estas necesidades espec铆ficas las que gu铆an el desarrollo de los servicios y capacidades de HathiTrust.

Por otra parte, hay dos componentes para la incorporaci贸n y procesamiento en HathiTrust: metadatos bibliogr谩ficos y contenido.

Calidad

En todo caso, el material de HathiTrust est谩 sujeto a revisiones de calidad, como parte integral y paso fundamental dentro del proceso de digitalizaci贸n. El material digitalizado est谩 sometido a procesos formales de revisi贸n de la calidad, previamente a su entrada a formar parte del contenido digital de HathiTrust.

Privacidad

HathiTrust respeta la privacidad de todos los visitantes y usuarios de sus servicios.

Tecnolog铆a, est谩ndares y certificaciones

Aspectos tecnol贸gicos

HathiTrust proporciona almacenamiento persistente y con alta disponibilidad para los archivos depositados en su repositorio. Con el fin de facilitar esto, los socios emplean una arquitectura de almacenamiento con amplio abanico de funcionalidades dise帽ada para hacer frente a la tolerancia frente a fallos y la retenci贸n de datos a largo plazo.

La necesidad de una comprobaci贸n continua de la integridad es fundamental para la estrategia de gesti贸n de datos de HathiTrust, y remarca la necesidad de elecci贸n de un medio principal en l铆nea (discos magn茅ticos) La sustituci贸n del material es un proceso que se contempla anualmente, y asume que el equipamiento tiene una vida 煤til de entre 3 y 4 a帽os. El sistema de almacenamiento es modular y virtualizado, con archivos que se dividen en bloques distribuidos a trav茅s de los nodos de un cl煤ster y redistribuidos de forma autom谩tica para realizar el equilibrado de carga.

HathiTrust presenta un perfil de repositorio basado en la Evaluaci贸n de Sistemas de Publicaci贸n Electr贸nica de Origen Abierto[5] (Evaluation of Open-Source Electronic Publishing Systems) y un marco desarrollado espec铆ficamente ad hoc.

Est谩ndares de la biblioteca y el contenido digital

HathiTrust est谩 comprometido con la transparencia en todas sus operaciones, incluido su trabajo para cumplir con los est谩ndares de preservaci贸n digital y los procesos de revisi贸n. Representantes del Centro de Conservaci贸n Digital brit谩nico (Digital Curation Centre, DCC) y Preservaci贸n Digital en Europa (Digital Preservation Europe, DPE) revisaron el almac茅n usando el marco DRAMBORA a finales de 2008.

Adem谩s, HathiTrust cumple con otros est谩ndares aceptados para la preservaci贸n digital, como los mostrados a continuaci贸n:

  • Auditoria y Certificaci贸n de Repositorios de Confianza (Trustworthy Repositories Audit & Certification, TRAC): Criterios y lista de verificaci贸n (2007).
    El documento de TRAC fue desarrollado por el grupo de trabajo de certificaci贸n de almacenes digitales de RLG-NARA (Research Libraries Group & National Archives and Records Administration Digital Repository Certification Task Force), como resultado de una investigaci贸n sobre los medios para auditar y certificar archivos digitales, y se completaron una serie de pruebas para informar sobre la investigaci贸n. TRAC es el punto de origen para un proyecto de desarrollo de est谩ndares ISO sobre auditor铆a y certificaci贸n de archivos digitales.
    HathiTrust ha efectuado una respuesta a los elementos requeridos en los criterios y lista de verificaci贸n del TRAC. El cumplimiento de TRAC del almac茅n fue certificado en 2011 por el Centro para Bibliotecas de Investigaci贸n norteamericano (Center for Research Libraries, CRL), y el informe de auditor铆a est谩 disponible en su sitio web.
  • Sistemas de Informaci贸n Archiv铆stica Abiertos (Open Archival Information System, OAIS): Modelo de referencia (2002).
    El modelo de referencia de OAIS fue desarrollado por el grupo de trabajo de un comit茅 de sistemas de datos espaciales de la NASA y publicado en 2002. OAIS se acept贸 como est谩ndar ISO en 2003, y tuvo su continuaci贸n en 2007. OAIS conceptualiza y define las funciones, roles y contenido de un archivo digital.
    HathiTrust se compromete a desarrollar sus propios sistemas y pr谩cticas de preservaci贸n digital que cumplen con el est谩ndar del modelo de referencia OAIS. Por ejemplo, lo relacionado con el Paquete de Presentaci贸n de la Informaci贸n (Submission Presentation Package, SIP), que se concentra en el Paquete de Informaci贸n de Archivo (Archival Information Package, AIP).
  • Estrategias de Implementaci贸n de Metadatos de Preservaci贸n (Preservation Metadata: Implementation Strategies, PREMIS): Diccionario (2005).
    El diccionario de datos PREMIS y sus documentos asociados fueron desarrollados por un grupo de trabajo convocado por OCLC (Online Computer Library Center) y RLG (Grupo de Bibliotecas de Investigaci贸n, Research Libraries Group). Su mantenimiento y desarrollo est谩 organizado por la Biblioteca del Congreso de EE. UU. (Library of Congress, LoC).
    HathiTrust documenta las fechas de los actos de preservaci贸n, as铆 como las unidades sem谩nticas obligatorias, en archivos METS para cada volumen, de acuerdo con el diccionario de datos PREMIS.

Especificaciones para los objetos digitales

El almac茅n de HathiTrust fue creado de acuerdo con el marco de Sistemas de Informaci贸n Archiv铆stica Abiertos (Open Archival Information Systems, OAIS).

Definiciones

  • Paquete de Informaci贸n Archiv铆stica (Archival Information Package, AIP): El Paquete de Informaci贸n, consistente en Informaci贸n de Contenido y su Informaci贸n de Descripci贸n de Preservaci贸n (Preservation Description Information, PDI) asociada, que se conserva dentro de HathiTrust.
  • Paquete de Informaci贸n de Env铆o (Submission Information Package, SIP): El Paquete de Informaci贸n entregada a HathiTrust y empleada para la construcci贸n de una o m谩s AIPs.
  • Informaci贸n de contenido: El conjunto de informaci贸n que en 煤ltima instancia se quiere conservar. Es un objeto de informaci贸n que abarca al Objeto de Datos de Contenido y su Informaci贸n de Representaci贸n.
    • Objeto de Datos de Contenido: el objeto de dato que, junto con la Informaci贸n de Representaci贸n es originalmente objeto de preservaci贸n (en HathiTrust son en la actualidad archivos de imagen de p谩gina y archivos OCR y metadatos asociados).
    • Informaci贸n de Representaci贸n: La informaci贸n que mapea un Objeto de Datos en conceptos m谩s significativos (incluye est谩ndares a muy bajo nivel, como Unicode y TIFF).
  • Informaci贸n de Descripci贸n de Preservaci贸n: La informaci贸n necesaria para adecuar la preservaci贸n de la Informaci贸n de Contenido y que puede categorizarse en Informaci贸n de Procedencia, Referencia, Continuidad y Contexto.
    • Informaci贸n de Procedencia (Provenance): Documenta la historia de la Informaci贸n de Contenido, incluida su creaci贸n, cualquier alteraci贸n de su contenido o formato a lo largo del tiempo, su cadena de custodia, cualquier acci贸n (como un refresco de los medios o una migraci贸n), efectuada para preservar la informaci贸n del contenido, y el resultado de estas acciones.
    • Informaci贸n de Referencia (Reference): Identifica un铆vocamente la Informaci贸n de Contenido en HathiTrust (por ejemplo, el identificador de repositorio), as铆 como en relaci贸n con entidades y sistemas externos a HathiTrust (por ejemplo, n煤mero OCLC, ISBN, etc.).
    • Informaci贸n de Continuidad (Fixity): Valida la autenticidad o integridad de la Informaci贸n de Contenido. Por ejemplo, un checksum, una firma digital o una marca de agua digital.

Especificaciones

La informaci贸n de Procedencia, Referencia y Continuidad se almacena en HathiTrust en uno o m谩s archivos que cumplen con el Est谩ndar de Codificaci贸n y Transmisi贸n de Metadatos (Metadata Encoding and Transmission Standard, METS). Los objetos digitales de los Paquetes de Informaci贸n Archiv铆stica de todas las fuentes digitalizadas incluyen un archivo METS. Los que provienen del Internet Archive y de Google tienen un archivo METS 芦origen禄 adicional. Estos dos archivos se conforman de la siguiente manera:

  • Un archivo METS 芦origen禄 se ensambla con los metadatos proporcionados por HathiTrust en el Paquete de Informaci贸n de Env铆o, y contiene informaci贸n sobre la Informaci贸n de Contenido desde el momento en que se cre贸 hasta el instante en que entr贸 en el almac茅n.
  • Un archivo METS de HathiTrust se crea durante la incorporaci贸n, e incluye un subconjunto de datos del archivo METS 芦origen禄, pero fundamentalmente es un registro del objeto digital desde el momento en que se introduce en el almac茅n.

La informaci贸n de preservaci贸n incluida en el archivo METS se registra utilizando las Estrategias de Implementaci贸n de Metadatos de Preservaci贸n (Preservation Metadata Implementation Strategies, PREMIS).

HathiTrust ha definido un perfil METS para el contenido digitalizado de Google almacenado en el archivo, y hab铆a definido una pol铆tica general y un marco de especificaciones para contenido de libros y revistas (incluyendo los metadatos de encabezado de imagen, resoluci贸n, identificadores, etc.).

El centro de investigaci贸n

Centro de Investigaci贸n de HathiTrust (HathiTrust Research Center, HTRC).

El Centro de Investigaci贸n de HathiTrust[6] (HathiTrust Research Center, HTRC) permite que usuarios de entidades educativas y organizaciones sin 谩nimo de lucro tengan acceso electr贸nico a trabajos publicados de dominio p煤blico disponibles en HathiTrust. Este acceso se extender谩 en condiciones de uso restringido a trabajos con derechos de autor.

Se trata de un centro de investigaci贸n colaborativo que se lanz贸 con el fin de satisfacer los desaf铆os t茅cnicos a los que los investigadores se enfrentan al tratar con grandes cantidades de texto digital, mediante el desarrollo de herramientas de software de 煤ltima generaci贸n y una infraestructura que permita el acceso electr贸nico avanzado al creciente archivo digital que abarca el conocimiento humano.

As铆 pues, el HTRC proporciona una infraestructura destinada a investigadores de entidades educativas y organizaciones sin 谩nimo de lucro para buscar, obtener, analizar y visualizar el texto completo a millones de obras de dominio p煤blico.

HTRC oculta la complejidad de la investigaci贸n computacional del corpus masivo de HathiTrust. Un investigador interacciona con HTRC a trav茅s de una interfaz que encapsula la funcionalidad y oculta la complejidad de su implementaci贸n.

La interfaz proporciona un portal Web y una interfaz de programaci贸n. HTRC re煤ne varias herramientas de miner铆a de texto, el corpus de HathiTrust, informaci贸n agregada y estad铆stica sobre el corpus y otros or铆genes de datos necesarios para la miner铆a de texto.

Conclusiones

HathiTrust permite a los acad茅micos acceder a un vasto abanico de materiales, producir b煤squedas personalizadas, y descubrir nueva informaci贸n que con anterioridad era dif铆cilmente accesible. HathiTrust realza el valor de estos recursos garantizando el acceso a largo plazo, creando herramientas acad茅micas y mejorando la calidad del contenido digital a lo largo del tiempo. Los investigadores se benefician as铆 de la orientaci贸n de expertos y el acceso consistente del que siempre han hecho gala las bibliotecas de investigaci贸n, pero con la diferencia de que, en vez de tener que buscar uno a uno en los repositorios de cada instituci贸n, se benefician de una colecci贸n compartida. El todo es m谩s que la suma de las partes.

V茅ase tambi茅n

Referencias

Enlaces externos

Este art铆culo ha sido escrito por Wikipedia. El texto est谩 disponible bajo la licencia Creative Commons - Atribuci贸n - CompartirIgual. Pueden aplicarse cl谩usulas adicionales a los archivos multimedia.