Archivo web
La instalación internacional más grande para el archivo web es Internet Archive en San Francisco (EE. UU.), Que se ve a sí mismo como el archivo de toda la World Wide Web. Los archivos y bibliotecas estatales de muchos países están haciendo esfuerzos para proteger los registros de la red en su área.
Desde 1987, las leyes de archivo alemanas definieron el archivo de documentos digitales como una tarea obligatoria de los archivos estatales, pero la implementación de este mandato apenas está comenzando. En 2006 se aprobó la DNBG (Ley de la Biblioteca Nacional Alemana), que amplía el mandato de la Biblioteca Nacional Alemana para incluir el archivo de sitios web. Los estados federales están planeando cambiar su depósito legal -Gesetze en este sentido, o el cambio ya se ha producido.
El objetivo del archivo web es mapear sistemáticamente una sección definida de las presencias web disponibles en Internet. Para ello, se debe aclarar de antemano una política general de recopilación, un procedimiento de selección y la frecuencia de archivo.
Un sitio web archivado con todas las funciones multimedia ( código HTML , hojas de estilo , JavaScript , imágenes y video) debe conservarse a largo plazo. Para su posterior descripción, uso y conservación se utilizan metadatos como la procedencia , el momento de la adquisición, el tipo MIME y el alcance de los datos. Los metadatos garantizan la autenticidad e integridad del material de archivo digital.
Después de la toma de posesión, se deben tomar las precauciones técnicas y legales para garantizar la accesibilidad pública constante y evitar cambios posteriores en el material de archivo.
- Recurso original
- Una fuente original que está o debería estar disponible en Internet y para la que se requiere acceso a un estado anterior.
-
Recuerdo
- Un recuerdo deuna fuente original es un recurso que encapsula el estado original de una fuente en un momento definido.
- TimeGate
- Un TimeGatees un recurso que, en función de una fecha y hora determinadas, encuentra el recuerdo que mejor se corresponde con este límite de tiempo.
- TimeMap
- Un TimeMapes un recurso que genera una lista de todos los recuerdos que se han creado para la fuente original.
- Inespecífico
- En este proceso de selección, un dominio completo se escribe gradualmente en un archivo. Debido al gran requisito de memoria, el procedimiento solo funciona para dominios más pequeños (netarkivet.dk).
- lista de selección
- Se determina de antemano una lista de instituciones. La estabilidad de las URL asociadas a las instituciones debe comprobarse periódicamente.
- Uso de estadísticas de acceso
Cosecha remota
El método de archivo más común es utilizar un rastreador web . Un rastreador web recupera el contenido de un sitio web como un usuario humano y escribe los resultados en un objeto de archivo. Más precisamente, esto significa una búsqueda recursiva de sitios web basada en los enlaces que se encuentran en ellos, comenzando desde un área de inicio determinada, que puede ser un sitio web o una lista de sitios web que se van a buscar. Debido a limitaciones cuantitativas, por ejemplo , debido a la duración o el espacio de almacenamiento, son posibles varias restricciones (condiciones de terminación) con respecto a la profundidad, el dominio y los tipos de archivos que se archivarán.
En proyectos más grandes, la evaluación de sitios web para la clasificación de URL es de particular importancia. En el curso de un proceso de rastreo, se puede acumular una gran cantidad de direcciones web, que luego se procesan en una lista utilizando el método FIFO o como una cola de prioridad . En el último caso, los sitios web se pueden imaginar en una estructura de montón. Cada sitio web en sí mismo forma su propio montón y cada enlace a otro sitio web que se encuentra en él forma un subpaquete que representa un elemento en el montón del sitio web anterior. Esto también tiene la ventaja de que, en caso de que la lista de URL se desborde, las que tienen la prioridad más baja se reemplazan primero por nuevas entradas.
Sin embargo, la estructura inicial en el servidor rara vez se puede reproducir exactamente en el archivo. Para poder descartar cualquier problema técnico que pueda surgir en el período previo a la duplicación, es aconsejable realizar un análisis del sitio web con antelación. Aunque esto duplica el tráfico de datos en la mayoría de los casos, acorta considerablemente el tiempo de trabajo en caso de error.
Algunos ejemplos de rastreadores web son:
- Heritrix
- HTTrack
- Explorador sin conexión
Archivando la Web Oculta
La web oculta o deep web se refiere a bases de datos que a menudo representan el contenido real de un sitio web y solo se generan a petición del usuario. Como resultado, la web cambia constantemente y parece como si tuviera un tamaño infinito. Se requiere una interfaz que se basa principalmente en XML para hacerse cargo de estas bases de datos . Para tal acceso se han desarrollado las herramientas DeepArc ( Bibliothèque nationale de France ) y Xinq ( Biblioteca Nacional de Australia ).
Archivo transaccional
Este procedimiento se utiliza para archivar los resultados de un proceso de uso de un sitio web. Es importante para las instalaciones que deben proporcionar evidencia de su uso por razones legales. El requisito previo es la instalación de un programa adicional en el servidor web.
A nivel federal, la Biblioteca Nacional Alemana (DNB) tiene el mandato legal para el archivo web desde 2006. Desde 2012, los sitios web se han archivado temáticamente y para ciertos eventos, es decir, de forma selectiva y no en su totalidad. El DNB trabaja con un proveedor de servicios externo. Además, todos los dominios DE se rastrearon una vez en 2014 . Se accede principalmente al archivo web en las salas de lectura.
Además del archivo web del DNB, existen iniciativas en varios estados federales:
- Baden-Württemberg : El Archivo en línea de Baden-Württemberg (BOA) ha estado recopilando publicaciones digitales y sitios web seleccionados desde 2002.
- Baviera : la Biblioteca Estatal de Baviera ha estado recopilando sitios web seleccionados desde 2010.
- Renania-Palatinado : La Rheinische Landesbibliothek ha estado recopilando sitios web seleccionados en el proyecto edoweb desde 2003. .
- Registro de transacciones compatible
- Ciclo de vida del contenido
- Archivado electrónico
- Archivado a largo plazo
- Iniciativa de Archivos Abiertos
- ARCHIVO WEB
- La "Wayback Machine" del Archivo de Internet
- Archive.is
- WebCite
- Caché de Google (la última versión de una dirección web en la variante optimizada para servidores de Google estará disponible durante algunas semanas)
- Viaje en el tiempo (metabúsqueda en aproximadamente 25 archivos de Internet)
- Gyo / Megalodon (metabúsqueda japonesa en archivos de Internet)
- Taller internacional de archivo web (IWAW) : taller anual sobre archivo web
- La Biblioteca del Congreso, Colecciones y Programas Digitales
- Biblioteca del Congreso, Archivo web
- Bibliografía de archivo web : bibliografía para archivo web
- Lista de discusión de archivo web : analiza cuestiones técnicas, organizativas y legales relacionadas con el archivo web.
- Literatura de Michael L. Nelson - artículos científicos en dblp.uni-trier.de
-
Steffen Fritz: Reescritura de la historia. (PDF) con archivos WARC. Enero de 2016, archivado desde el el9 de noviembre de 2017;consultado el 9 de noviembre de 2017.
-
Guía Memento: Introducción.Consultado el 5 de octubre de 2018.
-
Steffen Fritz: Informe de práctica: Procedimiento para evaluar la capacidad de archivo de objetos web En: ABI Technik No. 2, 2015, págs. 117–120. doi: 10.1515 / abitech-2015-0015
-
Archivo web de flujo de trabajo en archivo a largo plazo en la Bayerische Staatsbibliothek | BABS.Consultado el 24 de marzo de 2020.
-
Edoweb: servidor de archivo de Renania-Palatinado para documentos electrónicos y sitios web.Consultado el 24 de marzo de 2020.