Web-Archivierung

百度同样是长沙第一代城市综合体的悦方IDMall在近两年也是动作频频。

Web-Archivierung bezeichnet das Sammeln und dauerhafte Ablegen von Netzpublikationen mit dem Zweck, in der Zukunft ?ffentlichkeit und Wissenschaft einen Blick in die Vergangenheit bieten zu k?nnen. Ergebnis des Vorgangs ist ein Web-Archiv.

Die gr??te internationale Einrichtung zur Web-Archivierung ist das Internet Archive in San Francisco (USA), das sich als Archiv des gesamten World Wide Web versteht. Staatliche Archive und Bibliotheken in vielen L?ndern unternehmen Anstrengungen zur Sicherung der Netzüberlieferung in ihrem Bereich.

Die deutschen Archivgesetze definierten ab 1987 die Archivierung digitaler Unterlagen als Pflichtaufgabe der staatlichen Archive, die Umsetzung dieses Auftrags l?uft aber erst an. Im Jahr 2006 wurde das DNBG (Gesetz zur deutschen Nationalbibliothek) verabschiedet, das den Auftrag der Deutschen Nationalbibliothek auf die Archivierung von Websites ausdehnt. Auch die Bundesl?nder planen, ihre Pflichtexemplar-Gesetze in diesem Sinne zu ?ndern, oder haben die ?nderung bereits vollzogen.

Archivierungsziele

Web-Archivierung verfolgt das Ziel, einen definierten Ausschnitt der im Internet vorhandenen Web-Pr?senzen in systematischer Form abzubilden. Hierfür sind eine übergreifende Sammlungspolitik, ein Auswahlverfahren und die H?ufigkeit der Archivierung vorab zu kl?ren.

Eine archivierte Website sollte mit allen multimedialen Funktionen (HTML-Code, Stylesheets, JavaScript, Bilder und Video) auf Dauer erhalten werden. Der sp?teren Beschreibung, Nutzung und Erhaltung dienen Metadaten wie Provenienz, übernahmezeitpunkt, MIME-Type und Umfang der Daten. Die Metadaten sichern Authentizit?t und Integrit?t der digitalen Archivalien.

Nach der übernahme sind technische und juristische Vorkehrungen zu treffen, um eine st?ndige ?ffentliche Zug?nglichkeit zu garantieren und eine nachtr?gliche Ver?nderung der Archivalien zu verhindern.^[1]

Begrifflichkeiten

Original Resource: Eine originale Quelle, die aktuell im Internet vorhanden ist oder vorhanden sein sollte und für die ein Zugriff auf einen früheren Zustand ben?tigt wird.^[2]^[3]
Memento: Ein Memento einer originalen Quelle ist eine Ressource, die den originalen Zustand einer Quelle zu einem definierten Zeitpunkt kapselt.^[2]^[3]
TimeGate: Ein TimeGate ist eine Ressource, die auf Basis eines vorgegebenen Datums und einer Zeitangabe jenes Memento findet, welches dieser zeitlichen Vorgabe am besten entspricht.^[2]^[3]
TimeMap: Eine TimeMap ist eine Ressource, welche eine Liste aller Mementos ausgibt, die für die originale Quelle je angelegt wurden.^[2]^[3]

Auswahlverfahren

Unspezifisch: Bei diesem Auswahlverfahren wird eine ganze Domain nach und nach in ein Archiv geschrieben. Das Verfahren funktioniert wegen des gro?en Speicherbedarfs nur bei kleineren Domains (netarkivet.dk).
Auswahlliste: Eine Liste von Institutionen wird vorab festgelegt. Die Stabilit?t der mit den Institutionen verbundenen URLs ist regelm??ig zu prüfen.
Nutzung von Zugriffsstatistiken: In Zukunft ist ein ?intelligentes“ Harvesting (deutsch ?Ernten“) denkbar, das aufgrund von Zugriffsz?hlungen diejenigen Teile des Web (oder einer Auswahl) archiviert, die besonders hohe Zugriffsraten aufweisen.

übernahmemethoden

Remote harvesting

Die üblichste Archivierungsmethode ist die Nutzung eines Webcrawlers. Ein Web-Crawler ruft die Inhalte einer Website wie ein menschlicher Nutzer ab und schreibt die Ergebnisse in ein Archivobjekt. Genauer betrachtet bedeutet das ein rekursives Durchsuchen von Webseiten anhand der darauf gefundenen Links, ausgehend von einem gewissen Startbereich, der entweder eine Webseite oder auch eine Liste an Webseiten, die durchsucht werden sollen, sein kann. Aufgrund mengenm??iger Limitationen, etwa wegen Dauer oder Speicherplatz, sind diverse Einschr?nkungen (Abbruchbedingungen) hinsichtlich Tiefe, Domain und der zu archivierenden Dateiarten m?glich.

Bei gr??eren Projekten kommt hierbei der Bewertung von Webseiten zur URL-Reihung eine besondere Bedeutung zu. Im Verlauf eines Crawl-Vorganges k?nnen sich unter Umst?nden sehr viele Webadressen ansammeln, die dann entweder in einer Liste nach dem FIFO-Verfahren oder als Priorit?tswarteschlange abgearbeitet werden. Für letzteren Fall kann man sich die Webseiten dabei in einer Heap-Struktur vorstellen. Jede Webseite an sich bildet einen eigenen Heap und jeder darin gefundene Link zu einer weiteren Webseite bildet wiederum einen Unterheap, der ein Element im Heap der vorhergehenden Webseite darstellt. Das hat auch den Vorteil, dass im Fall einer überlaufenden URL-Liste zuerst diejenigen mit der niedrigsten Priorit?t durch neue Eintr?ge ersetzt werden.

Die Ausgangsstruktur auf dem Server l?sst sich allerdings im Archiv nur selten exakt nachbauen. Um bereits im Vorfeld einer Spiegelung eventuell auftretende technische Probleme ausschlie?en zu k?nnen, bietet es sich an, vorab eine Analyse der Webseite durchzuführen. Dies verdoppelt zwar in den meisten F?llen den Datenverkehr, verkürzt aber die aufzuwendende Arbeitszeit im Fehlerfall erheblich.^[4]

Beispiele für Webcrawler sind:

Heritrix
HTTrack
Offline Explorer

Archivierung des Hidden Web

Das Hidden Web oder Deep Web bezieht sich auf Datenbanken, die oft die eigentlichen Inhalte einer Website repr?sentieren und nur auf Anfrage eines Nutzers ausgegeben werden. Auch dadurch ?ndert sich das Web st?ndig und es erscheint, als würde dieses eine unendliche Gr??e besitzen. Zur übernahme dieser Datenbanken ist eine Schnittstelle erforderlich, die meist auf XML beruht. Für einen solchen Zugang sind die Tools DeepArc (Bibliothèque nationale de France) und Xinq (National Library of Australia) entwickelt worden.

Transactional archiving

Dieses Verfahren dient der Archivierung der Ergebnisse eines Nutzungsprozesses von Websites. Es ist für Einrichtungen von Bedeutung, die aus rechtlichen Gründen einen Nachweis über ihre Nutzung zu führen haben. Voraussetzung ist die Installation eines Zusatzprogramms auf dem Webserver.

Webarchivierung in Deutschland

Auf Bundesebene hat die Deutsche Nationalbibliothek (DNB) seit 2006 den gesetzlichen Auftrag zur Webarchivierung. Seit 2012 werden Webseiten thematisch und bei bestimmten Ereignissen archiviert, also selektiv und nicht vollumf?nglich. Die DNB arbeitet dabei mit einem externen Dienstleister zusammen. Au?erdem wurden 2014 bisher einmalig alle DE-Domains gecrawlt. Der Zugriff auf das Webarchiv erfolgt haupts?chlich in den Leses?len.^[5]

Neben der Webarchivierung der DNB gibt es in verschiedenen Bundesl?ndern Initiativen:

Baden-Württemberg: Das Baden-Württembergische Online-Archiv (BOA) sammelte bis 2019 digitale Publikationen und ausgew?hlte Webseiten.^[6] Seit 2020 benutzt das Landesarchiv Baden-Württemberg das DIMAG-Modul DIWI, für die bibliothekarischen Aufgaben hat das Bibliotheksservice-Zentrum den Dienst Archive-It des Internet Archive beauftragt.
Bayern: Die Bayerische Staatsbibliothek sammelt seit 2010 ausgew?hlte Webseiten.^[7]^[8]
Berlin: Die Zentrale Landesbibliothek Berlin baut seit 2024 ein Webarchiv mit verschiedenen Webseitensammlungen auf.^[9]
Nordrhein-Westfalen: Die nordrhein-westf?lischen Landesbibliotheken (Landesbibliotheken in Bonn, Düsseldorf und Münster) archivieren seit 2024 auch Webseiten mit Bezug zu Nordrhein-Westfalen.^[10]
Rheinland-Pfalz: Die Rheinische Landesbibliothek sammelt seit 2003 im Projekt edoweb ausgew?hlte Webseiten.^[11]
Sachsen: Die S?chsische Landesbibliothek – Staats- und Universit?tsbibliothek Dresden baut seit 2024 ein eigenes Webarchiv auf. Technische Grundlage bildet der Service ?Archive-It“ des Internet Archive.^[12]

Au?erdem gibt es in Deutschland weitere Webarchivierungsinitiativen beispielsweise von parteinahen Stiftungen, vom SWR, von der Deutschen Post oder vom Biotechnologie-/Pharmaunternehmen Abbvie.

Siehe auch

Compliant Transaction Recording
Content-Lifecycle
Elektronische Archivierung
Langzeitarchivierung
nestor – Kompetenznetzwerk Langzeitarchivierung und Langzeitverfügbarkeit digitaler Ressourcen in Deutschland e.V.
Open Archives Initiative
Web ARChive

Umsetzungen

Die ?Wayback Machine“ des Internet Archives
Archive.today
DIMAG
WebCite
Google-Cache (Die letzte Version einer Web-Adresse in der für Google-Server optimierten Variante wird für einige Wochen bereit gestellt)

Weblinks

Time Travel (Metasuche in ca. 25 Internet-Archiven)
Gyo/Megalodon (Japanische Metasuche in Internet-Archiven)
International Internet Preservation Consortium (IIPC) – Internationales Konsortium mit der Aufgabe, Informationen und Wissen aus dem Internet für künftige Generationen zu übernehmen, zu erhalten und zug?nglich zu machen
International Web Archiving Workshop (IWAW) – J?hrlich stattfindender Workshop zur Web-Archivierung
Digital Collections and Programs. Library of Congress.
Web Archiving. Library of Congress.
Web archiving bibliography. tuwien.ac.at; Literaturliste zur Web-Archivierung.
Web archiving discussion list. cru.fr; Diskutiert technische, organisatorische und rechtliche Fragen der Web-Archivierung.
Literatur von Michael L. Nelson – wissenschaftliche Artikel auf dblp.uni-trier.de

Einzelnachweise

↑ Steffen Fritz: Rewriting History. (PDF) with WARC files. Januar 2016, archiviert vom Original (nicht mehr online verfügbar) am 9. November 2017; abgerufen am 9. November 2017 (englisch).
↑ ^a ^b ^c ^d RFC: 7089 – HTTP Framework for Time-Based Access to Resource States – Memento. (englisch).
↑ ^a ^b ^c ^d Memento Guide: Introduction. Abgerufen am 5. Oktober 2018 (englisch).
↑ Steffen Fritz: Praxisreport: Verfahren zur Evaluierung der Archivierbarkeit von Webobjekten. In: ABI Technik. Nr. 2, 2015, S. 117–120. doi:10.1515/abitech-2015-0015
↑ Tobias Steinke: Das deutsche Internet archivieren? Zwischen selektivem Ansatz und .de-Domain-Crawl. Deutsche Nationalbibliothek, 26. Juni 2014 (dnb.de [PDF]).
↑ Felix Geisler, Wiebke Dannehl, Christian Keitel, Stefan Wolf: Zum Stand der Webarchivierung in Baden-Württemberg. In: Bibliotheksdienst. Band 51, Nr. 6, 1. Juni 2017, ISSN 2194-9646, S. 481–489, doi:10.1515/bd-2017-0051 (degruyter.com [abgerufen am 24. M?rz 2020]).
↑ Tobias Beinert: Webarchivierung an der Bayerischen Staatsbibliothek. In: Bibliotheksdienst. Band 51, Nr. 6, 1. Juni 2017, ISSN 2194-9646, S. 490–499, doi:10.1515/bd-2017-0052 (degruyter.com [abgerufen am 24. M?rz 2020]).
↑ Workflow Web-Archivierung in der Langzeitarchivierung an der Bayerischen Staatsbibliothek | BABS. Abgerufen am 24. M?rz 2020.
↑ Webarchivierung. Zentral- und Landesbibliothek Berlin, abgerufen am 6. Juni 2025.
↑ Webarchivierung. Landesbibliotheken NRW, abgerufen am 6. Juni 2025.
↑ Edoweb: Rheinland-pf?lzischer Archivserver für elektronische Dokumente und Websites. Abgerufen am 24. M?rz 2020.
↑ Archivierung von Websites. S?chsische Landesbibliothek — Staats- und Universit?tsbibliothek Dresden (SLUB), abgerufen am 6. Juni 2025.

[1] Steffen Fritz: Rewriting History. (PDF) with WARC files. Januar 2016, archiviert vom Original (nicht mehr online verfügbar) am 9. November 2017; abgerufen am 9. November 2017 (englisch).

[RFC7089-2] RFC: 7089 – HTTP Framework for Time-Based Access to Resource States – Memento. (englisch).

[mementoweb-3] Memento Guide: Introduction. Abgerufen am 5. Oktober 2018 (englisch).

[tech_analyse-4] Steffen Fritz: Praxisreport: Verfahren zur Evaluierung der Archivierbarkeit von Webobjekten. In: ABI Technik. Nr. 2, 2015, S. 117–120. doi:10.1515/abitech-2015-0015

[5] Tobias Steinke: Das deutsche Internet archivieren? Zwischen selektivem Ansatz und .de-Domain-Crawl. Deutsche Nationalbibliothek, 26. Juni 2014 (dnb.de [PDF]).

[6] Felix Geisler, Wiebke Dannehl, Christian Keitel, Stefan Wolf: Zum Stand der Webarchivierung in Baden-Württemberg. In: Bibliotheksdienst. Band 51, Nr. 6, 1. Juni 2017, ISSN 2194-9646, S. 481–489, doi:10.1515/bd-2017-0051 (degruyter.com [abgerufen am 24. M?rz 2020]).

[7] Tobias Beinert: Webarchivierung an der Bayerischen Staatsbibliothek. In: Bibliotheksdienst. Band 51, Nr. 6, 1. Juni 2017, ISSN 2194-9646, S. 490–499, doi:10.1515/bd-2017-0052 (degruyter.com [abgerufen am 24. M?rz 2020]).

[8] Workflow Web-Archivierung in der Langzeitarchivierung an der Bayerischen Staatsbibliothek | BABS. Abgerufen am 24. M?rz 2020.

[9] Webarchivierung. Zentral- und Landesbibliothek Berlin, abgerufen am 6. Juni 2025.

[10] Webarchivierung. Landesbibliotheken NRW, abgerufen am 6. Juni 2025.

[11] Edoweb: Rheinland-pf?lzischer Archivserver für elektronische Dokumente und Websites. Abgerufen am 24. M?rz 2020.

[12] Archivierung von Websites. S?chsische Landesbibliothek — Staats- und Universit?tsbibliothek Dresden (SLUB), abgerufen am 6. Juni 2025.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

人的肝脏在什么位置	分泌物豆腐渣状是什么原因	bw是什么意思	t什么意思	gbm是什么意思
什么叫意象	妈富隆是什么药	六合是什么意思	什么是宫颈纳囊	六盘水为什么叫凉都
三重一大是什么内容	小跟班是什么意思	苏联是什么国家	zd是什么意思	十一月份什么星座
吃了布洛芬不能吃什么	赤茯苓又叫什么	无花果什么时候成熟	姿态万千的意思是什么	右附件区囊肿是什么意思

hla医学上是什么意思hcv9jop5ns0r.cn	红眼鱼是什么鱼hcv9jop6ns5r.cn	藿香正气水什么味道hcv8jop4ns3r.cn	眉头下方有痣代表什么hcv8jop3ns7r.cn	膀胱癌早期是什么症状hcv7jop6ns4r.cn
榜眼是什么意思hcv8jop6ns6r.cn	蟾宫是什么意思hcv9jop7ns5r.cn	淋巴结肿大吃什么药hcv8jop8ns9r.cn	林黛玉和贾宝玉是什么关系hcv8jop3ns5r.cn	kodak是什么牌子hcv9jop6ns0r.cn
什么运动瘦脸inbungee.com	早上八点到九点属于什么时辰hcv9jop6ns4r.cn	格格不入是什么意思hcv8jop1ns8r.cn	月经提前10天是什么原因hcv8jop9ns3r.cn	芥末为什么会冲鼻helloaicloud.com
弄虚作假是什么生肖hcv8jop6ns3r.cn	大是大非是什么意思yanzhenzixun.com	3月9号是什么星座gysmod.com	上海最高的楼叫什么hcv8jop2ns3r.cn	什么对眼睛好hcv8jop1ns4r.cn