Marcin Wilkowski

Znikające strony

Jak archiwizować internet?

21 marca 2017

Archiwizacja publicznych stron WWW nie przysparza większych problemów. Ogromnym wyzwaniem dla archiwistyki Webu jest natomiast archiwizowanie mediów społecznościowych. Chris Clor/Blend Images / Getty Images

W internecie łatwo coś umieścić, ale równie łatwo – skasować. Dlatego tak ważne są sieciowe archiwa.

Gajus-Images/PantherMedia Dziś archiwistyka Webu jest dynamicznie rozwijającą się dziedziną wiedzy.

Upadek wież WTC zaatakowanych przez terrorystów 11 września 2001 r. dokumentowała olbrzymia liczba cyfrowych fotografii i filmów, a miliony komentarzy interpretowały go w internecie. Niedługo potem amerykańskie Centrum Historii i Nowych Mediów (CHNM) zaczęło gromadzić te źródła w archiwum cyfrowym, które w 2003 r. stało się częścią zbiorów Biblioteki Kongresu.

Już wtedy nie były to działania ani wyjątkowe, ani nowatorskie – w początkach XXI w. funkcjonowało przynajmniej kilka dużych programów archiwizacji stron WWW, wśród których wyróżniały się swoim globalnym zasięgiem działania fundacji Internet Archive. Jej założyciel, programista i inwestor Brewster Kahle, od 1996 r. archiwizował dostępne serwisy internetowe i publikowane online oprogramowanie. W artykule w „Scientific American” z marca 1997 r. bezpośrednio nawiązywał do starożytnej Biblioteki Aleksandryjskiej, mającej gromadzić wszystkie współcześnie dostępne teksty. Fundacja Internet Archive miała być jej następczynią w erze cyfrowej i zabezpieczać na masową skalę publicznie dostępne zasoby WWW, by mogły być w przyszłości wykorzystywane w badaniach i edukacji. Aby tego dokonać, dysponując odpowiednim zapleczem technicznym, wypuszczał do internetu tzw. crawlery, programy sczytujące i kopiujące strony WWW. Ponieważ rozpoznawały one linki umieszczane w ich treści, potrafiły przechodzić z jednego adresu URL na drugi i w ten sposób budować ogromne archiwum. Dziś Internet Archive przechowuje ponad 284 mld pojedynczych stron WWW, plików txt i pdf publikowanych w internecie od połowy lat 90. Przeglądać je można w darmowej usłudze Wayback Machine.

Nie tylko nostalgia

Dziś, po 20 latach od założycielskiego artykułu w „Scientific American”, archiwistyka Webu jest dynamicznie rozwijającą się dziedziną wiedzy.

Polityka 12.2017 (3103) z dnia 21.03.2017; Nauka; s. 72

Oryginalny tytuł tekstu: "Znikające strony"