Tipărire
Părinte: Tehnologii web
Categorie: Arhivarea conținutului web
Accesări: 6802

logo wayback 210x77

17 miliarde de URL-uri „recoltate”.
273 de miliarde de pagini web de la 361 milioane de siteuri.
510 miliarde de obiecte web care poartă o marcă de timp.
16 petabytes de date stocate.
[SURSA: https://blog.archive.org/2016/10/23/defining-web-pages-web-sites-and-web-captures/]

Internet Archive are 20 de ani și de 10 ani a lucrat cu specialiștii din biblioteci, arhive și toți cei interesați pentru a conserva resursele existente sau care au existat pe web.
Este nevoie de astfel de servicii pentru a oferi generațiilor viitoare șansa de a intra într-un dialog cu noi, cei care le-am creat în ultimii 20 de ani.

Specialiștii de la Internet Archive consideră că o pagină web capturată este documentul HTML, un fișier de text sau un PDF.

ait logo.pngPentru „recolatarea” propriu-zisă este folosit un software care se numește Archive-it (inițiat în 2016 de 18 instituții) și care de-a lungul timpului a trecut prin 5 iterații constituind și o comunitate în jurul său. Vezi linkul: https://archive-it.org/
Pentru a reuși în misiunea sa, a fost dezvoltat un ciclu de viață intitulat Web Archiving Life Cycle Model (WALCM), fiind o experiență de lucru într-o formă condensată.

intitulat Web Archiving Life Cycle Model (WALCM)

Pentru a afla mai multe despre modelul de ciclu de viața pentru arhivarea web, vă invit să accesați documentele de la următorul link: https://archive-it.org/blog/learn-more/publications/

Pentru a afla mai multe despre Archive-It, vă invit să consultați paginile dedicate acestuia de la următorul link:https://support.archive-it.org/hc/en-us (o versiune mai veche găsiți la: https://webarchive.jira.com/wiki/display/AITH/Archive-It+Help+Center). Care sunt domeniile adresate de arhiva web constituită:

Internet Archive înseamnă și o bibliotecă digitală care are în colecțiile sale aproape 2 milioane de cărți.

Internet Archive oferă un software de gestiune a propriilor cărți în anumite condiții. Este același pachet software care gestionează openlibrary.org și poate fi clonat de la repo-ul: https://github.com/internetarchive/openlibrary
Baza de date a clonei este din 2013, dar este îndeajuns pentru a vă da un start solid. Instalarea este ușoară și jocul cu pachetul software este plăcut. Dacă cineva poate configura mai departe felul în care serviciile sunt oferite și fluxul de prelucrare, putem considera că este un software de bibliotecă puternic.

Versiunea online, openlibrary.org are în acest moment 1.871.670 cărți în format digital care au fost digitizate și publicate între 1008 și 2016.

Grafic Open Library

Pentru a oferi o experiență de lectură completă, Internet Archive a dezvoltat și un cititor online. Codul sursă este disponibil de la repo-ul: https://github.com/internetarchive/bookreader.

Instanța pe care am instalat-o pe o mașină virtuală (Vagrant), oferă o versiune care poate fi considerată a fi una de test, dar oferă o perspectivă și din punct de vedere al administratorului.

Instanta locală Open Library Page Shot 2016 11 13 Internet Archive Digital Library of Free Books Movies Music Wayback MachineNu v-am spus că în afară de cărți, puteți găsi ORICE! Nu mă credeți? Aveți nevoie de software care rula pe computerele anilor 90, e acolo (https://archive.org/details/softwarelibrary). Doriți fonograme pe 78 de RPM? Acolo găsiți.

Da, poți juca jocuri vechi într-o secțiune dedicată, care poate fi accesată la următorul link, deja celebru: https://archive.org/details/internetarcade. Se pot face chiar embeduri. Iată unul din jocurile care mi-a fost simpatic cu foarte mulți ani în urmă:

Pentru a refolosi software scris de Internet Archive, vă invit să accesați repo-ul https://github.com/internetarchive.

Ceea ce mai rămâne este să felicităm eforturile celor care îngrijesc de WaybackMachine și de Internet Archive.

Citește și:

Prezervarea resurselor web

World Wide Web la 20 de ani - La Multi Ani