Det er sikkert ingen nyhet, siden Nasjonalbibliotekets prosjekt Paradigma startet i 2001, men i dag så jeg for første gang at Nasjonalbiblioteket hadde vært innom og hentet dokumenter på et norsk nettsted jeg er webmaster for.
Personlig synes jeg det er interessant å lese Paradigmas FAQ som blant annet kan fortelle at sidene som ble innhentet av prosjektet ikke vil bli gjort bredt tilgjengelig.
Paradigma ble avsluttet 31. desember 2004, men innsamlig av nettsider fortsetter i Nasjonalbibliotektes pliktavleveringsprogram. På deres nettsider kan man lese om det de kaller vevfangst.
Det er interessant å lese mer om vevfangst delen av pliktavleveringen. Nasjonalbiblioteket skriver blant annet:
Nettdokumenter avleveres ikke i tradisjonell forstand. I dag laster Senter for pliktavlevering ned aktuelle dokumenter fra nettet. Deretter registreres nettdokumentene i biblioteksystemet BIBSYS, og lagres i vårt digitale sikringsmagasin. Foruten enkeltdokumenter har vi også lastet ned grupper av dokumenter, f.eks. lastet ned de politiske partienes nettsteder i forbindelse med Stortingvalget 2001. Vi tar også vare på norske nyhetsgrupper på nettet.
Om Nasjonalbibliotekets Paradigma prosjekt også finnes i Bibsys er det kanskje noen av dere som kan fortelle meg? Godt iallefall at dokumentene er såpass godt tilgjengelige, selv om jeg personlig helst ville ha sett at alt elektronisk innhold i Nasjonalbibliotekets arkiver var tilgjegnelig på nettet.
Det er uansett godt å vite at man har gjort en innsats for å samle inn nettinformasjon og lagre det for ettertiden. I løpet av webbens korte 12 år har alt for mye gått tapt og mye av innholdet har vist seg å ha vært svært flyktig.
Takk. :-)
Dette er en typisk aksess fra Nasjonalbibliotekets vevfangst:
158.39.128.240 – – [01/Mar/2005:16:22:53 +0100] «GET /html/448.html HTTP/1.0» 200 17056 «-» «mozilla/5.0 (compatible; heritrix/1.3.0 +http://www.nb.no/vevfangst)»
De henter forøvrig alt som er, både bilder og HTML-dokumenter.
Hvordan identifiserer Paradigma seg i loggene?