Brewster Kahle: Den digitale bibliotekar

Sept. 2002

Det er ikke for meget sagt, at hvis ikke Brewster Kahle, på eget initiativ og i et vist omfang med egne midler, havde startet The Internet Archive så ville en stor del af vores kulturarv være forsvundet.
Nettets indhold har endnu ikke status som finkultur af blivende værdi. Man kan skændes om hvor meget af indholdet der er ligegyldigt eller underlødigt, men under alle omstændigheder er det et væsentligt aspekt af disse års udvikling.

Amerikaneren Brewster Kahle tjente i begyndelsen af halvfemserne en formue på at udvikle systemer til at søge og katalogisere indhold på internettet. Pengene gav ham mulighed for at forfølge en aldeles u-kommerciel drøm: at skabe et arkiv, der kan gemme alle verdens websider for eftertiden.
I 1996 kunne Kahle, med hjælp fra en række store sponsorer fra IT-industrien, begynde indsamlingen af websider, styret fra organisationens smukke træ-bygning i San Francisco. Idag rummer The Internet Archive svulmende computere en større datamængde end Library of Congress.
Sidste år lancerede Brewster Kahle den web-tjeneste, der gør de mange websider tilgængelige for enhver der har internet adgang. "The Wayback Machine" kaldes den. Søgningen er ganske enkel; man indtaster en webadresse, hvorefter man præsenteres for en oversigt, der viser alle de datoer, hvorfra der findes websider gemt fra det site.

Brewster Kahle kalder sig selv "digital bibliotekar", en titel ganske åbenbart er et kald. Hans - og Internet Archives - motto er: Universal access to human knowledge. Menneskehedens viden skal gøres tilgængelig for enhver, også den del der er digital:
"Vi skønner at 10 millioner mennesker har udgivet materiale på internettet, det er virkelig blevet folkets udgivelses-system. Nettet er blevet stedet hvor akademikere offentliggør artikler, det er der selskaber fortæller om sig selv, det er blevet et medie for en stor del af samfundets transaktioner… men det forsvinder. I gennemsnit har websider en levetid på under 100 dage før de tages af eller laves om", siger Brewster Kahle.

Et illustrativt eksempel på et væsentligt historisk dokument, der ville være gået tabt er det website som kulten Heaven's Gate drev indtil medlemmerne begik masse-selvmord i 1997, da kometen Hale-Bopp passerede jorden. Med The Wayback Machine kan man gå ind og se siderne som de var.

Surf i fortiden
Det er Brester Kahles mål at man skal opleve siderne i The Wayback Machine fuldstændig som var det nutiden, man surfede rundt i. Alle links skal være aktive, og alle de typer af medier, der er anvendt skal være tilgængelige.

Teknisk er det ikke helt enkelt. Et af problemerne er at mange websider først genereres som resultatet af en specifik forespørgsel. De komponenter, som websiden er opbygget af, ligger i databaser og samles til lejligheden i forhold til den enkelte forespørgsel. Hvis man skal gemme den type sider, er det nødvendigt at udfylde en forespørgsel, som serveren kan generere en side ud fra. Man kan dårligt få robotten, der indsamler de mange milliarder sider, til at skrive en intelligent forespørgsel.
En anden vanskelighed er såkaldt "streaming media", typisk lyd og video, som afvikles fra en særlig server, der løbende sender sekvensen til brugerens computer, men uden at man kan gemme den. En del video-sekvenser på nettet downloades til brugerens computer og afspilles derfra, men når indholdet "streames" forsvinder indholdet så snart det er vist. Derfor kan Internet Archives maskiner heller ikke kopiere det.

Teknikken til at indsamle websider er blevet væsentligt forbedret siden Internet Archive startede. Går man tilbage og ser på sider tilbage fra 1998 mangler de fleste sider billeder. Der er heller ikke indsamlet nær så mange sider. Man kan således nok finde eksempler på Danmarks Radios websider helt tilbage til 1996, men chancen for at få en webside fra en given dag vokser betydeligt jo længere frem i tiden man søger.

Når siderne indsamles benytter Internet Archive samme metode, som de store søgemaskiner (Google, Yahoo, AltaVista…) gør, når de indexerer nettet. Man sender såkaldte "crawlers" ud på nettet. Det er programmer, der systematisk går fra website til website og gennemgår og indexerer alle links på siden. Derefter følger de alle links de støder på til nye sider og fortsætter så med at gennemgå dem. Sådan kravler de konstant rundt og afsøger nettet. Faktisk udgør crawlerne en meget stor del af nettets aktiviet. På mindre websites er det ikke ualmindeligt at halvdelen af alle besøg på sitet er webcrawlere.

Internet Archives crawlere nøjes ikke med at indexere siderne, man tager simpelthen en kopi af samtlige sider og gemmer dem i arkivets enorme database. Foreløbig er det løbet op i over 10 milliarder, og i øjeblikket øges mængden af gemte sider med en milliard om måneden. Mængden af data i Internet Archive overgår allerede tekstmængden i Library of Congress.
Trods .com-crash'et fortsætter nettet imidlertid med at vokse eksponentielt. Der kommer flere og flere websites, og websiderne bliver stadig mere omfattende rent datamæssigt, i takt med at flere anvender billeder, animationer, videoklip osv.

Internet Archive har omkring 20.000 brugere dagligt. De kommer der ikke kun for at søge oplysninger om de foregående år, men nok så meget for at mindes, hvordan det var. En stor del af The Wayback Machines brugere er folk, der gerne vil se, hvordan deres eget website så ud før i tiden.
En anden, lidt uforudset, gruppe af brugere er folk der vil hente materiale de har mistet - måske fordi deres harddisk er blevet slettet ved et uheld eller fordi firmaet, der var vært for deres website, pludselig gik konkurs og slukkede serverne.

I øjeblikket er søgefunktonen i The Wayback Machine temmelig begrænsede. Man kan søge efter ord, som de fleste er vant til fra søgemaskiner. Man må nøjes med at angive et website og vælge en dato.
Der arbejdes imidlertid på et langt mere avanceret søgeværktøj, og Kahle forventer forventer at kunne gøre det offentligt tilgængeligt indenfor få måneder. Dermed skulle det blive muligt at lave tværsnit i materialet, f.eks. ved finde referencer til den samme person gennem længere tid, eller at finde den samme begivenhed omtalt på en række websites.


Ikke alle vil i arkivet
Der er flere aspekter af the Wayback Machine der kan give anledning til konflikt. Meget materiale i arkivet er dokumenter, som dem, der oprindeligt lagde det ud på nettet, tror forlængst er forsvundet, og som de måske ikke ønsker at nogen skal kunne finde frem igen.

En hel del af materialet kan også siden være blevet taget af den offentlige del af websitet fordi udgiverne ønsker at opkræve penge for adgangen til dem. Typisk viser mange aviser og magasiner deres indhold gratis i en måned, og hvis man derefter vil have adgang til artiklen kræves der betaling.
I øjeblikket er The Wayback Machine ikke kendt af det store flertal og søgefunktionerne er endnu temmelig begrænsede. Men jo lettere det med tiden bliver at søge gamle artikler i The Wayback Machine, des sværere vil udgivere få ved at få kunderne til at betale for adgang til deres arkiver.

Brewster Kahle er en udpræget diplomatisk type. Han mener ikke at det behøver at være et problem:
"Der er folk, der driver en forretning på nettet og det støtter vi. Hvis ikke de vil have deres materiale med i vores internet arkiv, så skal de bare lade os det vide, så tager vi deres sider ud med det samme og vi indsamler ikke fra deres site igen. WWW er så stort, at hvis ikke vil være med… nå ja, så er der rigeligt af andet materiale".
Man fornemmer dog at det piner Brewster Kahle i hans bibliotekar-hjerte at han ikke kan have alt med.

Mange aviser og forlag har bedt sig fri, således kan man eksempelvis ikke slå gamle sider fra den danske avis Politiken op (Berlingske, Jyllandsposten og Danmarks Radio kan man derimod slå op).
Efter 11. Sept. terrorangrebet har den amerikanske regering også bedt om at få fjernet en stor mængde materiale.

Biblioteker må undgå konkurrence med forlagene
Ser man mere generelt på konsekvenserne af at bibliotekers materiale i stigende vil blive digitalt tilgængeligt kunne man frygte en grundlæggende konflikt mellem biblioteker og forlag.

Hvis man kan sidde derhjemme ved sin computer med en internetforbindelse, og det er lige så let at kalde op til et bibliotek som til et forlag, hvad skulle så få brugerne til at opsøge et forlag hvor man skal betale penge for at se det samme materiale, der kan fås gratis gennem bibliotekets digitale udlån?

"Det er ikke i nogens interesse at de virtuelle biblioteker begynder at undergrave forlagsindustrien, og jeg kan ikke se hvorfor vi ikke skulle kunne finde måder at begrænse brugbarheden af et bibliotek, så de ikke konkurrerer med boghandlere og forlag", siger Brewster Kahle.
Forlagene tjener hovedparten af deres penge på ting, der er udgivet for nylig, og efter Kahles mening kunne man derfor indføre en begrænsning således at biblioteket ikke har de allernyeste bøger.
En anden mulighed er at biblioteket kun kan udlåne et begrænset antal digitale kopier af en bog af gangen. Hvis man forsøger at låne Harry Potter fra biblioteket, ja så oplever man at den allerede er udlånt. Det er muligt at biblioteket har et par kopier, men dem kommer man til at stå i kø for.
Endelig kan man gøre det til at krav for at se visse typer materialer at man faktisk går til et fysisk bibliotek.

"Det er noget vi er nødt til arbejde på før vi finder en model der virker", siger Kahle: "Men hovedsagen for mig er at vi i det mindste forsøger! Lad os dog prøve det, lad os komme igang med at skabe universel adgang til menneskelig viden. Usikkerheden er ingen grund til ikke at skubbe på for at skaffe vores børn adgang til det bedste vores kultur har at tilbyde. Hvis IKKE vi gør det, så vores børn kun får alt det dårlige, tilfældige og billige, så får vi de børn vi selv fortjener. Det ville simpelthen være en forbrydelse mod vores børn".

Internettet er Biblioteket
Fremtidens digitale bibliotek vil være meget svært at afgrænse. Biblioteker vil fungere i netværk, hvor de kan trække på hinandens ressourcer, og for brugerne vil det oftest være ligegyldigt hvor det eller de biblioteker hun benytter befinder sig.

Brewster Kahle mener det er yderst påtrængende at få koordineret de mange digitale biblioteker i verden. Der er brug for nye samarbejder i stil med det internationale samarbejde omkring kortkataloger.

"Hvis vi gør vores job godt, så lægger vi ikke bare biblioteker på nettet, vi gør nettet til et bibliotek. Mange tænker allerede på internettet og det at søge på Google som at bruge et bibliotek. Der er ganske vist masser af udgivelser man kan hente, men der mangler stadig en række centrale funktioner, for at man kan betragte nettet som et egentligt bibliotek", mener Kahle:
"Vi må konstruere redskaber til at gemme digitalt materiale når udgiveren fjerner det fra nettet. Der skal være en bedre katalogisering og indexering. Vi skal skabe muligheder for at forsyne materiale med kommentarer og vurderinger, så man bedre kan skelne mellem hvad der er godt og skidt. Og så mangler vi en masse godt materiale der er skrevet før 1995. Der er lavet masser af glimrende udgivelser siden nettet kom frem, men hvad med alt det gamle? Europides skal også være et klik væk, det er vigtigt! Der er masser af godt materiale, der er opbygget gennem årtusinder i vore kulturer, det giver ikke mening at det ikke også skulle findes på nettet".

Det kan varmt anbefales at besøge Internet Archive websitet på www.archive.org.
Her kan - udover at surfe med The Wayback Machine - læse om baggrunden for projektet, om de mange samarbejdspartnere, og en lang række andre interessante projekter, der videreudvikler biblioteker til en ny tid.

Den digitale bogbus
Internet Archives seneste tiltag er den digitale bogbus. Bussen er minivan forsynet med computere og printere, der hurtigt kan opstilles i et lokale eller betjenes direkte fra vognen.

Tanken er at bogbussen skal køre til skoler og andre offentlige steder, hvor folk kan have gavn af muligheden for at downloade informationer eller bøger og få printet dem ud - kyndigt hjulpet af en bibliotekar.
Internet Archives bogbus er også en måde at drage ud for at skaffe opbakning til projektet og til at skabe opmærksomhed omkring behovet for at støtte bibliotekerne. I USA er biblioteker i høj grad afhængig af private sponsorer, og specielt vil det kræve et stort arbejde med fundraising, hvis der skal skaffes midler til at digitalisere bøger så de kan gøres offentligt tilgængelige på nettet.
Internet Archives bogbus er derfor bestemt ikke beregnet til lokalområdet, den vil være på permanent turné rundt omkring i hele USA.