Sidebar

Uttrekkssammenligning - to uttrekk fra samme system


I hvilken grad påvirker en ordningsmedarbeider arkivet som blir bevart for ettertiden? Dette spørsmålet er stilt mange ganger, og ansvaret som følger av påvirkningsmuligheten, er en viktig bevisstgjøring hos alle som ordner arkiver. Så hva om vi kunne sammenligne hvordan to ordningsmedarbeidere ordnet det samme arkivet?

Ved sammenligning av to uttrekk fra det samme sakarkivsystemet har vi på IKA Kongsberg gjort et forsøk på å se på hvilke måter uttrekksprosessen kan påvirke arkivene vi bevarer i dag. Så spørsmålet er egentlig: I hvilken grad påvirker uttrekksprosessen arkivene vi bevarer?

Uttrekk og Noark – kort forklart
I Norge er bevaring av elektroniske arkiver basert på det som kalles migreringsstrategi. Kort fortalt betyr dette at datasystemer som produserer arkiver, i seg selv ikke er bevaringsverdig. Det er kun arkivdokumentene med tilhørende og nødvendig kontekstualisering (metadata) som skal trekkes ut, og lagres på en måte som vil sikre materialet bedre for ettertiden. Man kan enkelt sammenligne det med ordning av et papirarkiv. Ved ordning gjør man bevaring og kassasjonsvurderinger, begrenser, sjekker ryddighet og oversiktlighet samt bytter ut lagringsenheter for best mulig bevaring. Dette gjøres for å sikre at papiret skal sikres lengst mulig som informasjonsbærer.
De samme prinsippene gjelder for digitale arkiver. Ved å trekke ut data fra det opprinnelige systemet, forsøker man å lagre arkivet på best mulig måte for ettertiden. Det ryddes og struktureres for å lette tilgjengeligheten, og det konverteres til godkjente arkivformater for å sikre lesbarhet på lang sikt. Uttrekk som gjøres fra sakarkivsystemene skal struktureres etter den Norske standarden for digitalt skapte arkiver, Noark. Denne standarden har en lang historie, og gjeldende standard for nye systemer er Noark 5, men mange systemer i bruk i dag er godkjent etter den forrige versjonen; Noark 4. Standarden spesifiserer 96 tabeller, som regulerer hvilken metadata som skal bevares, og hvordan den skal være strukturert.

To uttrekk – samme resultat?
På IKA Kongsberg fikk vi i fjor mulighet til å gjøre en kvalitativ analyse av et Noark 4-uttrekk fra en av våre kommuner. Ved oppdatering til Noark 5 ble det gamle systemet avsluttet, og det ble levert et uttrekk, produsert av en kommersiell aktør. I tillegg fikk vi muligheten til å ta et alternativt uttrekk av det samme systemet, og fikk dermed muligheten til å undersøke forskjellene mellom de to. Sammenligningen baserer seg på to ulike uttrekk (uttrekk A og uttrekk B) produsert med forskjellige verktøy, men fra samme arkivsystem. Vi har, enkelt sagt, bedt to ulike ordningsmedarbeidere om å ordne det samme arkivet etter samme premisser og strukturer. I tillegg har vi søkt i det komplette originale materialet, for å kunne se kritisk på det utvalget som er gjort.

Datautvalg
En enkel sammenligning av hvilke metadatafiler som er inkludert i uttrekk A og uttrekk B, viser 13 tabeller mer i uttrekk B enn i uttrekk A. Test med Riksarkivets testverktøy ArkN4, viser at alle obligatoriske tabeller er inkludert i begge uttrekk. Uttrekk B mangler 3 av tabellene som finnes i uttrekk A, hvilket betyr at uttrekke B inneholder 16 tabeller som ikke er inkludert i uttrekk A. Flere av disse inneholder informasjon som vil kunne ha en verdi for arkivet på sikt. Forskjellig antall metadatafiler indikerer aktive og ulike valg hos uttrekksleverandørene, noe som potensielt har stor virkning på arkivet som blir bevart.

Omskriving
En detaljert gjennomgang av metadatafilene for journaler og saker i uttrekk A indikerte at arkivet i sin helhet var skapt på papir, mens Uttrekk B viste et fåtall av saker og journalposter registrert med papirdokumenter. Uttrekk A var levert med digitale dokumenter, og skulle være brukt som helelektronisk arkiv. Avklaring med uttrekksprodusent viste at denne feilen ble introdusert av uttrekksprogrammet som hadde gjort en omskriving av data, basert på et ønske fra en tidligere kunde. I dette tilfelle er det foretatt en utilsiktet omskriving av metadata, som kan få direkte konsekvenser på hvordan arkivet oppfattes og kan brukes i fremtiden. Slik feilinformasjon blir en «godkjent» del av arkivet og vil påvirke hvordan vi kan, og vil bruke arkivet på sikt.

 «Standardpåkrevd omskriving»
Omskriving av data er et prinsipielt problem. Eksempelet viser utilsiktet omskriving, men vi har også funnet eksempler på at uttrekkleverandøren må tillegge data i uttrekket for at det skal bli godkjent. I tabellen som inneholder alle merknader fra systemet, fant vi i uttrekk A at alle merknader var av typen «arkivmerknad», mens det i uttrekk B kun var «saksbehandlermerknad». Like merknader hadde forskjellig typebemerkning i de to uttrekkene. Der merknader i Noark 4-uttrekk er samlet i én tabell, må de hentes fra tre tabeller i det aktuelle sakarkivsystemet. Kun én av disse tabellene definerer merknadstype, men denne typebetegnelsen er obligatorisk i Noark 4-uttrekk. Det vil si at alle merknadene som kommer fra de to tabellene som ikke spesifiserer dette, må tillegges informasjon som ikke er skapt av arkivskaper for å bli et godkjent arkivuttrekk i henhold til Noark 4-standarden. Slik «standardpåkrevd omskriving» gir en indikasjon, ikke bare på hvilken påvirkning uttrekksprodusenten har på arkivet, men hvilken påvirkning som kreves.
Av undersøkelsene på metadatafilene er det svært tydelig at uttrekksprodusenten påvirker arkivet i betydelig grad. Både utvalg av data, utilsiktede eller tilsiktede omskrivinger samt påkrevde omskrivinger for å passe i standarden, påvirker arkivet som blir bevart. På bakgrunn av dette er det betenkelig at standard testing av arkivuttrekk i dag, gjøres uten å se uttrekket opp mot den opprinnelige databasen, eller i sammenligning med alternative uttrekk. Men gjelder dette bare metadatafilene? Hva med dokumentene, som er kjernen i det digitale Noark 4-arkivet?

Dokumentene – lakunen i arkivet
Uttrekk A ble levert med 28 667 filer i godkjent format og struktur. De tilhørende metadatafilene viste det samme antallet, og ArkN4 telte 28 667 dokumenter. Dette tilsier at arkivet var deponert med rett antall dokumenter fra det opprinnelige sakarkivsystemet. Det var først i sammenligning mellom uttrekk A og B at vi ble oppmerksomme på at det var et avvik på 15 810 filer. I uttrekk B var det 44 477 filer, oppgitt i samme metadata-fil som oppgav 28 667 i uttrekk A. Ved søk i den originale basen fant vi det som kunne anslås som det rette antall dokumenter. Basen viste 47 646 filer som skulle være med i uttrekket. Dette gir et avvik på 18 979 filer til uttrekk A, og 3169 filer til uttrekk B, og viser tydelig at uttrekksprodusenten ikke bare har påvirkning på de metadata som blir bevart, men på selve dokumentene fra arkivet.

I hvilken grad påvirker uttrekksprosessen arkivene vi bevarer i dag? Basert på sammenligningen mellom to ulike uttrekk fra samme system, kan vi se at påvirkningen er betydelig. Uttrekksprodusenten påvirker utvalget av data fra det opprinnelige systemet, gjør omskrivinger tilsiktet eller utilsiktet, og kan og må legge til data som ikke er skapt som en del av arkivdanningen. I tillegg viste denne sammenligningen kritiske mangler av arkivdokumenter som ikke ville bli oppdaget ved normal testing. Sammenligningen indikerer at standarden slik den er implementert, systemene slik de er strukturert, uttrekksprosessen og testingen til sammen ikke sikrer god arkivbevaring for ettertiden. Disse indikasjonene underbygger ett viktig moment: Vi må ha mer kunnskap om hvordan prosessen og dagens systemer påvirker arkivbevaring for ettertiden!


Av Petter B. Høiaas, IKA Kongsberg
Se eldre artikler...