Datakilde - Vox Publica https://voxpublica.no/tag/datakilder/ Magasin om demokrati og ytringsfrihet Fri, 16 Jun 2017 10:50:03 +0000 nb-NO hourly 1 Gerilja-lagring: Bibliotek i USA slår ring om forskingsdata https://voxpublica.no/2017/06/gerilja-lagring-bibliotek-i-usa-slar-ring-om-forskingsdata/ Thu, 15 Jun 2017 11:16:23 +0000 https://voxpublica.no/?p=17470 – Vi kjente heilt frå starten at dette var ei oppgåve for oss i forskingsbiblioteka, seier Margaret Janz. Ho er bibliotekar ved Van Pelt Library, hovudbiblioteket ved Universitetet i Pennsylvania i USA. No sit ho på eit kontor i lag med kollegaene Laurie Allen og Kimberly Eke, og fortel via Skype om korleis dei hamna i sentrum av ei rørsle som jobbar med å «geriljalagre» offentlege forskingsdata.

Rørsla består av bibliotekarar, forskarar, it-folk og andre interesserte, og sidan november i fjor har dei frenetisk lasta ned og sikkerheitslagra datasett og annan informasjon frå nettsidene til føderale forskings- og forvaltingsorgan. Høgast prioritet har klima- og miljødata.

– Eigd av folket

– Det dreier seg om store datamengder som er produserte av institusjonar som ligg under styresmaktene, men som er eigd av folket. Dei finst berre digitalt, og det er opp til styresmaktene å sikre at dei er tilgjengelege for deg og meg. I realiteten er informasjonen prisgitt det gjeldande politiske klimaet, seier Janz.

Då Donald Trump vann presidentvalet i USA sist november, var det mange som brått vart urolege for dei store mengdene forskingsdata og annan informasjon knytt til klima og miljø, som låg spreidd på mange offentlege nettstader. Det var ikkje slik at ein frykta at informasjonen brått ville bli sletta. Slikt finst det lover mot. Men ein av dei få tinga Trump snakka systematisk om gjennom heile valkampen, var at han ville vengestekke det amerikanske miljødirektoratet EPA, og løyve mindre pengar til klimaforsking (denne lovnaden har han innfridd).

Fra stor protestmarsj mot Trumps forskningspolitikk i Washington DC 22. april 2017.

DataRefuge. DataRefuge sette straks i gang med såkalla databerging, der interesserte møttest for å peike ut viktige datasett og laste dei ned på sikre stader. Ei rekkje organisasjonar og institusjonar slutta seg til, nokre nystarta for føremålet, og mange databergingar gjekk av stabelen både i USA og i Canada i dei første hektiske månadane.

Det vart raskt klart at det å ta vare på informasjon som berre finst på nett, ikkje er enkelt. For det første finst det inga oversikt over kva data som finst der ute. Dessutan er informasjonen ofte ikkje spesielt godt organisert. Det er der bibliotekarane kjem inn.

– Særleg dei store forskingsbiblioteka, som oss, har lenge vore opptekne av desse problemstillingane. Etter kvart danna vi nettverket Libraries+, der vi prøver å finne løysingar for å handtere problemet i stor skala, og ikkje berre det som gjeld miljødata, men alle fagområde, fortel Laurie Allen, hovudbibliotekar med ansvar for digital forskingsstøtte, også ved Universitetet i Pennsylvania.

Var ikkje på radaren

Mange av reglane som gjeld det å ta vare på og tilgjengeleggjere offentleg informasjon, er laga for trykte medium og fungerer ikkje så godt i den digitale tidsalderen. Den nye politiske situasjonen avslørte mange mentale blindsonar.

– Vi trudde vi allereie gjorde mykje rett. Det blir til dømes arbeidd mykje med open tilgang til forsking, altså å få informasjonen ut på nett i det heile. Og ved forskingsbiblioteka har vi gjort mykje for å leggje til rette for våre eigne forskarar. Men dette enorme landskapet av offentleg informasjon som allereie ligg på nett, og som veldig mange menneske nyttar dagleg – det var ikkje på radaren, sjølv om problemet sjølvsagt har vore der heile tida. Presidentvalet vart ein augeopnar som gjorde folk merksame på problemet, seier Allen.

– Og kor store datamengder snakkar vi om?

– Ingen veit. Vi veit at det er snakk om mange petabyte. Kva heiter den tingen som kjem etter petabyte – exabyte? Eg vil tru det er nokre slike. Eitt av dei viktige spørsmåla er korleis vi avgjer kva som skal takast vare på. Prøver vi å spare på alt som nokon gong er blitt publisert, så løyser vi jo ikkje noko problem, tvert imot, seier Allen.

Må sikre truverdet

Eit anna problem er korleis ein kan vite at den informasjonen ein tek vare på, er identisk med originalen. I motsetnad til trykt informasjon, kan digital informasjon endrast med eit tastetrykk. Straks Trump overtok som president, vart til dømes nettsidene til EPA endra i påvente av at den nye politiske leiinga skulle avgjere kva informasjon dei ville presentere. Eit augeblikksbilete av nettsidene slik dei framsto før endringa, vart gjort tilgjengeleg på dei nye nettsidene, men i ettertid har det vist seg at ikkje all informasjonen på dei gamle nettsidene er inkludert i dette augeblikksbiletet, men er forsvunne. Slikt er vanskeleg å avsløre om ein ikkje har ein påliteleg original å samanlikne med.

President Donald Trump annonserer at han vil trekke USA ut av Paris-avtalen. Rosehagen ved Det hvite hus 1. juni 2017. (Foto: Det hvite hus/Joyce N. Boghosian)

– Kampen for open tilgang til forskingsdata har heile tida hatt som mål at alle skal kunne bruke datasetta til det dei vil. Men i så fall må ein jo også vere sikker på at dei er pålitelege. Det var forskarane som påpeikte dette problemet og sa at data må kunne siterast. Noko anna er at data kan vere veldig mykje forskjellig. Mange ser for seg vitskaplege data som lister med tal i eit stabilt format som lett kan delast, men eigentleg snakkar vi om all type informasjon på skjerm. Det kan like gjerne vere ei nettside som fortel skulelærarar om økologi, peikar Laurie Allen på.

Omgrepet «gerilja-arkivering» oppsto og vart raskt teke i bruk i samband med dei første organiserte databergingane etter valet. Men Kimberly Eke, avdelingsdirektør for lærings- og forskingsstøtte og den tredje rundt bordet, fortel at dei ser på seg sjølve først og fremst som bibliotekarar, ikkje som politiske aktivistar.

– Dette er rett og slett ting vi lenge har visst at vi må finne ut av, og no er vi i ein spesiell politisk situasjon der mange er interesserte i å involvere seg.

Aktivisme i arkivet

Når omstenda ligg til rette for det, kan det å ta vare på informasjon bli ei politisk opprørshandling.

For nokre år sidan var det mange som vart djupt rørde over å høyre om korleis bibliotekarar og lokale innbyggjarar i Timbuktu i Mali greidde å smugle ut store mengder uerstattelege mellomaldermanuskript og dermed hindre dei frå å bli øydelagte av islamistar. Takka vere innsatsen deira, kan dokumenta no bli digitaliserte og bevarte for ettertida.

Å lage arkiv og samle dokumentasjon har truleg alltid vore ein del av sosial og politisk aktivisme. Det omfattande arkivet etter den jødiske filosofen Edmund Husserl, som i dag finst i Leuven i Belgia, ville neppe ha eksistert om ikkje fransiskanarmunken Herman Van Breda hadde lukkast i å smugle det ut av Nazi-Tyskland i 1939. På same tid kunne ei stor mengde tyskspråklege sosialistiske tidsskrift, som vart øydelagde i Tyskland under andre verdskrigen, etterpå finnast att på «Det røde bibliotek» på Rjukan. Dei vart møysommeleg samla av Henrik J. Hjartøy, arbeidarpartimann og biblioteksjef frå 1917 til 1936, og finst i dag berre éin annan stad i verda, i nasjonalbiblioteket i Paris.

Utfordra majoritetskulturen

Andre halvdel av 1900-talet såg ei rekkje initiativ der til dømes kvinnerørsler, arbeidarrørsler og organisasjonar for homofile og lesbiske etablerte eigne arkiv som kunne fortelje om andre sider ved historia enn dei som vart fortalde i den dominerande kulturen. Slike arkiv kunne ha fleire føremål: Forstå historia betre, ta eigarskap til minne og identitet, eller avdekke maktmisbruk og urettvise. Uavhengigheit frå institusjonsarkiva var naudsynt i desse tilfella. Marginaliserte grupper kunne sjeldan lite på at institusjonane til majoritetssamfunnet vil ta tilfredsstillande vare på deira historie.

I seinare år har mange institusjonsarkiv fått meir inkluderande retningsliner, og det har igjen resultert i, til dømes, ulike dokumentasjonsprosjekt som har sprunge ut av «Black lives matter»-rørsla. Der går arkivarar, organisasjonar og vanlege borgarar saman om å dokumentere politivald mot svarte i USA.

Eit anna døme er «Skeivt arkiv», Noregs største samling dokument frå personar og organisasjonar relatert til «skeiv» historie, som no held hus ved Universitetsbiblioteket i Bergen.

Gerilja-arkiveringa i dagens USA skil seg frå mykje annan aktivist-arkivering ved at aktivistane ikkje er ute etter å fortelje nye historiar, men å bevare den etablerte. I lys av «postfaktasamfunnet» kan det å insistere på at vitskapleg informasjon er offentleg eigedom, like fullt oppfattast som politisk aktivisme.

– Liten grunn til uro i Noreg

Her til lands er offentleg digital informasjon meir truga av manglande systematikk, enn av politisk motivert historieforfalsking, meiner Herbjørn Andresen, førsteamanuensis ved Institutt for arkiv‑, bibliotek- og informasjonsfag ved Høgskolen i Oslo og Akershus..

– Den typen uro vi ser i USA, over at til dømes Environmental Protection Agency brått fjernar ein masse informasjon frå nettsidene sine, den er det førebels lite grunnlag for i Noreg, seier Andresen.

Han fortel at når det gjeld dokumentasjon av slikt som saksbehandling og korrespondanse, er det stort sett stødige system på plass i forvaltinga, og informasjonen er tilgjengeleg i den grad ein kan få dispensasjon frå reglane om personvern. Det vil ikkje seie at arkiveringa er feilfri, men det eksisterer planar og rutiner for å ta vare på informasjonen.

Systematikken manglar

– Nettsider er ei anna sak. Nasjonalbiblioteket «haustar» informasjon frå norske nettdomene, men vansken er å vite kva som vil vise seg å vere viktig i ettertid, seier Andresen.

Han nemner nettadressa pandemi.no som døme. Den vart oppretta av Helsedirektoratet i 2009 for å gje informasjon om svineinfluensaepidemien og massevaksineringa som styresmaktene sette i gang.

– I dag sender adressa deg til nettstaden til Folkehelseinstituttet. Men innhaldet på den opphavlege nettsida vart teke vare på for ettertida, på initiativ frå Riksarkivaren som såg på det som eit interessant historisk dokument. Ein systematisk gjennomgang av kva som blir publisert av offentlege verksemder, derimot, det manglar, seier han.

Prioriterer det nasjonalt viktige

Gretel Mari Braaten Westman er teamleiar for nettarkivet ved Nasjonalbiblioteket, som «haustar» informasjon frå norske nettstader. Ho seier at nettsider som tilhøyrer det offentlege heile tida har vore høgt prioritert.

– Vi har nokre seleksjonskriterium for kva vi hauster, til dømes hendingar av nasjonal viktigheit, slik som val, eller terroråtaket i 2011. Også kultur- og samfunnsliv skal dokumenterast, så vi haustar til dømes alt av nettaviser.

I januar 2016 kom lova om pliktavlevering til Nasjonalbiblioteket i ny utgåve. Den gjev Nasjonalbiblioteket rett til å samle inn informasjon som er allmennt tilgjengeleg på norske domene, utan å be om førehandsgodkjenning.

– Korleis kan de vite at de får med dykk det vesentlege?

– Vi er heldige i Noreg som har Brønnøysundregisteret, som er offentleg tilgjengeleg. Ein kan sortere verksemder på sektor og fange opp, til dømes, alt innanfor statleg sektor. Vi får også tips. Ved ei kommunesamanslåing nyleg, fekk vi tips om at nettsidene til dei to kommunane som skulle slåast i hop, ville bli erstatta av ei ny felles nettside frå ein viss dato. Dermed fekk vi tid til å ta vare på dei gamle. Slike endringar er det sjølvsagt veldig interessant for oss å vite om.

]]>
Klimadata: Et supert regneark https://voxpublica.no/2013/02/klimadata-et-supert-regneark/ Fri, 01 Feb 2013 14:12:06 +0000 https://voxpublica.no/?p=9849 Det finnes mange kilder til data om utslipp og klimaendringer. Alle er imidlertid ikke like lett tilgjengelige. Designeren David McCandless og hans team har gjort (og gjør) en kjempejobb med å samle inn og presentere nøkkeldata i et Google-regneark. Herfra kan du lett kopiere ut eller laste ned dataene i formatet du selv ønsker. Blant dataene du finner: Klodens “karbonbudsjett”, utslipp per land og innbygger, temperaturer siden 1850, forventet oppvarming og konsekvenser. Regnearket er også fullt av henvisninger til primærkildene.

Blogginnlegget er publisert i samarbeid med nettmagasinet Energi og Klima.

]]>
Ingen apps uten data https://voxpublica.no/2013/01/ingen-apps-uten-data/ Thu, 17 Jan 2013 11:14:14 +0000 https://voxpublica.no/?p=9786 1. februar lanseres Apps4Norge, en konkurranse for utvikling av de beste appene for mobile og web-baserte tjenester basert på åpne offentlige data. Fristen for innsending av bidrag er 15. april, og arrangørene Difi og IKT-Norge lokker med pengepremier.

Råstoffet utviklere trenger for å lage nyttige applikasjoner er selvfølgelig data. Arrangørene lover at nye datasett blir gjort tilgjengelig i forbindelse med konkurransen, og det er helt nødvendig. Farten i åpningen av offentlig sektors data har vært lavere enn mange av oss hadde håp om for noen år siden.

Data bør også tilrettelegges, skal konkurransen lykkes. Datakildene bør være lette å finne fram til og finnes i formater utviklere foretrekker (API-er der det er relevant). Mitt inntrykk er i hvert fall at mange utviklere helst vil bruke tid på det kreative arbeidet med å lage apps og interaktive visualiseringer, ikke på å grave fram datagrunnlaget.

Så hvordan finne datakildene? Her er noen lenker og tips:

  • Data.norge.no: Datakildeportal og datahotell drevet av Difi, der offentlige virksomheter oppfordres til å registrere og legge ut sine data. I det siste har det dukket opp interessante data der om bl.a. samferdsel.
  • Datakilder.no (CKAN): Uavhengig datakildeportal tilrettelagt av Open Knowledge Foundation. Drøyt 200 datasett er registrert der.
  • Oppsøk dataeier: Hvis du vet hvilken offentlig etat/virksomhet som forvalter dataene du er interessert i, sjekk nettstedet deres. Det kan godt være at datakilder er tilgjengelig der uten at de er registrert i noen av datakildeportalene. SSB er kanskje det beste eksemplet.
  • Krev innsyn: Hvis du vet om data som ikke er tilgjengelig, men burde være det, ta kontakt med dataeier og krev innsyn. Det kan være lurt å finne medsammensvorne for å presse dataeier litt ekstra. Twitter: #offdata og #Apps4Norge.

Det går altså an å gjøre noe selv. Et eksempel: Energi og klima er en sektor der det finnes mange interessante datakilder og store muligheter for utviklere. Som ledd i jobben jeg gjør for nettmagasinet Energi og Klima har jeg begynt på en samling av viktige datakilder på feltet. Denne vil jeg utvide i tiden som kommer. Tips gjerne om datakilder som burde være med i en slik samling.

]]>
Spor utslippene helt tilbake til kilden https://voxpublica.no/2012/01/spor-utslippene-helt-tilbake-til-kilden/ Thu, 12 Jan 2012 09:59:53 +0000 https://voxpublica.no/?p=7534 Forskningsprosjektet “The Supply Chain of CO2 emissions” kobler data om utslipp fra fossile energikilder fordelt på land og regioner med data om verdenshandel og økonomi. Slik kan utslippskilder spores gjennom hele den globale forsyningskjeden. Det gjør det bl.a. mulig å se hvor i verden CO2 ble sluppet ut for å produsere de varer og tjenester som forbrukes i et bestemt land. En kan også gå et skritt til bakover i kjeden og se hvor det fossile brenselet som trengtes for å produsere de samme varene og tjenestene, stammer fra.

Bak prosjektet står forskere fra Carnegie Institution for Science og norske Cicero.

The Supply Chain of CO2 emissions:

Blogginnlegget ble først publisert i nettmagasinet Energi og Klima.

]]>
Data er best på film https://voxpublica.no/2011/02/data-er-best-pa-film/ https://voxpublica.no/2011/02/data-er-best-pa-film/#comments Thu, 03 Feb 2011 13:59:31 +0000 https://voxpublica.no/?p=5523 “Gi oss rådata nå” er fortsatt et gyldig og nødvendig slagord. Tilgang til data produsert av offentlig sektor er ennå ingen selvfølge, og det vil ta en del tid før vi kommer dit. Sånn sett holder vi stadig på med å si “a”. Men mange datakilder er alt tilgjengelig for bruk og fortolkning, så det er ingen grunn til å vente med å si “b” — nemlig: Hvordan kan og vil datakilder brukes for å forbedre journalistikk og informasjonstjenester, og i siste instans vår forståelse av samfunnet?

To videoproduksjoner som ble publisert i fjor er noe av det beste du kan bruke tid på hvis du er opptatt av disse spørsmålene. I den første, “The Joy of Stats”, er det Hans Rosling som briljerer. Uforglemmelige forelesninger om global folkehelse og statistikkens historie (og Gapminder, selvsagt) har gjort Rosling til noe av en internasjonal kjendis, og i “The Joy of Stats” tar han seeren med til statistikkens tidlige historie, forteller om høydepunkter i vitenskapshistorien og presenterer dagens debatter om hvor frigivelsen av datakilder og datakraft er i ferd med å føre forskning og samfunn. Bildet under er fra øyeblikket i videoen (etter ca. 12 minutter) der en jublende Rosling forteller at verdens første systematiske innsamling av statistikk fant sted i… Sverige!

Italia har Da Vinci, Sverige har Tabellverket!!

Tema for den andre videoen er dataflommens journalistiske muligheter. Geoff McGhee, en journalist tilknyttet Stanford-universitetet i California, sveiper i åtte kapitler innom mange problemstillinger datajournalister vil møte: Hvordan arbeidet med datakilder kan integreres i redaksjonell arbeidsflyt; hvordan tradisjonell nyhetsgrafikk forandres av nettbaserte data; hvordan data kan brukes til å fortelle historier. Ekstra fint med McGhees video er at han går rett på “b”. De mange kildene som intervjues problematiserer vyene om datajournalistikkens herligheter, og spør vanskelige spørsmål om hvordan data kan presenteres slik at de faktisk appellerer til publikum.

Video og bakgrunnsinformasjon smeltet sammen.

En fantastisk ting med McGhees video er den gjennomførte presentasjonen. Jeg kan ikke huske å ha sett dette gjort bedre. Her kan man velge mellom fire ulike måter å se videoen på. Bildet over er fra den annoterte versjonen. Her dukker bakgrunnsinformasjon, f.eks. lenker til eksempler som omtales, opp nedenfor videoruten etter hvert som du spiller av. Oppe til høyre kan du velge en annen versjon: Se den i på Vimeo, på YouTube, eller last ned de enkelte episodene i MPEG-4-format. Og du kan republisere videoene, siden de er utstyrt med en Creative Commons-lisens.

Til felles har de to videoene at de forteller historier om data og statistikk; særlig Rosling bruker klassiske fortellergrep. Både direkte og indirekte får de dermed fram noe jeg er sikker på vil prege både journalisters og andres anvendelse av datakilder framover. Rådata er nødvendig for å komme i gang, men så vil valgene presse seg på: Hvorfor disse dataene? Hvorfor nå? Hvilken historie vil jeg fortelle?

***
OPPDATERING: Videojournalist Henrik D. Meyer i Dagens Næringsliv møtte Hans Rosling i går. Her er resultatet — en spesialpresentasjon av Norges økonomiske utvikling siden 1800-tallet, selvsagt støttet av Gapminder-verktøyet.

Klikk på bildet for å se videoen på dn.no.

]]>
https://voxpublica.no/2011/02/data-er-best-pa-film/feed/ 1
Bedre oversikt over norske datakilder https://voxpublica.no/2010/04/bedre-oversikt-over-norske-datakilder/ https://voxpublica.no/2010/04/bedre-oversikt-over-norske-datakilder/#comments Tue, 06 Apr 2010 10:47:31 +0000 https://voxpublica.no/?p=3284 Fra og med i dag er no.ckan.net åpen for registrering av norske datakilder.

Gjennom et samarbeid med britiske Open Knowledge Foundation har vi fått opprettet en norsk versjon av CKAN. Dette er en programvare spesiallaget for å finne, dele og gjenbruke åpent innhold og data. Det er CKAN som brukes til å registrere datakildene i den britiske regjeringens data.gov.uk (de har kombinert den med publiseringsverktøyet Drupal).

Den som vil viderebruke offentlige data, kommer ikke langt uten kunnskap om hvilke data som faktisk finnes. Det er grunnen til at land som USA og Storbritannia har opprettet sine datakildeportaler. Mange storbyer har gjort det samme.

Det er neppe noen dristig spådom at alle land etter hvert vil opprette slike portaler. I Norge har fornyingsminister Rigmor Aasrud opplyst at arbeidet med en norsk datakildeoversikt er i gang. Den kan ikke komme fort nok.

Som del av Infomedias prosjekt om offentlige data, startet vi i høst på veien mot en datakildeoversikt. Vi gjorde det på enkleste måte, med å registrere datakilder i et offentlig Google-regneark. Og vi fikk god hjelp fra det framvoksende fellesskapet av folk som vil frigi og gjenbruke offentlige data. Med CKAN tar vi et skritt videre — et stort skritt, synes vi.

I skrivende stund er 137 norske datakilder registrert. Vi har fått importert alle datasettene fra Google-regnearket. Det er altså bare å registrere seg, logge inn og sette i gang — med å legge inn nye datakilder og forbedre informasjonen om de allerede eksisterende. Det går for øvrig også an å gjøre endringer uregistrert. Da blir IP-adresse logget, som i Wikipedia.

Dataene som legges inn der kan selvsagt viderebrukes av andre igjen. Det skulle bety at arbeidet som legges ned her for eksempel kan inngå i regjeringens kommende, offisielle datakildeportal.

CKAN er basert på åpen kildekode og kombinerer funksjonene i et register, en liste, en pakkeindeks og en wiki. Les mer om programvaren og konseptet.

Vi er klar over at det henger igjen noen engelske termer her og der i den norske versjonen. Vi samarbeider med CKAN-folkene om å rydde opp i dette. Gi gjerne tilbakemelding her om andre ting du ser som burde fikses.

CKAN inngår i det brede arbeidet for såkalt åpen kunnskap — fri tilgang til datakilder, innhold og andre kunnskapsbærere. Det er viktig at regjeringen i arbeidet med en datakildeoversikt definerer klare lisenser som gjør viderebruk av dataene enklest mulig. Her kan en altså støtte seg på et internasjonalt rammeverk, der definisjonen av åpen kunnskap og Creative Commons-lisenser står sentralt.

]]>
https://voxpublica.no/2010/04/bedre-oversikt-over-norske-datakilder/feed/ 2
Offentlige data i Norge: ti forslag https://voxpublica.no/2010/01/offentlige-data-i-norge-ti-forslag/ https://voxpublica.no/2010/01/offentlige-data-i-norge-ti-forslag/#comments Tue, 12 Jan 2010 08:17:19 +0000 https://voxpublica.no/?p=2547 Kartleggingen av offentlig sektors datakilder i Norge har pågått i perioden august til desember 2009. Vi (det er Gudrun T. Grene, Line T. Reiersen og undertegnede) har forsøkt å besvare to hovedspørsmål:

  • Hvilke datakilder forvalter offentlige virksomheter?
  • Hva hindrer at mer av disse dataene gjøres tilgjengelig for viderebruk?

På denne bloggen har vi rapportert underveis om foreløpige resultater og viderebrakt nyheter om temaet fra inn- og utland. Nå foreligger rapporten, som du kan laste ned i sin helhet i pdf-format her. (OBS stor fil, 14 MB. Publisert under CC-lisens “Navngivelse 3.0 Norge” — se nederst).

Rapporten rundes av med noen forslag til tiltak som vi tror kan bidra til økt oppmerksomhet om og frigivelse av datakilder i norsk offentlig sektor.

Utgangspunktet må være et enkelt definert mål: Flere offentlige datakilder må frigis for viderebruk. Og dette må selvsagt gjøres på en måte som ikke truer personvernet.

Initiativet ligger først og fremst i offentlig sektor, og spesielt hos Fornyings- og administrasjonsdepartementet (FAD). Kartleggingen har vist at kompetansen og interessen for åpne data er ujevnt fordelt på fag- og forvaltningsnivåer, og det er mange virksomheter som ligger langt framme og kan bidra med avgjørende erfaringer som vil komme godt med når et slikt mål skal virkeliggjøres.

Tiltakene vi foreslår knytter seg til kunnskap og kompetanse, regler og rammeverk, insentiver og virkemidler.

  • Opprett et norsk data.gov: Dette bør defineres som et hasteprosjekt. Erfaringene fra spesielt USA viser at en portal der datakilder fra alle deler av offentlig sektor presenteres under ett, er et effektivt tiltak for å fokusere og øke oppmerksomheten om verdien av offentlig sektors data. En raskt arbeidende prosjektgruppe burde kunne få opp et slikt nettsted i løpet av kort tid (i hvert fall innen første halvår 2010). Den amerikanske og den kommende britiske portalen kan tas som utgangspunkt og de foreløpige erfaringene derfra studeres for å se om det er behov for spesifikt norske justeringer. Selvsagt bør man også bygge på erfaringene til de norske virksomhetene som har gjort et arbeid på feltet allerede, som SFT, SSB og Avinor.
  • Oppmuntre til regionale og lokale datakildesamlinger: Kommuner og fylkeskommuner bør i samarbeid med KS, FAD og andre lage enkle maler for lokale og regionale samlinger av datakilder. Spesielt større byer, men også mindre kommuner har data som vil være av stor verdi for innbyggere, næringsliv og medier å få tilgang til (her kan man også trekke på erfaringene til regionale dataportaler som San Franciscos og Londons).
  • Definer prinsipper og lisenser: Det er stor variasjon i hvordan data gjøres tilgjengelig for viderebruk (ulike formater osv.) og hvilke betingelser som knyttes til dataene (fra fri viderebruk til kun ikke-kommersiell m.fl). FAD bør definere et sett klare prinsipper for offentlig sektors data. Her kan man la seg inspirere av den britiske regjeringens liste. Prinsippene bør inneholde en definisjon av hva slags lisenser datasettene skal utstyres med. I dag brukes altfor mye energi på å finne ut om og hvordan data kan viderebrukes. Et enhetlig regelverk vil være et av de viktigste enkelttiltakene.
  • Gi personvernet spesialbehandling: Både i virksomheter i offentlig sektor og i befolkningen er det bekymring for at personvernet kan svekkes dersom mer offentlige data frigis. I prinsippene for frigivelse av offentlige data bør spørsmålet om sikkerhet for persondata gis inngående behandling, slik at virksomhetene har klare kriterier å forholde seg til når de skal vurdere frigivelse av datakilder.
  • Gjør data-frigivelse til kvalitetskriterium: Den årlige kvalitetsvurderingen av offentlig sektors nettsteder tiltrekker seg mye oppmerksomhet. Det er gjevt å komme høyt opp her og virksomhetene setter av ressurser for å forbedre seg. I 2010-vurderingen bør nye kriterier tas inn for å måle hvor godt virksomhetene informerer om datakilder på nettstedene sine, og hvor dyktige de er til å frigi datakilder på korrekt måte. Mange av prinsippene vi foreslår blir definert (under forrige punkt) bør her brukes mer eller mindre direkte som målepunkter. Dette bør gi resultater allerede i løpet av det kommende året.
  • Definer pilotprosjekter: Plukk ut bestemte typer datakilder som i dag ikke er tilgjengelige og som har særlig stort potensial. Definer pilotprosjekter for å utvikle verktøy og definere standarder for frigivelse av disse datakildene, og ha som del av prosjektet at data faktisk frigis. Inviter næringsliv, utviklere og medier til å konkurrere om pilotprosjektene. Eksempel: Voteringsdata fra Stortinget, fylkestinget og kommunestyrene er i rapporten pekt på som en type data med stort potensial for viderebruk i sammenhenger som kan styrke interessen for demokrati og valg.
  • Skriv en håndbok: Samle alle regler, prinsipper, lisenser og eksempler på beste praksis for frigivelse av data i en nettbasert håndbok som oppdateres fortløpende (en wiki egner seg meget godt til dette). Her kan man la seg direkte inspirere av det nederlandske prosjektet omtalt i denne rapporten. Som del av det prosjektet ble det også produsert en plakat som illustrerer stegene fram mot frigivelse av data. Som en begynnelse på et slikt prosjekt har vi publisert en artikkel om god praksis for frigivelse av data.
  • Driv nettverksbygging: Ansatte som arbeider med datakilder i ulike etater og nivåer i offentlig sektor bør møtes til workshops — fysisk og nettbasert — for å utveksle erfaringer. Denne nettverks- og kompetansebyggingen bør være åpen for alle interesserte også fra næringsliv, journalistikk og utviklermiljøer. Også her kan man trekke direkte på de nederlandske erfaringene referert til i denne rapporten.
  • Utlys ekstramidler til data-frigivelse: I offentlige virksomheter er mange opptatt av direkte eller indirekte kostnader som påløper hvis de skal arbeide mer med å klarere og frigi datakilder. Dette kostnadsspørsmålet bør tas alvorlig: Ett tiltak kan være å utlyse en konkurranse der friske midler øremerkes dette arbeidet. En del av ekstrakostnadene vil være knyttet til arbeid som må gjøres én gang.
  • Opprett en “utrykningsenhet”: Kostnadsspørsmålet kan også takles ved at det opprettes en prosjektgruppe eller “task force” som arbeider på tvers av etater og virksomheter. Gruppen bør utvikle løsninger som hjelper virksomhetene med å komme hurtigere i mål med å legge data til rette for viderebruk.

Alle disse forslagene retter seg mot de relevante politiske myndighetene og fagorganene, altså særlig FAD og DIFI. Flere av tiltakene kan imidlertid med fordel settes ut i livet i samarbeid med organisasjoner, utviklere, medier, alminnelige brukere. I tillegg er det selvsagt mye de potensielle “viderebrukerne” kan gjøre. Medier og journalister har antakelig bare så vidt begynt å prøve ut mulighetene offentlighetslovens nye paragraf 9 (og andre lovhjemler) gir for å få utlevert data (denne muligheten er som kjent også åpen for alle, ikke bare journalister, selv om de sikkert er storbrukerne). Der hvor datakilden er kjent, men ikke gjort tilgjengelig for nedlasting, kan medier og andre i mange tilfeller “skrape” dataene ut av offentlige nettsider — en praksis som allerede med hell er prøvd av enkelte. Slik “skraping” kan nok brukes som pressmiddel mot enkelte motvillige virksomheter.

Hvis de mener saken er viktig nok, kan medienes organisasjoner også ta initiativet til en kampanje for å frigi offentlige data. I Storbritannia har The Guardian gått i bresjen for en slik “Free our data”-kampanje. Skulle man starte noe slikt nå, ville det være naturlig at mediene samarbeider med næringslivsaktører, organisasjoner og andre interesserte.

Konkrete tiltak kan bidra mye til økt bevissthet om offentlig sektors data og mulighetene frigivelse åpner. Men et virkelig gjennombrudd krever antakelig at det formuleres og kommuniseres en klar politisk målsetting om å frigi data for å øke verdiskaping og innovasjonstakt og åpne opp demokratiske prosesser. Det burde her være tilstrekkelig å vise til hvilken vekt den britiske og den amerikanske regjeringen har lagt på dette temaet det siste året. I dag er det i stor grad opp til hver enkelt virksomhet å definere sitt eget forhold til åpne data. En slik fragmentert situasjon er ingen tjent med.

Bakgrunnsmateriale

Vi har publisert tallmateriale fra kartleggingen: Fakta først bakgrunnsmateriale (Google Doc regneark).

OPPDATERING: Vi har erstattet vår veldig provisoriske “data.gov” med datakildeportalen no.ckan.net, den samme løsningen som brukes i data.gov.uk. Vi håper du vil bidra til denne borgerdrevne datakildeportalen!

Opphavsrett

Creative Commons License
Fakta først. Viderebruk av datakilder i offentlig sektor: potensial og hindringer av Olav Anders Øvrebø (red.) er lisensiert under en Creative Commons Navngivelse 3.0 Norge Lisens.
Basert på et verk på adresse voxpublica.no.

]]>
https://voxpublica.no/2010/01/offentlige-data-i-norge-ti-forslag/feed/ 2