Forskningsdata - Vox Publica

Gerilja-lagring: Bibliotek i USA slår ring om forskingsdata

Kjerstin Gjengedal — Thu, 15 Jun 2017 11:16:23 +0000

– Vi kjente heilt frå starten at dette var ei oppgåve for oss i forskingsbiblioteka, seier Margaret Janz. Ho er bibliotekar ved Van Pelt Library, hovudbiblioteket ved Universitetet i Pennsylvania i USA. No sit ho på eit kontor i lag med kollegaene Laurie Allen og Kimberly Eke, og fortel via Skype om korleis dei hamna i sentrum av ei rørsle som jobbar med å «geriljalagre» offentlege forskingsdata.

Rørsla består av bibliotekarar, forskarar, it-folk og andre interesserte, og sidan november i fjor har dei frenetisk lasta ned og sikkerheitslagra datasett og annan informasjon frå nettsidene til føderale forskings- og forvaltingsorgan. Høgast prioritet har klima- og miljødata.

– Eigd av folket

– Det dreier seg om store datamengder som er produserte av institusjonar som ligg under styresmaktene, men som er eigd av folket. Dei finst berre digitalt, og det er opp til styresmaktene å sikre at dei er tilgjengelege for deg og meg. I realiteten er informasjonen prisgitt det gjeldande politiske klimaet, seier Janz.

Då Donald Trump vann presidentvalet i USA sist november, var det mange som brått vart urolege for dei store mengdene forskingsdata og annan informasjon knytt til klima og miljø, som låg spreidd på mange offentlege nettstader. Det var ikkje slik at ein frykta at informasjonen brått ville bli sletta. Slikt finst det lover mot. Men ein av dei få tinga Trump snakka systematisk om gjennom heile valkampen, var at han ville vengestekke det amerikanske miljødirektoratet EPA, og løyve mindre pengar til klimaforsking (denne lovnaden har han innfridd).

Foto: Stephen Melkisethian cbnd

Fra stor protestmarsj mot Trumps forskningspolitikk i Washington DC 22. april 2017.

DataRefuge. DataRefuge sette straks i gang med såkalla databerging, der interesserte møttest for å peike ut viktige datasett og laste dei ned på sikre stader. Ei rekkje organisasjonar og institusjonar slutta seg til, nokre nystarta for føremålet, og mange databergingar gjekk av stabelen både i USA og i Canada i dei første hektiske månadane.

Det vart raskt klart at det å ta vare på informasjon som berre finst på nett, ikkje er enkelt. For det første finst det inga oversikt over kva data som finst der ute. Dessutan er informasjonen ofte ikkje spesielt godt organisert. Det er der bibliotekarane kjem inn.

– Særleg dei store forskingsbiblioteka, som oss, har lenge vore opptekne av desse problemstillingane. Etter kvart danna vi nettverket Libraries+, der vi prøver å finne løysingar for å handtere problemet i stor skala, og ikkje berre det som gjeld miljødata, men alle fagområde, fortel Laurie Allen, hovudbibliotekar med ansvar for digital forskingsstøtte, også ved Universitetet i Pennsylvania.

Var ikkje på radaren

Mange av reglane som gjeld det å ta vare på og tilgjengeleggjere offentleg informasjon, er laga for trykte medium og fungerer ikkje så godt i den digitale tidsalderen. Den nye politiske situasjonen avslørte mange mentale blindsonar.

– Vi trudde vi allereie gjorde mykje rett. Det blir til dømes arbeidd mykje med open tilgang til forsking, altså å få informasjonen ut på nett i det heile. Og ved forskingsbiblioteka har vi gjort mykje for å leggje til rette for våre eigne forskarar. Men dette enorme landskapet av offentleg informasjon som allereie ligg på nett, og som veldig mange menneske nyttar dagleg – det var ikkje på radaren, sjølv om problemet sjølvsagt har vore der heile tida. Presidentvalet vart ein augeopnar som gjorde folk merksame på problemet, seier Allen.

– Og kor store datamengder snakkar vi om?

– Ingen veit. Vi veit at det er snakk om mange petabyte. Kva heiter den tingen som kjem etter petabyte – exabyte? Eg vil tru det er nokre slike. Eitt av dei viktige spørsmåla er korleis vi avgjer kva som skal takast vare på. Prøver vi å spare på alt som nokon gong er blitt publisert, så løyser vi jo ikkje noko problem, tvert imot, seier Allen.

Må sikre truverdet

Eit anna problem er korleis ein kan vite at den informasjonen ein tek vare på, er identisk med originalen. I motsetnad til trykt informasjon, kan digital informasjon endrast med eit tastetrykk. Straks Trump overtok som president, vart til dømes nettsidene til EPA endra i påvente av at den nye politiske leiinga skulle avgjere kva informasjon dei ville presentere. Eit augeblikksbilete av nettsidene slik dei framsto før endringa, vart gjort tilgjengeleg på dei nye nettsidene, men i ettertid har det vist seg at ikkje all informasjonen på dei gamle nettsidene er inkludert i dette augeblikksbiletet, men er forsvunne. Slikt er vanskeleg å avsløre om ein ikkje har ein påliteleg original å samanlikne med.

President Donald Trump annonserer at han vil trekke USA ut av Paris-avtalen. Rosehagen ved Det hvite hus 1. juni 2017. (Foto: Det hvite hus/Joyce N. Boghosian)

– Kampen for open tilgang til forskingsdata har heile tida hatt som mål at alle skal kunne bruke datasetta til det dei vil. Men i så fall må ein jo også vere sikker på at dei er pålitelege. Det var forskarane som påpeikte dette problemet og sa at data må kunne siterast. Noko anna er at data kan vere veldig mykje forskjellig. Mange ser for seg vitskaplege data som lister med tal i eit stabilt format som lett kan delast, men eigentleg snakkar vi om all type informasjon på skjerm. Det kan like gjerne vere ei nettside som fortel skulelærarar om økologi, peikar Laurie Allen på.

Omgrepet «gerilja-arkivering» oppsto og vart raskt teke i bruk i samband med dei første organiserte databergingane etter valet. Men Kimberly Eke, avdelingsdirektør for lærings- og forskingsstøtte og den tredje rundt bordet, fortel at dei ser på seg sjølve først og fremst som bibliotekarar, ikkje som politiske aktivistar.

– Dette er rett og slett ting vi lenge har visst at vi må finne ut av, og no er vi i ein spesiell politisk situasjon der mange er interesserte i å involvere seg.

Aktivisme i arkivet

Når omstenda ligg til rette for det, kan det å ta vare på informasjon bli ei politisk opprørshandling.

For nokre år sidan var det mange som vart djupt rørde over å høyre om korleis bibliotekarar og lokale innbyggjarar i Timbuktu i Mali greidde å smugle ut store mengder uerstattelege mellomaldermanuskript og dermed hindre dei frå å bli øydelagte av islamistar. Takka vere innsatsen deira, kan dokumenta no bli digitaliserte og bevarte for ettertida.

Å lage arkiv og samle dokumentasjon har truleg alltid vore ein del av sosial og politisk aktivisme. Det omfattande arkivet etter den jødiske filosofen Edmund Husserl, som i dag finst i Leuven i Belgia, ville neppe ha eksistert om ikkje fransiskanarmunken Herman Van Breda hadde lukkast i å smugle det ut av Nazi-Tyskland i 1939. På same tid kunne ei stor mengde tyskspråklege sosialistiske tidsskrift, som vart øydelagde i Tyskland under andre verdskrigen, etterpå finnast att på «Det røde bibliotek» på Rjukan. Dei vart møysommeleg samla av Henrik J. Hjartøy, arbeidarpartimann og biblioteksjef frå 1917 til 1936, og finst i dag berre éin annan stad i verda, i nasjonalbiblioteket i Paris.

Utfordra majoritetskulturen

Andre halvdel av 1900-talet såg ei rekkje initiativ der til dømes kvinnerørsler, arbeidarrørsler og organisasjonar for homofile og lesbiske etablerte eigne arkiv som kunne fortelje om andre sider ved historia enn dei som vart fortalde i den dominerande kulturen. Slike arkiv kunne ha fleire føremål: Forstå historia betre, ta eigarskap til minne og identitet, eller avdekke maktmisbruk og urettvise. Uavhengigheit frå institusjonsarkiva var naudsynt i desse tilfella. Marginaliserte grupper kunne sjeldan lite på at institusjonane til majoritetssamfunnet vil ta tilfredsstillande vare på deira historie.

I seinare år har mange institusjonsarkiv fått meir inkluderande retningsliner, og det har igjen resultert i, til dømes, ulike dokumentasjonsprosjekt som har sprunge ut av «Black lives matter»-rørsla. Der går arkivarar, organisasjonar og vanlege borgarar saman om å dokumentere politivald mot svarte i USA.

Eit anna døme er «Skeivt arkiv», Noregs største samling dokument frå personar og organisasjonar relatert til «skeiv» historie, som no held hus ved Universitetsbiblioteket i Bergen.

Gerilja-arkiveringa i dagens USA skil seg frå mykje annan aktivist-arkivering ved at aktivistane ikkje er ute etter å fortelje nye historiar, men å bevare den etablerte. I lys av «postfaktasamfunnet» kan det å insistere på at vitskapleg informasjon er offentleg eigedom, like fullt oppfattast som politisk aktivisme.

– Liten grunn til uro i Noreg

Her til lands er offentleg digital informasjon meir truga av manglande systematikk, enn av politisk motivert historieforfalsking, meiner Herbjørn Andresen, førsteamanuensis ved Institutt for arkiv‑, bibliotek- og informasjonsfag ved Høgskolen i Oslo og Akershus..

– Den typen uro vi ser i USA, over at til dømes Environmental Protection Agency brått fjernar ein masse informasjon frå nettsidene sine, den er det førebels lite grunnlag for i Noreg, seier Andresen.

Han fortel at når det gjeld dokumentasjon av slikt som saksbehandling og korrespondanse, er det stort sett stødige system på plass i forvaltinga, og informasjonen er tilgjengeleg i den grad ein kan få dispensasjon frå reglane om personvern. Det vil ikkje seie at arkiveringa er feilfri, men det eksisterer planar og rutiner for å ta vare på informasjonen.

Systematikken manglar

– Nettsider er ei anna sak. Nasjonalbiblioteket «haustar» informasjon frå norske nettdomene, men vansken er å vite kva som vil vise seg å vere viktig i ettertid, seier Andresen.

Han nemner nettadressa pandemi.no som døme. Den vart oppretta av Helsedirektoratet i 2009 for å gje informasjon om svineinfluensaepidemien og massevaksineringa som styresmaktene sette i gang.

– I dag sender adressa deg til nettstaden til Folkehelseinstituttet. Men innhaldet på den opphavlege nettsida vart teke vare på for ettertida, på initiativ frå Riksarkivaren som såg på det som eit interessant historisk dokument. Ein systematisk gjennomgang av kva som blir publisert av offentlege verksemder, derimot, det manglar, seier han.

Prioriterer det nasjonalt viktige

Gretel Mari Braaten Westman er teamleiar for nettarkivet ved Nasjonalbiblioteket, som «haustar» informasjon frå norske nettstader. Ho seier at nettsider som tilhøyrer det offentlege heile tida har vore høgt prioritert.

– Vi har nokre seleksjonskriterium for kva vi hauster, til dømes hendingar av nasjonal viktigheit, slik som val, eller terroråtaket i 2011. Også kultur- og samfunnsliv skal dokumenterast, så vi haustar til dømes alt av nettaviser.

I januar 2016 kom lova om pliktavlevering til Nasjonalbiblioteket i ny utgåve. Den gjev Nasjonalbiblioteket rett til å samle inn informasjon som er allmennt tilgjengeleg på norske domene, utan å be om førehandsgodkjenning.

– Korleis kan de vite at de får med dykk det vesentlege?

– Vi er heldige i Noreg som har Brønnøysundregisteret, som er offentleg tilgjengeleg. Ein kan sortere verksemder på sektor og fange opp, til dømes, alt innanfor statleg sektor. Vi får også tips. Ved ei kommunesamanslåing nyleg, fekk vi tips om at nettsidene til dei to kommunane som skulle slåast i hop, ville bli erstatta av ei ny felles nettside frå ein viss dato. Dermed fekk vi tid til å ta vare på dei gamle. Slike endringar er det sjølvsagt veldig interessant for oss å vite om.

Sleppefest for første runde av Medborgerpanelet

Sveinung Arnesen — Tue, 21 Jan 2014 12:45:47 +0000

Elisabeth Ivarsflaten ønsker velkommen til utleveringen av datasettet fra første runde av Medborgerpanelet. Ideas 2 Evidence (I2E) har stått for gjennomføringen av undersøkelsen, og har laget kodeboken og datasettet.

Foreløpig er det koordinatorene fra forskningsgruppene som har fått data tilgjengelig, og de vil gjøre en kvalitetssjekk. Datasettet vil om kort tid bli gjort tilgjengelig for flere, via Norsk samfunnsvitenskapelig datatjeneste (NSD). Alle forskere vil da få tilgang til datasettet med en rekke spørsmål og bakgrunnsspørsmål om et representativt utvalg på 5000 innbyggere i Norge.

Rekruttering av deltakere

Ivarsflaten gir ordet til Asle Høgestøl fra I2E. Han legger ut om prosedyren rundt rekrutteringen av deltakere til panelet. Han forteller at deres konservative estimat lå på rundt 3500 respondenter når man inviterte 25 000 personer. Internasjonal litteratur viser at responsraten i gjennomsnitt ligger på omkring 14 prosent. De fikk om lag 5000 svar, altså betydelig over det forventede konservative estimatet.

Rekrutteringsfasen skjedde i to steg. Først fikk de som var trukket ut tilsendt et brev. Deretter fikk de som ikke hadde svart i løpet av to uker et påminnelseskort. I første runde hadde 2700 svart. Etter purringen svarte ytterligere 2000 personer. I tillegg til disse var det noen hundre personer som svarte på deler av undersøkelsen, men som ikke fullførte.

Ivarsflaten fortalte at Medborgerpanelet gikk bredt ut i medier og fikk nasjonal oppmerksomhet om lanseringen av undersøkelsen.

Ifølge Høgestøl hadde så godt som alle (97 prosent) oppgitt epostadressen sin, slik at de ville kunne bli kontaktet igjen for neste runde. Dette er vesentlig høyere enn forventet.

Jostein Ryssevik fra I2E supplerer at de er godt fornøyd med svarprosenten, og også med kostnadene knyttet til rekrutteringen av deltakere.

Øivind Skjervheim fra I2E orienterer om at den mest typiske tidsbruken for undersøkelsen var oppunder 25 minutter. Gjennomsnittlig svartid var noe høyere, men dette målet er noe skevt, da respondentene har anledning til å forlate datamaskinen og ta opp igjen undersøkelsen seinere på dagen.

Representativitet

På generelt grunnlag er representativiteten god. Likevel er mønstrene lik det man finner også i andre undersøkelser. Det vil si at personer med høy utdannelse er overrepresentert, at yngre menn og eldre kvinner er underrepresentert.

Datasettet har blitt vektet på bakgrunn av geografi, utdanning, alder og kjønn. Som kvalitetsmål på vektingen har de sjekket svarene opp mot oppgitte partipreferanser. Det viser seg at det vektede datasettet i større grad samsvarer med det faktiske valgresultatet enn det uvektede datasettet gjør. Det tar de som indikasjon på at vektingen har gjort undersøkelsen mer representativ.

Kjersti Fløttum spør om spørsmål med åpne svar. — Disse er ikke med i datasettet. Hvem kan få tilgang? Øivind Skjervheim og Jostein Ryssevik svarer at disse spørsmålene er holdt tilbake av hensyn til avidentifisering av data. Variablene må kodes manuelt før de kan gjøres tilgjengelig. NSD vil til enhver tid ha den nyeste oppdaterte versjonen tilgjengelig.

Ivarsflaten forteller at det til tredje runde vil rekrutteres et suppleringsutvalg. For andre runde vil det være de samme respondentene som i første runde. — Takk til Ideas 2 Evidence for vel utført arbeid!

Sherlocks første lov om åpne data

Olav Anders Øvrebø — Tue, 19 Nov 2013 06:03:37 +0000

Dataenes pålitelighet og gyldighet skal kunne etterprøves. Det er noe av det første studenter lærer på universitetenes metodekurs. Men hvor ofte skjer det egentlig at forskningsresultater etterprøves med den nødvendige nidkjærheten? Tidligere i år kom det et eksempel som bør bli et lærestykke for enhver forsker: Doktorgradsstudenten Thomas Herndons granskning av økonom-stjernene Carmen Reinhart og Kenneth Rogoff.

Reinhart og Rogoff la i 2010 fram en studie av forholdet mellom statsgjeld og økonomisk vekst, “Growth in a Time of Debt”. De fant en sammenheng: Når et lands gjeld overskrider 90 prosent av BNP, stopper økonomien å vokse. Resultatet fikk mye mer oppmerksomhet enn vanlig er for forskningsarbeider. Politikerne som forsøkte å få grep på statsgjeldskrisen i Europa hadde endelig et autoritativt tall å klamre seg til. 90 prosent — en vanntett faglig begrunnelse for sparepolitikken, fra to av verdens fremste økonomer!

Sommeren og høsten 2012 strever Thomas Herndon med Reinhart og Rogoffs analyse. Han har lastet ned dataene, et regneark forfatterne fortjenstfullt nok har gjort tilgjengelig. Herndon vil skrive om artikkelen i en seminaroppgave, men klarer ikke å reprodusere 90 prosent-terskelen. I februar i år skriver han en e‑post til Reinhart og Rogoff og ber om å få se utregningene deres også. Han får materialet, og oppdager kjapt flere enkle feil. Han regner og regner. 90 prosent-terskelen forsvinner. Resten er, som det heter, historie.

Sherlock-skulptur i Meiringen, Sveits (foto: David Jones, CC:by)

Hva dette har med Sherlock Holmes å gjøre? Flere steder i Conan Doyles historier advarer mesterdetektiven mot å trekke slutninger før alle data er vurdert. I “A Study in Scarlet”, for eksempel. Dr. Watson, jeg-fortelleren, er misfornøyd med framdriften i etterforskningen. Holmes prater i vei om fioliner:

“You don’t seem to give much thought to the matter in hand,” I said at last, interrupting Holmes’ musical disquisition.
“No data yet,” he answered. “It is a capital mistake to theorize before you have all the evidence. It biases the judgment.”

Sannheten om Reinhart og Rogoffs regnefeil kom for en dag først da alle dataene var på plass i Herndons datamaskin. I mellomtiden hadde det foregått mye “teoretisering uten alt bevismateriale”. Det er all grunn til å tro at det er mange andre forskningsresultater som burde lidt samme skjebne som 90 prosent-tesen. Reinhart og Rogoff hadde jo til og med gjort data tilgjengelig, om enn ikke komplett. Hva så med data som man ikke en gang får tak i fordi de ligger på forskerens PC eller i en skuff?

Forskermiljøer strever ennå med data-åpning. Løsningen er snublende nær — publisering av data må gjøres til en betingelse for finansiering av et forskningsprosjekt. I tillegg trengs det fornuftige regler for håndtering og en god infrastruktur for oppbevaring av dataene. Tenk også på samfunnet utenfor forskerverdenen: Tilgang til data bak forskningen bør ikke være forbeholdt forskere (med de nødvendige forbehold for å sikre personvernet dersom dataene inneholder personopplysninger).

En oppmuntring til slutt: Den som offentliggjør data, får også større gjennomslag i forskersamfunnet, det vil si flere siteringer. Det viser en studie (på fagfeltet genetikk) som sammenligner forskningsartikler der data er gjort tilgjengelig med tilsvarende artikler uten åpent datamateriale.

Spor utslippene helt tilbake til kilden

Olav Anders Øvrebø — Thu, 12 Jan 2012 09:59:53 +0000

Forskningsprosjektet “The Supply Chain of CO2 emissions” kobler data om utslipp fra fossile energikilder fordelt på land og regioner med data om verdenshandel og økonomi. Slik kan utslippskilder spores gjennom hele den globale forsyningskjeden. Det gjør det bl.a. mulig å se hvor i verden CO2 ble sluppet ut for å produsere de varer og tjenester som forbrukes i et bestemt land. En kan også gå et skritt til bakover i kjeden og se hvor det fossile brenselet som trengtes for å produsere de samme varene og tjenestene, stammer fra.

Bak prosjektet står forskere fra Carnegie Institution for Science og norske Cicero.

The Supply Chain of CO2 emissions:

Blogginnlegget ble først publisert i nettmagasinet Energi og Klima.

Uunnværlig visualisering

Olav Anders Øvrebø — Fri, 17 Jun 2011 05:00:55 +0000

Seminaret Visualizing Europe samlet designere, forskere, programmerere og mediefolk i Brussel tirsdag. I to foregående blogginnlegg tok jeg spesielt for meg designvalgene bak OECDs “Bedre liv”-indeks og David McCandless’ fengende folkeopplysning. Her er utvalgte godbiter fra noen av de øvrige innlederne:

Data må være siterbare

Toby Green leder OECDs publiseringsvirksomhet og har lenge arbeidet med utvikling av vitenskapelig publisering. Her har visualisering alltid spilt en rolle, påpekte han, og mimret om gamle dager i Oxford der forlaget han jobbet i hadde et eget rom med designere som tegnet om forskernes visualiseringer til presentabel standard. I dag tilbyr et forlag som Springer 1,3 millioner illustrasjoner fra vitenskapelige tidsskrifter. Forskningslitteraturen kan navigeres gjennom bilder istedenfor tekst, og bildene er koblet til tekstene fra de vitenskapelige tidsskriftene.

Etter hvert som mer forskningsdata blir tilgjengelig, må det utvikles gode løsninger for å publisere data på måter som er siterbare, framhevet Green. Hvis det ikke gjøres, blir det vanskelig å lenke til datakildene og dataene kan lettere forsvinne igjen (her er det lett å tenke på en av nettets svøper, lenkeråten som oppstår når websider fjernes eller skifter adresse).

I OECDs “Bedre liv”-indeks er visualiseringen knyttet til all OECDs research og data, poengterte Green. Slik dokumentasjon er viktig for å bygge tillit hos brukerne. Som kjent kan man finne all slags løse påstander på nettet.

Urbane operativsystemer

Assaf Biderman presenterte flere prosjekter fra MITs Senseable city lab. Med forskjellige tilnærminger forsøker man her å avdekke det Biderman kalte urbane operativsystemer, og i partnerskap med byer (Roma, Seattle, København, Singapore ble nevnt) bruke kunnskapen til å forbedre byplanlegging og ‑organisering, for eksempel av samferdsel. Tankegangen er at noen av vår tids største utfordringer er knyttet til byene (de står for størsteparten av energiforbruk og klimaendrende utslipp).

Blant metodene er å samle inn (anonymiserte) data fra mobiltelefontrafikk, for blant annet å se hvordan folk beveger seg gjenom byen. Visualisering er her naturligvis sentralt i analysen av dataene.

Søppel på reisefot (ill: MIT)

Prosjektet i Seattle gikk ut på å kartlegge avfallets vandringer, og til dette ble sensorer plassert på ulike avfallstyper. Visualiseringen forteller om at noe av søppelet er ganske kortreist, mens det elektroniske avfallet la ut på tur over hele kontinentet.

I København ble en egen duppeditt til å feste på sykkelens bakhjul utviklet. Den lades opp når man trår og bremser, og kan gi ekstra skyv i motbakker. Samtidig er den en sensor som samler inn data som syklisten så kan hente inn til sin smarttelefon. Dataene kan deles med andre, kommenteres osv.

Visualiseringer er ikke (bare) pynt

Forskeren Enrico Bertinis budskap var at visualisering er uunnværlig som erkjennelsesmetode, i hvert fall innen visse typer kunnskapsproduksjon. Med det ville han imøtegå en for snever debatt om visualiseringers nytteverdi.

Et av eksemplene var hentet fra Vast Challenge, en årlig konkurranse innen datavisualisering. I år er en av utfordringene å analysere en epidemi som sprer seg i en by. Deltakerne får utlevert datasett, og skal løse to oppgaver: Hva var epidemiens kilde? Og hvordan blir smitten overført?

Denne typen problemer lar seg lett og slett ikke løse uten å ta i bruk visualisering, hevdet Bertini (han utdyper her på bloggen sin). Nå er det helst innen forskning på noen fagfelt og kunnskapsintensive bransjer hvor visualisering er uunnværlig på denne måten. Men dette er ikke å kimse av, mener Bertini — tross alt arbeider disse relativt små gruppene med viktige ting som å kurere sykdommer eller redusere fattigdom.

Åpne data, åpne verktøy, åpne fellesskap

Programmerer og designer Gregor Aisch står bak mange fine interaktive visualiseringer. Han har også laget en ny versjon av verktøyet Where does my money go, som brukes til å visualisere budsjettdata. Plattformen Open Spending har vokst ut av dette prosjektet, og her separereres data og visualisering gjennom et API.

Aisch gikk inn for åpenhet i alle ledd i kjeden datakilder-programmering-visualisering, og i utviklingen av fellesskap rundt datavisualisering. Eksisterende verktøy har gjerne gode sider, men svikter på noen av områdene, framholdt Aisch. Eksemplene hans var ManyEyes (lar folk visualisere, men verktøyet er ikke åpent, brukerfellesskapet har dødd hen), Gapminder (flott verktøy, men lar ikke folk bruke sine egne datasett), Wordle (har stort potensial, er ikke oppdatert på flere år, prosjektet synes nedlagt).

Impure — eksperimentelt visualiseringsverktøy

Santiago Ortiz fra spanske Bestiario viste fram Impure, det kanskje mest fascinerende prosjektet (grunnen til at jeg har plassert det sist og ikke først i oppsummeringen, er at jeg ikke har hatt tid til å teste det! Hvis du har prøvd Impure, del gjerne erfaringene dine her). Det ambisiøse målet er å lage et program som folk uten ekspertkunnskap kan ta i bruk for å lage avanserte visualiseringer med “live” tilgang til datakilder (han brukte materiale fra Twitter under presentasjonen sin). Ortiz viste hvordan datakilder analyseres og visualiseres direkte på en stor skjermflate, som ved å tegne på en elektronisk tavle.

Byenes historie, laget med Impure. (ill: Bestiario)

Et eksempel på visualisering som er laget med Impure er denne presentasjon av den historiske utviklingen av befolkninger i byer.

Bergen Open: Seminar om åpne data og journalistikk

Olav Anders Øvrebø — Mon, 16 Aug 2010 10:16:37 +0000

MediArena, et nytt innovasjonsprosjekt for mediebransjen i bergensregionen, inviterer sammen med Vox Publicas utgiver Infomedia til seminaret “Bergen Open”. Det blir presentasjoner og diskusjon om temaene datadrevet lokaljournalistikk, semantisk framtid, forskning og journalistikk og kontekstuelle annonsemodeller. Se mer informasjon og påmeldingsdetaljer.

Tid: Tirsdag 7. september kl. 09.00–15.30. Sted: Scandic Hotell Bergen City.

Blant innlederne er medieutvikler Anders Brenna, danske Johannes Wehner som har gjort spennende arbeid med Information.dk og Bente Kalsnes fra Origo. Dessuten er selvsagt vi i “Fakta først” med. Flere detaljer om opplegg og foredragsholdere er underveis.

MediArenas mål er å “stimulere til økt innovasjon basert på samarbeid mellom bedrifter, FoU og utdanningsmiljøer og offentlige utviklingsaktører.” Det er spennende at de har valgt offentlig sektors data som et satsingsområde. Nettopp regionale og lokale satsinger på å åpne opp data har stort potensial, det har initiativer som London DataStore vist. Kanskje Bergen her kan vise vei for andre norske byer og regioner? I beste fall kan dette lede til en konkurranse om å være den mest åpne byen eller kommunen.

Gode prinsipper for offentlige data

Olav Anders Øvrebø — Thu, 15 Apr 2010 20:54:27 +0000

Teknologirådet presenterte i dag sin rapport om frigivelse og viderebruk av offentlige data (pdf). Fornyingsminister Rigmor Aasrud benyttet anledningen til å kunngjøre navnet på regjeringens kommende datakildeportal — data.norge.no –, og ba samtidig om innspill til hva portalen bør inneholde og hvordan den bør utformes.

Slike innspill inneholdt også rapporten fra ekspertgruppen. Den anbefaler at data.norge.no skal inneholde blant annet denne informasjonen:

Beskrivelse av dataene
Hvilket format dataene finnes på
Beskrivelse av eventuelt programmeringsgrensesnitt (API) som kan brukes for å få tilgang til dataene
Tidsangivelse for et datasett, evt. om det dreier seg om sanntidsdata
Hvilken kvalitet dataene har

Forslaget om kvalitetsmerking imøtegår en vanlig innvending mot å publisere datakilder — at man mener kvaliteten på dataene ikke er god nok. I rapporten skisseres en skala for kvalitet som spenner fra høyeste kvalitet (“Kvalitetssikret og oppdatert — kan brukes for eksempel i automatiserte beslutningsprosesser”) til laveste (“Dataene er ikke oppdatert og kan være beheftet med betydelige feil”.) Hele skalaen på rapportens side 16.

Den kommende datakildeportalen må som et minimum inneholde offentlige virksomheters rådata, skriver ekspertgruppen (rådata er forstått som data på det formatet det brukes hos det aktuelle organet). Videre skriver de:

Det et også ønskelig at dataene gjøres tilgjengelige på formater som forenkler gjenbruk. For data hvor dette er relevant bør det finnes et godt dokumentert API. Det må tilbys et API for alle typer sanntidsdata.

Rapporten slår fast det viktige prinsippet om arbeidsdeling mellom offentlige virksomheter og offentligheten: “Som hovedregel bør alle datasett som ikke utgjør en trussel mot rikets sikkerhet eller individers personvern offentliggjøres, ettersom det på forhånd kan være vanskelig å vurdere gjenbruksverdien av et datasett. Data ingen trodde det var interesse for kan få nytt liv i kombinasjon med andre typer data.”

Ekspertgruppen kommer med et svært interessant innspill om forskningsdata. Også internasjonalt blir spørsmålet om frigivelse av underlagsdataene for forskning diskutert, ikke minst i forbindelse med konfliktene rundt klimaforskeres data. Her skriver ekspertgruppen:

Til tross for at stadig flere publikasjoner fra forskningsprosjekter gjøres allment tilgjengelige, er underlagsdataene for forskningen i liten grad tilgjengelige. Det kan være rimelig å stille spørsmål ved denne praksisen. Data fra offentlig finansierte forskningsprosjekter – i den grad de ikke inneholder personsensitiv informasjon – bør også gjøres tilgjengelig for allmennheten.

Disse har deltatt i ekspertgruppen bak rapporten:
Espen Andersen – Institutt for strategi og logistikk, Handelshøyskolen BI
Håkon Wium Lie – Opera Software
Jannicke Birkevold – Skatteetaten, Innovasjons- og utviklingsavdelingen
Silvija Seres – Teknologirådet og Microsoft Fast
Tom Slungaard – Norsk Eiendomsinformasjon

Teknologirådets formål er å gi uavhengige råd til Stortinget og øvrige myndigheter i viktige teknologispørsmål og dessuten bidra til den offentlige debatten rundt teknologi.