Datadrevet journalistikk - Vox Publica

Svensker med pejl på datajournalistikk

Eirik Stavelin — Thu, 06 Sep 2012 13:39:13 +0000

Da det tidligere i år ble kåret vinnere av den første internasjonale datajournalistikkprisen, ble det tydelig for juryen at datajournalistikk er en journalistisk subkultur som ikke begrenser seg til Nord-Amerika og Vest-Europa, og heller ikke bare til de store redaksjonene. Selv om ingen skandinaviske prosjekter stakk av med noen priser under datajournalism awards 2012, så betyr ikke det at det ikke skjer ting her. I Sverige f.eks. er det mye spennende på gang.

Først må jeg få lenke til den finlandssvenske ildsjelen Jens Finnäs, som i kjølvannet av nettpubliseringen sin framstår som en riktig enmanns-armé. På datajournalistik.se har han samlet et knippe teknikker, ressurser og verktøy, og samlingen er imponerende. Dette er snacks for den lærevillige så vel som for den som bare vil ha eksempler på hva som kan gjøres. Et eksempel fra Finnäs’ spalte for “inspirasjon” er denne crowdsource-appen fra SvD Næringsliv, det svenske rente-kartet, som viser hva våre brødre mot øst betaler for sine lån. Slett ikke irrelevant for dagens norske boligrente-problematikk. Muligens også et forhandlingskort for svenske låntagere?

Finnäs har også en blogg på engelsk med tittelen dataist, som både viser eksempler på hvordan andre gjør det, men særlig hvordan Finnäs selv løser praktiske problemer i sin datajournalistikk. Eksempler fra bloggen er en post om datavask i refine (det har vi også skrevet om før), erfaringer om hvordan han brukte “musklene” i d3.js og kombinerte det med Raphaël.js noe bedre nettleser-støtte (her) og instruksjoner om hvordan du “pimper” Google maps i ny fargedrakt. Imponerende arbeid.

SVT “Pejl” — eksempel til etterfølgelse

Å si at databasredaktör Helena Bengtssons datajournalistikk-prosjekt “SVT Pejl” er en blåkopi av the Guardians Datablog er urettferdig. Hun har bare lånt ideen, og lokalisert den til SVTs omgivelser. De har laget en video der prosjektet introduseres:

Flere detaljer kan du lese her, hvor det svenske begrepet databasejournalistikk også diskuteres og brukes som et synonym til computer-assisted reporting (CAR). Helena Bengtsson får tydelig vist at SVT henger med i svingene.

Et eksempel fra SVT Pejl er denne grafen over skoleresultater, som understreker at barnas skoleresultater har en hel del å gjøre med hvem de er barn av. Unikt er dette ikke (den likner f.eks. litt på denne fra NYT i kjent Amanda Cox-stil, arbeidsledighet blant folk som deg), men det er lokalisert, aktuelt og reelle data. SVT ser videre ut til å følge opp med stilen der metoder diskuteres grundigere enn i tradisjonell journalistikk, et fenomen som som både nye prosjekter og gamle travere tidvis glimter til med. At svenskene leder dette an i Skandinavia, lover godt. (Se f.eks. metodeforklaring bak skole-prosjektet skolpejl her).

Videre har SVT Pejl hevet seg over både politiets data “Brottspejl”, skoler “Skolpejl” og tilbyr angrepsvinkler via geografisk område i disse dataene. For en nasjonal rikskringkaster virker dette fornuftig. I tillegg inneholder bloggen prosjekter som de løpende arbeider med internt i SVT-systemet.

Ser vi for oss at NRK følger i SVTs fotspor, mon tro?

Stortingsdataene er her! Hva nå?

Eirik Stavelin — Wed, 30 May 2012 05:00:09 +0000

I denne posten går jeg gjennom noen aspekter rundt Stortingets nyåpnede tjeneste og API data.stortinget.no. Ikke alt er like interessant for alle, så posten er delt opp i ulike deler: åpenhet, journalister og borgerjournalister, teknikk-prat, forskning, veien videre og spørsmål.

Åpenhet og gjennomsiktighet

Et gjennomsiktig offentlig byråkrati er til å stole på, og kan rettes opp der det kan bli bedre. Dette er vel hovedtanken bak hele bevegelsen om åpne offentlige data, og dermed også tanken bak data.stortinget.no. For at data skal kunne bidra til gjennomsiktighet må noen tolke, sette inn i kontekst, utfordre, kritisere og ikke minst bruke dataene til noe. Lage visualiseringer, alternative innsynsløsninger, kontrollere for feil eller misforståelser. Skrive nyhetsartikler, forskningsrapporter og bloggposter.

Kanskje kan enkelte metoder automatiseres slik at vi får dashbord med data om samfunnets tilstand slik en finansanalytiker eller flygeleder (formodentlig) sitter i “kontroll-tårn” og tar pulsen på markedet/luftfarten.

For at enhver borger skal kunne få noe nytte av dette aleine har data.stortinget.no “databyggere”, wizards (data-assistent, assistent-meny) som hjelper deg med å ta ut helt enkel statistikk fra systemet. Med denne kan vi enkelt se at stortingsrepresentanter er gjennomsnittlig ca 50 år:
Diagram over aldersfordeling_1945-49_2009-2013
…og at kjønnsfordelingen har utviklet seg mot et stadig mer likestilt samfunn.
Diagram over kjoennsfordeling_1945-49_2009-2013
Det skjedde noe spennende mens Borten og Bratteli var statsministere i overgangen mellom 1960- og 70-tallet, kvinneandelen begynte å øke mer enn før.

Også gangen i enkeltsaker kan sees på de vanlige nettsidene til Stortinget (se eksempel.)

Dette er gøy for oss vanlige borgere, for skoleelever og for pressen. Databyggeren gir oss helt enkel informasjon (tolket data) om utvikling og om enkeltsaker. Hva du kan gjøre med databyggeren er nødvendigvis noe begrenset – det er urimelig å forvente at Stortinget er selvkritisk på våre vegne.

Journalister og borgerjournalister

Norsk presse har allerede gjort en del av tingene som er rimelig å gjøre med denne typen data. Allerede lenge før data-APIet var klart hadde Edda Media laget buskerudbenken.dt.no for Drammens Tidende. Seinere kom tilsvarende prosjekter for andre regioner i Norge. Det er ikke urimelig at noen tar opp dette igjen, enten som publikumsløsninger (a la Buskerudbenken) eller mer interne systemer for å snappe opp temaer og saker som tas opp på Tinget. I dataene kan saker spores (via saksordfører) til folkevalgte, som igjen har et fylke som skal representeres. Hva den enkelte representant stemmer i voteringer er også med i dataene, slik at det er mulig å følge de ulike fylkenes aktivitet.

Det er også mulig å finne hvem som stemmer mot sitt eget parti (altså hvor partipisken ikke strekker til), dette er jo alltid gøy uansett om du anser slikt som usolidarisk vandalisme eller tegn på ryggrad hos den enkelte representant. En nyhetssak er det nok ofte, dette er ikke bare politisk uenighet, men intern uenighet. En god indikasjon på en spennende sak. Kanskje.

Mye, om ikke det meste, av stoffet som eksponeres i APIet dekkes allerede tett av norsk presse. Det er likevel interessante ting å snoke i her, se for eksempel på denne (som dog ble dekket) der i alle fall min oppfatning av forslagsteksten gjør at voteringsresultatet kommer overraskende:

“Stortinget ber regjeringen fremme en sak om endring av utlendingslovgivningen slik at barns rettigheter i utvisningssaker blir ivaretatt i tråd med vedtak i Den europeiske menneskerettighetsdomstolen.”

Resultat: Mot
(For: 25 Mot: 79)

Jeg synes det er overraskende at det er så stor enighet om å ikke rette norske lover etter Den europeiske menneskerettsdomstolen. Andre er kanskje ikke overrasket, men å legge opp et system der forslagstekster settes opp mot voteringsresultat kan virke som en morsom idé. Er det noen partier som er konsekvent imot enkelte målestokker (menneskerettigheter, arbeidstakerorganisasjoner, EU, miljøvern-krav, etc)? Er det noen som er for EU den ene dagen og imot den neste?

Det er også elementer i dette APIet som kan fungere journalistisk med ganske lite arbeid. For eksempel er spørsmål (skriftlige, interpellasjoner og spørretimespørsmål) ofte ganske gøy lesing. De er ofte kritiske, lette å relatere til områdene der representantene er valgt inn fra og de er sikkert vanskelige å svare på. De er potensielt gode steder å starte en debatt (på en kafé eller i en avis). Noen eksempler:

“Når vil miljøvernministeren fatte vedtak i saken om IKEA Larvik slik at lokalsamfunnet og lokal- og regionalpolitikere får vite om det lokale demokratiet virker og har tillit, og IKEA får avklaring på om deres miljøvennlige investering kan gjennomføres?”

“Tidligere riksvei 862, nå fylkesvei 862 mellom Tromsø og Finnsnes, har fergeforbindelse mellom Brensholmen og Botnhamn på Senja. Denne fergeforbindelsen er ikke helårig, dvs. fergen går ikke om vinteren. Dagens drift av fergeforbindelsen er i hovedsak selvfinansierende og fylkesvei 862 er også en viktig nasjonal turistvei, men har også meget stor betydning for næringslivet og de fastboende i fylket. Vil statsråden bidra til at fergeforbindelsen på nasjonal turistvei, fylkesvei 862, blir helårig?”

“Aftenposten melder i dag at Norge har mottatt en sondering mht å arrangere neste NATO-toppmøte. Selv sier utenriksministeren at han oppfatter henvendelsen som en sondering. Statsministeren, utenriksministeren og forsvarsministeren har alle uttalt bekymring for budsjettkutt i medlemslandene. Sånn sett vil det være naturlig at Norge, pga sin sterke økonomiske posisjon, sier ja til å forestå et NATO toppmøte. Er utenriksministeren enig i dette og at det vil være positivt for oss?”

“Hva vil statsråden gjøre for å bidra til en varig løsning for ivaretakelsen av Gjøa?”

Alle disse spørsmålene har en avsender og en mottager, og lokale saker vil sannsynligvis enkelt kunne spores tilbake til de områdene de omhandler. Som Risør-gutt sjekket jeg selvsagt raskt, og kan konstatere at ‘Risør’ kun er nevnt 3 ganger i spørsmål på Tinget, og 0 ganger i sakers tittel, siden 1986. En lokaljournalist kunne lett følge opp med nabokommuner og fylke for å finne ut om sørlandsperlene (eller hvilket som helst sted du bryr deg om) i det hele tatt nevnes, og hva som tas opp om dette. Jeg tror det er ting her vi ikke leser i avisen, som det både kan være gøy og viktig å følge med på.

Det er mer som kan gjøres journalistisk på denne materialet. Slik jeg ser det handler det først og fremst om de gode ideene.
— Hva kan vi gjøre med dette som utnytter materialet best for journalister?

Borgerjournalistikk

Det er ingen grunn til at journalistene skal ha dette for seg selv, og at interesseorganisasjoner kommer til å ta tak i dataene føler jeg meg ganske sikker på. En organisasjon – holderdeord.no – har allerede begynt. Deres prosjekt er å “faktasjekke”/(kontrollere for) partienes løfter. Holderdeord.no tar en spesiell rolle som “kontrollør”, og kvalitative vurderinger må nok gjøres for sakene. Dette kan selvsagt føre til konflikt og uenighet, men heller at noen gjør det, enn ingen? At prosjektet også deler sin kode med oss, gjør at den som vil kan etterprøve påstandene selv – noe som er forbilledlig. Holderdeord.no er et spennende prosjekt som vi kommer tilbake til i Vox Publica senere.

At miljøvernere, idretten, kollektiv-brukerne og fiskeforeninger kan overvåke, bygge på og bruke data fra Stortinget i sitt arbeid, tror jeg betyr at dette vil skje. Bloggere, twitterbrukere, facebookere og andre borgerjournalistikk-liknende aktører har også en rolle her. Det er et potensial for en gjennomsiktighet som virkelig kan bli bra, og holde våre folkevalgte på tå hev, særlig når også de smalere interessentene lett kan se hvem de må sende en mail eller ringe til når ting ikke er som de skal (etter synsvinkel).

Angående faktasjekking anbefaler jeg også Martin Eides “Fakta og makta” som ble publisert både i BT og her på Vox Publica.

Teknisk

Dette avsnittet er kanskje mest relevant for deg som har tenkt å bruke denne datakilden, og jeg blir ikke fornærmet om enkelte hopper videre til neste avsnitt.

Hvis du har tenkt å gjøre noe teknisk med Stortingets data finner du stort sett det du trenger på data.stortinget.no/om-tjenesten og data.stortinget.no/eksport med dokumentasjon og (fri) lisens.

Det er også noen eksempelprosjekter i java og .net C# å laste ned, om du er gira på det (jeg gjorde ikke det, da verken java eller C# er noe jeg bruker ofte nok, så jeg kan ikke uttale meg om disse).

Helt enkelt består eksport-biten av data.stortinget.no i en liste med URIer som spytter ut XML. Noen URIer tar input (en sesjon eller saksnummer), andre ingenting. XMLen som sendes tilbake er lett å jobbe med (ingen store overraskelser) og virker fornuftig strukturert. Attributt-navnene gir hint om hva som kan inneholde flere ting (en sak kan ha flere emner), ved navn valg som “emne_liste” som listes ut også i tilfeller der de ikke brukes.

Kode i python for import i mySQL
For å få et overblikk skreiv jeg noen enkle importscript i python for å få dette over i mySQL. Koden for det finner du på github, du kan bruke den som du vil. Med dette finner du også et førsteutkast til databasestruktur som er basert på å ha primær- og kombinasjonsnøkler slik at ‘INSERT IGNORE’ statements kan brukes til datafangst. Jeg har ikke gjort noen “ekte” prosjekter på dette, så det er ikke utenkelig at strukturen bør endres litt eller tilpasses noe til andre formål. Hvis du finner noen direkte feil du mener jeg burde vite om, ta gjerne kontakt.

Min korte erfaring med dette er at det virker robust og fint. Det er mer data i APIet enn hva det er lett å holde styr på via nettsidene til Stortinget og rådataene gir muligheter til å gjøre ting vi ennå ikke har kommet på at vi burde.

Omfang

Noen raske tall. APIet inneholder så langt ca 13.300 saker og 22.400 spørsmål (begge siden 1986), stortingsperiodene går tilbake til 1945, mens sesjoner (fra sommer til sommer) kun tilbake til 1986. Jeg har ikke sjekket om det finnes data om saker/spørsmål fra før ’86, da APIet selv ikke lister ut disse sesjonene. Videre er det metadata på fylker, partier (18 stk siden 1945), emner (172 stk), representanter (1072 stk), voteringer (siden 2011) og relasjoner mellom disse.

Kritikk?

Selv om ting virker bra, kan det alltids bli bedre. Det er også ting vi kan diskutere her.

Det er noen feil her og der. For eksempel finnes det ingen data her: http://data.stortinget.no/eksport/skriftligesporsmal?sesjonid=2007–2008 Betyr det at ingen stilte spørsmål i 2007–2008? Garantert ikke. Det er også mangler, for eksempel har ikke skriftlige spørsmål emner – mens de andre typene spørsmål har.

Noen typer data går tilbake til 1945 (representanter), andre typer (saker) tilbake til 1986, og andre igjen (voteringer) finnes kun fra 2011. Det er litt hull her og der (en del saker har ikke noen “behandlet i sesjon” selv om de er gamle), gode nøkler mot saksdokumenter finner jeg ikke (gjør du?) og vedtakstekster er lagret som HTML (som gjør det unødvendig vanskelig å finne gode delimiters/“mellomroms-tegn” for eksport fra mySQL til f.eks. .csv eller .xls).

Dokumentasjonen, en .pdf (hvorfor .pdf, folkens?), lukter tidvis auto-generering og blir intetsigende. Se på denne:

“vedtaknummer
Element som definerer nummer for voteringsvedtaket”

Er det unikt? Er det påkrevd? Kan et vedtak ha flere nummer? Kan flere vedtak ha samme nummer? Slikt besvares ikke, og mange av elementene i XMLen har slike beskrivelser, som like godt kunne ha vært sløyfet. Ok, nå vet vi at det skal være et vedtaksnummer ved et vedtak, men ikke stort mer.

Konklusjonen på dette er at det trengs mer inngående kunnskap om Stortingets prosesser enn det som kan leses ut av dokumentasjonen for å bruke dette riktig. I gjennomsiktighetens navn kunne dette ha vært fokusert mer på, det er ikke urimelig at ulike interesseorganisasjoner med varierende kunnskap skal benytte denne datakilden. Dette kan bli bedre, både med tanke på dokumentasjon, hull i dataene, og mer historisk data. Å legge inn en form for tilstandsrapport på dataene slik at nye data kan hentes ut uten å spørre etter hele sesjoner kan kanskje være en idé. Jeg har ikke bygget min kode med tanke på periodisk uthenting, men for interesseorganisasjoner, pressen, osv vil nok det være et tema.

Forskning

Kan denne datakilden brukes til forskning? Jeg har spurt både kollegaer her på huset og utenfor hva vil kan besvare med denne typen data. Så langt har jeg ingen prosjekter i boks, men jeg tror dette er data som kan brukes til å besvare flere interessante spørsmål:

Hvor viktig er pressen for Stortinget?
Ligger Stortinget foran eller bak pressens dagsorden?
Hvor sterk er partipisken i de ulike partiene?
Har vi reelt sett mange ulike partier å velge mellom, eller to (eller tre) blokker?
Hvor godt representerer de ulike fylkesbenkene sine fylker?
Hvem er Tingets mest effektive politikere (og hva gjør de for å få det til)?
Finnes det “kjøp og salg” av saker/stemmer på Tinget (a la “kampfiksing” i idretten)?

Her handler det bare om å finne riktig spørsmål. Om du mener å ha noen tanker om dette, ta gjerne kontakt. Jeg (som driver med datastøttet journalistikk) ser for meg at metoder og spørsmål fra forskningsdisiplinene i noen tilfeller kan automatiseres og omsettes til innsynsløsninger/overvåkningstjenester osv. Her må forskningen gå foran og vise vei.

At data nå kommer i form av at API gjør det mye lettere å besvare spørsmål, dette har jo blitt lagret før også, men da måtte en forsker innhente disse dataene selv fra hvor-nå-enn de ble lagret (Nasjonalbiblioteket?).

Veien videre for data.stortinget.no og åpne offentlige data

Det er slett ikke gitt at folk kommer til å hive seg over dette. Det er helt realistisk at kun et knippe mennesker i dette landet kommer til å bry seg med stortingsdata. Det betyr ikke at lite bruk betyr at prosjektet er unødvendig eller misbruk av ressurser. Hvem som tar dette i bruk, og hva som kommer ut av det, er mye viktigere. Dette er opp til oss alle. Potensialet er der. At det er vilje til å rette feil, fylle på med data (utvide med mer?) og holde systemet oppe — er det jeg ønsker å se. Og en takk skal noen ha, det er godt at dette blir gjort.

Rent teknisk er dette også bra. Nå som data.stortinget.no er på beina synes jeg det er rimelig å fortsette trenden med andre typer data som kan informere borgere til å ta gode valg. Hvem skal jeg stemme på? Hvor bør jeg bosette meg? Hva bruker staten skattepengene til? Hvilken skole i nærheten er best? Hvor forurenset er det der jeg bor? Hvilke veier er mest trafikkert og ulykkesutsatt?

Med tilgang til mer data vil flere slike spørsmål kunne besvares basert på data. Skoler rangeres i dag etter nasjonale prøver, som gir foreldre en idé (dog en litt rar idé, normalfordelingskurven er ingen god måte å rangere prestasjoner på, vi vil aldri oppnå at alle er “gode nok” på den skalaen) om skolenes evne til å utdanne.

Data fra politi og brannvesen vil kunne gi indikasjoner på hvor det er tryggest å bo og ferdes, data om dokumentavgifter som betales kan gi indikasjoner på reelt prisnivå der du vil flytte. Dette er viktig informasjon som bør være tilgjengelig for en boligkjøper (og ‑selger) som går via en megler med egne insentiver. Alle disse tre må gjerne få APIer slik Stortinget har.

Statsregnskapet (som også deles som .pdf – gjør de det for å være onde med overlegg?) er et kronisk oversett dokument som fortjener mer innsyn. Å legge dette om til et API og gi oss flere detaljer ville være veldig bra for alle. Det vil kunne brukes til for eksempel å se etter som bevilgninger og løfter brukes og holdes. Om det faktisk bygges jernbane, barnehager og studentboliger.

Domstolene utmerker seg også som gode datakilder i gjennomsiktighetens navn. Her er det mye som kan gjøres. Hva slags kriminalitet straffes i Norge? Hvor mange tas der jeg bor? Brukes de nye lovene som Stortinget innfører? Leder de til mindre kriminalitet (koblet mot politidata)? Er det noen som gjentatte ganger straffeforfølges av myndighetene, men som frikjennes gang på gang? Det er mye viktig og spennende som kan komme ut hvis også rettsvesenet blir mer gjennomsiktig. Igjen handler det først og fremst om å finne de gode ideene, de gode spørsmålene.

Og postjournaler. Postjournaler finnes i dag i et utall ulike formater og løsninger (.pdf-er i html, kranglete .aspx-systemer, rentekst og markup av alle slag). Et ensartet system for postjournaler ville spare mange for mye tid.

Å se på data.stortinget.no som et første skritt i en kjedereaksjon av åpninger av slike APIer — og virkelig åpne opp der det lar seg gjøre — vil kunne utgjøre en stor forskjell i hvordan vi forvalter makt og bidra til et samfunn som i større grad tar sine beslutninger basert på data. Hans Rosling snakker om et “faktabasert verdensbilde”, med åpne data og gode APIer i Norge kan vi få et “faktabasert Norges-bilde” — og det synes jeg at vi fortjener.

Spørsmål:

Jeg har gjentatte ganger stilt spørsmål i denne posten. Spørsmål som kan skrives om til disse:

Hva kan dette brukes til?
Hva burde vi bruke dette til?

Hvis du har tanker om dette, legg gjerne igjen en kommentar i kommentarfeltet.

Verktøy for datajournalistikk

Eirik Stavelin — Mon, 05 Mar 2012 06:00:48 +0000

Stadig mer digital informasjon i samfunnet skaper behov for stadig nye og bedre verktøy for å analysere, visualisere og presentere informasjon. For pressen, som må kunne orientere seg mot all verdens ulike data og datakilder, er dette et kappløp av nybrottsarbeid — en nyorientering som stadig tar nye svinger. I dette innlegget tar jeg for meg en samling av verktøy for datajournalister som ikke selv programmerer.

Datadrivenjournalism.net skriver jevnlig om dette. Nylig skreiv de om datawrapper, laget av abzv.

Datawrapper

Datawrapper er et lite program som hjelper deg å lage grafer. Så langt er det relativt enkle grafer som stolpediagram, kakediagram og linjediagram som er tilgjengelige. Dette er ting som også lett kan lages i for eksempel Excel, men datawrapper gjør dette til en klipp-og-lim prosess, der resultatet er laget i html5 som er nyttig for nettutgaver, leseplater og mobile enheter. Typisk har slike grafer litt ekstra funksjonalitet, som et statisk bilde fra Excel ikke har. Essensen av datawrapper er å knytte dine data sammen med javascriptbibliotek som highcharts, flotr2 og d3, uten at du trenger å vite mer enn at du har data og vil ha graf. Som et open source-prosjekt er det mulig å utvide datawrapper med flere visualiseringsbibliotek og visualiseringstyper etter hvert. Koden er skrevet i PHP og er lett å følge for de som vil.

Programmerende journalist Dan Nguyen har skrevet en introduksjon til programmering i nyhetsredaksjoner med tittelen Code, Don’t Tell: Programming as an Essential Journalism Skill. I et avsnitt om “practical roadmap for non-programmers” anbefaler han å opprette konto hos Twitter, Dropbox og Google. Sistnevntes tjeneste Google docs har jeg sett er særlig populært også i norske redaksjoner, da muligheten for å dele data, samarbeide og å publisere data fra Google spreadsheet (for eksempel som json) kan korte ned antall skritt i en felles arbeidsflyt. NB: sensitive data bør ikke legges ut på internett. Da kan heller en lokal installasjon av Panda kanskje være en idé?

Panda — pandaproject.net

Panda er et prosjekt med støtte fra Knight Foundation som søker å lage “A Newsroom Data Appliance” — en felles lagringsplass for data i en nyhetsredaksjon. Panda er i hurtig utvikling, så selv om ikke alt man kunne ønske seg finnes ennå, så er det gode muligheter for mye kommer etter hvert. Utviklerne, Christopher Groskopf og Brian Boyer (begge tilknyttet Chicago Tribune) diskuterer til stadighet utviklingen på github og Twitter. Panda ble nylig presentert på en NICAR-konferanse, og mottagelsen beskrives som svært god. Panda er ment å kjøres lokalt for hver redaksjon, eller i “skyen”. Det er lagring og søk som så langt er hovedfokuset til dette prosjektet, hvilke skritt som tas videre og hvordan dette blir brukt blir spennende å se. For en demo, se demo.pandaproject.net. Med APIer og utvidelser i stadig utvikling må det for eksempel være lov å drømme om tett integrasjon med Google refine.

Google refine

Jeg har tidligere blogget om refine, men på tross av at jeg ikke bruker programmet jevnlig selv, blir jeg stadig overrasket hver gang jeg tar det fram. Google refine er ikke bare et glimrende verktøy for å vaske og restrukturere data, det er også er imponerende kraftig verktøy for å gjøre analyser og å grave i data. Google refine er ikke det mest intuitive verktøyet i verden, og i blant er det nyttig å kunne (eller kunne google) litt regexp eller å kunne tilegne seg kunnskap om ting som GREL (Google Refine Expression Language). Heldigvis likner dette mye på Python, så om du skulle lære deg noe om dette, så lærer du samtidig små biter om programmering. Hvis jeg var ansatt som datajournalist i en nyhetsorganisasjon, med press om å levere analyser og datasett jevnlig, så ville jeg ha satt pengene mine på Google refine (dvs, du trenger ikke sette noen penger noe sted, Google refine er gratis).

GIS, geografiske informasjonssystemer

Et annet spennende område der det skjer nye ting er GIS, geografiske informasjonssystemer. QGIS er et rimelig sted å starte for de av oss som ikke har en bakgrunn fra relevante fagområder, da QGIS er gratis og finnes til alle plattformer. En fin introduksjon finner du på multimedia.journalism.berkeley.edu.

Et annet spennende prosjekt er TileMill, et verktøy for å lage egne kart. Med både en hostet løsning (noen andre driver serveren for deg, mapbox), og muligheten til å lage tiles (de små rektangulære bildene som utgjør et kart i for eksempel Google maps, du har helt sikkert sett dem når du laster kart på en treg linje eller på mobile plattformer) som du kan publisere selv, så har du her et imponerende verktøy for å fortelle historier på kartet. For inspirasjon til hva du kan lage er Chicago Tribunes blogg et fint sted å lete, både for tekniske ting (som her) og vakre (og kanskje noe kontroversielle her i Norge?) ting (som geografisk fordeling av barn under 5 år kodet etter etnisitet) se denne for mer info om hvordan dette kan gjøres.

Mer, mer

Nye verktøy evalueres jevnlig på reviews.reporterslab.org der Sarah Cohen (som snakket på Nordiske mediedager i fjor) er direktør. Et verktøy som er utviklet hos reporterslab er timeflow, for gravende journalister som vil holde orden på kronologien i en story. Et tidslinjeverktøy. Du finner en tutorial på github.

På konferansen nevnt over NICAR12 ble et hopetall verktøy, prosjekter og arbeidsmåter presentert, mye av dette ligger også på nett slik at du kan se gjennom presentasjoner og få tips om verktøy og prosjekter.

En fin lenkesamling finner du også her hos Computerworld (via datadrivenjournalism). Et eksempel er MITs exhibit, som har mange visualiseringsformer godt tilpasset formidling som journalistikk. Exhibit krever at du eller en rundt deg kan litt html/javascript.

Bøker

Det er ingen tvil om at jeg kaster ut en hel masse informasjon her, og lite, om i det hele tatt noe, står på pensum på journalisthøyskolene. Det betyr ikke at journalisthøyskolene er utdatert, vert imot, men at det er mye å lære som ligger utenfor opptråkkede stier. For deg som vil jobbe med datajournalistikk, i alle fall. Det finnes i det hele tatt lite fagstoff på dette området, men slik vil det ikke være lenge.

Fra mennesker med førstehånds innsikt på dette område kommer en crowdsourcet bok, the Data Journalism Handbook. Dette prosjektet er godt i gang, mye er ferdig og du kan se innholdsfortegnelse og boken på ide-stadiet på Google docs. Se videoen for en introduksjon til prosjektet.

Facts are Sacred — the Power of Data ebook fra The Guardian er alt ute. Den kan kjøpes på diverse digitale plattformer, og gir innsikt i hvordan Guardian forholder seg til dette feltet. Boken inneholder mye info og eksempler fra Guardian, men er ikke en “slik gjør du det”-bok. Det er en “dette har vi gjort og lært”-bok.

I fysiske bokhyller finnes det også ting som er verdt å se på. Jeg mener at Philip Meyers “Precision Journalism” er minst like relevant i dag som da den først kom på 70-tallet. Mye av Meyers tankegods på metodesiden kan skrives om til kode — verktøy — og metode er essensen av algoritmer. På visualiseringsfronten er og blir Edward Tufte kongen, og bokens hans “The visual display of quantitative information” inneholder et avsnitt som forklarer at boken startet etter å ha undervist journalistikkstudenter i statistisk metode. Dette er en bok enhver journalist burde ha i prydutgave, den er like vakker som den er nyttig, klar og full av instruksjon.

For å holde deg oppdatert på denne fronten vil jeg anbefale RSS-feeden fra Edward Boraskys scoop.it og datadrivenjournalism.net.

Det mest spennende med dette området synes jeg er at det er så mye prøving og feiling på gang. Vi vet ikke helt hvordan dette skal gjøres, og fra redaksjon til redaksjon og prosjekt til prosjekt prøves ulike metoder og verktøy, med varierende resultat. Etter hvert kan vi håpe at det danner seg mønstre i alt kaoset, slik at metoder og verktøy får en naturlig plass i en fornuftig og effektiv arbeidsflyt. At jeg ikke har snakket om Excel som kongen av datajournalistikk er ikke fordi dette ikke er sant (en pågående studie på området kan tyde på at Excel er norske redaksjoners absolutt viktigste verktøy for databehandling), men fordi Excel allerede finnes i de fleste redaksjoner, det holdes kurs i dette og kompetansen på området finnes over alt. Excel er et flott verktøy, som kanskje bare bør brukes mer?

Hvilke verktøy bruker du til behandling, graving og presentasjon av data? Bruk kommentarfeltet, så lager vi en liste sammen!

Premieflom for datajournalistikk

Olav Anders Øvrebø — Tue, 21 Feb 2012 16:18:19 +0000

Brenner du inne med en knallgod journalistisk ide som innebærer bruk av datakilder? Da har du en uvanlig sjanse: Information.dk tar nå initiativet til konkurransen Nordisk Nyhedshacker, der førstepremien er en måneds opphold hos datajournalistikkpionerene i The Guardian i London. Oppholdet sponses med 20.000 kroner av Google.

Arrangørene definerer datajournalistikk vidt. Her er eksempler på formater som godtas:

visualisering og mashups
et nyt eller sammensat datasæt
en web- eller mobil-applikation
datadreven journalistik i hvilken som helst form

Materialet må være nytt, det vil si laget etter april 2011. Frist for innsending: 20. april.

Data Journalism Awards

En annen og større konkurranse arrangeres av European Journalism Centre. International Data Journalism Awards utlyses for første gang, med innsendingsfrist 10. april. Det konkurreres i tre kategorier: Data-driven investigative journalism, Data visualisation & storytelling og Data-driven applications (mobile or web).

Førstepremien i hver kategori er på 7500 euro og deles ut i Paris 31. mai. Juryen ledes av redaktøren for ProPublica. Les mer på Open Knowledge Foundations blogg.

Finsk app-konkurranse

Helsingin Sanomat har også akkurat utlyst en egen konkurranse. Det originale konseptet her går ut på å produsere det de kaller “artikkel-apps”:

By article apps we mean applications that can be embedded into any web site in 560×400 pixel Iframe. An article app should visualize some interesting data, with the possibility of user interaction or of displaying data inputted by the users.

Også denne konkurransen er åpen for internasjonal deltakelse, og det er premier på 3000 euro.

Vis redaktørene hvordan det kan gjøres

Eirik Stavelin — Mon, 11 Apr 2011 05:00:13 +0000

Redaksjonsundersøkelsen viser at datastøttet journalistikk er et område redaktørene ser potensiale i. Samtidig viser undersøkelsen at dette potensialet ikke kommer til å bli realisert gjennom redaksjonenes ledelse. Dette er gode nyheter for deg som vil utnytte datakraft i nyhetsredaksjonen, for kampen om beinet blir formodentlig lettere, og du bygger opp en kompetanse som det er rimelig at kun blir viktigere og viktigere. Det er ingenting som tyder på at mengden samfunnsnyttig data kommer til å bli mindre med årene.

Men hvor begynner vi? Hva gjør de som satser på dette?

“Computational journalism” og “data journalism”

Jonathan Stray (Interactive Technology Editor hos Associated Press) — en særs teknologisk kompetent mann i nyhetsbransjen, publiserte nylig en leseliste med tittelen a computational journalism reading list. Listen består av en bredt sammensatt samling lenker til tekster om datajournalistikk, visualisering, informasjonsgjenfinning, kryptologi, datastøttet lingvistikk osv. De fleste tekstene er lettere lesestykker som bloggposter, wikipediatekster og tutorialer, men enkelte er hele bøker og vitenskapelige artikler.

I denne leselisten grupperer Stray tekster under overskriften “data journalism”, som en underkategori av computational journalism. Dette er problematisk på norsk. Datastøttet journalistikk brukes ofte for “computational journalism”, og det er fristende å kalle “data journalism” for datajournalistikk, men det er svært lite som skiller disse på norsk. Begrepene er uklare, og også praksisen som skiller de to er en glidende overgang:

Data journalism is obtaining, reporting on, curating and publishing data in the public interest. The practice is often more about spreadsheets than algorithms, so I’ll suggest that not all data journalism is “computational,” in the same way that a novel written on a word processor isn’t “computational.”

Altså; datajournalistikk handler mer om regneark enn algoritmer, mens “computational journalism” rommer alle mulige programvareorienterte tiltak i redaksjonen.

På norsk hadde muligens “algoritmisk journalistikk” eller “programmeringsjournalistikk” dekket bedre for “computational journalism” enn datastøttet, særlig i kontrast til datajournalistikk.

Jeg er usikker på om dette er en fruktbar måte å bruke begrepene på, veldig mange programvareorienterte tiltak for å samle inn data, strukturere og analysere, havner i formater som kan bearbeides i regneark uansett. I praksis kan det dog hende at dette er en fruktbar distinksjon, for det skiller mellom de som kan programmere og de som ikke kan det. Journalister flest programmerer ikke.

Alle som ikke kan programmere kan likevel bedrive datajournalistikk med denne distinksjonen — og hvis vi hopper tilbake til redaktørundersøkelsen: her ligger landet i stor grad upløyd i Norge.

Det som hadde vært nyttig for å komme i gang er innsyn i hvordan andre redaksjoner løser oppgavene.

To caser — en med og en uten programmering

Case 1: data til folket

The Guardians Datablog har en datatung stil. De publiserer ofte, bredt og på en måte som ikke krever programmering. I en nylig bloggpost visualiserer de arbeidsflyten for sin datajournalistikk.

Data journalism workflow on Prezi

Under slagordet “facts are sacred” deler redaksjonen data i større grad som de formidler kommentarer. Denne strategien er ikke unik for the Guardian. Å publisere data, ofte i form av en tabell, har vært en god strategi også for f.eks. Texas Tribune. Dette er en enkel publiseringsform, og krever intet mer enn interesse og dedikasjon.

Eksempel på verktøy som benyttes er Google fusion tables, Google docs og refine. Hvis målet kun er å publisere data på nett, er det slett ikke mye som skal til. Enkle visualiseringsverktøy for å formidle tallene på en enklere måte finnes også i stadig økende mengder.

Selvsagt publiserer både The Guardian og Texas Tribune mer enn kun data i tabeller i bloggformat. Dataene er første skritt, så kommer visualiseringer, grafer, kart, applikasjoner og artikler på nett og papir. Ved å bruke publikum aktivt henter også The Guardian inn publikums tolkninger, kommentarer og visualiseringer basert på dataene som deles. Det finnes som kjent alltid noen der ute som vet bedre enn journalisten.

Case 2: programmering som metode

The Guardians Prezi-presentasjon gir et innsyn i hvordan data flyter gjennom systemet der. Et liknende innblikk i Chicago Tribunes “news apps team” får vi i videoen Best Practices for Impossible Deadlines fra PyCon 2011. Christopher Groskopf representerer en mer teknologisk front, og programmering brukes gjennom hele den journalistiske arbeidsprosessen, fra innsamling av data til presentasjon. Det spennende med Groskopfs video er de noe utradisjonelle verktøyene og teknikkene som gjengen i Chicago bruker for å lande sakene på deadline. F.eks. at teamet streber mot å servere “applikasjonene” sine som flate filer med så lite som mulig av interaktive features er interessant. Hvordan de takler trafikk på er også spennende. For deg som er en selv, eller forstår en programvareutviklers språk, så anbefales denne videoen på det varmeste:

Gjengen hos Chicago Tribune deler imponerende mye kunnskap og kode i bloggen sin, på blog.apps.chicagotribune.com og Github. Åpenhet og delingskultur står tydelig sterkt i denne subkulturen av programvareutvikling, Groskopfs presentasjon viser også hvordan dette er nyttig for alle.

Med utgangspunktet at vi har data (no.ckan.net, data.norge.no, offentlighetsloven, …) er det veldig mange retninger å gå. Listen over nyhetsapplikasjoner inneholder mange gode eksempler.

Selv er jeg svak for kartløsninger, og synes Patrick Cains arbeid hos Toronto Star, særlig “map of the week”, er forbilledlig. Dette krever forresten heller ikke programmering i utgangspunktet, men kan selvsagt utvides og kombineres i mer avanserte applikasjoner.

Hva som er begrensningene med programmering som metode, er et spørsmål helt avhengig av kontekst. Det som er sikkert er at dette er en mangelvare, og kompetansen kan brukes i ulike områder i en nyhetsredaksjon. Fra research, til analyse, presentasjon og automatisering — mulighetene er mange.

Vi har et lite, eksklusivt knippe programmerende journalister i Norge, og mengden er også begrenset i utlandet. Potensialet er langt større enn innsatsen som settes inn. Carpe diem.

Nyhetsapplikasjoner på web: Hvem, hva, hvordan?

Eirik Stavelin — Thu, 14 Oct 2010 05:00:24 +0000

Noen journalister skriver artikler, andre skriver dataprogrammer. I den siste kategorien er nok de som lager webapplikasjoner i flertall. En webapplikasjon er et dataprogram som kjører i nettleseren. Enkelte slike benyttes til å formidle nyheter. I dette innlegget viser jeg eksempler på slike nyhets-webapplikasjoner. Nederst på siden finner du en liste over eksempler, fordelt på land.

Gå rett til listen.

Hva lages?

En av hovedårsakene til å samle på lenker til nyhetsapplikasjoner er for å finne ut hva som lages. Hvilke områder har redaksjoner funnet relevante, viktige nok, spennende nok til å lage nyhetsapplikasjoner om? Hva finnes?

Vi har eksempler på interaktive visualiseringer (statsbudsjett, arbeidsløshet), sanntids sensordata (skipstraffik), stedfesting av informasjon på kartet (GSM-baser, kildesortering, gift i fiskeoppdrettsnæringen), analyseverktøy brukeren selv kan benytte (verdens beste land, Manning Meter, Taxi Flow, valgresultater), ikke-lineær historiefortelling (broderskapet, flykjøp-simulator), monitorering av folkevalgte (buskerudbenken, theyworkforyou) og så videre. Det er neppe mulig å beskrive ulike typer i gjensidig utelukkende kategorier, da de aller fleste inneholder trekk fra hverandre. Det finnes sannsynligvis også uhorvelig mange ulike typer!

Fokus på kart

Fra USA er ’crime maps’, eller kriminalitetskart, en etablert sjanger, med tidlige eksempler som chicagocrime.com (nå everyblock). Chicagocrime var et av de første eksemplene på en mashup basert på Google Maps, dette selv før Google Maps fikk et API.

Også i Norge har vi etter hvert sett løsninger med kart. F.eks. NRKs Kulturminner under press eller TV2s Her kan oppdrettsanleggene bruke gift. Om lag havparten av eksemplene samlet inn så langt benytter kart.

Hvem lager dem?

Store redaksjoner som nrk.no, nytimes.com og bbc.co.uk har laget og samlet sine newsapps slik at er lette å finne igjen. Dette gjør at disse finnes langt flere ganger i listen enn mange andre. Det sagt; listen inneholder over 30 ulike avsendere, og det er ikke avgjort at de store er bedre.

Fordelingen mellom ulike land er ujevn. USA, Norge og Storbritannia utgjør nesten hele listen. Dette har først og fremst med språkforståelse å gjøre, men også med lesevaner. Kjenner du noen gode eksempler fra andre land? Si fra, så legger jeg dem til.

Det er ikke bare nyhetsredaksjoner som lager webapplikasjoner. Også andre som formidler nyhets-aktig, eller nyhets-verdig informasjon er interessante. Slike tilfeller ligger litt på siden av tema her, men det er spennende å se hvilke aktører som nærmer seg dette feltet. Eksempler på dette er interesseorganisasjoner som ønsker å bli hørt (IFPRIs 2010 Global Hunger Index), design- og teknologiselskaper som ønsker å bli brukt av pressen. Borgerjournalister er så langt ikke representert, men den gruppen er det også rimelig å finne.

Teknologi

Nesten 40 prosent av prosjektene i listen er laget i ren flash. Utover det er det stort sett javascript som gjelder. Et eksempel er en java-applet, men denne er fra Many Eyes, og altså ikke skrevet i en redaksjon. Å bruke tjenester som Many Eyes senker helt klart terskelen for å lage ”datajournalistikk”, men det gjør også redaksjonen avhengig av eksterne servere og minsker kontrollen over utseende og oppførsel på nyhetsapplikasjonene. HTML5, som det er knyttet en viss forventning til med tanke på mer spennende presentasjon av multimedialt innhold på web, finnes så langt ikke i listen, dog kanskje denne tidslinjevisningen fra AP.org kunne tenkes å kvalifisere.

Datakilder

Litt over halvparten av listen er bygget på data fra et nasjonalt statlig arkiv eller andre typer data fra statlige institusjoner. Det er altså en betydelig andel som ikke er laget på offentlige data. Data fra webtjenester som Twitter og Netflix er enkle å identifisere, men der er også data fra kultursektoren som Melodi grand prix, private selskaper som har delt data, sports- og økonomitall, interesseorganisasjoner (miljøvern), Wikipedia og WikiLeaks.

Noen applikasjoner samler inn data fra brukerne, i ulike variasjoner av crowdsourcing. Dette har det vært en del snakk om, men i skrivende stund kjenner jeg kun til tre eksempler fra nyhetsredaksjoner. Vet du om flere?

Avgrensninger

TV2 har en desktopapplikasjon med nyhetsoppdateringer, NRK har streaming video og lyd, og stadig får flere og flere nyhetsredaksjoner applikasjoner til mobiltelefoner og lesebrett. Formodentlig utvikles de fleste av denne typen teknologiske hjelpemidler utenfor redaksjonene, eller i egne IT-avdelinger. Da en journalist og en teknolog snakker relativt ulike språk og har ulike faglige idealer, er det nettopp overlappingen som fascinerer, og derfor jakter jeg på produkter som formidler nyheter, der journalisten selv, eller journalisten i samarbeid med en programmerer, har skrevet kode for å formidle nyhetene. Listen inneholder dog en del grensetilfeller.

Sist oppdatert: 16 nov okt 2010. (102 stk)

Nyhetsapp-listen

Norge — (36)
- Maktbasen nrk.no
- Skal du kjøpe bolig? bt.no
- skipstrafikk bt.no
- Kulturminner under press nrk.no
- broderskapet nrk.no
- De hemmeligholdte GSM-basene nrk.no
- Den private ro og orden nrk.no
- Oljekameratene nrk.no
- Brennpunkts flykjøp-simulator nrk.no
- Buskerudbenken dt.no
- gravemaskinen Atbrox AS
- Her kaster du bosset bt.no
- Ekstremvær over hele verden bt.no
- Søk i fylkesmennenes postlister Espen Andersen
- Sett fingeren på trafikkproblemene bt.no
- Slik påvirker statsbudsjettet deg nrk.no
- Mer etikk i Oljefondet aftenposten.no
- Her kan oppdrettsanleggene bruke gift tv2.no
- Statsregnskap 1991–2008 nrk.no
- Døden på veiene bt.no
- TV 2 sjekker kjølediskene i norske butikker tv2.no
- Norske frimurere tv2.no
- Her ryker førerkortene — sjekk ditt sted tv2.no
- Resultater fra nasjonale prøver i skolen 2008 tv2.no
- Følg piratjakten her tv2.no
- Haikesentralen vg.no
- Vaksineguiden vg.no
- Folkevalgte vg.no
- Det store danskesviket vg.no
- Hvorfor forsvant Jarle? vg.no
- Slik er språket til partilederne vg.no
- Utrolige Kristin! vg.no
- VG Nett trenger din hjelp! vg.no
- Barneboom på Askøy bt.no
- Baseskoler gjør ingen forskjell bt.no
- NASJONALE PRØVER bengler.no
USA — (39)
- Murder: New York City nytimes.com
- A Peek Into Netflix Queues nytimes.com
- The worlds’ best countries newsweek
- Burr Oak Cemetery: Browse the headstones chicagotribune.com
- City Council’s $3.7 million allowance: How aldermen spent taxpayer money chicagotribune.com
- Illinois nursing home safety reports chicagotribune.com
- Chicago Tribune Election Center chicagotribune.com
- Tracking homicides in Chicago redeyechicago.com
- Take Action! chicagotribune.com
- Government Favors for Sale chicagotribune.com
- EveryBlock — A news feed for your block msnbc.com
- Stats Monkey Intelligent Information Laboratory — Northwestern University
- politifact St. Petersburg Times
- Changetracker Pro Publica Inc
- Google living stories google
- Money and politics — illuminating the connections maplight.org
- Interactive: Manning Meter indystar.com
- Crime L.A. latimes.com
- Faces of the Fallen: Iraq and Afghanistan Casualties washingtonpost.com
- The Jobless Rate for People Like You nytimes.com
- Tracking Taxi Flow Across the City nytimes.com
- Bridge Tracker msnbc.com
- Historical Hurricane Tracker msnbc.com
- The stimulus tracker msnbc.com
- Adversity Index msnbc.com
- Turning a Corner? nytimes.com
- Budget Forecasts, Compared With Reality nytimes.com
- Naming Names nytimes.com
- All of Inflation’s Little Parts nytimes.com
- Minnesota slowdown minnesota public radio & Berkeley
- D.C. School Scorecard washingtonpost.com
- How Long Does It Take To Build A Technology Empire? wsj.com
- GovTracker: Mapping the Gubernatoral Campaign texastribune.org
- How Much Does it Cost to Become a Regent? texastribune.org
- The State of the Union in Words nytimes.com
- Unemployment Insurance Tracker Pro Publica Inc
- TPM PollTracker talkingpointsmemo.com
- The Election Will Be Tweeted (and Retweeted) nytimes.com
- Casualtis cnn.com
Sverige — (4)
- Valkvitter dn.se
- Indikatorer (børsutvikling) di.se
- Riksdagskollen dn.se
- Så röstade Europa i Eurovisjon Song Contest 2008 svd.se
New Sealand — (1)
- TheyWorkForYou.co.nz TheyWorkForYou.co.nz
Tyskland — (3)
- OffenerHaushalt: Der transparente Bundeshaushalt tactical-tools.net
- Parteispenden über 50.000 € labs.vis4.net
- Todesopfer rechter Gewalt 1990 — 2010 zeit.de
Frankrike — (2)
- Hugo Chavez en 15 dates flash developer
- Profondeurs, ivresses et détresses Rue89
England — (12)
- Does your social class decide if you go to university? Get the full list of colleges guardian.co.uk
- Investigate your MP’s expenses guardian.co.uk
- UK General Election 2010 results map telegraph.co.uk
- National Results after 650 of 650 bbc.co.uk
- Mapping UK’s teen murder toll bbc.co.uk
- UK military deaths in Afghanistan and Iraq bbc.co.uk
- Crash: Death on Britain’s roads bbc.co.uk
- Crash: Death on Britain’s roads bbc.co.uk
- A really quick game about tax bbc.co.uk
- Migration v ageing population — a tricky trade-off bbc.co.uk
- In graphics: Eurozone in crisis bbc.co.uk
- Comprehensive spending review: you make the cuts guardian.co.uk
Danmark — (3)
- 3F’erne bor i utkantsdanmark fagbladet.dk
- Danskernes hårdeste kampe ekstrabladet.dk
- Med livet som indsats fagbladet.dk
Canada — (2)
- Average annual household expenditure on smoking, by census tract The Toronto Star
- Drunk driving map overlaid on 1000m subway map The Toronto Star

Hjelp!
Vet du om noen som ikke er med? Legg igjen en kommentar under, så legger vi den til. Målet er å finne så mange ulike typer og gjennomføringer som mulig, for en best mulig beskrivelse av hvem, hva, hvor og hvordan om datajournalistikk og nyhetsapplikasjoner.

Åpne data tar ikke av uten kunnskapsdeling

Olav Anders Øvrebø — Thu, 16 Sep 2010 14:33:57 +0000

Interessen for åpne data er på vei opp, ingen tvil om det. For et år siden hadde det garantert vært umulig å samle 70 deltakere til en konferanse om datadrevet journalistikk, visualisering og semantikk!

Bergen Open samlet aktører fra private bedrifter (medier, IKT, design), stat, kommune, fylke, forskning og høyere utdanning — akkurat den miksen av folk og tilnærmingsmåter som gjør dette til et av de mest spennende nye feltene innen kunnskapsbasert innovasjon og næringsutvikling akkurat nå.

Arrangøren MediArena har lagt ut presentasjoner; få også med deg Informations Johannes Wehners lysbilder.

Jon Hoem har laget en kronologisk oppsummering av hvert innlegg. Og MediaArena-folkene har fulgt opp med kronikk i Bergens Tidende om Vestlandets digitale fremtid.

Mine subjektive inntrykk, farget av en spesialinteresse for de journalistiske sidene av viderebruk av data, er kort oppsummert disse:

Arbeidskrevende formatkaos: Det begynner å bli en del gode eksempler på journalistiske datakildeprosjekter. Tor Olav Mørseth fra Bergens Tidende (BT) presenterte avisens trafikkofferserie. Hovedkilde er Statens vegvesens datasett om trafikkulykker. Mørseth fortalte om tidkrevende arbeid for å få ut tall og mye jobb med å rette opp feil i datagrunnlaget. Generelt etterlyste han kompetanseheving blant dem som jobber med datakilder i de offentlige virksomhetene, og ikke minst mer standardiserte dataformater. I dag må en gjøre samme jobb med å lage systemer hver gang en har et nytt prosjekt, sa Mørseth.
Fra statiske til dynamiske datasett: Hvis datagrunnlaget oppdateres dynamisk, vil tjenestene man lager få lengre levetid, sa Erik Bugge fra Essens i forlengelsen av Mørseths poeng. Dynamiske data er en viktig forutsetning for å få nok igjen for investeringen i nye tjenester. Data må kunne gjenbrukes internt i for eksempel en redaksjon, eller gjennom deling med andre aktører.
Visualisering er analyse: Visualisering av datakilder er ikke “bare” en designoppgave — det er også en analysemetode i seg selv, fordi man i arbeidsprosessen filtrerer vekk støy og styrer brukeren til det interessante i et datamateriale, sa Jostein Ryssevik fra Ideas2evidence. Mediene er ikke kommet så langt med dette, mente han — fortsatt formidler de kvantitativ informasjon i hovedsak som “døde” tabeller eller grafikk. Til god datavisualisering kreves det både IT-kompetanse, metodekunnskap og evner til historiefortelling. (Ryssevik vartet opp med Charles Joseph Minards fantastiske Napoleon-grafikk fra 1869 — alene verdt hele seminardagen!)

For min del styrket seminaret meg i troen på at deling av kunnskap er en avgjørende forutsetning for at vyene om åpne data som innovasjonsråstoff kan virkeliggjøres. Og med “deling” mener jeg:

Del rådata, konkurrer om ideer: Vi forlanger av offentlige virksomheter at de frigir sine datakilder. Redaksjoner og andre miljøer som får innsyn i offentlig sektors datasett, bør også dele rådataene med hverandre. Det er ulogisk å sitte på datakilder som vi ellers betrakter som fellesskapets eiendom. Konkurransen skal ikke dreie seg om råstofftilgangen, men om hvem som kommer opp med de beste foredlingsideene.
Del kompetanse: Det er neppe realistisk at en redaksjon — eller et annet enkeltmiljø — bygger opp all kompetanse som trengs til datadrevet journalistikk eller tjenesteutvikling. Derimot kan det oppstå økosystemer av spesialkompetanse rundt større aktører som redaksjoner, kunnskapsbedrifter og universiteter. Håvard Ferstad fra BT var inne på dette: Medier vil samarbeide med hverandre, og de vil hente spesialkompetanse utenfra til feks. å grave i datakilder.
Del… visittkort: Konseptet åpne data skaper et felles rom for folk som gjør så ulike ting som visualisering for oljebransjen, analyse av klimadata og programmering av applikasjoner for mobiltelefoner. Alle disse miljøene igjen kan være ressurser for redaksjoner, på en kvalitativt annen måte enn som tradisjonelle intervjuobjekter. Men nettopp fordi aktørene som graviterer mot temaet åpne data er så forskjellige, er faren ekstra stor for at man jobber på samme felt, i samme by, uten en gang å vite om hverandre. Praktisk rettede samarbeidsfora er derfor den første, banale brikken som må på plass.

Å fortelle historier med datakilder

Olav Anders Øvrebø — Fri, 27 Aug 2010 11:14:00 +0000

I fjor høst etterlyste jeg flere eksempler på datadrevet journalistikk. Nå begynner både prosjekter, erfaringsrapporter og analyser å dukke opp. En liten samling fra de siste ukene:

Databasejakt med WikiLeaks: Espen Andersen forteller om hvordan NRK bearbeidet og presenterte materiale fra de lekkede Afghanistan-dokumentene.
Landbruksstøtte: Tommy Kaas beretter om hvordan han fikk ut data om norsk landbruksstøtte på oppdrag fra VG. Kaas er i Bergen førstkommende tirsdag og forteller om sine erfaringer med datadrevet journalistikk, så vent mer fra Kaas her.
Fortellinger og rådata: Alan McLean fra New York Times har lagt ut en svært interessant presentasjon om hvordan avisen arbeider med datakilder. Se nedenfor.

Data Driven Journalism — Telling Stories Online

View more presentations from amclean.

Bergen Open: Seminar om åpne data og journalistikk

Olav Anders Øvrebø — Mon, 16 Aug 2010 10:16:37 +0000

MediArena, et nytt innovasjonsprosjekt for mediebransjen i bergensregionen, inviterer sammen med Vox Publicas utgiver Infomedia til seminaret “Bergen Open”. Det blir presentasjoner og diskusjon om temaene datadrevet lokaljournalistikk, semantisk framtid, forskning og journalistikk og kontekstuelle annonsemodeller. Se mer informasjon og påmeldingsdetaljer.

Tid: Tirsdag 7. september kl. 09.00–15.30. Sted: Scandic Hotell Bergen City.

Blant innlederne er medieutvikler Anders Brenna, danske Johannes Wehner som har gjort spennende arbeid med Information.dk og Bente Kalsnes fra Origo. Dessuten er selvsagt vi i “Fakta først” med. Flere detaljer om opplegg og foredragsholdere er underveis.

MediArenas mål er å “stimulere til økt innovasjon basert på samarbeid mellom bedrifter, FoU og utdanningsmiljøer og offentlige utviklingsaktører.” Det er spennende at de har valgt offentlig sektors data som et satsingsområde. Nettopp regionale og lokale satsinger på å åpne opp data har stort potensial, det har initiativer som London DataStore vist. Kanskje Bergen her kan vise vei for andre norske byer og regioner? I beste fall kan dette lede til en konkurranse om å være den mest åpne byen eller kommunen.

Data trekker flere lesere enn artikler

Olav Anders Øvrebø — Mon, 09 Aug 2010 14:45:00 +0000

En serie nye, ambisiøse nettsteder finansiert av stiftelser og filantroper hører til de mest spennende journalistiske prosjektene i USA de siste par årene. Mange av dem henvender seg til et regionalt publikum, som Texas Tribune, California Watch og MinnPost.

Texas Tribune er spesielt interessante for oss som er opptatt av datadrevet journalistikk. Tilrettelegging av datakilder er en prioritert del av redaksjonens arbeid, som det går fram av en grundig profil i Columbia Journalism Review. På Texas Tribunes dataside finner leseren mange ulike datasett om politikk, økonomi og samfunn i Texas, primært basert på tilgjengelige data fra offentlig sektor. Redaksjonen har laget visualiseringer og gjort databaser søkbare.

Resultatene er virkelig oppsiktsvekkende. De første seks månedene etter oppstarten i fjor høst utgjorde det data-relaterte materialet over en tredjedel av sidevisningene, ifølge informasjon nettstedet selv har publisert. Data-presentasjonen genererte over tre ganger så mye trafikk som enkeltartiklene.

For noen måneder siden refererte vi en undersøkelse som viste at hele fire av ti amerikanske nettbrukere siste år har besøkt nettsteder som publiserer offentlig sektors data. Texas Tribunes erfaringer synes å bekrefte trenden.

Er det så bare å kjøre på med datakilde-prosjekter for norske redaksjoner? Ja — men det er nok også lurt å kikke grundig på hva slags data Texas Tribune faktisk publiserer. En viss tendens er det nemlig til å framheve datasett som kan minne en del om de norske skattelistene. Dette er kilder der data knyttes til personer, som en database der en finner ut hvor mye navngitte offentlige ansatte (og lærere) tjener. Litt spesielt i norsk perspektiv er en komplett database med navn, lovbrudd osv. på alle fangene i Texas’ fengsler.

Norske redaksjoner trenger ikke å bli fortalt en gang til at slike data trekker lesere. Men Texas Tribune har andre datasett også, med stor samfunnsmessig relevans. Som informasjon om hvem som fyller topp-politikeres valgkampkasser, valgresultater, demografisk utvikling, skolerangeringer osv. Her skriver redaksjonen om sine planer videre:

We’re planning much, much more for this year and beyond, especially now that some elected officials are embracing open data standards and making more records available to developers online. We’re planning to tackle lobby spending, with visualization, and make our campaign-finance apps more interactive and incorporated into officials’ directory pages. Expect some ambitious projects related to the upcoming legislative session. We hope to have about 7 million records available to the public by year’s end.