Datajournalistikk - Vox Publica https://voxpublica.no/tag/datajournalistikk/ Magasin om demokrati og ytringsfrihet Mon, 22 Jan 2018 10:31:34 +0000 nb-NO hourly 1 NRKs valgomat – norske konfliktaksar og læring undervegs https://voxpublica.no/2017/08/nrks-valgomat-norske-konfliktaksar-og-laering-undervegs/ Thu, 31 Aug 2017 03:00:59 +0000 https://voxpublica.no/?p=17738 Vi bestemte oss også tidleg for å bruke ressursar på interaksjonsdesign, forklaringstekstar, videoar og visuelt uttrykk. NRK har nemlig blinka ut “andregongsveljaren” som hovudmålgruppe for valet i 2017.

Lære!

At designet i år er meir tidsriktig og tilpassa mobiltelefon enn desktop, er avgjerande for å nå ut. Men ei grunnleggande endring er det ikkje, det er berre ein konsekvens av den tekniske utviklinga. Det som derimot var eit meir grunnleggande val, handla om konsekvensen av å legge meir vekt på læring.

Vi spurte oss sjølve: Skal ein valgomat vere eit orakel som spyr ut eit partisvar til slutt etter at du har fylt ut ei sjølvmelding med standpunkt? Eller skal du kunne forstå litt om norsk politikk undervegs?

Rett på sak i NRKs valgomat: Holdning til skatter og avgifter skiller mellom partiene.

Det er argument for begge delar. Ein kan tenke slik vi har gjort før; at det er ein verdi i at du ikkje skal vere påverka av at du ser din politiske skår og profil når du svarar. Då vil kanskje skåren din vere eit “ekte” resultat som følgjer av dine ubesudla standpunkt. Det andre alternativet var at du ser korleis partia ligg an i kampen om din stemme i eit slags hesteveddeløp undervegs. Eg var sjølv skeptisk, men snudde og vart sikrare jo meir vi jobba med dette. For no har vi laga eit produkt der brukarane får veldig godt innblikk i kva partia meiner undervegs. Partigrafane sprett opp og ned alt etter kva du svarar. Vi ser på brukardata at folk prøvar seg med ulike svar-profilar, går fram og tilbake i spørsmåla, vel litt ulike haldningar til dei politiske påstandane. Og kvifor ikkje eigentleg? Viss ein gjer det på den måten, så brukar ein jo valgomaten til å orientere seg om partia sine politiske standpunkt. Altså gir det potensielt sett meir læring.

Valgomater: Automatisert valghjelp

Når vi ser at politisk engasjerte deler NRKs valgomat i Facebook med teksten “Jeg ble 100% …”, så mistenker vi nok at dei har prøvd nokre gongar. Og det er berre fint. Då har dei sikkert lært sitt eige partiprogram betre ved hjelp av oss.

Kva måler eigentleg valgomaten?

NRKs valgomat måler eigentleg politisk avstand mellom deg og dei politiske partia. Du markerer dine synspunkt på ei rekke påstandar.

I vår modell gjer vi om dette til tal. Er du “heilt einig” i ein påstand er talverdien din på dette spørsmålet +2. Dersom til dømes SV er “heilt ueinig” i påstanden har dei verdien ‑2 og avstanden mellom deg og SV er 4 poeng på dette spørsmålet. Dersom Høgre var markert med same ståstad som deg, så er avstanden mellom deg og Høgre 0 på det spørsmålet. Når du har svart på alle påstandar summerer vi avstanden din til alle parti. Så gjer vi om avstandsmålet til ein einigheitsprosent. Går du gjennom heile valgomaten med ein avstand til eit parti på 0 (som nokon altså har bevist i sosiale media at dei har klart), vil du vere 100 prosent einig med dette partiet. Å bli 0 prosent einig med eit parti er derimot umogleg.

Korleis har vi valgt ut påstandar?

Vi la ulike kriterium til grunn for utvalet av påstandar.

Det skal vere aktuelle politiske spørsmål som er oppe i debatten i 2017, og som vi hadde grunn til å tru kunne prege valkampen. Vi såg helst at det var politiske tema som var behandla på partia sine landsmøte, slik at partia sine standpunkt er å finne i partiprogramma for 2017–2021. Med andre ord: Valgomaten burde ta for seg politiske spørsmål der partia faktisk går til valg på eit dokumenterbart standpunkt. I dei tilfella der det ikkje var programfesta standpunkt å finne, gjekk vi til andre kjelder, det kunne vere prinsipprogram, stemmegjeving i Stortinget, forslag frå regjeringa, kronikkar, synspunkt som var fremja i samfunnsdebatten eller liknande.

Så må det jo helst vere vesentleg det vi spør om. Men kva som er eit vesentleg politisk spørsmål kan det vere mange svar på. Vi har nok i stor grad tenkt etter det journalistiske vesentleg-kriteriet: Noko som er viktig for mange.

Tematisk variasjon er eit openbert krav til ein valgomat som skal treffe breitt. Ein valgomat må ha noko om skule, noko om helse, noko om samferdsle, miljø og så vidare.

Vi var også opptekne av at valgomaten skal spegle landet.

Dei norske konfliktaksane

Men aller viktigast for utvalet av spørsmål, er kriteriet om at spørsmåla skal vise fram politiske skiljeliner. Eit politisk spørsmål kan vere så aktuelt, vesentleg og variert det berre vil. Dersom ikkje partia har ulike standpunkt til det politiske spørsmålet blir det meiningslaust å ta det med.

Då går vi til statsvitskapen. Dei veletablerte teoriane om skiljelinene i norsk politikk, som stammar frå Stein Rokkan, er med inn i NRKs valgomat. Den økonomiske høgre-venstre-aksen er den skiljelina som dominerer valgomaten. Vi ser på dette valet som eit styringsval. Det er to framtredande statsministerkandidatar, Erna Solberg og Jonas Gahr Støre. Og sjølv om vi kan diskutere samarbeidskonstellasjonar i timesvis, så er kampa om regjeringsmakta grunnleggande sett ein kamp mellom to blokker. Difor er det riktig å spørre veljaren spørsmål langs den økonomiske aksen – der partia mellom anna skil seg i synet på bruken av offentlege og private løysingar. På desse spørsmåla – til dømes skattespørsmåla – grupperer partia i den borgarlege blokka seg stort sett på den eine sida av 0 og dei andre på den andre sida.

Sentrum-periferi-aksen har alltid vore sentral i norsk politikk. Då vi laga valgomaten i vår kjendest den meir relevant enn nokon gong. Senterpartiet var i meiningsmålings-rus, og det var teikn til distriktsopprør mange stader. Difor måtte mange spørsmål ta opp i seg denne aksen. Spørsmål om ulv, politireform og landbruk illustrerer dette. Her grupperer partia seg annleis enn på dei økonomiske spørsmåla.

Miljø – eller det som har blitt kalla vekst-vern-aksen – har nok styrka seg som ein politisk akse, og må med. Spør du MdG, er jo ikkje skiljet lengre mellom raudt og blått, men mellom grønt og grått. Om ein ikkje kjøper heile den analysen, så er det uansett riktig å spegle aksen med fleire spørsmål, og her grupperer partia seg annleis enn dei gjer på økonomi-spørsmåla og distriktsaksen.

Skilja langs den religiøs-sekulære dimensjonen er også sentral i analysen av det politiske Norge. Den lever i beste velgåande, og er med i valgomaten. Ikkje med mange spørsmål riktignok, men den er med. Den hjelper først og fremst til å skilje ut KrF som har sitt eksistensgrunnlag på grunn av denne politiske konfliktlinja, men den skil også andre parti frå kvarandre. Spørsmål om KRLE er det “reinaste” spørsmålet langs denne aksen, men skiljelina kjem også indirekte til uttrykk i spørsmål om kontantstøtte og surrogati til dømes.

Synet på innvandring blir analysert som ein eigen politisk konfliktakse. Vi har dette med i to spørsmål i valgomaten. Spørsmåla sorterer grovt sagt dei innvandringsliberale partia frå dei restriktive, mens FrP skiljer seg tydelegast ut i sum.

Ein global-nasjonal akse er også ein del av norsk politisk debatt. Den kan kome til uttrykk i synet på EU til dømes. Når vi spør om haldning til EØS og til dels når vi spør om Natos toprosentmål, så speglar vi dette.

I sum vil partia gruppere og plassere seg ulikt når vi spør spørsmål som speglar ulike aksar. At dei ulike konfliktaksane er representerte i valgomaten er dermed langt viktigare for fordelinga av parti enn at ulike politiske tema er dekt.

Gir valgomaten eit riktig råd?

Det er ei rekke dilemma med ein valgomat.

Ei avgrensing er sjølvsagt det valgomaten IKKJE måler. Val av politisk parti handlar om langt meir enn partipolitiske saks-standpunkt. Det dreier seg om tillit og identitet. Valgomaten kan ikkje måle kva for ein politikar du har tiltru til, kven du trur vil prioritere dei rette sakene i forhandlingar, kven du trur er flinkast til å styre. Den vil heller ikkje i særleg stor grad fange opp det som har å gjere med identitet. Kva du stemmer handlar jo også om kven du vil vere, korleis du ser på deg sjølv, og det kan henge saman med din familiebakgrunn eller kulturelle miljø.

Har vi spurt deg om det du er oppteken av? Nei, det er jo slett ikkje sikkert. Dersom di altoverskuggande kampsak er ei lokaliseringssak eller eit kulturpolitisk spørsmål vi ikkje har noko om, så gir jo ikkje valgomaten mykje meining. Men vi går ut frå at dei fleste gjer eit partival basert på forskjellige saker. For å gje brukaren litt meir av makta, har vi valt at du kan markere kva for nokre spørsmål som er viktigast for deg. Desse spørsmåla blir så tillagt meir vekt i utrekninga av resultatet.

Sidan valgomaten eigentleg summerer avstand, vil parti med mange ekstreme standpunkt (heilt einig eller ueinig) sannsynligvis vere dei som i snitt får størst avstand til gjennomsnittsbrukaren. Det vil gjere at til dømes SV, R og FrP får stor avstand til enkelte brukarar. Men det viser seg å ikkje vere noko stort problem, det kan nemlig vere heilt riktig at fløypartia har stor avstand til ein gjennomsnittsveljar. Avstands-summeringa gir også ein annan effekt. Ein del sentrumsparti vil – fordi dei har moderate standpunkt i mange saker, til dømes på venstre/høgre-aksen – i sum ikkje ha så stor avstand til gjennomsnittsbrukaren. Det gjer at ein typisk brukar som ikkje svarar veldig ekstremt, kan få høgare skår på nokre av sentrumspartia enn vedkomande hadde sett for seg.

Men på den andre sida: Akkurat det seier jo også noko riktig om norsk politikk. Og det ser også ut til at dei som høyrer heime hos dei store partia eller i sentrum i mindre grad markerer for dei ekstreme standpunkta. Når partia let sine eigne folk prøve ut valgomaten før lansering, traff dei sitt eige parti med overtydande stor presisjon.

]]>
Derfor lagde vi en superenkel valgomat i VG https://voxpublica.no/2017/08/derfor-lagde-vi-en-superenkel-valgomat-i-vg/ Thu, 24 Aug 2017 05:00:39 +0000 https://voxpublica.no/?p=17692 VG har som ledestjerne å være grundige og korrekte, samtidig som vi skal være lettfattelige og gjerne underholdende. Alle lesere skal ha utbytte av VGs dekning av norsk politikk, enten de har store eller små kunnskaper fra før. Vi arbeider målrettet for å engasjere alle aldersgrupper – også yngre lesere.

Mange av våre konkurrenter har tradisjonelt hatt svært omfattende valgomater med mange spørsmål/påstander, vekting og så videre – så i år lå det i kortene at vi måtte prøve å lage noe kort og fyndig.

Den største utfordringen med å ha veldig mange påstander man skal si seg enig eller uenig i, er at leserens forventning om et presist resultat stiger i takt med antall påstander – uten at mengden nødvendigvis gjør resultatet noe riktigere.

En annen utfordring med mange påstander er at det blir vanskelig for utvikleren å ha oversikt over alle mulige utfall. Vi fniste for eksempel litt av en tidligere valgomat som anbefalte Venstre hvis man svarte «vet ikke» til samtlige påstander – vi tror det var utilsiktet.

Valgomater: Automatisert valghjelp

I den andre enden av skalaen er det ingen grunn til å legge skjul på at vi var fascinert av Bergens Tidendes hurtig-valgomat fra forrige valg. Den fremstår som en spøk, men er samtidig – i teorien – 100 prosent treffsikker. Problemet er selvfølgelig at velgeren kan være uenig med sitt favorittparti i akkurat de problemstillingene utvikleren har valgt ut.

Vi endte opp med en mellomting. Dette valget står mellom to politiske blokker og to statsministerkandidater, så vi spanderer fire påstander for å plassere brukeren i riktig blokk. Hvis det står 2–2 etter de fire påstandene, spør vi brukeren rett ut om hun foretrekker Jonas eller Erna som statsminister. Vi vurderte lenge om også dette spørsmålet burde vært en politisk påstand, men vi valgte som vi gjorde fordi statsministerkandidaten for mange kan være vel så viktig som ideologi.

Deretter bruker vi fra én til fire påstander på å finne riktig parti innenfor sosialistisk- eller borgerlig-blokken. Disse påstandene vil variere etter hva brukeren har svart tidligere. (Hvis du allerede har uttrykt skepsis til statlig styring og økte skatter, er det liten vits i å spørre om du synes det er en god idé å gjennomføre en revolusjon for at staten skal overta produksjonsmidlene.) Miljøpartiet De Grønne er en slags joker som tviholder på sin blokkuavhengighet, og derfor kan velgere på begge sider få dem som resultat.

Målet var at valgomaten skulle være så treffsikker som mulig, selv om vi har færre spørsmål enn vanlig, skriver artikkelforfatterne.

Vi har lagt mye arbeid i å finne temaer som er viktige for hvert parti og deres velgere. Målet var at valgomaten skulle være så treffsikker som mulig, selv om vi har færre spørsmål enn vanlig. Hvis noen tror det er mindre jobb å lage en valgomat med få spørsmål enn en med mange, kan vi herved avkrefte det.

Målet er at alle skal finne valgomaten vår interessant, uansett hvilke kunnskaper de har på forhånd. Denne utfordringen har vi forsøkt å løse ved å gjøre selve påstanden så enkel som mulig, uten kompliserte ord, og at det heller følger en utdypende tekst til hver påstand.

Den grafiske utformingen av valgomaten er nokså enkel. Det skyldes at de fleste leserne våre leser oss på mobilskjermen.

Siden valgomaten handler om å finne en «match», har vi latt oss inspirere av sjekke-apper som Tinder. Det kulminerer med at et knippe røde hjerter farer over skjermen når man har funnet en «match». Først da hjertene kom på plass, følte vi at valgomaten begynte å finne formen. Vi er ikke noen fasit for hva folk bør stemme, og prøver heller ikke å fremstå som det.

Besøkstallene for valgomaten er gode, som forventet. Men vi har latt oss overraske over at Snapchat-versjonen av valgomaten alene er besøkt omtrent 100 000 ganger, med en snittlesetid på halvannet minutt. Halvparten av Snapchat-brukerne er under 18 år, og de bruker lengre tid enn gjennomsnittsleseren! Det er langt over hva vi forventet, og det kan tyde på at vi har lyktes i noe av det vi forsøkte.

Når valgomaten er fullført, ledes leseren videre til «Kampen om regjeringsmakten». Her mener vi selv at vi er forbilledlig pedagogiske i å fremstille en kompleks sak enkelt. En svakhet ved tradisjonelle valgomater er at graden av enighet med partiprogrammet ikke alltid avgjør hva folk stemmer; det kan være vel så avgjørende hvem partiet vil samarbeide med etter valget.

Vi er ikke noen fasit for hva folk bør stemme, og prøver heller ikke å fremstå som det

Når vi snakker om stortingsvalg-leketøy, vil vi også trekke frem «Slik kunne Stortinget blitt» – en valgordning-kalkulator der leseren kan se hvordan valgresultatet kunne blitt hvis valgordningen hadde vært litt annerledes. Her kan leseren nerde seg ganske langt ned i materien. Denne kalkulatoren har vi også brukt som verktøy for å lage egen journalistikk, for eksempel da Fremskrittspartiet foreslo høyere sperregrense (neimen, skulle du ha sett: Fremskrittspartiet ville faktisk tjene på høyere sperregrense!).

Allianse-oversikten og valgordning-kalkulatoren er ikke valgomater i klassisk forstand, men de er en del av VGs tilbud av interaktivt valgstoff, og må sees i sammenheng. Noen vil nok hevde at vår valgomat er i knappeste laget. Da kan vi kontre med at konkurrentenes valgomater i liten grad gir leseren informasjon om hvilke regjeringskonstellasjoner som egentlig er aktuelle for partiet de ender opp med. Og at konkurrentenes dekning av hvordan stortingsvalget i 1949 ville ha gått hvis D’Hondts mandatfordelingsmetode hadde blitt byttet ut med Sainte-Laguës modifiserte metode det året i stedet for fire år senere, også fremstår i overkant minimalistisk.

]]>
Uten roboter stopper pressen https://voxpublica.no/2017/01/autostory-robotjournalistikk/ Mon, 30 Jan 2017 08:23:13 +0000 https://voxpublica.no/?p=16989 Autostory er et essay om hvordan automatisering av redaksjonelle prosesser vil påvirke selve journalistfaget. Det tar for seg journalistisk programvare med fokus på automatisk skrevne tekster og dataene som gjør dette mulig, automatisk faktasjekk og litt om mennesker som arbeider som datajournalister.

Essayet er en slags brain-dump fra to hoder som har stirret lenge på hvordan roboter opererer med og rundt journalistikken. Vi får med en god dose beskrivelse av praksis, en del drøftede, men ubesvarte spørsmål, og noen pek inn i en potensiell framtid.

La det være sagt tidlig: Forfatterne Otterdal og Ruud er teknologioptimister.

Vi bygger boken på den oppfatning at en automatisering av tidkrevende skriveprosesser, i tillegg til å være verktøy i eksempelvis research og graving, vil gi en oppblomstring av god journalistikk i demokratiets, menneskehetens og naturens tjeneste. (p8)

De er ikke opptatt av journalistikk i form av organisasjoner eller bedrifter, de er opptatt av journalistikk som funksjon i samfunnet, og deres pek inn i framtiden viser ikke det mange som jobber i bransjen i dag har lyst til å se. De tar det som for gitt av menneskene som frigjøres fra skrivearbeidet settes til å gjøre annen god journalistikk. Litteratur-spiren som ble journalist for å betale husleia er død.

De journalister som har levd i den villfarelse at det er tidkrevende, omstendelige arbeidet med å produsere ord og setninger, at det er kjernen i journalistikk, bør kanskje se seg om etter andre yrker og fag. (p6)

Eller formulert mer etter Hegnar-prinsippet:

Egentlig tar det ikke mer enn fjorten dager å lære det grunnleggende i journalistikk. Det er mye bedre å trene opp folk med teknologisk kunnskap til å forstå journalistikk, enn det motsatte (s63).

Sånn kan man jo effektivt skremme vekk den gruppen som kanskje umiddelbart framstår som publikum for teksten. Så hvem er nå det egentlig? Forfatterne selv uttaler at det er lesere utenfor tradisjonell presse, “eksempelvis studenter som utdanner seg innen informatikk” som er publikum. En ganske smal gruppe. Jeg vil legge til universitets-folk både fra teknologi og journalistikk, medieledere (selv om det kanskje kan framstå som en grøsser for noe av dem), så vell som teknologer og hacktivister som formodentlig kan finne problemer å løse både for samfunnsnytte og profitt.

BOKOMTALE
autostory
Magne Soundjock Otterdal og Geir Terje Ruud: Autostory. Et essay om hvordan automatisering forandrer journalistikken. Cappelen Damm 2017.

Så hva er nå en “autostory” i denne sammenhengen?

Tyngdepunktet i boken er rundt tekster som er skrevet av en datamaskin, ikke av et menneske på en datamaskin. Maskingenererte nyhetstekster. Dette kan være tekster skrevet av kommersiell programvare a la Quill (Narrative Science) eller WordSmith (automated insights) eller mer spesialdesignet kode som VGs mye omtalte kommunegjeld-robot.

Om du er mer teknisk nysgjerrig kan du se på koden og presentasjonen til Jens Finnäs fra #noda16. Finnäs viser oss her et slags minimums-eksempel, som er lett å forstå. Teknologien bak Quill og Wordsmith er mer avansert. Finnäs prosjekt blir for øvrig omtalt i autostory, da i den mer avanserte (men fortsatt enkle å forstå) roboten Marple. De mener rett og slett programvare som setter sammen ord til nyhetsfortellinger — autostories. Det er i hovedsak slik programvare de snakker om når er sier “robot”, selv om de avslutningsvis også inkluderer droner.

En fremtid der nesten alle journalistiske tekster er produsert slik, eller i alle fall startet som en slik autotekst, er den verden Otterdal og Ruud forsøker å tegne et bilde av. Et ganske vakkert bilde tegner de.

Hva med ulempene?

Jeg savner en lengre diskusjon rundt ulempene. Hva med slagsidene vi baker inn i programvare? Hva med journalistiske tekster som litterære verk, med forfatterens egen tydelige stemme, språklig musikalitet, eleganse og fingerspitzgefühl som denne typen syntetiske tekster kanskje aldri får? Hva når alle som har data (offentlige, private, NGOer) genererer sine egne nyheter, basert på sine og ikke journalistikkens preferanser, publisert i de sosiale mediene der publikum er? Hva med de rene propaganda-robotene?

Mot slutten anerkjennes en del problemer, som “avkvalifisering av mannskapet” som automatisering ofte medfører, fartsblindhet, etiske utfordringer og problemer rundt automatiseringen av faktasjekking. Selv om det både finnes historiske, kontemporære og framtidige (forsknings så vel som journalistiske) prosjekter som forsøker å angripe dette, så er det slettes ikke innlysende at dette er et problem som lar seg løse maskinelt ut over spesialiserte caser. Naturlige språks (talespråk) vaghet har jo alltid være en politiker, bedriftsleder og deres spindoktors beste venn. Slike pessimistiske perspektiver er ikke å finne i autostory, selv om teksten kanskje hadde gitt et mer realistisk bilde av verden hvis den slags var tatt med.

Vi får derimot en helt annen løsning på problemet: Altså — det er mye “fake news”, sladder, feilaktig informasjon og propaganda der ute på nett. Etter å ha erkjent at markedet (som støtter finansieringen av automatiserte tekster) ikke stiller de samme type ressurser fram for sivilsamfunnets interesser, oppgir forfatterne journalistikken som løsning på problemet og foreslår å bruke (halvparten) av lisenspengene som i dag går til NRK på å “utvikle programvare som hjelper borgere med å avdekke manipulasjon, falskneri og plagiat på nett” (p83). Dette vil være en ny måte å definere et digitalt samfunnsoppdrag på, mener de. Dette er en karamell flere kan få tygge litt på.

Autostory veksler mellom å være ganske selvsagt til å være ganske provoserende. Det pekes på mange områder der journalister, studenter eller andre kan gå inn og skape noe, uten å forklare hvordan eller om det i det hele tatt er teknologisk mulig. Dette er forfriskende og henger fint sammen med det optimistiske perspektivet teksten har. Jeg tok meg selv flere ganger i å gruble på om problemer som omtales i boken i det hele tatt lar seg løse teknologisk, eller om de kan være av den typen problemer som ikke ordentlig lar seg fange av formalspråkenes krav til presisjon.

Ingen framtidstragedie

Essay-formatet tillater det formodentlig, men jeg savner en teoretisering av den journalistiske modellen i autostory. Rent hvordan journalistfaget blir etter påvirkningen av automatisering er ganske uklart — jeg savner en modell. Noe å holde i eller peke på. En slags oppsummering, og bro mellom menneskene som driver datajournalistikk (kap4) og oppgavene som skal løses (kap 2,3–5). Jeg sitter også igjen og lurer litt på hva hovedargumentet egentlig er. I (en veldig nær) fremtid skriver datamaskiner ut nyhetstekster, spesialtilpasset til rett platform og bruker, gitt rik og riktig input. Hva så? Annet enn at det blir bra, er det uklart hvordan journalistikken er endret.

Vi får en ganske ok status for autostories hos dem som ligger lengst framme i dag, vi får mange eksempler på suksesshistorier med imponerende godt oppdaterte referanser (nesten alt som omtales i autostories skjedde i 2016) og en litt uklar fremtid og implikasjoner. Å kikke inn i fremtiden er ingen lett jobb (det er faktisk umulig — selv for roboter); her får vi tegnet ned et glimt av det som er der fremme, men forfatterne kunne tillatt seg å dratt enda litt mer på. Beskrevet den hypotetiske verden litt klarere, og tatt seg noen kunstneriske friheter en robot kanskje aldri helt vil matche, og tatt med flere av nedsidene.

I siste kapittel, lengst inn i framtiden, møter vi en journalist og hans drone som dekker en trafikkulykke nær deg. Den historien skal jeg la den som kjøper boka få lese, men la meg avsløre at det ikke er en tragedie du får lese. Jeg anser meg selv som teknologioptimist, og synes det er rart å omtale et verk skrevet av to kloke menn som har brukt betraktelig tid i nyhetsredaksjoner, og ofte tenke at de har tatt litt for mye Möllers tran på teknologiens vegne — og at de har unnlatt å teoretisere og problematisere der det hadde vært betimelig.

Men kanskje — kanskje er det just denne typen løpefart og tran som skal til, de omtaler jo en bransje som sårt trenger endring og samtidig ikke vil endre seg. Hvis du har teknologiske muskler og lyst til å jobbe med journalistikk er dette en rik kilde å idémyldre rundt. Hvis du hever lønn for å skrive tekster for en avis, og har planlagt å fortsette med det, så er det best for sjelefreden din at du finner noe annet å lese.

]]>
Det beste fra Norden: nyhets­ap­pli­ka­sjo­ner og datajournalistikk https://voxpublica.no/2016/04/resurser-nyhets%c2%adap%c2%adpli%c2%adka%c2%adsjo%c2%adner-og-datajournalistikk/ Mon, 25 Apr 2016 10:34:19 +0000 https://voxpublica.no/?p=15695 Årets #noda, nordisk datajournalistikkonferanse, er just ferdig i Helsinki og for tredje gang ble det det ut pris for Nordens beste datajournalistikk. Det var i år 53 kandidater som kjempet om æren, og VG stakk av med prisen i to av fire kategorier.

Årets konkurranse hadde en ny kategori, beste mobile datajournalistikk, som den finske allmennkringkasteren YLE vant med en ny leken Tinder-variant på det gamle valgomat-konseptet. SVT tok prisen for beste applikasjon med visualiseringen Flyktingströmmar till EU, mens VG altså tok prisene for både beste undersøkende journalistikk og beste feature. De norske ofrene er et gigantisk arbeid, og identifiserer både hvem og hvor nordmenn gav sitt liv i andre verdenskrig.

Skjermbilde fra VGs prisvinnende prosjekt om de norske ofrene i 2. verdenskrig.

Skjermbilde fra VGs prisvinnende prosjekt om de norske ofrene i 2. verdenskrig.

Alle datajournalistikkprosjekter er sårbare for dataråte, så vi får krysse fingrene for at VG klarer å holde denne i live lenge, så vel som at Nasjonalbiblioteket eller liknende finner en god måte å ta vare på arbeidet til VG inn i fremtiden.

Det var VGs nedlasterne som tok prisen for undersøkende journalistikk. Det er gøy å se at gjengen i VG år etter år leverer store gode tunge dataprosjekter, de har tydeligvis et godt maskineri for å få til denne typen journalistikk. Blant de nominerte finner vi også Sunnmørsposten, Bergens Tidende og innsyn.no (FVN) fra Norge. Dagbladet, Stavanger Aftenblad, NRK, TV2 og Adresseavisen hadde også arbeider påmeldt. Alle de nominerte arbeidene kan studeres på konferansens nettsider, og også på nodabase.net hvor eksempler på god datajournalistikk samles av NXT Media.

Flere godbiter

Når vi først er på ressurs-samlinger med datajournalistikk, så har vi også en oppdatering. I 2010 lagde vi en liste over innovativ og spennende datajournalistikk presentert som nyhetsapplikasjoner. Nå har vi fått tak i en ny oppdatert liste fra Joakim Karlsen, høyskolelektor ved Høgskolen i Østfold og forfatter av flere artikler om datajournalistikk og fagfeltet mellom teknologi og historiefortelling. Listen er ispedd noen ekstra godbiter, f.eks. Jonathan Strays nye bok om data for journalister og den svært matnyttige “Quartz guide to bad data”.

Karlsen forteller at det er en tydelig smitteeffekt på hvilke formater som velges, slik at etter at New York Times lagde sin berømte Snowfall, så finner vi i nå i ettertid en hel mengde slike “snowfalls”. Dette ser ut til å være en mote, som alle hopper på og lager til det er over-brukt. Ellers er det fortsatt, som vi også ser i noda-nominasjonene, de største redaksjonene som leder an, samtidig som det er tydelig at faget fortsatt er veldig personavhengig. Det er “guruer” der ute som ofte fungerer som hjørnestein i prosjekt etter prosjekt, og som etter resultatene å dømme leder fagfeltet ved i stor grad personlig å definere hva og hvordan ting skal gjøres.

Portal-sider:

Saker:

Og enda noen godbiter for den gryende datajournalist

]]>
Hvorfor utdanner vi journalister som ikke kan programmere? https://voxpublica.no/2015/08/hvorfor-utdanner-vi-journalister-som-ikke-kan-programmere/ Mon, 17 Aug 2015 08:36:28 +0000 https://voxpublica.no/?p=14888 “Data, kode og programmering må på pensum”, skriver VGs digitalredaktør Ola Stenberg på Medier24 (og på bloggen sin). Han påpeker at vi opererer i et medielandskap der det er et tydelig skille mellom teknologiaktørene og journalister, og at det er på tide å skape sanne journalist-teknolog-hybrider som lager journalistikk med solid forståelse for hvordan og hvorfor teknologien deltar i samfunnet og livet vårt.

Folka som Stenberg etterspør, og deres kompetanse, vet vi en hel del om, og vi formidler også kunnskapen ut. Dette er folk vi kaller datajournalister (muligens midlertidig – distinksjonen forsvinner kanskje med tiden?). Det er en tydelig trend at det er denne typen folk redaksjonene ønsker seg (f.eks. søkte Aftenposten etter “digitale hoder” og NRK “digitale historiefortellere”, osv). Folk som både “har journalistisk teft” og teknisk innsikt nok til faktisk å lage digitale produkter selv. Det var deres virke og deres posisjons potensial jeg skreiv min avhandling om.

Gjennom årene som stipendiat konkluderte jeg med det samme som Stenberg: ekspertkunnskap innen datateknologi er en kjempefordel for journalister, og uunnværlig for neste generasjons gravende journalistteam. Dette er en naturlig konsekvens av at samfunnets infrastruktur digitaliseres. Hvis vi ønsker at noen skal se den etter i sømmene, holder det ikke med folk som kan bruke teknologi, lese av målinger og loggføringer, men folk som kan kritisk analysere den selv. Når datamengdene blir store, er kode og programmering enkelt og greit eneste framgangsmåten som muliggjør dette. Det er den “viktige” journalistikken. Men også i den “gøye” journalistikken trenger vi disse folka: det er de samme ferdighetene som skal til for å lage interaktive visualiseringer, kartløsninger, applikasjoner som lar deg sammenlikne forholdene der du bor mot andre steder, osv – en blanding av teknisk ferdighet og nysgjerrig kritisk blikk med en dash sans for spennende brukeropplevelser. Se f.eks. på vinnerne av årets NODA-priser. Ting går i riktig retning.

Prosjektet #sporet fra Berlingske gjør omfattende bruk av dataanalyse og var en av vinnerne av NODA-pris 2015. (skjermbilde fra b.dk)

Prosjektet #sporet fra Berlingske gjør omfattende bruk av dataanalyse og var en av vinnerne av NODA-pris 2015. (skjermbilde fra b.dk)

Men det var jo også sant at “data, kode og programmering” var en innlysende vei framover for journalistikken for 10 år siden (2005). Og observert av en av datajournalistikkens pionerer, Philip Meyer – som anbefalte journalister å lære seg å programmere i 1973, i førsteutgaven av boka Precision Journalism, som jeg selv anser som en klassiker. Det finnes eldre eksempler, men folk som gikk journalistikkhøyskolen i 1973 er dagens førtidspensjonister og “digitaliseringen av samfunnet” som konsept var ennå ikke funnet på.

Avslutningsvis kommer jeg til å gi et kvalifisert blikk inn i neste generasjons journalistikkutdanning ved Universitetet i Bergen, men før det ønsker jeg å tygge litt på, og spekulere litt i, hvorfor vi i dag snakker om “digital kompetanse” som etter-utdanning for journalister. Hvorfor har ikke mediehusene ansatt, utdanningsstedene utdannet og journalister og studenter lært seg dette?

Første tanke — samfunnet reproduserer seg selv

Mediehusene har tradisjonelt ansatt samfunnsvitere og humanister — fra hvit middelklasse – som igjen ansetter folk som likner på seg selv (se Jan Fredrik Hovden for mer presis forskning på journalistikk og kultursosiologi). Dette er et menneskelig trekk som må jobbes med (det er et flott kapittel om hvordan Google aktivt og bevisst motarbeider dette i “How Google Works”, anbefales!).

Utdanningsstedene består av mennesker som forsker på journalistikk eller av tidligere praktiserende som går inn som lærere for neste generasjon. Det som er viktig for dem, er å levere fremragende forskning på feltet, og/eller å undervise i den journalistikk-kunnskapen som gjorde at de fikk en plass på et universitet eller høyskole. Utskiftningen av fast ansatte på universiteter og høyskoler er lav, folk trives og blir lenge (se f.eks. dette innlegget i debatten).

Også studenter arver ideer, og ferske studenter har ikke det samme bildet i hodet av en journalist som tekno-journalistikk-nerder som Stenberg og meg, de har sine tanker og idealer for journalistikken som var.

Ingen av disse tingene taler for raske endringer.

Når folk kvoteres inn et sted, er det for å veie opp for slike effekter, og få en mer representativ eller balansert sammensetning. Hva med å kvotere på fagkunnskap i nyhetsredaksjoner? Maks N hum/sam-ere pr realist? Eller operere med en journalist-til-programmerer-ratio?

Andre tanke – er nyhetsredaksjoner et sted der den teknisk flinke trives best på jobben?

I digitaliseringen av nyhetsredaksjonene har teknologi vært sett på som en trussel, og det har tidvis skapt arbeidsmiljø der tekniske ferdigheter ikke har gitt noen spesiell status som journalistisk metode.

Da jeg leste meg gjennom litteraturen på teknologi og journalistikk, var dette noe jeg irriterte meg over personlig: den journalistiske kulturen har tidvis vært direkte fiendtlig mot de folka den trengte så sårt. Dette tok jeg selvsagt med meg inn igjen i redaksjonene på turné i norske redaksjoner sammen med Joakim Karlsen, og fikk til svar at den tiden i hovedsak er over. Heldigvis.

Det er også et faktum at det ikke har vært nødvendig med tekniske fag eller realfag for å få jobb i en nyhetsredaksjon. Disse fagene har typisk høye opptakskrav, og ansees som vanskelige (og dessverre ok å ikke kunne). Journalistikkutdanning er også vanskelig å komme inn på, men har ikke realfag eller tekniske fag som inntakskriterier (som er fundamentet for “data, kode og programmering”) – fram til nå. Hvorfor stresse med matte når du kan chille med latte?

En teknolog-type har typisk kunnet heve høyere lønn andre steder enn i en nyhetsredaksjon. Jeg vet ikke hva en teknologisk orientert journalist tjener, men jeg håper han (for det er svært få damer som gjør dette i Norge) i dag er kompensert på en slik måte at redaksjonene kan holde på og bygge en solid kultur rundt den teknologiske kompetansen de har.

Enda en trend som har vært skadelig, er outsourcing og sentralisering. Jeg snakker nå om outsourcing av tekniske tjenester i redaksjonene. Teknisk drift i norske redaksjoner ble for bare noen år siden både outsourcet og sentralisert. Dette var med på å skape et tydelig skille mellom teknologer og journalister, som ikke lenger delte kantine eller møttes ved samme kopimaskin. Det har helt sikkert sett lurt ut på strategimøter over et Excel-ark, men det sikret samtidig at veien til teknisk kompetanse ble enda litt lenger i redaksjonene. Noen av de aller mest spennende data-jobbene (med enorme muligheter for datajournalistikk) i Norge må da være hos Schibsteds finn.no, og ikke i Schibsteds Aftenblad? Her har noe viktig gått i journalistikkens disfavør.

Tredje tanke – datajournalister er helt annerledes enn journalist-generalister

Datajournalistikken representerer en spesialisering, hvor journalistutdanningene så langt har utdannet generalister. En journalist skal både kunne gjøre research, intervjue, filme, klippe, fotografere, skrive, osv. Dette er den forrige stereotypen for journalistikkstudiene – det var dette redaksjonene pleide å ønske seg. Det er også en del variasjon i bransjen om hva man ønsker at en journalist skal lære gjennom høyere utdanning, utover at de skal være “komplette” og “selvgående”.

Det er ikke slik at alle journalister nå skal programmere, men redaksjonene er allerede fulle av folk som ikke gjør det – så Stenberg må få rett i at de som skal inn burde kunne det. Vi kan kanskje si at vi er på vei bort fra generalisten, og at også journalistikken blir langt mer spesialisert?

Veien videre

Ola Stenberg skriver:

Hvis ikke utdanningene tar grep nå vil de uteksaminere kandidater som ikke er gjeldende. Det vil blant dem være et skille mellom journalistikk og teknologi, og ingen som har et slikt skille vil overleve i den digitale fremtiden. Da ender vi opp med at mediehusene ansetter helt andre folk.

Utdanningene tar grep. Jeg vet ikke hva de tradisjonelle journalistikkprogrammene gjør, og kan kun snakke for det miljøet jeg tilhører. De grepene som gjøres er å legge om journalistikkutdanningen i en mer moderne retning. Dette betyr mer workshops foran kollokvier og auditorium-undervisning. Det betyr større moduler som består av små enkelt utbyttbare workshops, tema-pakker og prosjektoppgaver som gjør at det er enklere å få inn pensum og kunnskap som endrer seg raskt. Det betyr også at “data, kode og programmering” kommer på pensum, men at det gjøres i kontekst av en journalistikkutdanning på journalistikkens premisser, og ikke blir en informatikkutdanning. Dette er noe vi, som et sammenslått institutt mellom mediefag og informasjonsvitenskap, har svært gode forutsetninger for – og konkrete planer om å sette i verk i Media City Bergen.

Samfunnet trenger ikke bare å utdanne journalister som kan kode. Vi trenger å utdanne nysgjerrige, kritiske og reflekterte journalister. Journalister som også er selv-kritiske, og ser at journalister med teknologibakgrunn er underrepresentert i redaksjonene og at bransjen nok også burde rekruttere fra andre utdanninger enn bare journalistikk. Dermed får Stenberg rett to ganger i samme sitat: (1) at journalister bør utdannes til å hanskes kritisk med teknologi uten alltid å være avhengig av en ekstern ekspert, og (2) at mediehusene også burde ansette helt andre folk for å sikre et mer diversifisert og kvalifisert blikk på samfunnet og pressens rolle i det.

Det ligger mange utfordringer foran oss, og vi har en skjev ballast, men for en digital nysgjerrigper i en nyhetsredaksjon har forutsetningene neppe noen gang vært bedre — og dem kommer det flere av.

]]>
Databasehøsting og slitte skosåler https://voxpublica.no/2015/06/databasehoesting-og-slitte-skosaaler/ Tue, 16 Jun 2015 12:15:40 +0000 https://voxpublica.no/?p=14785 Mange tror det er umulig å få tak i data fra skatteparadiser, sa journalist Miranda Patrucic. Men vi bare ringte og spurte i Gibraltar, og så fikk vi ut omfattende dokumentasjon.

Patrucic var en av innlederne på konferansen Dataharvest i Brussel i mai, som samlet journalister, mediefolk og aktivister fra hele Europa til tre dager med intensiv kunnskaps- og ideutveksling. Dette var fjerde gang konferansen ble arrangert, og veksten i antall deltakere har vært formidabel.

Store datamengder, megetsigende detaljer

Korrupsjonsskandalene rundt den usbekiske diktatordatteren Gulnara Karimova var tema for Miranda Patrucics undersøkelser. Fra Gibraltars registre fikk hun viktig ny dokumentasjon som knyttet Karimova til omfattende korrupsjon med telekomlisenser i Usbekistan, der Telenor også er involvert.

Dette var lærdommer som gikk igjen i flere av historiene som ble presentert på Dataharvest: Datakildene finnes, selv i sensitive saker. Transaksjoner, registrering av selskaper – slike handlinger etterlater papirer og data som kan spores opp. Men det vil fortsatt ofte være nødvendig med godt, gammeldags reporter-fotarbeid, tålmodighet og kildepleie for å få tilgang (et særlig imponerende eksempel på kombinasjonen data-analyse og reporterhåndverk er Reuters-prosjektet Comrade Capitalism, om korrupsjon i Putins Russland).

Journalister må ikke nødvendigvis reise til eksotiske himmelstrøk for å få slitt skosålene. I LuxLeaks-saken var utgangspunktet en lekkasje av 28000 sider med skatteavtaler mellom multinasjonale selskaper og Luxembourgs myndigheter. Redaksjoner og journalister i mange land samarbeidet om å analysere og systematisere dataene, koordinert av The International Consortium of Investigative Journalists (ICIJ). Å forstå og presentere skatteavtalene var mest sentralt, men et interessant aspekt var hva som foregikk på de multinasjonale selskapenes kontoradresser i Luxembourg. For belgiske Kristof Clerix medførte det å luske rundt i anonyme kontorbygninger, notere navn på postkasser og godsnakke med sekretærer for å få tak i de megetsigende detaljene.

Grenseoverskridende journalistikk

Dataharvest har vokst ut av et ønske om å fremme grenseoverskridende journalistikk i Europa. Både legale og illegale pengestrømmer krysser grenser, og det gjør selvsagt også politiske prosesser. Selv om de fleste europeiske medier har et nasjonalt publikum, bør journalister og redaksjoner samarbeide om research i saker der aktører og interesser i flere land er involvert, mener initiativtakerne, med journalist Brigitte Alfter fra Danmark i spissen. I sin presentasjon pekte hun på fem samarbeidsvarianter, fra løse til strukturerte:

  • Nettverk: Fortløpende utveksling av informasjon og ideer på temaområder av felles interesse.
  • Enkeltstående prosjekt: Der du trenger hjelp til begrensede arbeidsoppgaver i et annet land.
  • Relatert vinkling: Når en sak du jobber med har en forgrening til et annet land som ikke er interessant for deg å forfølge, men er det for en kollega.
  • Løst samarbeid: Partnerne utfører felles, klart definerte oppgaver. Eksempel: Oppbyggingen av en database over landbruksstøtten i EU, der en måtte få innsyn i registre i hvert enkelt land.
  • Nært samarbeid: Intensivt og tett prosjektarbeid mellom team i flere land. Et eksempel på det siste er da Alfter og kolleger fra Belgia og Nederland sammen avdekket hemmeligholdte rapporter om bivirkninger av medisiner på det europeiske markedet.

Fortsatt gjenstår hinderet med medienes nasjonale publikum. Hvordan presentere resultatene av et grenseoverskridende journalistisk prosjekt? Dette kan løses ved at samarbeidet dreier seg om å finne og sjekke fakta, mens selve historiene fortelles og presenteres på ulike måter tilpasset de nasjonale målgruppene og i tråd med nasjonale journalistiske tradisjoner.

Finansiering vil også være et hinder for mange. Fondet Journalismfund.eu er nært knyttet til Dataharvest og opprettet nettopp for å gi støtte til grenseoverskridende prosjekter (Fritt Ord bidrar også til dette fondet).

Tips og veier videre

Dataharvest hadde mange workshops på programmet der innlederne villig vekk delte metodeerfaringer. Ett tips som gikk igjen fra dem som presenterte graveprosjekter var å sjekke gazetter (offisielle meldings- eller lysingsblad) for informasjon om f.eks. registrering og eierforhold i selskaper (eksempel: Luxembourg). I en del land er disse publikasjonene åpenbart bedre kilder enn de mer kjente virksomhetsregistrene som våre Brønnøysundregistre.

Nettsider med praktiske tips:

(Red.anm.: Artikkelforfatterens deltakelse på Dataharvest var finansiert av et stipend fra Fagpressen).

]]>
Journalistikk med lang holdbarhet https://voxpublica.no/2014/04/journalistikk-med-lang-holdbarhet/ Wed, 30 Apr 2014 10:58:34 +0000 https://voxpublica.no/?p=12762 Vox Publica har over 1400 artikler i arkivet. Vi er overbevist om at mange av dem inneholder kunnskap som har lang levetid. De kan med andre ord komme til nytte for stadig nye lesere.

I en nettpublikasjon er alt som ligger i arkivet i prinsippet akkurat like tilgjengelig som de dagsaktuelle artiklene. I likhet med alle andre har vi gjort lite ut av mulighetene dette skaper. Til nå. For her kommer Vox Publicas nye levende temasider, der relevant materiale fra eksterne data- og innholdskilder knyttes automatisk til våre egne artikler.

Vi har nå over 800 slike temasider — om personer, institusjoner, land, begreper med mer. Et lite utvalg gode eksempler: ytringsfrihet, Camilla Collett, Kina.

Temasiden om Kina.

Temasiden om Kina.

Kildene vi bruker i dag er: Digitalt Museum/Norvegiana, Store norske leksikon, Wikipedia, Virksomme ord. Vi ser for oss å utvide med flere kilder etter hvert.

Et API må til

Teknisk fungerer løsningen slik: Innholdet blir hentet via programmeringsgrensesnittet (søke-API) til de respektive tilbyderne. Navnet på temaet for hver side blir brukt som søkestreng, og API-ene returnerer resultatene i XML- eller JSON-format. De relevante delene av søkeresultatet blir hentet ut og formatert. I de tilfellene hvor et API ikke returnerer noen relevante resultater, vises ikke noe fra denne kilden.

Vi er altså avhengig av at innholdskildene tilbyr et API (for å bedre tilgangen til Virksomme ord, en database over politiske taler i Norge, har vi nylig selv dokumentert basens API).

Selve temaene er ganske enkelt “tags” eller stikkord som vi tilordner hver artikkel. Her har vi for øvrig en jobb å gjøre med å “tagge” eldre artikler i arkivet. Publiseringsverktøyet WordPress innførte støtte for stikkord først noen år etter vår lansering i 2006.

“Pakke inn fisk”-myten for fall

Temasidene er vår variant av det som til vår store glede er i ferd med å bli en nettjournalistisk trend — forklarende journalistikk.

Både journalister og publikum er vant til å tenke at gårsdagens nyheter i beste fall er egnet til å pakke inn fisk i. 20 år etter nettjournalistikkens fødsel er det på høy tid å kvitte seg med denne forestillingen.

Antakelig har mediefolk alltid overvurdert attraktiviteten av nyhetspoenget og undervurdert nytten publikum har av fakta- og kontekstinformasjon. Spørsmålet “Hva dreier saken seg om?” har hatt små sjanser mot “Hva er aller siste nytt i saken?”. De forklarende setningene som likevel ofte er nødvendige for at mange lesere får mening ut av nyheten, har gjerne blitt plassert et godt stykke ned i teksten eller til nød i stikkordspregede faktabokser.

Noen redaksjoner har jobbet seriøst med strukturerte fakta og kontekst en stund. I Tyskland kobler Spiegel egne artikler med bl.a. leksikondata. New York Times prøvde seg med oppsummerende artikler skrevet spesielt for temasidene. Guardian har både laget temasider og åpnet sitt eget arkiv for eksterne utviklere via et åpent API.

Forklarende journalistikk på moten

I USA har flere mye omtalte nyetableringer i det siste sørget for mer dynamikk rundt den forklarende journalistikken (og sågar påstander om en “wonk”-boble). Journalisten Ezra Klein forlot Washington Post for å starte Vox, et nettsted som tilbyr vel så mye forklaring som nyhet. Redaksjonen produserer til og med egne kortfattede faktapakker i form av “kortstokker” om utvalgte temaer (les og lær om El Niño eller Obamacare).

Også FiveThirtyEight, startet av Nate Silver, legger stor vekt på fakta, kontekst og analyse. Silver ble berømt for å ha spådd resultatet av presidentvalget i alle USAs delstater i 2012. New York Times har kontret med sin egen variant Upshot.

En måte å se utviklingen på er å skille mellom “flow” og “stock”, mener Adam Tinworth. Flow er de løpende nyhetssakene, stock er informasjon med lengre holdbarhet. I formater som papiravisen og radio og TV har vektleggingen av ferskvareinformasjon framfor informasjon med holdbarhet gitt god mening. På nettet er det ingen grunn til ikke å omprioritere.

Hvem satser i Norge?

Fra norske mediekolleger har jeg hørt at utvikling av fakta- og kontekstformater har blitt nedprioritert fordi man ikke er overbevist om at de vil tilføre kommersiell verdi. Dessuten er det alltid konkurranse om de interne ressursene.

Vi håper at Vox Publicas temasider kan være et lite bidrag til norsk ideutvikling. Med små ressurser kan vi ikke gjøre som Vox og FiveThirtyEight og sette en redaksjon i sving med “håndlaget” forklarende journalistikk. Derfor har vi satset på automatiserte løsninger via kilder med API — med tro på at også det å sluse leserne mot gode informasjonskilder tilfører dem nyttig informasjon og perspektiver.

Teamet som har utviklet temasidene er: Håvard Legreid (design), Håvar Skaugen (programmering), Olav A. Øvrebø (prosjektledelse).

]]>
Ny bok: datastøttet journalistikk https://voxpublica.no/2013/05/ny-bok-datastottet-journalistikk/ Tue, 21 May 2013 05:46:53 +0000 https://voxpublica.no/?p=10671 NRKs datajournalistguru Espen Andersen gav nylig ut boken Datastøttet journalistikk på IJ/Cappelen Damm med støtte fra pressens faglitteraturfond. Boken tilbyr 200 sider lettlest stoff om databruk i norske redaksjoner mellom to myke permer. Andersen er inkluderende og skremmer formodentlig ikke bort sine lesere med kompliserte formler og avansert notasjon, slik an del teknologibøker kan gjøre. Boken passer fint for pressefolk i arbeid, så vel som medier og kommunikasjon-studenter og lavere grads universitets- og høyskolestudenter. Det er en introduksjonsbok, og den forventer ikke at du kan noe om databehandling fra før. Andersen forklarer teknologiske begrep og viser fram metoder og teknologier, men slipper aldri målet ut av synet: de gode historiene i datasamlingene.

Martin Eide skriver i bloggposten om boken Hva er journalistikk at:

Det mangler begrunnete forslag til en journalistisk kanon. Det syvende bud er dette: Du skal velge dine forbilder med omhu. Et godt forbilde er et fyrtårn, ikke en havn.

Innledningsvis er det omrisset av just dette Andersen tegner, caser å strekke seg etter — caser som har strukket journalistikken, ved bruk av teknologi. Slik guides vi trygt og kyndig inn i stoffet med et håp om engang å avdekke og avsløre med hjelp av datajournalistikk.

Espen Andersen - datastøttet journalistikk

Espen Andersen — Datastøttet journalistikk

Ingenting i boken står uten kontekst. Når vi lærer om normalisering av databaser og maskinlesbare formater er det fordi vi skal lære hvordan man finner de beste skolene eller branner i verneverdige hus. Casene driver boken framover. Det er ikke bare teknikker og resultater, det er spennende historier og eksempler som viser hvorfor programmering som journalistisk metode har gullalderen foran seg.

Som skoleverk inneholder boken mer enn kun “slik gjør du det”-stoff, men går også gjennom temaer som etikk, offentlighetsloven og problemstillinger rundt tilgang og avslag på innsynsbegjæringer. Journalistikk er både teknisk og sosialt, og prosessen slik den forklares tar høyde for både mennesker og maskiner.

I bokens innledning leser vi at Andersen heller vil gå rett på sak og ikke forenkle, for så å forvente at de som føler for det heller googler seg fram til mer kunnskap underveis. De bitene vi ikke trenger å google er lettfattelig tilgjengelig, og viser de overordnede linjene. Som med datajournalistikkhåndboken spares det på de aller mest tekniske detaljene. Dette har Andersen løst ved å legge til avanserte temaer mot slutten av boken. Der lærer vi om datatyper, å skrive en skjermskraper og å “intervjue” et datasett med SQL. To helt sentrale metoder som kan brukes i utallige prosjekter og fagområder.

Det finnes ingen konkurrenter til denne boken akkurat nå. Både Digital sporhund av de Lange Kofoed & Selmer-Nedrelid og Vagthund i vidensamfundet av Mulvad, Swithun og Svith er utdaterte. Denne typen bøker har kort levetid, men i de kommende årene antar jeg denne vil være å finne i mange skolesekker og pressebagger i Norge. Dette er datajournalistikk i 2013, men nok også noen år inn i framtiden.

Selv om Andersen har mange caser å vise til, og lærer oss noe viktig ved hver eneste én, så er boken plutselig slutt. En teknolog leser denne boken på få timer. Forhåpentligvis vil journalister og studenter kose seg med den lenger og grave dypere i metoder og muligheter – for her blir vi presentert for framtidens gravende journalists levebrød.

]]>
Samstemmer: forskningsmetode ble prisvinner https://voxpublica.no/2013/05/samstemmer-forskningsmetode-ble-prisvinner/ Thu, 16 May 2013 07:02:04 +0000 https://voxpublica.no/?p=10664 Samstemmer.net vant førstepremie i kategorien for apper laget av enkeltpersoner i DIFI og IKT-Norges konkurranse apps4norge. Samstemmer startet her på Vox Publica. For omtrent et år siden undret jeg “Stortingsdataene er her! Hva nå?”. I kommentarfeltet kom det fram at Edda Media (som tidligere hadde laget en spennende, men kortlivd tjeneste i Buskerudbenken for Drammens Tidende) ikke kom til å gjøre noe, men at de likevel så nytteverdi i datasettet.

Skal du ha noe gjort så må du gjøre det selv, heter det. Som sagt, så gjort — koden som jeg delte i fjor (som kun henter data) ble videreutviklet og automatisert. Mitt mål er å finne ut hvordan et dashbord for journalister bygget på denne typen data bør se ut. Å forske på denne måten heter design science – iterativ design som forskningsmetode – som er vanlig i informasjonsvitenskap, og er en morsom måte å jobbe på. For å få dialogen i gang med stortingsreportere laget jeg noen eksempler på ting vi kan gjøre. Vi kan finne “outliers”, som de som stiller flest eller færrest spørsmål, eller bruker det mest avanserte språket i spørsmålene sine. Vi kan lage nettverk av spørsmål, eller hvor likt representantene stemmer. Ved bruk av kvantitative metoder fra statsvitenskapen kan vi også regne ut hvem som er “lengst til høyre i høyre” eller “venstre i venstre” og visualisere resultatet. Blant annet. Samstemmer.net har mer.

Samstemmer.net er basert på data fra Stor­tin­gets data­tje­neste, som var et hyg­ge­lig bekjent­skap å gjøre i utvik­lings­fa­sen. Å få denne mel­din­gen fra twit­ter var gøy!

Samstemmer.net er basert på data fra Stor­tin­gets data­tje­neste, som var et hyg­ge­lig bekjent­skap å gjøre i utvik­lings­fa­sen. Å få denne mel­din­gen fra twit­ter var gøy!

Enkelte av tingene jeg gjør er direkte urimelig, som å rangere Stortinget etter lesbarhet (med LIX) og å peke ut representantene som “aldri” dukker opp for å votere. Dette er gjort for å vise fram data fra APIet og å sette i gang diskusjonen med ekspertene — stortingsreporterne. Det er deres kunnskap og erfaring jeg ønsker å forstå for å finne ut hvordan et informasjonssystem som dette bør se ut og oppføre seg for å støttes deres rolle. Men hva er viktig? Hva er nyttig?

Veien videre nå er å analysere intervjuene med norske stortingsreportere og samle kunnskapen derfra. Dette vil bli delt sammen med koden på Github Den som ønsker å hjelpe meg å videreutvikle Samstemmer er hjertelig velkommen. Koden er skrevet i python med hjelp av django, og bruker d3js til de fleste grafer og visualiseringer.

Prototyper på informasjonssystemer laget av studenter pleier normalt ikke å få oppmerksomhet. Det er klassen og sensor, stort sett, som får sett og prøvd dem. I Apps4Norge-konkurransen var det flere skoleoppgaver som deltok, og vi får håpe det blir flere slike nasjonale konkurranser og sørge for at studentmiljøene får dette med seg – det er veldig hyggelig at flere får innsyn i hva vi driver med i universitetsmiljøet.

]]>
Når databaserte nyheter blir partiske https://voxpublica.no/2013/01/nar-databaserte-nyheter-blir-partiske/ Mon, 07 Jan 2013 09:17:00 +0000 https://voxpublica.no/?p=9706 Tenk på Google News. Da tjenesten ble lansert i 2002 var den et av de første forsøkene på å samle inn og personalisere nyheter med algoritmer — det vil si med prosedyrer som skritt for skritt og systematisk behandler informasjon. Google skrøt til og med av det på hjemmesiden: “Denne siden ble laget utelukkende med datamaskinalgoritmer, uten menneskelige redaktører. Mennesker ble verken skadet eller brukt i arbeidet med denne siden.”

Google News-algoritmens kriterier for å rangere og gruppere nyhetsartikler er publiseringshyppighet, kilde, aktualitet, sted, relevans og mangfold. Millioner av ganger om dagen bruker Google News-algoritmen disse kriteriene til å ta redaksjonelle avgjørelser.

Likevel, i den systematiske bruken av beslutningskriterier kan algoritmen skape skjevheter som ikke synes opplagte, gitt programmeringen av den. Det kan være lett å gi etter for feilslutningen om at fordi datamaskinalgoritmer er systematiske, så må de på et vis være mer “objektive”. Men det er faktisk slike systematiske skjevheter som er de mest lumske, siden de ofte går ubemerket hen.

Selv roboter kan være partiske.

Enhver beslutningsprosess, enten menneskelig eller algoritmisk, om hva som skal tas med, ekskluderes eller vektlegges — prosesser Google News har mange av — har potensial til å skape skjevheter. Det interessante med algoritmer er at beslutningskriteriene som er tilgjengelige for algoritmen kan synes harmløse, men samtidig føre til resultater som oppleves som partiske eller med slagside.

Enhver skjevhet i dataene som algoritmen fores med blir med på lasset

Et eksempel: Hvis den ikke programmeres spesielt for det, vil ikke Google News-algoritmen ta parti når den plukker representative artikler om en lokal valgkamp — tjenesten er grunnleggende upartisk. Men et av kriteriene for å velge ut artikler er “publiseringsfrekvens”. Det kan virke nøytralt — men hvis en av kandidatene i valgkampen gjennomgående får litt mer mediedekning (altså høyere “publiseringsfrekvens”), kan det kriteriet få Google News’ utvalg til å virke partisk.

Algoritmer kan mangle semantisk grunnlag til å kunne forstå mer avanserte begreper som stereotypier eller rasisme. Hvis de enkle og målbare kriteriene algoritmene bruker til å ekskludere informasjon fra synlighet på en eller annen måte korrelerer med for eksempel kløfter mellom folkegrupper, kan de se ut som at de har en slagside mot en folkegruppe.

Enkle beslutningskriterier som leder til komplekse avgjørelser om å inkludere og ekskludere er en måte som partiskhet og skjevhet, ofte uforvarende, kan vise seg i algoritmer. Andre mekanismer som kan skape skjevheter i nyhetsdekningen kan illustreres med en særlig viktig informasjonsprosess — oppsummeringen.

Oppsummering av virkeligheten

På en måte dreier nyhetsrapportering seg egentlig om å oppsummere virkeligheten. Du kan innvende: “Det dreier seg også om å fortelle en historie!” — og det vil du ha rett i, siden lite er kjedeligere enn en tørr oppsummering. Men før historien kan fortelles må reporteren ta beslutninger om hvilke hendelser som skal tas med, hva slags bakgrunnsinformasjon som trygt kan utelates, og hva som bør vektlegges som virkelig viktig. Alt dette har potensial til å farge historien. Reportere observerer verden og avdekker mye informasjon, for så å gjøre et håndterbart utvalg som er tilpasset tiden og oppmerksomheten publikum har til rådighet. Dette er å oppsummere.

Oppsummering er viktig fordi tid og oppmerksomhet er to av råvarene som definerer vår epoke. Mange av oss ønsker eller trenger ikke kjenne til intrikate detaljer i hver nyhetssak; ofte nøyer vi oss gjerne med et kjapt overblikk over en hendelse. Dette behovet for å optimere oppmerksomhet og redde oss fra informasjonsflommen driver fram nyskaping innen behandling og oppsummering av informasjon, i redaksjonelle vurderinger så vel som i nye datamaskinalgoritmer.

Gründerbedriften Circa i San Francisco arbeider med en app for redaksjonelle vurderinger som oppsummerer hendelser som serier av “punkter” eller faktabiter. Redaktører samler inn “fakta fra et mangfold av kilder” og gjør dem om til “konsise, lettleste “punkter” i Circa”, slik appens hjelpesider beskriver konseptet. Nå legger Circa selv mindre vekt på oppsummering og mer på historiefortelling. De knytter de konsise “punktene” sammen i en sekvens som bygger en historie. Tilnærmingen deres er drevet av redaktører og er selvfølgelig utsatt for alle de ulike måtene som skjevhet og partiskhet kan oppstå i en redigeringsprosess, inkludert både individuelle og organisatoriske preferanser.

Din daglige nyhetsmeny har antakelig blitt påvirket av mange ulike algoritmer

Men hva om Circa begynte å bruke algoritmer som istedenfor å basere seg på redaktører, tok automatiske avgjørelser om hvilke punkter de skulle ta med eller utelate? Da kunne de begynne å likne mer på London-baserte Summly, som har en ny lese-app med “algoritme-genererte sammenfatninger fra hundrevis av kilder”. Summly velger de “viktigste” setningene fra en artikkel og presenterer disse som oppsummering. Men hvordan kan denne algoritmen begynne å lage skjevheter i historiene den produserer, for eksempel gjennom definisjonen av “viktig”? Er det for eksempel tenkelig at algoritmen i en sak om den israelsk-palestinske konflikten kunne velge ut setninger på en disproporsjonal måte slik at den ene sidens syn vektlegges tyngre enn den andres?

Kanskje vil vi aldri få vite hvordan Summlys algoritmer kan skape skjevheter i oppsummeringene den lager; den er en proprietær og lukket teknologi. Det understreker behovet for åpenhet om algoritmer. Ved å studere mer åpne forsøk som forskningsbaserte prosjekter kan vi lære mye om hvordan algoritmer for oppsummering virker og kan skape skjevheter.

Jeg snakket med Jeff Nichols ved IBM Research, som har bygget et system (pdf) for å oppsummere sportsarrangementer basert kun på Twitter-meldinger (tweets) folk skriver om dem. Sportsinteresserte Nichols begynte å plotte inn mengden av tweets om kampene under VM i fotball i 2010. Han så at mengden økte på visse tidspunkter, og brukte sin ad hoc-metode til å finne de mest spennende øyeblikkene i en kamp slik at han kunne spole fram til dem på sin videoopptaker. Mengden tweets øker naturlig ved spennende hendelser, særlig scoringer.

Deretter begynte Nichols og hans team å spørre vanskeligere spørsmål om hva slags oppsummeringer de faktisk kunne lage på bakgrunn av Twitter-materialet. De endte opp med å lage et system som kunne behandle alle tweets om en kamp, finne toppene i tweet-aktivitet, velge ut representative nøkkel-meldinger fra disse hendelsene, og spleise dem sammen til korte oppsummeringer. Når lesbarhet og grammatikalsk nivå ble sammenlignet, viste det seg at tekstene laget med algoritmen var av tilsvarende kvalitet som manuelt produserte oppsummeringer basert på det samme Twitter-materialet.

Manuell eller maskinell oppsummering — hvilken er best?

IBM-systemet viste likevel at en spesiell type skjevhet kan snike seg inn i algoritmer:

Enhver skjevhet i dataene som algoritmen fores med blir med på lasset helt fram til det ferdige resultatet. Algoritmen er partisk til fordel for “de som skriker høyest”, ifølge Nichols, siden den relativt enkle algoritmen finner relevante tweets ved å lete etter frekvensen av nøkkelord på engelsk. Implikasjonene er ganske klare: Hvis Slovenia scorer et kontroversielt mål mot USA, kan algoritmen rapportere at “USA ble ranet”, hvis det er den dominerende reaksjonen i engelskspråklige tweets. Men antakelig vil ikke slovenere som tvitrer om hendelsen være enig. De vil sannsynligvis melde noe sånt som “Fint mål — der fikk dere den, USA!” (på slovensk, selvfølgelig). Nichols er interessert i å tilpasse algoritmen for å ta hensyn til ulike perspektiver og generere bevisst partiske oppsummeringer fra ulike synsvinkler (kan bli en vinner i amerikanske kabel-tv-nyheter!).

Når de skal ta avgjørelser om hva som skal inkluderes i eller ekskluderes fra en oppsummering, må algoritmer vanligvis gå gjennom et skritt der informasjon prioriteres. Ting med lavere prioritet blir ekskludert. IBM-systemet er for eksempel rettet inn mot høydepunkter i idrettsbegivenheter. Dette fungerer hvis målet er å finne de mest spennende delene av en kamp, som får mye oppmerksomhet. Men det er andre interessante historier som bobler like under terskelen for “høydepunkter”. Hva med midtstopperen som spilte solid i forsvar, men aldri gjorde en enkeltprestasjon som ga mange nok tweets til å bli oppdaget av algoritmen? Denne delen av kampen, eller historien, ville bli utelatt.

IBM-algoritmen ikke bare prioriterer informasjon, men må også gjøre utvalg basert på ulike kriterier. Noen av disse valgene kan også kodes inn slik at programmererne hjelper algoritmen med å gjøre valg (heuristikk). For eksempel har IBM-systemets programmerere forhåndsbestemt at algoritmen skal foretrekke lengre framfor kortere tweets til oppsummeringene, siden de kortere meldingene pleier å være mindre lesbare setningsfragmenter. Det er helt klart en avgjørelse som kan forsvares, men Nichols innser at det også kan skape en skjevhet: “Å utelate kommentarer fra folk som har en tendens til ikke å skrive fullstendige setninger kan kanskje ekskludere en lavere utdannet del av befolkningen”. Kriterier valgt av programmerere for utvalg og prioritering kan korrelere med andre variabler (som utdanningsnivå) som kan være viktige når partiskhet og skjevheter i mediedekning skal vurderes.

Optimering, rangering, aggregering

Oppsummeringen er bare én type informasjonsbehandling som kan systematiseres i en algoritme. Din daglige nyhetsmeny har antakelig blitt påvirket av mange ulike algoritmer allerede før du har begynt å konsumere nyhetene. Algoritmer for personalisering som dem som brukes av Zite, en populær applikasjon for å lese nyheter, tilpasser systematisk innhold til dine interesser, på bekostning av å eksponere deg for et større mangfold av saker. Social Flow, en gründerbedrift i New York, bruker algoritmer for optimering for å finne ut det nøyaktige tidspunktet for når det er best å dele nyheter i sosiale nettverk slik at de får maksimalt gjennomslag hos målgruppen.

Optimeringsalgoritmer kan også bli brukt (pdf) til å bestemme layouten av en nyhetsside. Men å optimere layout basert på ett kriterium, som antall sidevisninger, kan ha utilsiktede konsekvenser, som at skandaler og kjendisnyheter alltid havner øverst på siden. Også her kan valget av hvilke aspekter man vil optimere og hva de er korrelert med, ha betydning.

Algoritmer for rangering er annen type som er mye brukt i nyhetssammenheng. Tenk på listene over “toppsaker” på de fleste nettaviser, eller hvordan kommentarer blir rangert, eller til og med på hvordan Twitter rangerer trender. Særlig Twitter-trender har kommet i søkelyset etter at hendelser som folk trodde ville dukke opp på listen over trender, som #occupywallstreet eller #wikileaks, ikke viste seg. I likhet med Summly er ikke Twitter åpne om algoritmen de bruker til å identifisere trender. Det gjør det vanskelig å vurdere hvilke systematiske skjevheter som er innebygd i algoritmen og om heuristikk eller menneskelige valg innlemmet i den også kan spille en rolle.

Forskere jobber med hvordan du kan bli eksponert for nyheter på en nyttig måte

Google bruker også rangeringsalgoritmer til å sortere søkeresultatene dine. I dette tilfelle er rangeringsalgoritmene utsatt for den samme typen skjevhet til fordel for “de som skriker høyest” som vi hørte om fra Nichols. Internett er fullt av firmaer spesialisert på søkemotoroptimalisering som prøver å lure Googles algoritme slik at visse typer innhold vil vises høyt oppe i søkeresultatene selv om det kanskje ikke fortjener å være der. Dette gjør de delvis ved å knytte visse nøkkelord til nettstedet de ønsker å dytte oppover på listen over søkeresultater, og ved å lage hyperlenker fra mange andre nettsteder til dette nettstedet. Andre prøver å manipulere søkerangeringer. Professor Takis Metaxis ved Wellesley College og hans kollega Eni Mustafaraj har skrevet om “googlebombing”. Her skaper man koblinger mellom politiske aktører, som George W. Bush, og negative søkeord, som “håpløs fiasko”, slik at personen dukker opp når noen søker på denne frasen. Dette er et perfekt eksempel på hvordan skjevheter i data som en algoritme fores med kan føre til skjevheter i resultatet. Og når dataene algoritmen fores med er offentlige, ligger algoritmen åpen for manipulasjon.

Ikke alle typer skjevheter og partiskhet i algoritmer må være skadelig. Hvis algoritmer kunne skape en motvekt til individuell og tankemessig partiskhet vi alle bærer i oss, kunne det ha en positiv effekt på informasjonen vi blir eksponert for. Ved Korea Advanced Institute of Science and Technology (KAIST) har Souneil Park og hans samarbeidspartnere eksperimentert med algoritmer for innsamling av nyheter som fores inn i en nyhetspresentasjon kalt NewsCube (pdf). Denne leder brukeren til å forholde seg til et større mangfold av perspektiver. Glem å overlate ting til tilfeldighetene — forskere jobber med hvordan du kan bli eksponert for nyheter på en nyttig måte. Richard Thaler og Cass Sunstein kaller i sin bok Nudge denne formen for innflytelse for “libertariansk paternalisme” — å påvirke erfaringer for å korrigere for kognitive mangler i menneskers resonneringsevne. Ikke bare kan algoritmer skape skjevheter i innholdet vi konsumerer — en dag kan de kanskje gjøre det på en måte som gjør oss smartere og mindre utsatt for våre egne tankemessige brister. En algoritme kunne kanskje til og med sakte dytte ekstremister mot midten ved å eksponere dem for stadig mer moderate versjoner av deres egne ideer.

Algoritmer finnes over alt i nyhetene som omgir oss, enten det er i oppsummeringer, personalisering, optimering, rangering, koblinger, klassifisering, aggregering eller en annen algoritmisk informasjonsprosess. De er allestedsnærværende, og det gjør det verdt å reflektere over hvordan disse prosessene kan bidra til systematisk manipulasjon av informasjonen vi konsumerer, enten det er gjennom heuristikk, dataene de fores med, eller kriteriene som brukes til å hjelpe dem med å ta beslutninger om å inkludere, ekskludere og vektlegge.

Algoritmer vil alltid måtte ta ikke-tilfeldige avgjørelser om inkludering, ekskludering og vektlegging i mediene våre for å hjelpe oss å løse vårt problem med knapp tid og oppmerksomhet. Vi kan ikke på magisk vis gjøre algoritmer “objektive” ved å forstå hvordan de forårsaker skjevheter i mediene. Men vi kan lære oss å bli mer kritiske når vi bruker databaserte medier. Særlig datajournalister burde gjøre det til en vane å tenke grundig over hva bivirkningene av algoritmene de lager kan være og hva som kan korrelere med kriteriene de bruker for å ta avgjørelser. I neste omgang bør vi være åpne om disse bivirkningene på en måte som hjelper publikum til å bedømme kvaliteten på det vi gjør.

Artikkelen ble først publisert av Nieman Journalism Lab. Oversatt av Olav Anders Øvrebø.

]]>