Kommentarer til: Stor forbedring: ssb.nos data-API v2 ute i beta https://voxpublica.no/2016/01/ssb-nos-data-api-v2-ute-beta/ Magasin om demokrati og ytringsfrihet Tue, 05 Apr 2016 16:23:28 +0000 hourly 1 Av: Laurent-Thuy Soublin https://voxpublica.no/2016/01/ssb-nos-data-api-v2-ute-beta/#comment-280541 Tue, 05 Apr 2016 16:23:28 +0000 https://voxpublica.no/?p=15571#comment-280541 Hei,

Just to mention this tool I just created if you need to process ssb data (or other json-stat v1 data) with java :

https://ssb-java-demo.herokuapp.com
https://github.com/laurent-thuy/ssb-java

Regards

Laurent

]]>
Av: Jan Bruusgaard https://voxpublica.no/2016/01/ssb-nos-data-api-v2-ute-beta/#comment-278178 Thu, 21 Jan 2016 12:47:32 +0000 https://voxpublica.no/?p=15571#comment-278178 Bare helt kort så lager SSB statistikk. Det er vanligvis registereiers ansvar å evt. gjøre registerdata tilgjengelig. Dette gjør f.eks. Brønnøysundregistrene.
SSB publiserer den offisielle statistikken i Statistikkbanken, som nå blir tilgjengelig via API.
Til det konkrete eksemplet kan jeg opplyse at Lønnsstatistikken er under omlegging. Det betyr at 2015 tallene vil bli publisert i år, og på nytt i annen form, til neste år.

]]>
Av: Harald https://voxpublica.no/2016/01/ssb-nos-data-api-v2-ute-beta/#comment-278152 Wed, 20 Jan 2016 10:01:36 +0000 https://voxpublica.no/?p=15571#comment-278152 Ideelt sett kunne interessante registerdata vært lagret i et datavarehus med et offentlig API. Dermed kunne en gjort spørringer mot datavarehuset om hva som helst, ikke bare de 5000 predefinerte søkene som Statistikkbanken tilbyr. Terskelverdier og anonymiseringsalgoritmer sikret at dataene en får ut gjennom spørringer mot datavarehuset er statistiske data, ikke persondata. Dessuten kunne informasjon om datakvalitet og kategorienes validitet fulgt med. F.eks. sikre at dataene en får ut ikke er så små grupper at de kan avanonymiseres. Eller noen av datasettene i datavarehusene er knyttet til kommuner, grunnkretser eller selskaper, og således ikke er persondata.

Dette er selvfølgelig en helt annen måte å formidle offentlig statistikk på enn den metoden som etaten har brukt siden starten i 1876. Men en har jo tidligere klart tilsvarende moderniseringer, som for eksempel da en gikk over fra å folketellinger hvert tiår, til kontinuerlige folketellinger gjennom bruk av kontinuerlig oppdatert folkeregister.

]]>
Av: Eirik https://voxpublica.no/2016/01/ssb-nos-data-api-v2-ute-beta/#comment-278128 Mon, 18 Jan 2016 10:03:06 +0000 https://voxpublica.no/?p=15571#comment-278128 Hei Harald. Jeg er litt usikker på hvor SSB trekker linjen mellom ting de skal publisere gjennom dette APIet og andre ting de har. Jeg har inntrykk av at det vi får her er en maskinlesbar utgave av det som ligger på SSB.no, som selvsagt bare er et utsnitt av en del av hva SSB sitter på (f.eks. er det meste aggregerte tall, der en forsker ville ønske seg individuelle datapunkter). Jeg fikk dog inntrykk av at ting som gjøres på tidsserier, så er poenget her at ny data legges til eksisterende løpende, slik at det gir mening å bygge systemer som kan ligge oppå dette. Det kan bli veldig nyttig.

Eksempelet ditt med lønnsstatistikk er kanskje et godt eksempel på hva som kan skje:

1. det burde nå være mulig å skrive et skript som konsoliderer de 134 (wow, det virker litt mye ja) tabellene og setter sammen til den datastrukturen du trenger — et skript som når det først er skrevet kan fungere uke-etter-uke, måned-etter-måned når ny data legges ut (hvis ny data legges ut, noe vi må anta. Test-APIet nå er statisk, men skal over i et “live” miljø etter test-fasen, står det i notatet for APIet).

2. Skriptet ditt eksemplifiserer (kanskje) hvordan ditt perspektiv er ulikt SSBs eget, og dermed hvordan SSB kan/må endre måten noen typer data eksponeres maskinlesbart, da maskinlesbarhet innlysende fordrer en annen bruk enn tabeller til SSBs nettside. Det er maskiner, ikke mennesker, som i førsteomgang skal lese dette, og det er rimelig å antat at målet ikke er å rent gjenskape de samme tabellene som allerede ligger på SSB.no i HTML.

APIet er i beta, så nå er jo virkelig sjansen til å påpeke sånt, slik at SSB kan justere inn mot den bruken “folk der ute” (oss med datamaskiner) vil bruke den. Hvis vi (potensielle brukere) ikke ender opp med å bruke APIet, så blir jo dette en fiasko, og kun et spill for galleriet. Men jeg er nå litt mer optimistisk, og håper at når SSB nå får HVORDAN på plass, så er HVA kun begrenset av politikk og penger. Med et par riktig gode caser av fornuftig viderebruk kan dette forhåpentligvis bli noe som vokser, der HVA som publiserer både blir en løpende og voksende størrelse.

]]>
Av: Harald https://voxpublica.no/2016/01/ssb-nos-data-api-v2-ute-beta/#comment-278127 Mon, 18 Jan 2016 09:20:15 +0000 https://voxpublica.no/?p=15571#comment-278127 Kjempestort framskritt i HVORDAN data fra SSB formidles, og drastisk utviding av hva som kan automatiseres av viderebruk. Men når det gjelder HVA som publiseres, ser det ut til å være nøyaktig de samme data som har vært publisert i SSBs datavarehus i et tiår, altså begrenset sett predefinerte søk satt opp av SSB.
Hvis dataene du skal bruke ikke er i SSBs eksisterende publiseringer, får du jo ikke ut noen nye data. (jeg håper selvfølgelig at jeg tar feil)

Eksempel:
Nettstedet jeg jobber i får svært mange henvendelser om lønnsstatistikk, derfor videreformidler vi dette tilknyttet annen relevant informasjon på flere hundre nettsider.
Fra både Danmarks Statistik og Statistiska Centralbyrån kan mine utenlandske kolleger laste ned lønnsstatistikk for alle yrker og næringer som har stort nok antall arbeidstakere til å publisere lønnsstatistikk for i én enkelt tabell. For å få tilsvarende norske data, måtte vi laste ned 134 forskjellige tabeller (!), sammenstille disse, spalte opp og tilordne statistikkvariabler i rett felt basert på fritekst i variabelnavn siden variabler er ikke-standardiserte.
Hvorfor et datasett som stammer fra et og samme SSB-register må spres på 134 forskjellige URLer uten mulighet for å få dem samlet, når det hadde vært lettere å gi tilgang til dataene gjennom 1 URL er noe mystisk.

]]>