Åpne data og datastøttet journalistikk er to temaer som opptar meg både privat og profesjonelt. De henger tett sammen, og jeg mener de utgjør både nøkkelen og låsen til fremtidens journalistikk.
Fornyingsdepartementet har et et par nøkkelpersoner som har forstått hvor viktig det er at offentlig informasjon ikke bare er tilgjengelig på den måten det offentlige ønsker å presentere den, men også gjennom et strukturert dataformat som gjør det mulig for borgere å bruke informasjonen på flere måter. De har ikke kommet så langt ennå, men de går i hvert fall i riktig retning.
For meg som borger er det viktig å få tilgang til faktaopplysninger som interesserer og berører meg, og for å få til det må jeg få informasjonen på måten jeg selv ønsker. Det er rett og slett for mye å forlange at offentlige etater lager et spesialtilpasset informasjonstilbud til meg, så det beste er om de konsentrerer seg om å levere informasjonen på en måte som gjør at jeg selv eller pressen kan bearbeide informasjonen, før den presenteres til meg på måten jeg ønsker å motta den.
Pressen har en annen tilnærming til informasjonen enn det offentlige etater har, og selv om de ikke nødvendigvis presenterer den på nøyaktig den måten jeg ønsker å motta informasjonen, har de en egeninteresse i å komme meg i møte så langt de klarer. De lever jo av å finne informasjon på vegne av meg, slik at jeg slipper å undersøke alt selv.
På gode dager gjør pressen dette, mens de bommer totalt på andre dager. Min største frustrasjon som leser for tiden, er at jeg vet så uendelig mye mer enn pressen om de samfunnsområdene som opptar meg. Det betyr at pressen ikke dekker mitt informasjonsbehov, og at jeg derfor må gjøre jobben selv.
Nå kan det innvendes at jeg er en del av pressen, og det er jeg jo, men jeg er ikke alene om å ha denne frustrasjonen. Så og si alle såkalte “tunge nettbrukere” (jada, vi er nettjunkies, eller netthoder om du vil) føler at pressen ikke utfører sitt samfunnsoppdrag når det kommer til samfunnsspørsmål relatert til IT og internett.
Det kan skyldes inkompetanse, og det er i stor grad tilfellet, men det primære problemer er ressurser og kapasitet. Det er for krevende, både tidsmessig og kompetansemessig å gjøre god undersøkende journalistikk. Dessuten er det dårlig betalt. Det er lettere, billigere og mer kommersielt lønnsomt å henge seg på kjendiskarusellen. I hvert fall på kort sikt.
Det jobber fortsatt mange journalister i pressen, men tallet er nedadgående og det er en trend som neppe snur. Hvis vi skal få bedre journalistikk, trenger vi bedre metoder og bedre verktøy.
Jeg utvikler Gravemaskinen for å gi mitt bidrag til det, og selv om mitt prosjekt bare er ett av mange bidrag, tror jeg det er nøkkelen til fremtidens journalistikk (janteloven ligger bundet og kneblet i kjellerboden min, og vil aldri få se dagslys igjen).
Gravemaskinen er et verktøy for datastøttet gravejournalistikk. Det er et system bygd med utgangspunkt i søketeknologi, databaser, og diverse algoritmer. Vi bruker den til å automatisk lete etter faktaopplysninger i store tekstmengder, for så å presentere disse dataene.
Så langt har vi fokusert på å hente ut faktaopplysninger fra fritekst kilder, men vi jobber også med å inkludere faktaopplysinger fra strukturerte datakilder. Det her her åpne data kommer inn i bildet.
Det offentlige gjør etterhvert mer og mer av sin informasjon tilgjengelig, men de låser ned sine data.
Brønnøysundsregistrene tar seg f.eks. betalt for tilgang til offentlige årsregnskaper. Idioti, ettersom et hvert aksjeselskap er lovpålagt å gi meg årsregnskapet sitt hvis jeg ber om det, noe jeg ikke gjør fordi det er for tidkrevende. Brønnøysundsregistrene vil ha betalt for det, men de stopper ikke der. Selv informasjon som de ikke tar betalt for, f.eks. kunngjøringene om hvert enkelt aksjeselskap som er offentlig tilgjengelig på deres hjemmeside, er det forbudt for andre å indeksere.
Jeg må derfor bruke Brønnøysundsregistrenes egen søkemotor for å se om Gravemaskinen AS er registrert, om Telenor ASA har fått sitt siste årsregnskap godkjent, og så videre. Dette er håpløst, og sterkt kritikkverdig. Enten er det offentlig tilgjengelig informasjon, eller så er det ikke offentlig tilgjengelig informasjon.
Er det så farlig? Neida, det er ikke farlig at offentlige etater sitter og knuger på “sin” informasjon, men hvis vi vil ha et bedre samfunn trenger vi bedre journalistikk. Det kan vi få, men da må alle bidra. Det offentlige kan bidra med å gjøre sin informasjon tilgjengelig som data, og på den måten sparke i gang en fire trinns rakett:
- Data
- Graf
- Rapport
- Dokumentasjon
Data er det første nivået i datastøttet journalistikk, og uten data er datamaskiner bare maskiner. De kan være morsomme, men nyttige blir de først når de kan brukes til noe.
Data kan brukes til faktasjekker, til å underbygge argumenter eller til å avsløre feilaktige påstander. Noen mennesker har naturlig god hukommelse, og kombinert med tilgang til mye informasjon, kan de bli kunnskapsrike gjennom manuell menneskelig dataprosessering.
Problemet er “shit in = shit out”, som vi sier i IT-bransjen. Hvis vi har et dårlig eller mangelfullt datagrunnlag trekker vi konklusjoner på sviktende grunnlag. Det gjelder alle, og pressen er alt annet enn et unntak. Det er ikke rent få eksempler på det, og de som har vært på foredrag med meg det siste håret skjønner hva jeg mener når jeg sier “beautiful journalistikk”.
Så hvis det offentlige blir flinkere til å tilgjengeliggjøre sin informasjon i form av data, så legges grunnlaget for bedre kvalitetskontrollert journalistikk.
Men data alene er ikke nok. Jo mer data, jo bedre, men det skal ikke mye til før vi får “information overflow”-problemer. Det ender aldri bra, for det fører som regel til at folk velger hvilke data de gidder å få med seg, og så ignorerer de resten.
Vi må derfor skape et forståelig oversiktsbilde, slik at vi ikke går oss bort i uvesentlige detaljer som finnes i ethvert større datasett (“tatt ut av sin sammenheng” – hørt den før?).
Ett bilde sier mer enn tusen ord sies det, og for data og datajournalistikk betyr det grafer. De kommer i mange varianter, og hvis man velger riktig graf kan man lykkes med å illustrere faktaopplysningene i dataene på en forståelig og oversiktlig måte.
Gravemaskinen lager foreløpig ikke egne grafer (med ett første unntak for vår pågående beta for PFU-søk), men jeg har manuelt laget en rekke grafer med utgangspunkt i faktaopplysninger som systemet vårt har funnet frem.
Det ga større gjennomslag for verdien som Gravemaskinen tilfører journalistikken, og før jul håper jeg å ha klart et sett med velfungerende grafer som viser de viktigste faktaopplysningene fra statsbudsjettet.
Disse, og mange andre grafer, vil bli generert automatisk av Gravemaskinen sammen med de regnearklignende rapportene. Etterhvert som det kommer på plass, vil merverdien som Gravemaskinen tilfører journalistikken økes dramatisk.
Tenk bare hvor mye mer interessant det blir å lese om diverse kulturinstitusjoner, naturkatastrofer, og kommunebudsjetter, når journalistene raskt kan lime inn en graf fra Gravemaskinen i sine artikler!
Kanskje til og med politikerne våre blir bedre når vi konsekvent får grafer som viser hvordan de alltid kjekler om kronestykker og millioner, mens milliardene flyter udiskutert gjennom systemet på andre poster. Eller kanskje det er for mye å håpe på det?
Men, selv om grafer er fantastiske verktøy, så er det ikke nok. Datastøttet journalistikk må opp på enda et høyere nivå, og det er rapporter.
En graf sier kanskje mer enn tusen ord, men det er mye å fortelle. En rapport derimot kan inneholde store mengder faktaopplysninger presentert gjennom alt fra fritekst, til tabeller grafer og kanskje også illustrerende bilder.
Hvis vi f.eks. ønsker å måle journalistisk kvalitet i en redaksjon, eller presentere data om hvordan Nav (ikke) fungerer, holder det ikke å vise en graf eller to.
Informasjonen må systematiseres, analyseres og ses i sammenheng. Det er ikke mulig å levere alle faktaopplysninger i form av en gammeldags telefonkatalog. De mest relevante faktaopplysningene må velges ut, og presenteres i en rapport.
I dag er dette for det meste en manuell jobb, og det vil det være i overskuelig fremtid. Det er imidlertid stor forskjell på å starte med blanke ark og tegnestifter, og det å få et automatisk generert utkast fra et IT-system som Gravemaskinen.
Datastøttet journalistikk kan brukes til å generere store rapporter med utvalgte nøkkelopplysninger, slik at de i hvert fall ikke blir større enn nødvendig. Ved å la algoritmene finne faktaopplysningene, identifisere de mest relevante, og presentere de i utvalgte grafer og tabeller, blir det lettere for gravejournalisten å se over, korrigere og utfylle informasjonen manuelt etterpå.
Et slikt bokprosjekt er fortsatt en omfattende jobb, men jobben blir plutselig mer overkommelig når man får så mye drahjelp.
Det er fullt ut mulig å automatisk generere fornuftige rappoorter, og jeg har laget slike systemer for automatisk dokumentasjon av IT-nettverk og IT-systemer en gang i tiden, men jeg står fast på at de alltid blir bedre når et menneske tar over og ferdigstiller rapportene. Stol aldri på datamaskiner! (De er onde, og kræsjer alltid med en bug når det passer dårligst.)
Det fjerde og siste nivået er dokumentasjon. Jeg setter det på nivået over rapporter, fordi rapporter kan vise så mangt. De er nyttige, men det er først når et system for datastøttet journalistikk klarer å legge frem udiskutabel dokumentasjon, at man som journalist får hull på verkebyllen man jobber med.
Gravemaskinen har ett slikt case, og det er da vi avdekket at Kulturdepartementet somler med journalføringen sin. Det var dokumentasjonen som Presseforbundet trengte, og som de nå bruker for å få departementet til å skjerpe sine journalføringsrutiner.
Vi presenterte denne dokumentasjonen som rå data, i flere grafer, og delvis som en rapport i form av et blogginnlegg, men det var som dokumentasjon at denne datastøttede journalistikken fikk sin gjennomslagskraft.
Dokumentasjonen består forøvrig av alt overnevnte, og det gjør det umulig for departementet å si “nei, våre egne tall viser noe annet”.
Det fantastiske med data og datastøttet journalistikk, er at faktaopplysninger er objektive. Man kan diskutere årsaker og konsekvenser, samt om datautvalget er skjevt eller feilaktig, men hver enkelt faktaopplysning er i seg selv 100 prosent objektiv.
Det gjør data til det perfekte grunnlag for kvalitetsjournalistikk, og derfor bør alle offentlige etater offentliggjøre og åpne sine data for allmennheten.
Så blir det opp til pressen selv å avgjøre om den vil være relevant og gjøre sitt samfunnsoppdrag, eller om den vil overlate til andre å bruke dataene til datastøttet journalistikk.
Jeg satser alt jeg eier og har på utvikling av Gravemaskinen fordi jeg tror dette er nøkkelen til fremtidens kvalitetsjournalistikk, og dermed også nøkkelen til et ekte kunnskapssamfunn.
Så får vi se. Er pressen interessert i mitt prosjekt (og andre lignende prosjekter), eller er datastøttet journalistikk noe de heller vil overlater til leserne?