Datastøttet journalistikk
Thursday, April 10th, 2008Journalisten Espen Andersen (ikke BI-mannen) er en journalist som bruker dataverktøy. Det burde kanskje ikke være noen bombe at en journalist bruker dataverktøy, men det er nesten det.
Vi bruker alle dataverktøy, men få av oss går lengre enn publiseringssystemet og kanskje en tekstbehandler. Espen Andersen bruker dataverktøy for å finne frem til nye journalistiske vinklinger og poenger.
Mye av hans journalistiske arbeid består i å programmere og drifte sine egenutviklede løsninger. Han har jobbet mange år i Budstikka, det som tidligere het Asker og Bærums budstikke, men er nå ansatt i Brennpunkt-redaksjonen i NRK.
Denne uken tilbringer jeg på SKUP’s gravekurs, på et hotell i Tønsberg. SKUP er en forkortelse for Stiftelsen for en Kritisk og Undersøkende presse. Målet er å bli en bedre journalist, samt å få inspirasjon og lærdom som kan løfte digi.no noen hakk fremover.
Her har vi fått kurs i emner som politiets avhørsteknikker, søk i offentlige postjournaler, avansert intervjuteknikk, bruk av Excel (ikke akkurat nytt for meg som IT-mann) og i datastøttet journalistikk. Kurset pågår fortsatt og vi har flere poster på agendaen, men i dette innlegget tenkte jeg å ta for meg datastøttet journalistikk.
Datastøttet journalistikk, eller Computer Assisted Reporting (CAR), er et tema med mye potensiale, men det er stort sett et uutnyttet. Vår foreleser Espen Andersen, som jeg forøvrig har gått på videregående sammen med, forklarte litt om hvordan han jobbet journalistisk gjennom programmering og dataverktøy.
Begynte med skattelistene
I en semesteroppgave ved Høgskolen i Oslo (HiO) i 2003 skrev Andersen om skattelister som journalistisk metode: Journalistikk eller dyneløfting? Skattelistene som kilde for datastøttet journalistikk.
Der tar han blant annet for seg hvordan skattelistene brukes journalistisk, men også hvordan informasjonen der kan brukes til langt mer kvalitetsorientert journalistikk enn den tradisjonelle tabloide fremstillinger: “rik”, “rikest”, “fortsatt rikest”, “tjente mest”, “stinn av gryn”, “høyest formue” og så videre.
Gjengangersakene blant de avisene Andersen undersøkte så slik ut.
- Hvem er rikest i bygda?
- Hvem er den største skatteyteren?
- Hvor bor de rikeste?
- Hva tjener og eier de rikeste?
- Hva tjener kjendisene?
- Hvor mange rike kvinner finnes det?
- Hvor mange millionærer har vi?
- Hvor mange ungdomsmillionærer har vi?
- Hva har politikerne å tjene?
- Hva er gjennomsnitts- og totaltall?
- Hva tjener naboen?
Uten at jeg har undersøkt nærmere, så innbiller jeg meg at denne listen stemmer ganske godt også med dagens skatteliste journalistikk.
Andersen var ikke fornøyd med dette, og brukte sine datastrukturerte skattelister til å jakte på nye nyhetsvinklinger.
- Er det stor forskjell på fattige og rike?
- Hvor mye eier de rikeste av den totale formuen?
- Hvor bor flest gamle og unge?
- Har Asker og Bærum en frivillig forgubbing?
- Hva er den vanligste formuen på Høvik?
Han fant svarene i de datastrukturerte skattelistene og de dannet utgangspunkt for litt mer dyptgående og analyserende journalistikk.
Senere har Andersen jobbet videre med datastøttet journalistikk, og har blant annet laget Eiendomsbasen, en digital oversikt over transaksjoner i eiendomsmarkedet i Asker og Bærum, samt et postlistesøk for landets 18 fylkesmenn.
Hans siste prosjekt er politikerbasen, et prosjekt for å vise hva slags verv og interesser landets politikere har ved siden av jobben som politiker. Prosjektet er langt fra ferdig, og Andersen forteller at han og Brennpunkt har ambisjoner om å videreutvikle den med nye funksjoner og innhold slik at den etterhvert kan kalles “Maktbasen”.
Teknikkene som Andersen bruker, er ikke så avanserte sett fra et IT-ståsted. Han bruker stort sett screen scraping løsninger for å samle inn informasjon og lagre det i en MySQL-database. Programmet som henter informasjonen er programmert i C#, og så bruker han PHP til nettsidene. Systemene er heller ikke fullautomatiserte, men de dekker de journalistiske behovene.
En lightweight-utgave av denne formen for datainnsamling og strukturering kan man også gjøre ved hjelp av Excel, hvis man ikke ønsker å sette seg ned for å lære programmering.
Bruk av søkemotorer i journalistikken
Jeg har over litt tid fundert litt på mulige prosjekter for å kjøre litt datastøttet journalistikk. Som en tidligere programmerer som skriver om IT-bransjen, burde forutsetningene være godt tilstede. Min nysgjerrighet er imidlertid mer rettet mot søketeknologi, enn databaser.
I dag bruker vi ofte eksterne og offentlige søkemotorer for å finne informasjon som vi trenger til en artikkel. De er imidlertid ganske hemmet av at tjenestene er tilpasset det åpne markedet. Google er for eksempel en god søkemotor, men den er ikke spesialtilpasset en journalists informasjonsbehov.
Dessuten er den altfor høflig. Hvis et nettsted legger inn begrensninger i Robots.txt-filen, så dropper Google å indeksere den. Det er for eksempel tilfelle med Telefonkatalogen.no, regnskapsinfotjenester som Proff.no og Purehelp.no, samt at noe av informasjonen fra Brønnøsundsregisteret.
Interne søkemotorer derimot, trenger ikke å forholde seg til den typen begrensninger. De kan settes opp til å samle inn lokal informasjon fra lokal PC, fra et filshare, fra epost og fra intranettet. I tillegg kan man spesifisere eksterne nettsteder som man ønsker å hente inn lokal informasjon.
En annen viktig funksjon, er muligheten for at informasjonen vises i søkeresultatet, istedenfor at man må klikke videre på lenken som vises. Dette bruker blant annet Google internt i sin bedrift. Hvis noen søker på et firmanavn der, så dukker relevant informasjon automatisk opp i søkeresultatet. Det kan for eksempel være navn, bilde og kontaktinformasjon for selskapets Key Account Manager som har ansvaret for den kunden (Jeg jobber med å skrive ut en reportasje om dette på digi.no).
Jeg tror at bedriftsintern søketeknologi er veien å gå for datastøttet journalistikk. Utfordringen er at det tar litt tid og penger for å få slike løsninger på plass, og det trengs litt prøving og feiling før man har fått den slik man vil ha den. Når det er på plass, vil det imidlertid kunne gi en god avkastning i form av både raskere og bedre saker.
Dessuten tror jeg at søketeknologien vil kunne åpne dørene for kostnadseffektiv etterforskende journalistikk i nettaviser. Jeg har noen skisser og ideer på hvordan, men de får jeg nesten komme tilbake til i et senere innlegg.