Category Archives: Nettjeneste

Metoderapport til SKUP

Gravemaskinens første graveprosjekt ble gjennomført i fjor høst, og bidraget var en av 66 som konkurrerte om SKUP-prisen.

Vi nådde ikke opp i år, men det tar vi ikke så tungt. Gravemaskinen er et langsiktig prosjekt, og for oss var det viktigste å komme med et bidrag slik at vi signaliserer hva slags ambisjoner vi har med dette redaksjonelle verktøyet.

Nå har SKUP lagt ut alle metoderapportene for både vinnerne og resten av bidragene, og de finner du her på SKUP’s hjemmeside.

For de som er spesifikt interessert i Gravemaskinens bidrag, publiserer jeg det i sin helhet her:

SKUP Metoderapport

 

1. Journalist

Anders Brenna

2. Prosjektnavn

Gravemaskinen.no: Kulturdepartementet somler med journalføringen

3. Publiseringer

Kulturdepartementet somler med journalføringen
http://blogg.abrenna.com/kulturdepartementet-somler-med-journalf%C3%B8ringen/
12. oktober 2010

4. Redaksjon

blogg.abrenna.com

v/Anders Brenna
Solhaugveien 77
1337 Sandvika
Mobil: 90077860
abrenna@gmail.com
twitter.com/abrenna
blogg.abrenna.com

Gravemaskinen AS

PB 227
1300 Sandvika
abrenna@gravemaskinen.no
gravemaskinen.no

5. Kontaktinfo

Anders Brenna
Solhaugveien 77
1337 Sandvika
Mobil: 90077860
abrenna@gmail.com

6. Arbeidet

A: Slik startet det

Ulovlig fildeling på nettet er et stort problem for innholdsbransjene (musikk, film, programvare etc) og de ønsker derfor både en strengere lovgivning og tilgang til flere virkemidler for å få bukt med problemet.

Mange av disse tiltakene kan imidlertid enkelt misbrukes dersom de blir implementert som en del av norsk lovgivning, og det finnes mange internasjonale eksempler på at dette ikke bare er en teoretisk problemstilling.Meningene er derfor sterke, og partene står steilt mot hverandre i samfunnsdebatten rundt hva som kan og bør gjøres.

Fredag 8. oktober 2010 sendte borgerrettsorganisasjonen Elektronisk Forpost Norge (EFN) ut en pressemelding der de vedla et notat sendt fra “Dele – ikke stjele”-kampanjen til Kulturdepartementet. De beskrev det som et “Hemmelig retthaversk notat” som vil “amputere person- og rettsvernet”.

Bransjenyhetsnettstedende Computerworld og digi.no fulgte opp med pressedekning. De intervjuet notatets avsendere – som nektet for at det var forsøkt hemmeligholdt på noe som helst vis.Undertegnede bestemte seg for å sjekke om notatet var tilgjengelig på Offentlig Elektronisk Postjournal (OEP.no).

Det var det ikke, men etter å ha søkt forgjeves på flere forskjellige relevante nøkkelord ble det etterhvert klart Kulturdepartementets journal ikke var særlig oppdatert. Det var på det tidspunktet ingen dokumenter som var nyere enn en måned gamle.Noen stikkprøver på journalene til andre departement viste at enkelte departement hadde relativt ferske oppdateringer av sine journalføringer, mens andre var tregere. Det var imidlertid ingen av de andre departementene som var så dårlig oppdatert som Kulturdepartementets journalføringer.

Konklusjonen ble derfor at “Dele ikke stjele”-kampanjen ikke hadde hemmeligholdt notatet, og at det var den trege journalføringen som forårsaket et unødvendig ekstra konfliktnivå i en allerede betent samfunnsdebatt.Utover å informere om dette på Twitter og gjennom ytterligere nettdebatt ble det ikke laget noen redaksjonell sak om selve hemmeligholdet.

B: Den sentrale problemstillingen

Den interessante redaksjonelle problemstillingen lå i å sjekke hvorvidt treg journalføring var et systematisk problem eller en tilfeldighet, samt om det var store forskjeller mellom hvordan departementene håndterte journalføringen.

Hver journalføring har lagt ut informasjon om virksomhet, sak, dokumenttittel, saksnummer, dokumentnummer, dokumenttype, avsender, dokumentdato, journaldato, publiseringsdato, unntaksgrunnlag og kontaktpunkt med telefonnummer og e-post. Denne informasjonen er publisert som en webside, og den er ikke tilgjengeliggjort i et regenark eller i noen form for maskinlesbart dataformat. Det betyr at man må besøke hver eneste side, klippe ut hvert enkelt informasjonsfelt og legge det inn i et regneark. Ettersom det legges ut mange tusen journalføringer på OEP.no ville det vært en uoverkommerlig jobb å gjøre arbeidet manuelt.

C: Dokumentasjon av systematisk journalsommel

Resultatet av det redaksjonelle gravearbeidet ble en oversikt som avslørte at Kulturdepartementet i snitt brukte 28,3 dager på å offentliggjøre sin journalførte kommunikasjon. Det var nesten 3 ganger så lang tid som departementenes snitt på 9,2 og markant mye lengre enn Miljøverndepartementets snitt på 3,5 dager.Flere skal tidligere ha påpekt at det somles med journalføringen i diverse departementer, men det redaksjonelle arbeidet som ble gjort i dette graveprosjektet ga ubestridelig dokumentasjon på departementenes sviktende journalføringspraksis.

Med faktagrunnlaget fra blogginnlegget fikk Presseforbundet endelig ubestridte fakta som Kulturdepartementet måtte forholde seg til. Dette ble da også fulgt opp i et radioinnslag på NRK Kulturnytt hvor undertegnede primært bidro med å forklare hvordan datagrunnlaget ble innhentet og analysert.Etter blogginnlegget og dette graveprosjektet har Kulturdepartementet skjerpet sin praksis. Stikkprøver viser at de ligger på rundt en ukes forsinkelse nå, og ytterligere dokumentasjon på dette vil foreligge i løpet av våren når datasystemet Gravemaskinen blir klar med kontinuerlig analyse av journalføringen i tilnærmet sanntid.

D: Gravemaskinen

Som nevnt ville det vært en uoverkommerlig oppgave å samle inn og strukturere informasjon om alle journalføringer manuelt. Det ville også vært for tidkrevende å lage et nytt dedikert dataprogram eller et automatisert script fra bunnen av, ettersom det er snakk om både en komplisert innsamlingsprosess og en ressurskrevende analyse.Graveprosjektet var imidlertid et perfekt pilotprosjekt for Gravemaskinen.no, et redaksjonelt IT-system som utvikles for journalister av undertegnede i samarbeid med tildligere ansatte i Google som har erfaring fra utvikling av avansert søketeknologi.

Gravemaskinen.no er en redaksjonell søkemotor som finner, identifiserer og strukturerer faktaopplysninger i store tekstmengder. Mens tradisjonelle søkemotorer som Google, Bing m.fl. viser de 10 mest relevante dokumentene som inneholder faktaopplysningene man leter etter, presenterer Gravemaskinen de mest relevante faktaopplysningene som finnes i disse dokumentene.

Gravemaskinen er delvis utviklet som en generell søkemotor for å kunne tilby basisinformasjon når journalister søker etter faktaopplysninger på tvers av datakilder, men er primært utviklet for å raskt kunne tilpasses journalistiske graveprosjekter i utvalgt kildemateriale. Dette innebærer blant annet å lage automatiserte journalistiske algoritmer som leter på samme måte som en journalist.En tradisjonell søkemotor bygger en indeks med alle ordene som finnes i tekster for så å la brukerne søke raskt gjennom alt etterpå. Slike søkemotorer vet ikke hva de leter etter, men legger i steden tilrette for brukerne som vet hva de søker etter.Journalister derimot, vet hva de ser etter når de manuelt leter etter informasjon i en tekst. I dette tilfellet ville en journalist lett etter alle journalføringer på OEP.no der journaldato og publiseringsdato er oppført for så å klippe ut informasjonen og legge den inn i et regneark.

Dette arbeidet ble i steden overlatt til Gravemaskinenmgjennom å raskt lage noen spesialiserte digitale “journalister” som hentet ut informasjonen og la den inn i et regneark. Totalt tok det noen få timer å konfigurere systemet, samt å hente ut informasjonen fra OEP.no.Deretter ble dataene manuelt analysert i et regneark. Det innebar stort sett enkle grep som å sortere datoene pr. departement, samt regne ut snitt og andre relevante statistiske beregninger.

Ettersom langt fra alle er komfortable med tabeller og regneark, og med tanke på at de er visuelt kjedelige, ble det eksperimentert med en rekke forskjellige grafer for å illustrere faktaopplysningene om journalføringen som ble dokumentert. Det inkluderte blant annet søylediagrammer, speedometerdiagrammer og såkalte radardiagrammer. Hvilke grafer som egnet seg best er fortsatt usikkert, men resultatet ble solid dokumentasjon presentert på en enkel visuell måte som er lett å forstå for alle som leser blogginnlegget.Ettersom dette var et pilotprosjekt med ny datateknologi ble det brukt mye tid på å gå gjennom deler av datasettet manuelt for å sjekke at ikke programvarefeil forårsaket feil i datagrunnlaget.

Det ble ikke utført intervjuer i forbindelse med dette graveprosjektet. Målet var å finne frem redaksjonelt interessante faktaopplysninger om departementenes journalføringspraksis ved hjelp av datastøttet journalistikk, og det lykkes.

7. Spesielle erfaringer

Hele prosjektet må i seg selv anses som en spesiell erfaring. Foruten det er det to momenter som undertegnede ønsker å trekke frem. Det første går på redaksjonell interesse for datastøttet journalistikk, og det andre går på Offentlig Elektronisk Postjournals tekniske praktisering av offentlige journaler.

Før blogginnlegget ble publisert ble flere redaksjoner tilbudt saken på frilansbasis, og etter publisering på bloggen ble det sendt ut tips til en rekke redaksjoner. Foruten Kristine Foss i Norsk Presseforbund – som fant blogginnlegget på eget initiativ og fulgte opp med eget innlegg på offentlighet.no – var det ingen interesse.OEP.no er laget for å bidra til meroffentlighet, men gjør det på en lite hensiktsmessig måte. Det burde ikke være nødvendig å måtte bygge et produkt som Gravemaskinen for i det hele tatt å kunne gjøre en systematisk analyse av OEP.no. Det ligger jo til og med i navnet at dette er en “offentlig” postjournal.

8. Sted & dato

Anders Brenna
Sandvika, 15. januar 2010

Her kan du laste metoderapporten ned som et PDF-dokument.

Drammens Tidende skriver mest om Drammen

Ikke akkurat noen stor overraskelse, men ettersom dette er en blogg tar jeg meg friheten til å vinkle på det helt opplagte.

I går blogget jeg om Aftenpostens favorittbyer, og i dagens journalyse skal jeg ta for meg omtalen av kommuner i Drammens Tidende. Dette henger sammen med ny funksjonalitet i Gravemaskinen som nå har blitt til journalyserapporter som kan hentes ut for alle nettavisene vi analyserer.

Drammens Tidende skriver mest om Drammen kommune, men de skriver også mye om hovedstaden. Dessuten er det mange artikler som omtaler nabokommuner, og som en følge av alt fra idrett til nasjonale saker, så er den geografiske spredningen ganske stor.

I denne grafen har jeg tatt med alle kommuner som er omtalt i minst 200 artikler i Drammens Tidende det siste året, og sortert resten under kategorien “andre kommuner”:

Her er oversikten over kommuneomtale sortert etter antall artikler i Drammens Tidende:

  1. drammen
  2. oslo
  3. lier
  4. modum
  5. nedre eiker
  6. bergen
  7. øvre eiker
  8. hurum
  9. asker
  10. sande
  11. tromsø
  12. røyken
  13. trondheim
  14. bærum
  15. stavanger
  16. kongsberg
  17. svelvik
  18. sigdal
  19. kristiansand
  20. molde
  21. sandefjord
  22. haugesund
  23. fjell
  24. skien
  25. bodø
  26. fredrikstad
  27. krødsherad
  28. lillehammer
  29. tønsberg
  30. åmot
  31. kongsvinger
  32. sarpsborg
  33. ringerike
  34. larvik
  35. hamar
  36. moss
  37. ålesund
  38. elverum
  39. sogndal
  40. arendal
  41. alta
  42. horten
  43. notodden
  44. ski
  45. holmestrand
  46. sandnes
  47. halden
  48. grimstad
  49. porsgrunn
  50. lund
  51. harstad
  52. førde
  53. nannestad
  54. mandal
  55. narvik
  56. stord
  57. gjøvik
  58. voss
  59. kristiansund
  60. rana
  61. hole
  62. os
  63. jevnaker
  64. strand
  65. røros
  66. eidsvoll
  67. ål
  68. sola
  69. hemsedal
  70. volda
  71. ås
  72. flesberg
  73. verdal
  74. lørenskog
  75. gol
  76. steinkjer
  77. stokke
  78. oppegård
  79. rygge
  80. oppdal
  81. søgne
  82. kragerø
  83. råde
  84. giske
  85. flå
  86. hol
  87. hammerfest
  88. trysil
  89. odda
  90. vefsn
  91. sørum
  92. lyngen
  93. levanger
  94. samnanger
  95. vestby
  96. risør
  97. karmøy
  98. lunner
  99. lillesand

 

Sogn og Fjordane mest aktive på NRK.no

Hvis vi ser bort fra artikler publisert under avdelingskategorien “NRK Nyheter Verden”, så er det avdelingskategorien Sogn og Fjordane som publiserer flest artikler på NRK.no.

I seg selv sier ikke dette så mye om innholdet på NRK.no, men det viser at regionskontorene er veldig aktive. At Oslo og områdene rundt mer sentrale strøk ikke blir like synlige skyldes nok i stor grad at nyhetene som produseres der trolig publiseres under mer generiske kategoriseringer.

Oversikten viser en fordeling basert på artiklene publisert hittil i år ut fra hvilken avdeling journalistene i NRK selv har satt.

Dette ble en kort journalyse, men det er tross alt søndag i dag. Jeg har andre ting å gjøre her i livet også, så dette får bli et eksempel på hvor raskt det går an å lage en journalyse som viser noe som (forhåpentligvis) er interessant.

Nyhetsdøgnet i nettavisene

Når på dagen publiseres artiklene?

Spørsmålet er interessant for både leserne og redaksjonen, og svaret på det kan med fordel ses i sammenheng med trafikkstatistikken som viser når leserne er innom.

Jeg sitter ikke på så detaljert informasjon om trafikkmønsteret til hver enkelt nettavis, men jeg har en viss formening etter egen erfaring, samt fra det som har blitt offentlig publisert. Dessuten sitter jeg nå med en oversikt som jeg tror nettavisene ikke har selv en gang. 😉

Ved å kjøre en journalyse av publiseringstidspunktene i et par nettaviser ved hjelp av Gravemaskinen, har jeg kommet frem til en enkel graf som viser antall artikler publiser pr. time gjennom det siste året. Det gir en slags profil som tydelig viser når nettavisene er mest produktive i sin publikasjon.

Slik ser nyhetsdøgnet ut i Dagbladet:

Som en av de største riksdekkende nettavisene har Dagbladet en relativt stor redaksjonell stab, og vi ser at det publiseres artikler gjennom hele døgnet.

Det starter med en liten minitopp etter midnatt. Dette er noe jeg ser er vanlig i mange nettaviser,  noe som trolig skyldes at mange nettaviser setter på autopublisering av saker som også kommer i papiravisen på morgenkvisten innenfor det samme døgnet.

Deretter er det ganske stille gjennom natten, men det publiseres faktisk artikler i en litt ujevn frekvens frem til morgenkvisten rundt 05:00. Da starter publiseringstrøkket, og det gjør et hopp 07:00. Så går det slag i slag før det når en topp i timen fra 11:00-12:00.

Etter lunsj faller det noe, men det er fortsatt et høyt publiseringstempo frem til timen som starter 16:00. At trøkket faller noe ned på ettermiddagen og kvelden er ganske naturlig, men det er fortsatt snakk om ganske stor produktivitet helt frem til døgnets siste time. Da faller antall artikler kraftig, men vi snakker fortsatt om 1-2 artikler om dagen i snitt her.

Som sagt er Dagbladet en stor nettavis, og nyhetsdøgnet ser litt anerledes ut i andre nettaviser. Tar vi f.eks. en titt på lokalavisen Budstikka, så ser nyhetsdøgnet slik ut:

Den skiller seg litt ut fra Dagbladet, men kanskje ikke så mye som man skulle tro. Budstikka har også en minitopp på starten av døgnet før publiseringsrushet starter på morgenkvisten. Lokalavisen er imidlertid ikke like tidlig i gang, for der Dagbladet trøkker på fra 05:00, begynner Budstikka 07:00.

Så blir det et kraftig trøkk 08:00, og dette er da også timen det publiseres flest artikler – sammen med 12:00. Den dype dalen er timen fra 11:00-12:00, noe som indikerer at Budstikkas redaksjon går til lunsj på omtrent samme tid. :-)

Publiseringstakten faller rundt 15:00, men så holder den seg ganske jevn utover ettermiddagen før Budstikka også får en dipp i døgnets siste time. At det publiseres såpass mange artikler på ettermiddagen viser at Budstikka har høyt fokus på å oppdatere lokalbefolkningen også på kvelden.

Det må vel tilføyes her at Budstikka neppe er en helt typisk lokalavis. Den er relativt stor, og den har utmerket seg med å være langt fremme på digitale innovasjoner. En tilsvarende publiseringsprofil for andre lokalaviser ser ganske anerledes ut!

Ettersom de to første eksemplene begge har publiseringsprofiler som klart viser at de har kveldsbemanning, tenkte jeg å ta med et eksempel på en nettavis som ikke har det.

ITavisen er en forbrukerorientert nettavis som retter seg mot de digitalt interesserte, og slik ser nyhetsdøgnet ut der:

Her ser vi nok en gang at det dukker opp noen få artikler like etter midnatt, men det er såpass få at det bærer preg av å være litt mer tilfeldig.

Det mest markante hos ITavisen er fokuset de har på å publisere mange artikler på morgenkvisten i timen fra 06:00-07:00, for så å ha veldig få artikler mellom 08:00-10:00.

Deretter kommer kjører de hardt på fra 10:00-12:00, og så faller det noe av. I timen som starter 15:00 har redaksjonen i praksis avsluttet dagens publisering, og resten av ettermiddagen og kvelden bærer preg av litt mer tilfeldig publisering. Volumet tilsier at det trolig er snakk nyheter i forbindelse med viktige lanseringer eller hendelser i USA.

Når vi kun ser på publiseringstidspunktene isolert kan vi kanskje stusse litt over profilene som kommer frem. Jeg mener det gir interessant informasjon på egenhånd, men at nyhetsdøgnet må ses i sammenheng med andre parametere. Det er f.eks. stor forskjell på hva slags kapasitet forskjellige nettaviser har, og det vil være meningsløst å prioritere et jevnt trykk hvis man ikke har ressurser til det.

Ved å vite hva man har av ressurser og hva man får ut av det, vet man om man prioriterer riktig i forhold til det man ønsker å prioritere. Hvis man f.eks. ønsker å prioritere publiseringene i samsvar med tilsvarende profilgrafer for trafikkdataene, så bør man sammenligne denne typen grafer fra Gravemaskinen med tilsvarende grafer fra måleverktøyene til TNS-Gallup eller Google Analytics.

Til syvende og sist dreier statistikk og grafer seg om å presentere nøytral faktainformasjon, og så får man gjøre en egen vurdering av om faktaopplysningene bør føre til justeringer eller ikke. Med en journalyse fra Gravemaskinen får man faktaopplysningene, men vurderingen må og bør man gjøre selv. 😉

Hvordan skriver Teknisk Ukeblad?

I min lille serie med journalyser har jeg sett litt på forskjellige parametere som kan brukes til å måle og analysere journalistikken og innholdet i forskjellige nettaviser, og i dag har jeg kommet til Teknisk Ukeblad. Her skal jeg se litt på hvor lange tekstene deres er, samt hvor avansert språk journalistene i ingeniørenes blad bruker.

Tidligere har jeg sett litt på hvem digi.no skriver om, samt fordelingen mellom omtalte menn og kvinner i Bergens Tidende. Det finnes også flere blogginnlegg om dette som jeg har skrevet tidligere, men det er disse som er skrevet etter at journalysefunksjonene i Gravemaskinen ble klare for praktisk bruk.

Noen går fortsatt rundt i den villfarelse om at nettaviser bare skriver korte artikler, og at de ikke egner seg til annet. Det har vært riv ruskende galt lenge, og fra å være en vedtatt sannhet har dette i praksis blitt en “busted” myte. Jeg skal derfor ikke dvele så mye over det, men heller gi et eksempel på en journalyse der vi ser på fordelingen mellom korte notiser og lengre tekster.

Her ser vi fordelingen mellom korte og lange tekster i Teknisk Ukeblad de siste månedene:

Inndelingen baseres på følgende tekststørrelser målt i antall tegn inkludert mellomrom:

  • Notis (1-500 tegn)
  • Kort (501-1000 tegn)
  • Middels (1001-2500 tegn)
  • Lang (2501-5000 tegn)
  • Ganske lang (5001-10000 tegn)
  • Veldig lang (10001+)

Dette er en inndeling jeg har kommet frem til etter å ha studert diverse tekster i pressen de siste årene, og jeg tror den treffer rimelig godt. Jeg er imidlertid åpen for innspill dersom det kommer begrunnede forslag.

Som vi ser i denne grafen, så skriver Teknisk Ukeblad veldig få notiser. Selv korte artikler utgjør en veldig liten andel, og det er middels lange og lange tekster som utgjør brorparten av det redaksjonelle innholdet på TU.no. De fleste artiklene ligger altså på mellom 1000 og 5000 tegn.

I de fleste norske tekster utgjør et gjennomsnittsord mellom 4,5 og 5 tegn. Som tommelfingerregel kan vi derfor si at en typisk artikkel i Teknisk Ukeblad har mellom 200 og 1000 ord. Vi måler forøvrig både antall ord og antall setninger dersom det skulle være interessant å få nøyaktige tall på dette.

At Teknisk Ukeblad også har en ganske markant andel ganske lange artikler og noen veldig lange er ikke særlig overraskende. Som tidligere nettsjef merket jeg meg at det var mange omfattende reportasjer og profilintervjuer med artikler som gikk skikkelig i dybden.

Forøvrig må jeg vel komme med en liten disclaimer om at jeg fortsatt den dag i dag blir “mobbet” for mine lange artikler den gang jeg var der. Tror min lengste var på litt over 26.000 tegn, og det gikk vel ikke mange ukene uten at jeg skrev minst en artikkel på mer enn 10.000 tegn.

At Teknisk Ukeblad har et omfattende innhold med til dels lange tekster er ikke så rart med tanke på at dette er en fagpressepublikasjon med ingeniører som målgruppe. Det er mye teknisk informasjon som må presenteres korrekt, men det må ikke gå på bekostning av lesbarheten.

La oss derfor ta en titt på hvordan det står til på den fronten gjennom en lesbarhetsanalyse:

Dette er en enkel tekstanalyse basert på LIKS, en formel for å regne ut hvor komplisert språkbruken er.

Her ser vi at Teknisk Ukeblad i svært stor grad holder seg på det nivået teksten bør være, på tross av at de skriver om mange kompliserte temaer. Det er få artikler som er tungleste, og det er heller ikke mange artikler som har et overforenklet språk.

Nå jobber ikke jeg i Teknisk Ukeblad lengre, men ut fra denne analysen ville i hvert fall jeg konkludert med at Teknisk Ukeblad skriver akkurat passe lange artikler og med pass komplisert språk. De har sikkert andre ting som kan forbedres, men i denne lille introduksjonen til journalysemulighetene med Gravemaskinen har det ikke dukket opp noe vesentlig å sette fingeren på.

Selv om brorpartene av funksjonene som brukes til journalyse kun er tilgjengelig i den lukkede utgaven av Gravemaskinen eller gjennom journalyserapportene jeg lager, så er det mye som er gratis tilgjengelig for alle på Gravemaskinen.no og pfu.journalisten.no.