Neste generasjon maskinoversettelse

Ved hjelp av 200 milliarder ord fra FN dokumenter kan det se ut som om Google kan få et gjennombrudd innen maskineoversettelse av tekst.

Jeg har vært litt interessert i dette emnet en stund. Kanskje er det en medvirkende årsak til mitt initiativ for å åpne for frivillig orddeling? Som så mange andre har jeg gjort noen eksperimenter med å automatisere ord-for-ord søk-og-erstatt. Resultatet ble deretter.

Det Google gjør nå, er egentlig ikke noe nytt. Istedenfor å oversette ett og ett ord, oversetter de lengre fraser eller setninger. Prinsippet er hentet fra arbeidet med Rosetta steinen, hvor forskerne utnyttet det at den samme teksten var skrevet på to språk. Google bruker dokumenter fra FN, fordi den samme teksten der oversettes til mange språk. Kombinert med endel fancy algoritmer bør det kunne gi endel gode resultater.

Når jeg studerte ved Grunderskolen i Silicon Valley i sommeren 2003, fikk jeg tilbud om å jobbe for et lite oppstartsselskap i San Francisco som hadde spesialisert seg i å oversette forretningsdokumenter fra Engelsk til Japansk. De hadde en egenutviklet applikasjon, men de brukte profesjonelle oversettere.

I oversettingsbransjen er det visst vanlig å betale pr. ord. Dette lille selskapet, som jeg desverre ikke husker navnet på, kunne ta mindre betalt fra sine kunder enn det de betalte oversetterne. Dette var mulig fordi de lagret alle oversettelsene og gjenbrukte dem. Så når de fikk et nytt dokument fra investeringsbanken, så kjørte den den gjennom systemet før de sendte det til oversetterne. Systemet ble gradvis bedre, men volumet var nok for lavt til å lage en generell løsning.

Her har nok Google en kjempefordel. De har et vannvittig antall maskiner de kan fordele belastningen på, og de har erfaring med store mengder tekst. Systemet vil neppe noen gang bli så bra at profesjonelle oversettere av skjønnliteratur blir overflødige, men det vil utvilsomt effektivisere bransjen drastisk.

I ettertid angrer jeg kanskje litt påa t jeg ike tok den jobben. Det hadde vært gøy å sitte igjen med erfaring fra den typen teknologi. På den annen side hadde jeg det gøy og lærte mye mens jeg jobbet for Oblix den sommeren.

Salg er dyrt

I motsetning til hva de fleste nordmenn synes å tro, så selger ikke et godt produkt seg selv. Mange av oss ser ned på salg, nesten som om det skulle være noe uetisk. Jeg husker at jeg selv på slutten av 90 tallet presterte å mene at selgere var overflødige og bare snyltet på andres arbeid.

Til mitt forsvar må det sies at jeg var relativt fersk i det voksne arbeidslivet og at man den gang fikk jobb innen bransjen hvis man kunne stave IT. Dersom man kunne mer enn det, var det mulig å dra inn gode penger som konsulent.

Den tid er definitivt forbi og nå står det mye hardt arbeid bak et salg. Kundene vil vite hva de betaler for, og konkurransen er intens. Fastpris på konsulentoppdrag er vanlig, og salg av produkter skjer i forbindelse med prosjekter med strenge leveringskrav. Før man får tilslaget må man igjennom en lengre prosess, og som regel må man skrive et tilbud. Det kan ta lang tid.

Hos de fleste jeg har vært hos har det vært litt manglende rutiner rundt dette, selv om det har blitt bedre de siste årene. Det er gjerne noen intensjoner om å lage noen gode maler, men det er som oftest 90% spesialtilpassning på hvert tilbud. Dessuten er det ikke uvanlig at man roter det litt til, og bruker gamle tekster, gamle logoer eller på andre måter gjør tilbudet litt mindre profesjonellt enn det kunne vært. CRM skulle frelse oss fra alt dette, men vi kan vel ærlig konstatere at det er et stykke igjen.

I dag var jeg på en presentasjon av en løsning som i mine øyne virket lovende. Det var Microsoft Office Solution Accelerator for Proposols. En .Net basert løsning som installeres på toppen av Windows 2003 server, SharePoint Services og SQl server 2000. Så vidt jeg kunne se på web’n kostet ikke selve produktet noe ekstra. Nå finnes det sikkert andre løsninger som er mer proffe, men noe av det jeg likte med denne løsningen var dens enkle design. Det var ikke noe mer enn hva en hvilken som helst nogenlunde kvalifisert utvikler kunne satt sammen, men det var enkelt og oversiktlig og det gledet meg. Jeg tror denne løsningen kan bli populær hos mange fordi den er relativt enkel å sette opp og det er derfor ingen stor risiko for kostnadsoverskridelser ved implementering.

Jeg tror definitivt at vi kommer til å ta i bruk denne løsningen. Så får vi se om den hjelper oss med å redusere tiden det tar å lage et godt tilbud, samtidig som tilbudet blir bedre kvalitetssikret.

Nå står jeg altså her som en tekniker, utvikler og selger. Er det fremskritt, eller har jeg bare gått over til “the dark side of the force”? Siden jeg begynte i bransjen har jeg definitivt lagt fra meg de naive holdningen i forhold til salg. Dersom bedriften ikke selger, tjenes det ikke penger og da kan ikke bedriften overleve. Det må vi ta konsekvensen av, og det må nordmenn generelt også gjøre. Hvis ikke fortsetter vi med å lage nye produkter og tjenester, mens andre lykkes med kommersialisering av dem. Eksemplene er mange, men Simonsen’s mobilløsninger stikkes nok mes frem. Hadde nordmenn hatt peiling på salg den gangen, kunne vi kanskje hatt vårt lille Nokia eller Ericsson.

Vi får ta det et skritt av gangen. På videregående lærer elevene å starte bedrifter i regi av UNGt Entreprenørskap. Da er salg endel av det de lærer. Det samme har Grunderskolen på sitt høgskolestudium. Så etterhvert får vi nok frem endel dyktige salgspersoner i Norge også. Godt er det, selv om vi alle hater telefonselgerne som plager oss på hjemmetelefonen.

Laptops på kursrommet

For første gang på endel år sitter jeg nå på et fagkurs for å lære meg et nytt produkt. Jeg ble litt overrasket over at maskinene på kursrommet var bærbare, noe jeg forøvrig synes er en god ide.

Sist gang jeg var på kurs, var det store skjermer, mus og tastaturer og svære bokser som tok opp mesteparten av plassen på pulten. Mange steder kunne det nesten bli vanskelig å se foreleseren fordi det var så mye skrot i veien.

Med en laptop på pulten er det mye plass igjen, og skjermen kan slås ned så alle følger med. Ulempen er at maskinene kanskje har litt for dårlig ytelse for noen av de mest krevende kursene, og at tastaturet på bærbare ikke er like gode å skrive på.

Nå kommer det stadig flere store laptops med 17 tommer skjerm og gode tastatur med numerisk tastatur på siden. Så nå står det nesten bare på å få inn noen raske harddisker i dem, så forsvinner argumentene for å bruke stasjonære maskiner.

Bærbare er på fremmarsj, og snart er det vel bare servere som fortsatt selges som stasjonære?

Ja til frivillig orddeling

I dag har jeg deltatt i en diskusjon på Digi.no om deling av sammensatte ord. Dette er et tema som tydeligvis setter følelsene i sving hos noen.

På forumene til Digi.no er det nesten uten unntak alltid noen som kritiserer journalisten for å skrive dårlig. Spesiellt kritiseres det at journalistene deler opp sammensatte ord.

Selv mener jeg at det norske språket hadde hatt godt av å tillate å dele opp de lange sammensatte ordene. Det vehøver ikke å bli obligatorisk, men kunne vært en frivillighet. Når et ord består av 3 eller flere sammensatte ord, blir det vanskelig å lese og det ser rett og slett rart ut.

Det kan se ut som at jeg er blant mindretallet i denne saken. I hvertfall når man ser på tilbakemeldingen. Nå er jeg ikke uten forståelse for argumentene til Astronomer mot orddeling eller de andre, men jeg synes at de ikke treffer helt. I mine øyne er det ikke noe negativt i at det norske språket påvirkes av engelsk. Verre er det hvis flere og flere foretrekker å skrive og lese på engelsk fordi det norske språket blir kunstig med sine lange sammensatte ord.

Det verste eksempelet jeg fant var: “Minoritetsbærerdiffusjonskoeffisientsmålingsapparatur”. Ikke akkurat lesevennlig, men så ille er det heldigvis ikke så ofte.

I diskusjonen dukker følgende ord/ord delinger opp:
“Vi har mygg og flått middel! Spør oss da vel.”
Denne synes jeg er grei
“Tyveri sikret!”
Her er jeg enig i at det blir dumt
“Terrasse dør. Kr. 3990,-”
Helt greit i mine øyne. En dør, er en dør, er en dør.
“Smådyr klinikk”
Helt fint. I mine øyne kommer det her klart frem hva det er.

Selvsagt så ser jeg at dette er galt etter gjeldene rettskrivningsnorm, men jeg mener at normen er gal.

Det er en grunn til at mange skriver “feil”, og det er ikke fordi folk er dårlige til å skrive. Det er fordi det faller unaturlig i en del sammenhenger. Derfor utvikles språket, og godt er det.

Lyden er for treg

I dag var jeg tidtager på Speedo Cup, et internasjonalt svømmestevne på Tøyenbadet. Vi har elektronisk tidtagning, men som en backup tar vi også manuell tid med stoppeklokken. Normalt er jeg ganske god til å ta nøyaktige tider, og som regel er jeg innenfor 5 hundredeler av den digitale tiden. Noen sjeldne ganger bommer jeg med mer enn 1 tidel av et sekund.

På dagens første øvelse, 50m fri, reagerte jeg og en av de andre svømmeforeldrene på at vi konsekvent bommet mer enn vi pleier. Vi har begge unger i svømmeklubben og vi svømmer også sammen på mandager i vår egen svømmeklubb, Oslo Dolphin Masters. Ettersom vi begge er tidligere aktive konkurransesvømmere diskuterer vi det meste som har med svømming å gjøre, enten det er teknikk, dommeravgjørelser, treningsmetoder eller som i dette tilfellet tidtagning. Vi bommet begge mellom 15-20 hundredeler, og vi hadde hele veien for god tid i forhold til den elektroniske tidtagningen.

Tøyenbadet er et langbane basseng, det vil si at det er 50 meter langt, istedenfor 25 som er det mest vanlige i Norge. 50m er forøvrig den olympiske sstandarden. Så på øvelsen 50m fri, starter svømmeren på den andre siden av bassenget, og da er naturlig nok starteren også der. Vi regnet litt i hodet og kom frem til at lyden beveger seg i litt over 300 m/s. Når jeg kom hjem i kveld, sjekket jeg dette ut og fant ut at hastigheten er ca. 330 m/s. Det betyr at forsinkelsen fra starteren til oss som var tidtagere var på 0,15s. Det stemmer godt overens med avviket. Heldigvis fungerte det elektroniske systemet prikkfritt, så det ble ingen problemer med dette.

0,15s høres kanskje ikke mye ut, men dpå en øvelse som i OL varer under 22 sekunder, kan det fort være forskjellen på gull og fjerdeplass. Selv vant jeg en gang for lenge siden UM (Ungdomsmesterskapet) på en 400m tiden 4.25.90, og var bare 3 hundredeler forran nestemann. Så tett har det vært mange ganger. Da er det godt at vi har et elektronisk tidtagningssystem.

Konklusjonen min er ihvertfall at lyden er tregere enn vi tror. Vi blir liksom så imponert når vi hører lydens hastighet, men det er jo faktisk ikke så raskt allikevel når det kan gi store utslag på en så kort avstand so 50m.