Digitaliseringsdirektoratet fikk tidlig i 2024 oppdrag fra DFD om å utvikle et kunnskapsgrunnlag om innovasjonspraksis i offentlig sektor. I stedet for å sette av flere månedsverk for å lese gjennom tusenvis av dokumenter, kontaktet Digdir oss for å høre hvordan AI kan brukes for å løse en slik problemstilling. Digdir syntes mulighetene virket spennende, og lyste ut en anbudskonkurranse som vi deretter vant.
Oppgaven innebar å analysere store mengder dokumenter for å identifisere og forstå innovasjonsarbeid i offentlig sektor. Manuell gjennomgang ville vært svært tidkrevende og vanskelig å skalere.
For å møte Digdirs behov, leverte vi en omfattende løsning som inkluderer flere komponenter for å analysere og presentere innsikt om innovasjon i offentlig sektor.
Første steg i prosessen var å samle relevante dokumenter fra den offentlige dokumentdatabasen Kudos. Som del av leveransen tilbød vi å utvikle algoritmer for scraping og parsing av PDFer, men fant ut at Kudos sitt eget API leverte plaintext av tilstrekkelig kvalitet. Vi valgte derfor å benytte dette API-et, og heller utvide andre deler av scopet.
En sentral del av løsningen vår var bruken av en state-of-the-art embeddingmodell for å analysere tekstinnholdet. Denne modellen konverterer tekstavsnitt til vektorer, som deretter sammenlignes med en referansetekst om innovasjon for å beregne en "innovasjonsfrekvens" for hvert avsnitt.
For å gi Digitaliseringsdirektoratet innsikt, utviklet vi flere metoder for å oppsummere og visualisere resultatene:
Leveransen inkluderte et datasett med alle innovasjonsfrekvenser og -oppsummeringer, figurer med visualiseringer, en omfattende rapport og en fullstendig presentasjon av metode og funn. Hele kodebasen ble gjort tilgjengelig som open source på GitHub, sammen med grundig dokumentasjon for fremtidig bruk og videreutvikling.
Prosjektet ga Digitaliseringsdirektoratet et kraftig verktøy for å analysere og forstå innovasjon i offentlig sektor. Det innebærer:
Løsningen er utviklet i Python og benytter embeddingmodeller og språkmodeller (LLM) for analyse av tekstinnhold. Datahåndtering er gjort med Pandas, med bruk av eksterne datakilder via API.
