03.2024 - 05.2024

Analyse av offentlig innovasjon

For Digitaliseringsdirektoratet

Python

Embeddingmodeller

LLM

Pandas

Adrian Fagerland

Prosjektleder

Daniel Faaravik Schiøtz

Om prosjektet

Digitaliseringsdirektoratet fikk tidlig i 2024 oppdrag fra DFD om å utvikle et kunnskapsgrunnlag om innovasjonspraksis i offentlig sektor. I stedet for å sette av flere månedsverk for å lese gjennom tusenvis av dokumenter, kontaktet Digdir oss for å høre hvordan AI kan brukes for å løse en slik problemstilling. Digdir syntes mulighetene virket spennende, og lyste ut en anbudskonkurranse som vi deretter vant.

‍

Utfordring

Oppgaven innebar å analysere store mengder dokumenter for å identifisere og forstå innovasjonsarbeid i offentlig sektor. Manuell gjennomgang ville vært svært tidkrevende og vanskelig å skalere.

‍

Løsning

For å møte Digdirs behov, leverte vi en omfattende løsning som inkluderer flere komponenter for å analysere og presentere innsikt om innovasjon i offentlig sektor.

Første steg i prosessen var å samle relevante dokumenter fra den offentlige dokumentdatabasen Kudos. Som del av leveransen tilbød vi å utvikle algoritmer for scraping og parsing av PDFer, men fant ut at Kudos sitt eget API leverte plaintext av tilstrekkelig kvalitet. Vi valgte derfor å benytte dette API-et, og heller utvide andre deler av scopet.

En sentral del av løsningen vår var bruken av en state-of-the-art embeddingmodell for å analysere tekstinnholdet. Denne modellen konverterer tekstavsnitt til vektorer, som deretter sammenlignes med en referansetekst om innovasjon for å beregne en "innovasjonsfrekvens" for hvert avsnitt.

For å gi Digitaliseringsdirektoratet innsikt, utviklet vi flere metoder for å oppsummere og visualisere resultatene:

Opplisting av avsnitt med høy innovasjonsfrekvens, inkludert fargekodede PDFer
Bruk av språkmodeller som GPT-3.5 eller GPT-4 for å generere oppsummeringer på ulike nivåer
Visualiseringer som diagrammer og grafer for å illustrere trender og mønstre i innovasjonsarbeidet
Aggregering av innovasjonsfrekvenser på dokument-, virksomhets- og departementsnivå

‍

Leveransen inkluderte et datasett med alle innovasjonsfrekvenser og -oppsummeringer, figurer med visualiseringer, en omfattende rapport og en fullstendig presentasjon av metode og funn. Hele kodebasen ble gjort tilgjengelig som open source på GitHub, sammen med grundig dokumentasjon for fremtidig bruk og videreutvikling.

‍

Resultat: Datadrevet innsikt i innovasjon i offentlig sektor

Prosjektet ga Digitaliseringsdirektoratet et kraftig verktøy for å analysere og forstå innovasjon i offentlig sektor. Det innebærer:

Innsikt i hvor og hvordan innovasjon omtales i dokumenter
Mulighet for oppsummering på ulike nivåer
Et grunnlag med mulighet for kontinuerlig oppdatering og tilpasning etter deres behov.

‍

Teknologi

Løsningen er utviklet i Python og benytter embeddingmodeller og språkmodeller (LLM) for analyse av tekstinnhold. Datahåndtering er gjort med Pandas, med bruk av eksterne datakilder via API.

Data Science

Systemutvikling