.png)
Bakgrunn
Soundly er et norsk teknologiselskap som utvikler løsninger for profesjonell lydhåndtering og lydsøk. I møte med stadig voksende lydbiblioteker så de et behov for mer intelligente og automatiserte metoder for å finne, beskrive og organisere lydfiler. Gjennom kontakt mellom gründerne i Soundly og Append oppstod et samarbeid om å utforske bruk av moderne AI-modeller for å forbedre søk og gjenfinning av lyd.
Prosjektet hadde som mål å undersøke hvordan kombinasjonen av lyd-embedding og språk-embedding kunne brukes til å utvikle mer semantisk søkbare lydarkiv, der man kan finne lyder basert på betydning, ikke bare filnavn eller metadata.
Løsning
Løsningen er basert på Contrastive Language-Audio Processing (CLAP), en modell trent til å koble språk og lyd i et felles representasjonsrom. Ved å utnytte denne teknologien kan systemet beregne likheter mellom lydfiler og tekstbeskrivelser, og dermed finne lyder som «ligner» basert på innhold heller enn bare akustiske egenskaper. Teknologien er implementert med PyTorch, FAISS for effektiv likhetssøk, og et PyQT-basert grensesnitt for testing og visualisering. Prosjektet er bygget med tanke på skalerbarhet i Google Cloud, slik at modellen enkelt kan utvides til større datamengder eller integreres i Soundlys eksisterende tjenester.
