Skip to content

SE.LLMA – Svenska språkmodeller för framtidens AI-infrastruktur

Stora språkmodeller (LLM:er) och de digitala verktyg som byggs på dem blir morgondagens samhällsinfrastruktur. De blir den underliggande intelligens som allt fler digitala tjänster, beslutssystem och kunskapsmiljöer bygger på. Inom det tvååriga projektet SE.LLMA kommer nya svenska språkmodeller att tränas.

För att Sverige ska förbli konkurrenskraftigt, kunna erbjuda effektiva och säkra offentliga tjänster samt agera i linje med demokratiska värderingar behöver vi stärka forskningen, kunskapen och kompetensen kring språkmodeller. Det handlar också om att säkerställa att den digitala infrastrukturen utvecklas med språklig och kulturell förankring i Sverige och med rättsliga ramverk som värnar upphovsrätt, transparens och ansvar.

Vad ska projektet göra?

Projektet SE.LLMA ska träna nya svenska språkmodeller som levererar högkvalitativ språkförmåga på svenska och speglar svensk kultur, historia, samhällsprinciper och normer. Det handlar om specialiserade språkmodeller för sammanhang där språklig precision, förståelse för svenska förhållanden och rättsliga ramar är avgörande.

Genom att utveckla egna svenska språkmodeller kan vi samtidigt få kontroll över data, insyn och spårbarhet samt minska beroendet av utländska modeller som inte lever upp till säkerhets- och kvalitetskrav. De som kommer att bidra med data till SE.LLMA är offentlig förvaltning, svenska författare, förlag, journalister och nyhetsmediebolag.

En viktig del av projektet är att utveckla grunderna till rättsliga ramverk och licensmodeller för att kompensera upphovspersoner och andra rättighetshavare vars skyddade material används för träning.

Vem står bakom SE.LLMA?

Projektet har initierats och genomförs av forskare från WASP tillsammans med representanter för journalister, nyhetsmedier, författare och förlag som bidrar med data, språkkompetens och som referensgrupp för de rättsliga aspekterna.

Projektet finansieras genom ett forskningsanslag från Knut och Alice Wallenbergs Stiftelse och drivs inom WASP. Stiftelsen är Sveriges största privata finansiär av fri forskning med ett uttalat mål att vara landsgagneliga. WASP är en av stiftelsens strategiska satsningar på forskningsområden som är av särskild vikt för landets utveckling. WASP startade 2015 och drivs av forskare vid de sex ledande tekniska universiteten i Sverige.

Projektets ramar och värderingar

  • Projektet är fast förankrat i att skydda upphovsrättsinnehavares rättigheter. Insamlade data används strikt för att träna svenska LLM:er inom ramen för detta forskningsprojekt och kommer inte att göras tillgängliga för andra projekt därefter.
  • Arbetet vilar på akademisk forskning inom WASP där flera ledande svenska universitet deltar och främjar öppenhet gentemot forskarsamhället.
  • Ambitionsnivån är hög vad gäller kvalitet i alla delar av projektet.
  • Vi strävar efter att leverera högkvalitativ svensk språkförmåga som speglar Sveriges kultur, historia, samhällsprinciper och normer.
  • Offentliga dokument samt redaktionellt och litterärt material av hög kvalitet används för att skapa bättre modeller som direkt gynnar det svenska samhället.
  • Projektet ska pågå i två år.
  • Denna satsning skapar en unik möjlighet att bygga ett ramverk för utveckling, förvaltning och styrning av svenska LLM:er.

Inom SE.LLMA kommer flera olika språkmodeller specialiserade inom olika områden att tränas. De tränas inte från grunden utan bygger vidare på befintliga öppna europeiska språkmodeller som tillåter insyn i träningsdata och de så kallade vikterna samt tillgodoser lagkrav. Träningen genomförs iterativt genom att först träna en mindre modell och därefter fortsätta med större och mer kapabla modeller.

Projektmål

  • Utveckla och tillhandahålla språkmodeller med hög kapacitet i det svenska språket genom att använda träningsdata av hög kvalitet från offentlig förvaltning, svenska författare, förlag, journalister och nyhetsmediebolag.
  • Utveckla arbetsflöden för utvärderingsprocesser och benchmarktester som är specifikt utformade för de svenska modellerna. En central forskningsfråga är att förstå hur vi kan förbättra modellernas förmåga att fånga finare nyanser i det svenska språket och anpassas till svenska kulturella sammanhang.
  • Utvärdera hur mycket bättre små och stora modeller presterar när vi inkluderar svensk data av hög kvalitet. Detta kommer att genomföras kontinuerligt under modellutvecklingen och resultaten kommer att publiceras löpande.
  • Bygga kompetens och en grundstomme för att på längre sikt kunna utveckla ett bredare utbud av modeller, inklusive svenska anpassningar av ledande modeller, som definierar det senaste inom resonemangsförmåga och multimodalitet.
  • Etablera en grund för utvecklingen av de rättsliga ramverk som krävs för modellicensiering samt långsiktig styrning och förvaltning.
  • Bygga kompetens i Sverige, skapa ett ekosystem kring träning, förvaltning och styrning av svenska språkmodeller, samt etablera arbetsflöden för datainsamling, datapreparering, finjustering och användarcentrerad utvärdering för att utveckla en långsiktig väg framåt för en bredare användning av högkvalitativa svenska språkmodeller.

Projektorganisation

SE.LLMA leds av en projektgrupp bestående av forskare från WASPs partneruniversitet Linköpings universitet, Umeå universitet och Uppsala universitet, forskare på NAISS samt representation från upphovsrättsinnehavare.

Som en del av organisationen ingår också en styrgrupp med representanter från upphovsrättsägarna och universiteten. Dessutom kommer ytterligare referensgrupper att bildas med fokus på etik och samhälleliga aspekter, data och teknikval, språkkvalitet samt de rättsliga ramverk som krävs för långsiktig styrning av svenska LLM:er.

We use cookies to personalise content and ads, to provide social media features and to analyse our traffic. We also share information about your use of our site with our social media, advertising and analytics partners. View more
Cookies settings
Accept
Privacy & Cookie policy
Privacy & Cookies policy
Cookie name Active
The WASP website wasp-sweden.org uses cookies. Cookies are small text files that are stored on a visitor’s computer and can be used to follow the visitor’s actions on the website. There are two types of cookie:
  • permanent cookies, which remain on a visitor’s computer for a certain, pre-determined duration,
  • session cookies, which are stored temporarily in the computer memory during the period under which a visitor views the website. Session cookies disappear when the visitor closes the web browser.
Permanent cookies are used to store any personal settings that are used. If you do not want cookies to be used, you can switch them off in the security settings of the web browser. It is also possible to set the security of the web browser such that the computer asks you each time a website wants to store a cookie on your computer. The web browser can also delete previously stored cookies: the help function for the web browser contains more information about this. The Swedish Post and Telecom Authority is the supervisory authority in this field. It provides further information about cookies on its website, www.pts.se.
Save settings
Cookies settings