Málgögn og gervigreind Steinþór Steingrímsson, Einar Freyr Sigurðsson og Helga Hilmisdóttir skrifa 7. október 2025 11:30 Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum. Viltu birta grein á Vísi? Kynntu þér reglur ritstjórnar um skoðanagreinar. Senda grein Gervigreind Máltækni Íslensk tunga Mest lesið Enginn lærir í afneitun Björn Brynjúlfur Björnsson Skoðun Halldór 30.5.2026 Halldór Gleymdi framhaldsskólinn Sigurður E. Vilhelmsson Skoðun Gerviskoðanakönnun — eða 9,44 prósent? Halldór Jörgen Olesen Skoðun Hver kenndi Viðskiptaráði að rýna í gögn og tölur? Ragnheiður Stephensen Skoðun Leyfið okkur að velja framtíð okkar Kristrún Ágústsdóttir Skoðun Enn um Plastbarkamálið Ingólfur Bruun Skoðun Álfsnes er rangur staður fyrir skotsvæði Kristbjörn Haraldsson,Anja Þórdís Karlsdóttir Skoðun Við erum öll í sama liðinu Jónas Hagan Guðmundsson Skoðun It's complicated: Valkostir Íslands í gjaldmiðlamálum Stefanía K. Ásbjörnsdóttir Skoðun Skoðun Skoðun Hverju getur aukið sjálfstraust og sérþekking skilað komandi kynslóðum? Þorvaldur Ingi Jónsson skrifar Skoðun Að byggja brú til þeirra sem bíða Sigurður Árni Reynisson skrifar Skoðun Gerviskoðanakönnun — eða 9,44 prósent? Halldór Jörgen Olesen skrifar Skoðun Enginn lærir í afneitun Björn Brynjúlfur Björnsson skrifar Skoðun It's complicated: Valkostir Íslands í gjaldmiðlamálum Stefanía K. Ásbjörnsdóttir skrifar Skoðun Gleymdi framhaldsskólinn Sigurður E. Vilhelmsson skrifar Skoðun Álfsnes er rangur staður fyrir skotsvæði Kristbjörn Haraldsson,Anja Þórdís Karlsdóttir skrifar Skoðun Sjálfstæðisflokkurinn er að grafa sína eigin gröf Sigurður Sigurðsson skrifar Skoðun Eru félagasamtök sem boða eigið fagnaðarerindi nóg til að upplýsa almenning? Eyrún Magnúsdóttir skrifar Skoðun Enn um Plastbarkamálið Ingólfur Bruun skrifar Skoðun Við unnum stóra vinninginn Gunnar Salvarsson skrifar Skoðun Við erum öll í sama liðinu Jónas Hagan Guðmundsson skrifar Skoðun Látið Ljósleiðarann vera! Guðni Freyr Öfjörð skrifar Skoðun Noregur verður hluti af kjarnorkuvernd Frakka Arnór Sigurjónsson skrifar Skoðun Það sem mun sökkva okkur Haukur Logi Jóhannsson skrifar Skoðun Ef Ísland sækir um „djobbið“ Guðmunda G. Guðmundsdóttir skrifar Skoðun Tangarhald á lífæð samfélagsins Björn Brynjúlfur Björnsson skrifar Skoðun Leyfið okkur að velja framtíð okkar Kristrún Ágústsdóttir skrifar Skoðun Nokkur atriði varðandi mögulega aðild Íslands að Evrópusambandinu Jón Frímann Jónsson skrifar Skoðun Hver kenndi Viðskiptaráði að rýna í gögn og tölur? Ragnheiður Stephensen skrifar Skoðun Gervigreind mun ekki skipta út leiðtogum. Hún mun afhjúpa þá Gísli Rafn Ólafsson skrifar Skoðun Opið bréf til stjórnsýslu Reykjanesbæjar vegna aðgengis í Gömlu búð Arnar Helgi Lárusson skrifar Skoðun Þegar fjarlægðin hættir að standa í vegi fyrir heilsu kvenna Helga Dagný Sigurjónsdóttir skrifar Skoðun Enginn kemst langt með skóflu eina að vopni Martha Árnadóttir skrifar Skoðun Skammsýni á tímum tæknibyltingar, erum við að missa af framtíðinni? Sævar Þór Jónsson skrifar Skoðun Að gera upp á milli barna Ingólfur Sverrisson skrifar Skoðun Hólar í Hjaltadal á uppboð Jón Bjarnason skrifar Skoðun Er ekki best að tala bara íslensku um ESB og matvælaverð? Trausti Hjálmarsson skrifar Skoðun Lausnin sem leysir ekkert Jóhann Skagfjörð Magnússon skrifar Skoðun Vestmannaeyjabær, þar sem þögn er þegjandi samkomulag Linda Rós Sigurdardóttir skrifar Sjá meira
Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum.
Skoðun Hverju getur aukið sjálfstraust og sérþekking skilað komandi kynslóðum? Þorvaldur Ingi Jónsson skrifar
Skoðun Álfsnes er rangur staður fyrir skotsvæði Kristbjörn Haraldsson,Anja Þórdís Karlsdóttir skrifar
Skoðun Eru félagasamtök sem boða eigið fagnaðarerindi nóg til að upplýsa almenning? Eyrún Magnúsdóttir skrifar
Skoðun Nokkur atriði varðandi mögulega aðild Íslands að Evrópusambandinu Jón Frímann Jónsson skrifar
Skoðun Opið bréf til stjórnsýslu Reykjanesbæjar vegna aðgengis í Gömlu búð Arnar Helgi Lárusson skrifar
Skoðun Þegar fjarlægðin hættir að standa í vegi fyrir heilsu kvenna Helga Dagný Sigurjónsdóttir skrifar
Skoðun Skammsýni á tímum tæknibyltingar, erum við að missa af framtíðinni? Sævar Þór Jónsson skrifar