Málgögn og gervigreind Steinþór Steingrímsson, Einar Freyr Sigurðsson og Helga Hilmisdóttir skrifa 7. október 2025 11:30 Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum. Viltu birta grein á Vísi? Sendu okkur póst. Senda grein Gervigreind Máltækni Íslensk tunga Mest lesið Ísland er að tapa hundruðum milljarða – eitrað framkvæmdakerfi lamar allt samfélagið Sigurður Sigurðsson Skoðun Lærum nú einu sinni af reynslu annarra Guðmundur Ingi Þóroddsson Skoðun Lilja Dögg leiðtogi með tíma, fókus og tengsl við landið allt Jónína Brynjólfsdóttir,Hjálmar Bogi Hafliðason Skoðun Svar við “Bréf til Láru” Lára G. Sigurðardóttir Skoðun Aumingja sölumaðurinn og vonda vísindafólkið Jónas Sen Skoðun Takk læknar! Siv Friðleifsdóttir Skoðun „Þessi helvítis ESB þráhyggja” Arnar Steinn Þórarinsson Skoðun Þegar sölumaður áfengis fræðir okkur um lýðheilsu Lára G. Sigurðardóttir Skoðun Úr hverju er þessi kona gerð? Silja Dögg Gunnarsdóttir Skoðun Orðræðu Viðskiptaráðs um loftslagsskatta snúið upp á loftslagsmál og raunveruleikann Bergur Einarsson Skoðun Skoðun Skoðun Lilja Dögg leiðtogi með tíma, fókus og tengsl við landið allt Jónína Brynjólfsdóttir,Hjálmar Bogi Hafliðason skrifar Skoðun Lærum nú einu sinni af reynslu annarra Guðmundur Ingi Þóroddsson skrifar Skoðun Orðræðu Viðskiptaráðs um loftslagsskatta snúið upp á loftslagsmál og raunveruleikann Bergur Einarsson skrifar Skoðun Svar við “Bréf til Láru” Lára G. Sigurðardóttir skrifar Skoðun Strætó fyrir sum börn, ekki öll Karólína Helga Símonardóttir skrifar Skoðun Sjálfshólið, afsláttardagar og skuldasúpa! Svavar Guðmundsson skrifar Skoðun Aumingja sölumaðurinn og vonda vísindafólkið Jónas Sen skrifar Skoðun Ekkert um að semja? Pawel Bartoszek skrifar Skoðun Nú þarf ákvörðun, ekki afsakanir skrifar Skoðun Úr huglægu mati í mælanlega þróun Marinó G. Njálsson skrifar Skoðun Að byrgja brunninn er ódýrara Elín Anna Baldursdóttir skrifar Skoðun Af hverju þarf ríkið að selja mér vínið? Sveinn Rúnar Einarsson skrifar Skoðun Framsókn til framtíðar – Með Lilju í forystu Linda Hrönn Bakkmann Þórisdóttir skrifar Skoðun Seðlabankastjórar á villigötum… þurfa frí Örn Karlsson skrifar Skoðun Úr hverju er þessi kona gerð? Silja Dögg Gunnarsdóttir skrifar Skoðun Ofbeldi MAST - Opið bréf til atvinnuvegaráðherra Árni Stefán Árnason skrifar Skoðun Íslenskt táknmál er hjartað sem alltaf slær Sigurlín Margrét Sigurðardóttir skrifar Skoðun Útgáfuáætlun námsgagna og aðgengi að stefnumótun Bogi Ragnarsson skrifar Skoðun 1-1-2 dagurinn Hjalti Sigurðsson skrifar Skoðun „Þessi helvítis ESB þráhyggja” Arnar Steinn Þórarinsson skrifar Skoðun Lækkum skatta á barnafjölskyldur Diljá Mist Einarsdóttir skrifar Skoðun Leiktjöldin Davíð Bergmann skrifar Skoðun Villigötur eru ekki alltaf merktar – svar við skoðun Bjarna Torfa Lárus Gunnarsson skrifar Skoðun 5% af alþingismanni Hjörtur J. Guðmundsson skrifar Skoðun Hætta að kjósa gegn sjálfum sér: Eldri borgarar eiga að standa með Flokki fólksins Gunnar Einarsson skrifar Skoðun Þegar rétturinn og réttvísin horfa undan Vigfús Eysteinsson skrifar Skoðun Efnahagsleg ábyrgð er fjölskyldumál Sandra Sigurðardóttir skrifar Skoðun Leikskólamál í Reykjavík – staðreyndir og mögulegar lausnir Baldur Borgþórsson,Hlynur Áskelsson,Sigfús Aðalsteinsson skrifar Skoðun Takk læknar! Siv Friðleifsdóttir skrifar Skoðun Fjarðarheiðargöng: Öryggi, traust og framtíð Austurlands í húfi Guðný Lára Guðrúnardóttir skrifar Sjá meira
Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum.
Ísland er að tapa hundruðum milljarða – eitrað framkvæmdakerfi lamar allt samfélagið Sigurður Sigurðsson Skoðun
Lilja Dögg leiðtogi með tíma, fókus og tengsl við landið allt Jónína Brynjólfsdóttir,Hjálmar Bogi Hafliðason Skoðun
Orðræðu Viðskiptaráðs um loftslagsskatta snúið upp á loftslagsmál og raunveruleikann Bergur Einarsson Skoðun
Skoðun Lilja Dögg leiðtogi með tíma, fókus og tengsl við landið allt Jónína Brynjólfsdóttir,Hjálmar Bogi Hafliðason skrifar
Skoðun Orðræðu Viðskiptaráðs um loftslagsskatta snúið upp á loftslagsmál og raunveruleikann Bergur Einarsson skrifar
Skoðun Hætta að kjósa gegn sjálfum sér: Eldri borgarar eiga að standa með Flokki fólksins Gunnar Einarsson skrifar
Skoðun Leikskólamál í Reykjavík – staðreyndir og mögulegar lausnir Baldur Borgþórsson,Hlynur Áskelsson,Sigfús Aðalsteinsson skrifar
Skoðun Fjarðarheiðargöng: Öryggi, traust og framtíð Austurlands í húfi Guðný Lára Guðrúnardóttir skrifar
Ísland er að tapa hundruðum milljarða – eitrað framkvæmdakerfi lamar allt samfélagið Sigurður Sigurðsson Skoðun
Lilja Dögg leiðtogi með tíma, fókus og tengsl við landið allt Jónína Brynjólfsdóttir,Hjálmar Bogi Hafliðason Skoðun
Orðræðu Viðskiptaráðs um loftslagsskatta snúið upp á loftslagsmál og raunveruleikann Bergur Einarsson Skoðun