Málgögn og gervigreind Steinþór Steingrímsson, Einar Freyr Sigurðsson og Helga Hilmisdóttir skrifa 7. október 2025 11:30 Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum. Viltu birta grein á Vísi? Sendu okkur póst. Senda grein Gervigreind Máltækni Íslensk tunga Mest lesið Siðlaust en fullkomlega löglegt Jónas Yngvi Ásgrímsson Skoðun Áfengi eykur líkur á sjö tegundum krabbameina Sigurdís Haraldsdóttir Skoðun Markmið fyrir iðnað, innantóm orð fyrir náttúru Elvar Örn Friðriksson Skoðun Skósveinar í Samfylkingunni? Teitur Atlason Skoðun Krúnuleikar Trumps konungs Kristinn Hrafnsson Skoðun Börnin í Laugardal eiga betra skilið Róbert Ragnarsson Skoðun Kæra Hanna Katrín, lengi getur vont versnað Vala Árnadóttir Skoðun Að standa með sjálfum sér Snorri Másson Skoðun Við erum að missa klefann Arnar Ingi Ingason Skoðun Örvæntingarbandalag verklausa vinstrisins Jón Ferdínand Estherarson Skoðun Skoðun Skoðun Að standa með sjálfum sér Snorri Másson skrifar Skoðun Hvar er unga jafnaðarfólkið í Ráðhúsinu? Kristín Soffía Jónsdóttir skrifar Skoðun Fjárfestum í farsælli framtíð Líf Lárusdóttir skrifar Skoðun Krúnuleikar Trumps konungs Kristinn Hrafnsson skrifar Skoðun Stuðningur við lista- og menningarstarf í höfuðborginni Magnea Marinósdóttir skrifar Skoðun Loðnuveiðar og stærð þorskstofna Guðmundur J. Óskarsson,Jónas P. Jónasson skrifar Skoðun Börn með fjölþættan vanda - hver ber ábyrgð og hvað er til ráða? Haraldur L. Haraldsson,Regína Ásvaldsdóttir,Þ:orbjörg Helga Vigfúsdóttir skrifar Skoðun Flugvélar hinna fordæmdu Óskar Guðmundsson skrifar Skoðun Siðlaust en fullkomlega löglegt Jónas Yngvi Ásgrímsson skrifar Skoðun Endurræsum fyrir börnin okkar og kennarana Jón Pétur Zimsen skrifar Skoðun Samfylking og Reykjavík til sigurs Pétur Marteinsson skrifar Skoðun Hugmyndin fyrir brandara – hakakró! Maciej Szott skrifar Skoðun Markmið fyrir iðnað, innantóm orð fyrir náttúru Elvar Örn Friðriksson skrifar Skoðun Dóra Björt er ljúfur nagli Eydís Sara Óskarsdóttir skrifar Skoðun Milljarðasóun í boði andvaraleysis – Illa farið með almannafé og fólk Davíð Bergmann skrifar Skoðun Steinunn GG hefur það sem mestu skiptir Sverrir Þórisson skrifar Skoðun Við erum að missa klefann Arnar Ingi Ingason skrifar Skoðun Framtíð íslenskunnar í alþjóðlegan heimi Alaina Bush skrifar Skoðun Stóra sameiginlega sýnin um betra borgarsvæði – og Suðurlandsbraut Arnar Þór Ingólfsson skrifar Skoðun 4% – varúðarviðmið sem byggist á vísindum Lísa Anne Libungan skrifar Skoðun Tölum Breiðholtið upp Valný Óttarsdóttir skrifar Skoðun Að leiðast er ekki alltaf leiðinlegt Kolbrún Áslaugar Baldursdóttir skrifar Skoðun Loftslagsáhætta er öryggismál Jóhann Páll Jóhannsson,Johan Rockström skrifar Skoðun Borgin sem við byggjum er fjölbreytt borg Heiða Björg Hilmisdóttir skrifar Skoðun Hversdagurinn er ævintýri Skúli S. Ólafsson skrifar Skoðun Lærdómur frá Grænlandi um fæðuöryggi Erna Bjarnadóttir skrifar Skoðun Staðan á húsnæðismarkaði orsök fátæktar einstaklinga og fjölskyldna – Hugmynd að lausn við bráðavanda Magnea Marinósdóttir skrifar Skoðun Ísland–Kanada Steinunn Ólína Þorsteinsdóttir skrifar Skoðun Jákvæð þróun í leikskólamálum Skúli Helgason skrifar Skoðun Eru fjáröflunarherferðir KÍ, Mottumars og Bleika slaufan, siðferðilega réttlætanlegar? Einar Páll Svavarsson skrifar Sjá meira
Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum.
Skoðun Börn með fjölþættan vanda - hver ber ábyrgð og hvað er til ráða? Haraldur L. Haraldsson,Regína Ásvaldsdóttir,Þ:orbjörg Helga Vigfúsdóttir skrifar
Skoðun Milljarðasóun í boði andvaraleysis – Illa farið með almannafé og fólk Davíð Bergmann skrifar
Skoðun Stóra sameiginlega sýnin um betra borgarsvæði – og Suðurlandsbraut Arnar Þór Ingólfsson skrifar
Skoðun Staðan á húsnæðismarkaði orsök fátæktar einstaklinga og fjölskyldna – Hugmynd að lausn við bráðavanda Magnea Marinósdóttir skrifar
Skoðun Eru fjáröflunarherferðir KÍ, Mottumars og Bleika slaufan, siðferðilega réttlætanlegar? Einar Páll Svavarsson skrifar