Málgögn og gervigreind Steinþór Steingrímsson, Einar Freyr Sigurðsson og Helga Hilmisdóttir skrifa 7. október 2025 11:30 Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum. Viltu birta grein á Vísi? Sendu okkur póst. Senda grein Gervigreind Máltækni Íslensk tunga Mest lesið Hundruð milljóna frá íslenskum skattgreiðendum til heilbrigðisþjónustu erlendis Diljá Mist Einarsdóttir Skoðun Sjávartengd nýsköpun skilar þjóðinni milljörðum Þorsteinn Másson Skoðun Alþjóðadagur offitunnar Stjórn félags fagfólks um offitu (FFO) Skoðun Gini borgar ekki leiguna Birna Gunnlaugsdóttir Skoðun Enginn á að vera einn í Reykjavík Ellen Calmon Skoðun Með sniglaslím í andlitinu Karl Pétur Jónsson Skoðun Af hverju fjölgar öryrkjum? Svarið er ekki það sem þú heldur Sisa Berglind Kristjánsdóttir Skoðun Ofbeldi í nánum samböndum og vinnumarkaðurinn Dagný Aradóttir Pind,Eva Hjörtína Ólafsdóttir,Henný Hinz,Sigrún Birna Björnsdóttir Skoðun Þúsund milljarða högg á ríkissjóð – svartasta sviðsmyndin á Nýjum Landspítala Sigurður Sigurðsson Skoðun Um rektor tala ég ekki Óttar Kolbeinsson Proppé Skoðun Skoðun Skoðun Ofbeldi í nánum samböndum og vinnumarkaðurinn Dagný Aradóttir Pind,Eva Hjörtína Ólafsdóttir,Henný Hinz,Sigrún Birna Björnsdóttir skrifar Skoðun Hundruð milljóna frá íslenskum skattgreiðendum til heilbrigðisþjónustu erlendis Diljá Mist Einarsdóttir skrifar Skoðun Alþjóðadagur offitunnar Stjórn félags fagfólks um offitu (FFO) skrifar Skoðun Sjávartengd nýsköpun skilar þjóðinni milljörðum Þorsteinn Másson skrifar Skoðun Samfélag sem ýtir undir nærandi tengsl Sanna Magdalena Mörtudóttir skrifar Skoðun Enginn á að vera einn í Reykjavík Ellen Calmon skrifar Skoðun Ég heyri og hlusta: Um heyrnarskimun í grunnskólum Alma D. Möller skrifar Skoðun Hlutverk sem ég tek með auðmýkt og ábyrgð Grétar Ingi Erlendsson skrifar Skoðun Ég hlakka til Alexandra Briem skrifar Skoðun Megum við fá bita, háttvirtur ráðherra? Katla Ósk Káradóttir skrifar Skoðun Barbabrella hægrisins í leikskólamálum Stefán Pálsson skrifar Skoðun Aðalmeðferð í dómsmáli um netsölu áfengis eftir 2 daga Siv Friðleifsdóttir skrifar Skoðun Aukin misskipting leysir ekki verðbólguvandann Finnbjörn Hermannsson,Sonja Ýr Þorbergsdóttir skrifar Skoðun Kjarnorkuvopnavæðing Norðurlanda Arnór Sigurjónsson skrifar Skoðun Móðurmálið er gjöf sem endist ævinlangt Guðbjörg Magnúsdóttir,Renata Emilsson Pesková skrifar Skoðun Heyra heilbrigðisyfirvöld? Tótla I. Sæmundsdóttir skrifar Skoðun Týndu börnin Telma Sigtryggsdóttir skrifar Skoðun Heyrnin tengir okkur Karen Ósk Gylfadóttir skrifar Skoðun Dýraskólinn: þegar stöðluð próf eru blekking jafnréttis Ásgeir Jónsson skrifar Skoðun Heyrnarskimun er ekki kostnaður – hún er fjárfesting í framtíð barna Hildur Heimisdóttir,Kristbjörg Gunnarsdóttir,Ólafur Hjálmarsson skrifar Skoðun Verndum börn gegn ofbeldi á netinu Þorbjörg Sigríður Gunnlaugsdóttir skrifar Skoðun Gini borgar ekki leiguna Birna Gunnlaugsdóttir skrifar Skoðun Kynjajafnrétti forsenda þróunar og framgangs Þorgerður Katrín Gunnarsdóttir skrifar Skoðun Þegar landið logar Hrefna Sigurjónsdóttir skrifar Skoðun Kapphlaupið um sumarnámskeiðin Magnea Gná Jóhannsdóttir skrifar Skoðun Hvað á unga fólkið að kjósa? Daníel Þröstur Pálsson skrifar Skoðun Með sniglaslím í andlitinu Karl Pétur Jónsson skrifar Skoðun Þegar Bítlakynslóðin verður gömul Gunnar Salvarsson skrifar Skoðun Hagkvæmt húsnæði á hagkvæmum kjörum Jónas Yngvi Ásgrímsson skrifar Skoðun Úkraína - 24. febrúar 1956 og 2022 Erlingur Hansson skrifar Sjá meira
Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum.
Hundruð milljóna frá íslenskum skattgreiðendum til heilbrigðisþjónustu erlendis Diljá Mist Einarsdóttir Skoðun
Ofbeldi í nánum samböndum og vinnumarkaðurinn Dagný Aradóttir Pind,Eva Hjörtína Ólafsdóttir,Henný Hinz,Sigrún Birna Björnsdóttir Skoðun
Þúsund milljarða högg á ríkissjóð – svartasta sviðsmyndin á Nýjum Landspítala Sigurður Sigurðsson Skoðun
Skoðun Ofbeldi í nánum samböndum og vinnumarkaðurinn Dagný Aradóttir Pind,Eva Hjörtína Ólafsdóttir,Henný Hinz,Sigrún Birna Björnsdóttir skrifar
Skoðun Hundruð milljóna frá íslenskum skattgreiðendum til heilbrigðisþjónustu erlendis Diljá Mist Einarsdóttir skrifar
Skoðun Aukin misskipting leysir ekki verðbólguvandann Finnbjörn Hermannsson,Sonja Ýr Þorbergsdóttir skrifar
Skoðun Móðurmálið er gjöf sem endist ævinlangt Guðbjörg Magnúsdóttir,Renata Emilsson Pesková skrifar
Skoðun Heyrnarskimun er ekki kostnaður – hún er fjárfesting í framtíð barna Hildur Heimisdóttir,Kristbjörg Gunnarsdóttir,Ólafur Hjálmarsson skrifar
Hundruð milljóna frá íslenskum skattgreiðendum til heilbrigðisþjónustu erlendis Diljá Mist Einarsdóttir Skoðun
Ofbeldi í nánum samböndum og vinnumarkaðurinn Dagný Aradóttir Pind,Eva Hjörtína Ólafsdóttir,Henný Hinz,Sigrún Birna Björnsdóttir Skoðun
Þúsund milljarða högg á ríkissjóð – svartasta sviðsmyndin á Nýjum Landspítala Sigurður Sigurðsson Skoðun