Málgögn og gervigreind Steinþór Steingrímsson, Einar Freyr Sigurðsson og Helga Hilmisdóttir skrifa 7. október 2025 11:30 Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum. Viltu birta grein á Vísi? Kynntu þér reglur ritstjórnar um skoðanagreinar. Senda grein Gervigreind Máltækni Íslensk tunga Mest lesið Klíkur, kunningsskapur og brostið traust á Nesinu Páll Kári Pálsson Skoðun Gestalisti elítunnar Óðinn Freyr Baldursson Skoðun Hér er fúsk, um fúsk, frá fúski til fúsks Benedikta Guðrún Svavarsdóttir Skoðun Þeir fiska sem róa Þorgerður Katrín Gunnarsdóttir Skoðun Amma er farin í „sveitina”… Bryndís Rut Logadóttir Skoðun Fremst í yfirbyggingu Lísbet Sigurðardóttir Skoðun Skjaldborg um bílaeigendur? Jean_Rémi Chareyre Skoðun Litla gula hænan biður Ingu Sæland um að vanda sig, fjöregg þjóðarinnar er í húfi Rakel Linda Kristjánsdóttir Skoðun Óseðjandi útvistunarblæti Samfylkingar og Vinstrisins (1/3) Guðröður Atli Jónsson Skoðun Brennum bækur! Henry Alexander Henrysson Skoðun Skoðun Skoðun Frá hruni til hávaxta – hvað lærðum við eiginlega? Sigurður Sigurðsson skrifar Skoðun Skjaldborg um bílaeigendur? Jean_Rémi Chareyre skrifar Skoðun Kerfisbreytingar mega ekki bitna á börnum Steinunn Bergmann skrifar Skoðun Þeir fiska sem róa Þorgerður Katrín Gunnarsdóttir skrifar Skoðun Gerum hlutina almennilega! Óðinn Svan Óðinsson,Geir Kristinn Aðalsteinsson skrifar Skoðun Syrtir að í sögu Hóla í Hjaltadal Hjalti Pálsson frá Hofi skrifar Skoðun Óseðjandi útvistunarblæti Samfylkingar og Vinstrisins (1/3) Guðröður Atli Jónsson skrifar Skoðun Hér er fúsk, um fúsk, frá fúski til fúsks Benedikta Guðrún Svavarsdóttir skrifar Skoðun Litla gula hænan biður Ingu Sæland um að vanda sig, fjöregg þjóðarinnar er í húfi Rakel Linda Kristjánsdóttir skrifar Skoðun Amma er farin í „sveitina”… Bryndís Rut Logadóttir skrifar Skoðun Brennum bækur! Henry Alexander Henrysson skrifar Skoðun Hvað er áminningarskylda? Hrafnhildur Kristinsdóttir skrifar Skoðun Mætti vera sammála sjálfum sér Hjörtur J. Guðmundsson skrifar Skoðun Gestalisti elítunnar Óðinn Freyr Baldursson skrifar Skoðun Hvernig á ekki að nota gervigreind! Karl Thoroddsen skrifar Skoðun Fremst í yfirbyggingu Lísbet Sigurðardóttir skrifar Skoðun Kennsla Jesú—Sæluboð Fjallræðunnar Sigurvin Lárus Jónsson skrifar Skoðun Fjárhagslegt sjálfstæði Seltjarnarness í hættu Kristinn Ólafsson skrifar Skoðun Hingað til náms. Hér til framtíðar Berglind Ósk Guðmundsdóttir, Þorsteinn Kristjánsson skrifar Skoðun Þegar sjóndeildarhringurinn verður 360 gráður - Framhaldsnám getur breytt meiru en bara þekkingu Sólveig Gylfadóttir skrifar Skoðun Klíkur, kunningsskapur og brostið traust á Nesinu Páll Kári Pálsson skrifar Skoðun „Dagsskipun kerfisins“ Helgi Áss Grétarsson skrifar Skoðun Er ekki komið nóg af þessum mannréttindum? Olga Margrét Cilia skrifar Skoðun Ertu íslenskuvinur? Védís Ragnheiðardóttir skrifar Skoðun Ríkisstjórn útúrsnúninga? Helga Rósa Másdóttir,Magnús Þór Jónsson,Sonja Ýr Þorbergsdóttir skrifar Skoðun Við getum ekki firrt okkur ábyrgð Hólmfríður Jennýjar Árnadóttir skrifar Skoðun Samfella í verki - Framtíðarsýn Okkar Hveragerðis Sandra Lind Brynjarsdóttir,Jónas Guðnason ,Dagný Sif Sigurbjörnsdóttir,Lárus Jónsson skrifar Skoðun Virðingaleysi í samfélaginu Marta Wieczorek skrifar Skoðun Ertu Jón eða séra Jón? Guðný Björk Pálmadóttir skrifar Skoðun Læra nemendur meira ef skóladögum fjölgar? Sigrún Ólöf Ingólfsdóttir skrifar Sjá meira
Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum.
Litla gula hænan biður Ingu Sæland um að vanda sig, fjöregg þjóðarinnar er í húfi Rakel Linda Kristjánsdóttir Skoðun
Skoðun Litla gula hænan biður Ingu Sæland um að vanda sig, fjöregg þjóðarinnar er í húfi Rakel Linda Kristjánsdóttir skrifar
Skoðun Hingað til náms. Hér til framtíðar Berglind Ósk Guðmundsdóttir, Þorsteinn Kristjánsson skrifar
Skoðun Þegar sjóndeildarhringurinn verður 360 gráður - Framhaldsnám getur breytt meiru en bara þekkingu Sólveig Gylfadóttir skrifar
Skoðun Ríkisstjórn útúrsnúninga? Helga Rósa Másdóttir,Magnús Þór Jónsson,Sonja Ýr Þorbergsdóttir skrifar
Skoðun Samfella í verki - Framtíðarsýn Okkar Hveragerðis Sandra Lind Brynjarsdóttir,Jónas Guðnason ,Dagný Sif Sigurbjörnsdóttir,Lárus Jónsson skrifar
Litla gula hænan biður Ingu Sæland um að vanda sig, fjöregg þjóðarinnar er í húfi Rakel Linda Kristjánsdóttir Skoðun