Málgögn og gervigreind Steinþór Steingrímsson, Einar Freyr Sigurðsson og Helga Hilmisdóttir skrifa 7. október 2025 11:30 Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum. Viltu birta grein á Vísi? Kynntu þér reglur ritstjórnar um skoðanagreinar. Senda grein Gervigreind Máltækni Íslensk tunga Mest lesið „Ég dó á 44 ára afmælinu mínu“ Ingrid Kuhlman,Bjarni Jónsson Skoðun Óútskýrð veikindi skipstjóra um nótt Kristinn Hrafnsson Skoðun Reykjanesbær má ekki verða póstnúmeralottó fyrir fjölskyldur í vanda Dagur Jóhannsson Skoðun Börn og kennarar geta ekki beðið lengur Róbert Ragnarsson Skoðun Borg óttans Lárus Blöndal Sigurðsson Skoðun Hvers virði er mannúð í Garðabæ? Þuríður Jónsdóttir Skoðun Við ætlum að vinna keppnina um unga fólkið Óðinn Svan Skoðun Örlög Kópavogsmódelsins Sigrún Ólöf Ingólfsdóttir Skoðun Vinna með foreldrum barna í vanda Guðbjörg Ingunn Magnúsdóttir Skoðun Raki og mygla í skólum er lýðheilsumál Sylgja Dögg Sigurjónsdóttir Skoðun Skoðun Skoðun Vinna með foreldrum barna í vanda Guðbjörg Ingunn Magnúsdóttir skrifar Skoðun Börn og kennarar geta ekki beðið lengur Róbert Ragnarsson skrifar Skoðun Reykjanesbær má ekki verða póstnúmeralottó fyrir fjölskyldur í vanda Dagur Jóhannsson skrifar Skoðun Meira lýðræði fyrir Múlaþing Ævar Orri Eðvaldsson skrifar Skoðun Raki og mygla í skólum er lýðheilsumál Sylgja Dögg Sigurjónsdóttir skrifar Skoðun „Ég dó á 44 ára afmælinu mínu“ Ingrid Kuhlman,Bjarni Jónsson skrifar Skoðun Börnin á bakkanum Þórey María E. Kolbeins skrifar Skoðun Við ætlum að vinna keppnina um unga fólkið Óðinn Svan skrifar Skoðun Framsækin Framsókn Halldór Bachmann skrifar Skoðun Sterk landsbyggð styrkir Ísland allt Ragnar Rögnvaldsson skrifar Skoðun Það er gott að vinna í Kópavogi Karen Rúnarsdóttir skrifar Skoðun Borg óttans Lárus Blöndal Sigurðsson skrifar Skoðun Woke – rétttrúnaður og refsivöndur Sigfús Aðalsteinsson skrifar Skoðun Hvers virði er mannúð í Garðabæ? Þuríður Jónsdóttir skrifar Skoðun Mennt er máttur í Garðabæ Almar Guðmundsson,Sigríður Hulda Jónsdóttir skrifar Skoðun Gaman að vera gamall í Garðabæ Hreiðar Þór Jónsson skrifar Skoðun Fjölskylduvænn Garðabær: Innleiðum sumarfrístund Finnur Jónsson skrifar Skoðun Nokkur orð um kosningar Ástríður Jóhannesdóttir skrifar Skoðun Menningar- og listaskrifstofa Reykjavíkurborgar Sverrir Páll Einarsson skrifar Skoðun Mjög mikilvæg fullyrðing Haukur Þorgeirsson skrifar Skoðun Um þagnir, vald og rammana sem við smíðum Sigurður Árni Reynisson skrifar Skoðun Endar Fáskrúðsfjörður sem brothætt byggð? Arndís R Magnúsdóttir,Gunnar Geir Kristjánsson skrifar Skoðun Hvert stefnir menningin? Elsa María Guðmundsdóttir skrifar Skoðun Seltjarnarnes þarf uppbyggingu sem skilar árangri Kristinn Ólafsson skrifar Skoðun Ætti sumarstarf frístundaheimila að vera hluti af grunnþjónustu sveitarfélaga? Gísli Ólafsson skrifar Skoðun Bætum þjónustu við fatlað fólk í Garðabæ Ragnheiður Hergeirsdóttir skrifar Skoðun Örlög Kópavogsmódelsins Sigrún Ólöf Ingólfsdóttir skrifar Skoðun Einföldum líf barnafjölskyldna Eydís Inga Valsdóttir skrifar Skoðun Ísland verði hluti af evrópsku sambandsríki Hjörtur J. Guðmundsson skrifar Skoðun Samgöngur fyrir börn Stein Olav Romslo skrifar Sjá meira
Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum.
Skoðun Reykjanesbær má ekki verða póstnúmeralottó fyrir fjölskyldur í vanda Dagur Jóhannsson skrifar
Skoðun Endar Fáskrúðsfjörður sem brothætt byggð? Arndís R Magnúsdóttir,Gunnar Geir Kristjánsson skrifar
Skoðun Ætti sumarstarf frístundaheimila að vera hluti af grunnþjónustu sveitarfélaga? Gísli Ólafsson skrifar