Málgögn og gervigreind Steinþór Steingrímsson, Einar Freyr Sigurðsson og Helga Hilmisdóttir skrifa 7. október 2025 11:30 Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum. Viltu birta grein á Vísi? Sendu okkur póst. Senda grein Gervigreind Máltækni Íslensk tunga Mest lesið Það ber allt að sama brunni. – Mín kenning. Björn Ólafsson Skoðun Áminntur um sannsögli Jón Ármann Steinsson Skoðun Íbúðir með froðu til sölu Björn Sigurðsson Skoðun Tryggðu þér bíl fyrir áramótin! Vilhjálmur Árnason Skoðun Má umskera dreng í heimahúsi? Eva Hauksdóttir Skoðun 30 milljarðar í útsvar en engin rödd í kosningum Róbert Ragnarsson Skoðun „Við lofum að gera þetta ekki aftur“ Hjörtur J. Guðmundsson Skoðun Hver mun stjórna heiminum eftir hundrað ár? Sigurður Árni Þórðarson Skoðun Er þetta planið? Guðmundur Ari Sigurjónsson Skoðun Mikilvægar kjarabætur fyrir aldraða Inga Sæland Skoðun Skoðun Skoðun „Við lofum að gera þetta ekki aftur“ Hjörtur J. Guðmundsson skrifar Skoðun Það ber allt að sama brunni. – Mín kenning. Björn Ólafsson skrifar Skoðun Hver mun stjórna heiminum eftir hundrað ár? Sigurður Árni Þórðarson skrifar Skoðun Íbúðir með froðu til sölu Björn Sigurðsson skrifar Skoðun Að hafa eða að vera Guðrún Schmidt skrifar Skoðun Mikilvægar kjarabætur fyrir aldraða Inga Sæland skrifar Skoðun Kerfisbundin villa – Af hverju þurfa börn innflytjenda að læra íslensku sem annað mál? Ólafur Guðsteinn Kristjánsson skrifar Skoðun Tryggðu þér bíl fyrir áramótin! Vilhjálmur Árnason skrifar Skoðun Formúlu fyrir sigri? Nei takk. Guðmundur J. Guðmundsson skrifar Skoðun Norræn samstaða skapar tækifæri fyrir græna framtíð Nótt Thorberg skrifar Skoðun Má umskera dreng í heimahúsi? Eva Hauksdóttir skrifar Skoðun Viðskiptafrelsi og hátækniiðnaður Eggert Sigurbergsson skrifar Skoðun Hver er virðingin fyrir skólaskyldunni? Katrín Sigríður J. Steingrímsdóttir skrifar Skoðun Skattar lækka um 3,7 milljarða í Kópavogi á sama tíma og bæjarsjóður er rekinn með halla Bergljót Kristinsdóttir skrifar Skoðun Valþröng í varnarmálum Gunnar Pálsson skrifar Skoðun Fjólubláar prófílmyndir Anna Sóley Ásmundsdóttir skrifar Skoðun Er þetta planið? Guðmundur Ari Sigurjónsson skrifar Skoðun Frystum samninga. Stoppum atkvæðagreiðslur. Ótímabundið frost Pétur Björgvin Sveinsson skrifar Skoðun Tækifærin í orkuskiptunum Jón Trausti Kárason skrifar Skoðun Frekar rétt að endurskoða sambúðina Hjörtur J. Guðmundsson skrifar Skoðun Bullur í Brussel Jón Pétur Zimsen skrifar Skoðun Áminntur um sannsögli Jón Ármann Steinsson skrifar Skoðun Nvidia, Bitcoin og gamla varnarliðið: Hvað bíður Íslands? Sigvaldi Einarsson skrifar Skoðun Ekki hluti af OKKAR Evrópu! Margrét Kristmannsdóttir skrifar Skoðun Mikil aukning í unglingadrykkju – eða hvað? Bogi Ragnarsson skrifar Skoðun Kílómetragjald – Mun lækkun á bensíni og dísel skila sér til neytenda? Gunnar Alexander Ólafsson skrifar Skoðun Er aukin atvinnuþátttaka kostnaður fyrir samfélagið? Gunnlaugur Már Briem skrifar Skoðun Stjórnmálaflokkar á öruggu framfæri ríkis og sveitarfélaga Jóhannes Bjarni Guðmundsson skrifar Skoðun 30 milljarðar í útsvar en engin rödd í kosningum Róbert Ragnarsson skrifar Skoðun Jólakötturinn, ert það þú? Aldís Amah Hamilton,Hulda Jónsdóttir Tölgyes,Klara Ósk Elíasdóttir,Ragnheiður Gröndal,Rósa Líf Darradóttir,Valgerður Árnadóttir skrifar Sjá meira
Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum.
Skoðun Kerfisbundin villa – Af hverju þurfa börn innflytjenda að læra íslensku sem annað mál? Ólafur Guðsteinn Kristjánsson skrifar
Skoðun Skattar lækka um 3,7 milljarða í Kópavogi á sama tíma og bæjarsjóður er rekinn með halla Bergljót Kristinsdóttir skrifar
Skoðun Frystum samninga. Stoppum atkvæðagreiðslur. Ótímabundið frost Pétur Björgvin Sveinsson skrifar
Skoðun Kílómetragjald – Mun lækkun á bensíni og dísel skila sér til neytenda? Gunnar Alexander Ólafsson skrifar
Skoðun Stjórnmálaflokkar á öruggu framfæri ríkis og sveitarfélaga Jóhannes Bjarni Guðmundsson skrifar
Skoðun Jólakötturinn, ert það þú? Aldís Amah Hamilton,Hulda Jónsdóttir Tölgyes,Klara Ósk Elíasdóttir,Ragnheiður Gröndal,Rósa Líf Darradóttir,Valgerður Árnadóttir skrifar