Y Gymraeg, ei Diwylliant, a Deallusrwydd Artiffisial – Rhifyn 2 | Welsh National Language Technologies Portal

Edrych y tu hwnt i Gymru

Croeso nôl i’r hir ddisgwyliedig ail ran yn ein cyfres o flogiau sy’n mynd ati i danlinellu pwysigrwydd parchu diwylliant yng nghyd-destun Deallusrwydd Artiffisial, neu DA. Os wnaethoch chi fethu’r blog cyntaf, ewch fan hyn i’w ddarllen cyn darllen y blog hwn – gobeithiwn y bydd y blog hwn yn gwneud llawer mwy o synnwyr wedyn ‘ny!

Gogwydd, neu bias, oedd prif thema’r blog diwethaf. Fel y soniwyd, mae gogwydd yn broblemataidd. Fe all arwain at wastadu diwylliannol [1]. Efallai bod hyn yn swnio’n haniaethol. Ond gallai olygu y bydd cenedlaethau’r dyfodol yn taro ar draws eu hiaith eu hunain ar-lein mewn ffurf sy’n wahanol rhywsut, ffurf sydd wedi ei Seisnigo neu Americaneiddio. Dyma’r peryg pan fo iaith a diwylliant wedi’i hail-lunio’n ysgafn gan systemau sydd wedi’u hyfforddi y tu hwnt i gartref yr iaith a diwylliant hynny.

Globau — Ffigur 1 “Globes” gan rvacapinta wedi ei drwyddedu dan CC BY 2.0 .

Ffigur 1 “Globes” gan rvacapinta wedi ei drwyddedu dan CC BY 2.0 .

Yn amlwg, o ystyried y nifer o ieithoedd sydd yn y byd (7,159 yn ôl Ethnologue [2]!) nid yw’r Gymraeg ar ei phen ei hun o ran effaith DA ar ei diwylliant. Yn y blog hwn a’r rhai nesaf, rydyn ni’n mynd i edrych y tu hwnt i Gymru i weld beth allwn ni ei ddysgu o brofiad diwylliannau eraill gyda DA, cyn trafod ymdrechion rhyngwladol i sicrhau neu o leiaf symud tuag at DA diwylliannol addas.

Themâu Ymchwil Rhyngwladol

Wrth i ni droi at brofiadau rhyngwladol yn y rhifyn hwn gwelwn fod nifer o themâu yn codi. Fel y byddech yn disgwyl erbyn hyn efallai, mae gogwydd yn thema amlwg sy’n codi tro ar ôl tro. Mae’n cael ei drafod yng nghyd-destun diwylliannau lu, rhai yn ddiwylliannau llai megis diwylliant y Māori [3], rhai yn ddiwylliannau mwy megis diwylliant y Coreaid [4] Mae gogwydd hefyd yn cael ei drafod yng nghyd-destun cymunedau nad ydynt yn seiliedig ar iaith neu ddaearyddiaeth. Er enghraifft, mae De Meulder, wrth drafod yr hwn y gallai DA ei gynnig i bobl fyddar, yn nodi:

“While AI tools promise innovation, they also perpetuate biases, reinforce technoableism and deepen inequalities through systemic and design flaws.” [5]

Gall gogwydd ymddangos mewn sawl ffurf — rhai ohonynt yn eithaf annisgwyl! Er enghraifft mae hoffter y gorllewin o ddiota yn gallu treiddio i mewn i allbwn Arabaidd Islamaidd [6]!

Ar ochr arall y geiniog, mae’n bosib defnyddio DA i fynd i’r afael â gogwydd a rhagfarn. Ystyriwch Wâsikan Kisewâtisiwin er enghraifft, sy’n declyn sydd wedi ei chreu er mwyn helpu pobl nad ydynt yn frodorol i OSGOI gogwydd a rhagfarn wrth ysgrifennu am bobl frodorol [7].

Wrth gwrs, er mwyn canfod a yw gogwydd yn bresennol mewn allbwn LLM, mae angen profi’r allbwn hynny. Llinyn clir sy’n rhedeg drwy lawer o’r papurau a drafodir yma yw’r syniad na allwch chi wir drwsio gogwydd diwylliannol mewn LLMs oni bai eich bod chi’n dysgu sut i’w gweld yn iawn yn gyntaf, neu werthuso ei synnwyr cyffredin diwylliannol [8] – ac i lawer o awduron, mae hynny’n dechrau gydag adeiladu meincnodau gwell.

Yn ôl Mitchell et al. [9] mae’r rhan fwyaf o’r gwerthusiadau presennol yn dal i fod yn rhy Seisnig-ganolog. Golyga hyn nad yw stereoteipiau cymdeithasol diwylliannol penodol yn cael eu sylwi. Mae’r gogwydd yn mynd heb ei weld felly.

Mae Kim et al. [4] i’w weld yn cytuno, ac yn datgan nid defnyddio meincnodau syml na chyfieithu meincnodau Saesneg i iaith lai mo’r ateb. Mae hyn yn gwneud synnwyr – wedi’r cwbl, sut mae adlewyrchu cyfoeth diwylliant mewn meincnodau syml neu gyfieithiadau (peirianyddol, gan amlaf) o feincnodai mawrion iaith Saesneg?

Mae Mitchell et al. [9] a Kim et al. [4] yn mynd ati i greu meincnodau addas, gwell, sy’n seiliedig ar ieithoedd a chyd-destunau diwylliannol penodol. Trwy wneud hynny maen nhw’n dangos sut y gall gogwydd ddod i’r amlwg mewn mannau nad yw profion safonol byth yn ei ddangos.

Mae’r un cymhelliant yn gyrru Naous et al. [6] sy’n cyflwyno gwerthusiadau sy’n seiliedig ar ddiwylliant ar gyfer cyd-destunau Arabeg ac Islamaidd. Mae eu papur yn dangos y gall hyd yn oed modelau sy’n perfformio’n dda ar feincnodau safonol gynhyrchu ymatebion sy’n teimlo’n amhriodol yn ddiwylliannol neu’n ansensitif pan gânt eu harchwilio trwy lens fwy lleol.

Pwysig i’w nodi yw nad cyfystyron mo iaith a diwylliant. Felly nid yw cynnwys testunau lleiafrifol, brodorol neu an-Orllewinol o fewn deunydd hyfforddi DA o reidrwydd yr un peth â chynnwys testunau sy’n berthnasol i’r diwylliant dan sylw!

Felly mae’r llenyddiaeth ryngwladol yn dweud dau beth wrthym: mae gogwydd yn gyffredin, ac rydym yn dal i ddysgu sut i’w fesur yn iawn.

Ond os yw gogwydd yn anodd ei chanfod a’i gwerthuso, y cwestiwn nesaf yw a yw’r broblem yn gwaethygu wrth i amser mynd rhagddo. Mae rhai ymchwilwyr yn awgrymu ei bod hi – yn ddramatig felly. Sut hynny? Tiwniwch mewn y tro nesaf i ddarllen am y Droell Drychineb!! Tan toc!

Llyfryddiaeth

[1] Yu, H., S. Jeong, S. Pawar, J. Shin, J. Jin, J. Myung, A. Oh ac I. Augenstein (2026). Entangled in Representations: Mechanistic Investigation of Cultural Biases in Large Language Models.
[2] Ethnologue. (2026). “How Many Languages Are There In The World?” Adalwyd 03/01/26, o https://www.ethnologue.com/insights/how-many-languages/.
[3] Duncan, S., G. Leoni, L. Steven, K. Mahelona a P.-L. Jones (2024). Fit for our purpose, not yours: Benchmark for a low-resource, Indigenous language. The Thirty-eight Conference on Neural Information Processing Systems Datasets and Benchmarks Track.
[4] Kim, E., J. Suk, P. Oh, H. Yoo, J. Thorne ac A. Oh (2024). CLIcK: A Benchmark Dataset of Cultural and Linguistic Intelligence in Korean, Torino, Italia, ELRA and ICCL.
[5]De Meulder, M. (2026). “Deaf in AI: AI language technologies and the erosion of linguistic rights.” Language and Law / Linguagem e Direito 12(1).
[6] Naous, T., M. J. Ryan, A. Ritter a W. Xu (2024). Having Beer after Prayer? Measuring Cultural Bias in Large Language Models.
[7] Wâsikan Kisewâtisiwin. (2026). “AI With Heart Indigenous powered AI.” Adalwyd 23/01/26, o https://www.wasikankisewatisiwin.ca/.
[8] Myung, J., N. Lee, Y. Zhou, J. Jin, R. A. Putri, D. Antypas, H. Borkakoty, E. Kim, C. Perez-Almendros, A. A. Ayele, V. Gutiérrez-Basulto, Y. Ibáñez-García, H. Lee, S. H. Muhammad, K. Park, A. S. Rzayev, N. White, S. M. Yimam, M. T. Pilehvar, N. Ousidhoum, J. Camacho-Collados ac A. Oh (2025). BLEnD: A Benchmark for LLMs on Everyday Knowledge in Diverse Cultures and Languages.
[9] Mitchell, M., G. Attanasio, I. Baldini, M. Clinciu, J. Clive, P. Delobelle, M. Dey, S. Hamilton, T. Dill, J. Doughman, R. Dutt, A. Ghosh, J. Z. Forde, C. Holtermann, L.-A. Kaffee, T. Laud, A. Lauscher, R. L. Lopez-Davila, M. Masoud, N. Nangia, A. Ovalle, G. Pistilli, D. Radev, B. Savoldi, V. Raheja, J. Qin, E. Ploeger, A. Subramonian, K. Dhole, K. Sun, A. Djanibekov, J. Mansurov, K. Yin, E. V. Cueva, S. Mukherjee, J. Huang, X. Shen, J. Gala, H. Al-Ali, T. Djanibekov, N. Mukhituly, S. Nie, S. Sharma, K. Stanczak, E. Szczechla, T. Timponi Torrent, D. Tunuguntla, M. Viridiano, O. Van Der Wal, A. Yakefu, A. Névéol, M. Zhang, S. Zink a Z. Talat (2025). SHADES: Towards a Multilingual Assessment of Stereotypes in Large Language Models, Albuquerque, New Mexico, Association for Computational Linguistics.

Porth Technolegau Iaith Cenedlaethol Cymru

Y Gymraeg, ei Diwylliant, a Deallusrwydd Artiffisial – Rhifyn 2

Edrych y tu hwnt i Gymru

Themâu Ymchwil Rhyngwladol

Llyfryddiaeth

Gareth Watkins

Cofnodion Diweddar

Dolenni

Dilynwch Ni

Canolfan Bedwyr