Diben y rhestrau
Roedd hi’n ofyniad yn ein project Adnabod Lleferydd “Macsen” a ariannwyd gan Lywodraeth Cymru ein bod yn cyhoeddi rhestrau geiriau o’r 2,500 gair mwyaf cyffredin sy’n cael eu hysgrifennu yn Gymraeg, a’r 500 gair Saesneg mwyaf cyffredin a ddefnyddir yn Gymraeg. Bwriad y rhestrau hyn yw cynorthwyo i wella adnabod lleferydd Cymraeg drwy adnabod y geiriau sydd fwyaf tebygol o gael eu llefaru mewn unrhyw system drawsgrifio Cymraeg. Bydd y rhestrau hyn yn cael eu defnyddio i brofi gallu’r trawsgrifiwr prototeip, unwaith y bydd yn barod, i adnabod y geiriau mwyaf cyffredin hyn.
Mae projectau eraill, megis yr un i ddatblygu Corpws Siarad Bangor (http://bangortalk.org.uk/speakers.php?c=siarad) wedi dilyn egwyddorion geiriadurol wrth ddosbarthu geiriau naill ai i gategori Cymraeg neu Saesneg, h.y. mae eu gwerthusiad o beth sy’n air ‘Cymraeg’ neu ‘Saesneg’ wedi’i seilio ar p’un a oedd tystiolaeth o’r geiriau hynny mewn geiriaduron Cymraeg neu Saesneg. Rydym wedi ychwanegu egwyddorion eraill ar gyfer ein rhestrau geiriau ni, yn seiliedig ar p’un a yw eu hynganiad yn dilyn rheolau llythyren-i-sain Cymraeg neu Saesneg, gan fod ein diddordeb ni yn benodol mewn gwella adnabod a thrawsgrifio Cymraeg llafar.
Geiriau a geirffurfiau
Meddylir yn aml am restrau geiriau fel rhestrau o’r ffurfiau craidd, neu’r prifeiriau a geir mewn cofnodion geiriadurol. Fodd bynnag, mewn iaith megis y Gymraeg, lle ceir nfer o ffurfdroadau, ac mewn cyferbyniad â’r Saesneg, sydd â llawer llai o eirffurfiau, fe benderfynon ni gyhoeddi rhestrau o’r geirffurfiau ynghyd â’u mynychder defnydd, yn hytrach na’u ffurfiau craidd neu eu lemas. Bydd hyn yn ein cynorthwyo i adnabod y ffurfiau mwyaf cyffredin e.e. mae ‘mae’ (3ydd person unigol y ferf ‘bod’) yn llawer mwy cyffredin na’i lema ‘bod’. Weithiau ceir mwy nag un ffurf ar air yn dod i’r 2,500 uchaf eu defnydd, e.e. ceir y lema ‘Mehefin’ a’r ffurf wedi’i threiglo’n feddal ‘Fehefin’ yn dod o fewn y rhestr o’r 2,500 geirffurf amlaf. Mewn achosion felly, mae’r ddwy ffurf wedi’u cynnwys os ydynt yn dod o fewn y 2,500 uchaf.
Ceir llawer o gollnodau yn y Gymraeg yn uno dau air gyda’i gilydd ac yn danodi lleoliad llafariad yn y gair gwreiddiol. Caiff geirffurfiau yn cynnwys collnod eu cyfrif a’u dangos fel geirffurfiau dilys yn y rhestr eiriau, gan mai dyna sydd fwyaf defnyddiol ar gyfer adnabod lleferydd a chreu trawsgrifiwr Cymraeg. Felly mae’r geirffurf ‘hi’n’ sy’n digwydd 1,117719 gwaith yn y corpws wedi gynnwys, a’r geirffurf ‘a’i’ yn digwydd 1,05456 gwaith, ynghyd â nifer o ffurfiau tebyg.
Ffynhonnell y data
Er mwyn cael tystiolaeth gadarn o’r geiriau a ddefnyddir amlaf ar gyfer y rhestrau hyn, roedd angen corpws neu gorpora Cymraeg o faint digonol, a’r corpws hwnnw yn gorpws cytbwys hyd yr oedd modd. Y corpws mwyaf ei faint ar gyfer y Gymraeg oedd ar gael i ni ei ddefnyddio oedd corpws Cysill Ar-lein (Prys, Prys a Jones 2016), sydd erbyn hyn wedi cyrraedd dros 200 miliwn o eiriau ac sy’n dal i dyfu. Fe’i crëwyd o destunau a fewnbynnwyd gan ddefnyddwyr er mwyn gwirio’u sillafu a’u gramadeg, a hynny rhwng 2009 a’r presennol. Nid yw wedi’i gynllunio i fod yn gorpws cytbwys felly, ond ceir amrywiaeth o fathau o destun ynddo, fel y dangosodd dadansoddiad Wooldridge (2011) ohono:
Edrychwyd hefyd ar Gorpws CEG (Ellis et al, 2001), a oedd wedi’i gynllunio o’r dechrau i fod yn gorpws cytbwys. Fodd bynnag, dim ond miliwn o eiriau sydd yn y corpws hwn. Hefyd, casglwyd yn testunau gwreiddiol ar ddechrau’r 1990au, ac mae geirfa’r Gymraeg wedi newid ers hynny, gyda geiriau a chysyniadau newydd fel ‘rhyngrwyd’ yn dod i mewn i’r iaith. Edrychwyd hefyd ar y geiriau amlaf eu defnydd yn ôl corpws CorCenCC, a fydd yn y pen-draw yn cynnwys 10 miliwn o eiriau mewn casgliad cytbwys ar draws sawl modd, ysgrifenedig a llafar (http://www.corcencc.cymru/). Nid yw’r project hwn wedi’i gwblhau eto, ac ar hyn o bryd dim ond 3,597 o eirffurfiau unigryw a geir ynddo o 14,876 o docynnau, yn ei restr o eirffurfiau, sy’n sampl cymharol fach.
Cymharwyd y geirffurfiau a ddaeth i’r brig rhwng y tri corpws, a chael fod y rhai uchaf un yn rhyfeddol o debyg, gyda mwy o wahaniaeth rhyngddynt yn bellach i lawr y rhestrau. Roedd hyn yn rhoi sicrwydd i ni fod y fethodoleg yn ei hanfod yn gadarn. Defnyddiwyd Corpws Cysill Ar-lein felly fel ffynhonnell y geirffurfiau Cymraeg, oherwydd ei faint a’i allu i ddal amrediad ehangach o eirfa, gan dynnu’r data o fersiwn Ionawr 2019 o’r corpws.
Roedd cael ffynhonnell ar gyfer y geiriau Saesneg amlaf eu defnydd yn y Gymraeg yn dipyn mwy o her. Edrychwyd ar gorpws Siarad (Deucher et al, 2009) sef corpws o sgyrsiau llafar a luniwyd yn benodol ar gyfer astudio cyfnewid cod rhwng y Gymraeg a’r Saesneg. Mae’n cynnwys 447,507 gair, ac amcangyfrifwyd fod 84% o’r corpws yn Gymraeg, a 4% yn Saesneg, gyda 13% yn amhendant. Mae wedi’i drawsgrifio â llaw, ac mae’r geiriau Saesneg wedi’u tagio fel Saesneg ynddo. Cynhaliwyd arbrofion gyda hwn, ond roedd y sampl yn rhy fach i gasglu 500 gair Saesneg amlaf eu defnydd yn y Gymraeg ohono. Hefyd, am ei fod yn gorpws llafar yn ei hanfod, roedd y cywair yn anffurfiol iawn, ac yn wahanol i’r hyn a geir mewn testunau ysgrifenedig, hyd yn oed testunau anffurfiol iawn fel negeseuon Twitter.
Ar y llaw arall, gwelwyd fod nifer o eiriau Saesneg yng nghorpws Cysill Ar-lein. Mae llawer ohonynt yn dod o frawddegau Saesneg a godwyd ynghanol testun Cymraeg, ond ar ôl eithrio’r rheiny o’r rhestr, yr oedd nifer sylweddol o eiriau Saesneg yn aros, er mai canran fach o’r corpws cyfan oeddynt. Cymharer er enghraifft y cyfrif mynychder defnydd o 10,952,674 gwaith ar gyfer y gair Cymraeg amlaf ei ddefnydd, sef ‘yn’, gyda 7,361 gwaith ar gyfer y gair Saesneg amlaf ei ddefnydd yn y corpws, sef ‘the’ (mae’n bosib hefyd fod rhai enghreifftiau o ‘te’ fel gair Cymraeg wedi’i dreiglo’n llaes yn gymysg yma hefyd). Roedd 8 gair Saesneg yn digwydd 119 gwaith yng Nghorpws Cysill Ar-lein, sef y cyfrif geiriau isaf i ddod o fewn y 500 gair Saesneg amlaf. Oherwydd hynny, ceir ychydig mwy na’r 500 gair y gofynnwyd amdanynt yn y rhestr Saesneg.
Defnyddiwyd Corpws Cysill Ar-lein, fersiwn Ionawr 2019, fel ffynhonnell ar gyfer y rhestr o eiriau Saesneg amlaf eu defnydd yn y Gymraeg, yr un fath â’r rhestr o eiriau Cymraeg.
Lle ceir amrywiadau orgraffyddol yn y Gymraeg a mwy nag un ffurf yn ddilys, rhoddwyd yr holl ffurfiau dilys sy’n dod o fewn cwmpas y 2,500 geirffurf amlaf eu defnydd i mewn. Er enghraifft, mae ‘siŵr’ (gyda’r to bach) yn codi 54,228 gwaith yn y corpws, a ‘siwr’ (heb y to bach) yn codi 24,009 gwaith. Mae’r ddwy ffurf yn gywir yn ôl Geiriadur Prifysgol Cymru, ac felly cynhwyswyd y ddwy ffurf am eu bod ill dwy yn codi o fewn y 2,500 amlaf eu defnydd yn y Gymraeg.
Yn y rhestrau, rhoddir cyfrif o’r nifer enghreifftiau o’r geirffurfiau a geir yng nghorpws Cysill Ar-lein wrth eu hochr.
Adnabod Cymraeg, Saesneg ac eithriadau
Er mwyn adnabod beth oedd yn Gymraeg a beth oedd yn Saesneg yng Nghorpws Cysill Ar-lein defnyddiwyd lecsicon Hunspell Cymraeg a Saesneg i’w didoli. Sylwer fod rhai geiriau yn medru bod yn Gymraeg ac yn Saesneg (e.e. ‘plant’), os felly rhagdybiwyd eu bod yn fwyaf tebygol o fod yn eiriau Cymraeg mewn corpws a gasglwyd o ddeunyddiau Cymraeg a’u tagio felly.
Defnyddiwyd cydrannau Langdetect CLD2 Google i adnabod brawddegau neu ymadroddion hirach Saesneg yng Nghorpws Cysill Ar-lein a’u chwynnu allan rhag iddynt lygru’r data ar eiriau unigol sy’n nodweddu cyfnewid cod. Defnyddiwyd hefyd feddalwedd modelau iaith SRILM er mwyn cyfrif ngramau fel os oedd gair amwys a allai fod yn Gymraeg neu Saesneg fod modd gweld beth oedd iaith y gair o’i flaen. Os mai Saesneg oedd y gair hwnnw, roedd mwy o debygolrwydd mai Saesneg oedd y gair amwys hefyd, ac fe’i cyfrifwyd felly, er bod y geiriau amwys fel arall yn cael eu cyfrif i fod yn Gymraeg.
Roedd nifer o’r geiriau sy’n dod i’r brig yn Saesneg yn eirynnau sydd amlaf eu defnydd yn yr iaith Saesneg yn gyffredinol (e.e. ‘the’, ‘of’, ‘and’). Credir fod llawer o’r rhain yn dod o enwau endidau, megis enwau ffilmiau, cyrff a mudiadau, e.e. The Lion King, The Royal Society, a chadwyd y rhain i fewn.
Nid ydym yn honni fod y dulliau hyn wedi llwyddo i ddidoli geiriau Cymraeg a geiriau Saesneg wrth ei gilydd bob tro. Er enghraifft, fel y nodwyd uchod, gall ‘the’ fod yn ffurf dreigledig o’r gair Cymraeg ‘te’, neu gall ‘of’ uchod fod yn ffurf dreigledig ar y gair Cymraeg ‘gof’, Barnwyd fodd bynnag o’r cyd-destunau uchod fod ‘the’ ac ‘of’ Saesneg yn fwy tebygol o fod dan sylw oherwydd ei fod yn cydweddu i’r clwstwr geirynnau Saesneg mwyaf cyffredin na ffurfiau treigledig ‘gof’ a ‘te’. Ar y llaw arall tynnwyd ‘to’ o’r rhestr Saesneg a’i roi yn y rhestr Gymraeg (ceir 7,990 enghraifft o ‘to’ yng nghorpws Cysill Ar-lein) oherwydd, o edrych ar y cydleoliadau yn y corpws, y gair Cymraeg oedd dan sylw fynychaf o ddigon.
Defnyddiwyd barn olygyddol i symud rhai enwau endidau oedd wedi’i tagio fel Cymraeg gan Hunspell , yn enwedig enwau priod (e.e. Jones, Williams) i’r rhestr Saesneg gan eu bod yn cael eu hynganu yn ôl confensiynau ynganu Saesneg. Yr egwyddor sylfaenol oedd fod yn rhaid i’r rhestr Gymraeg gyfateb i sut yr yngenir y Gymraeg yn ôl Rheolau Llythyren i Sain Gymraeg, a bod y rhestr Saesneg i gyfateb i Reolau Llythyren i Sain Saesneg.
Oherwydd hyn mae rhai geiriau benthyg o’r Saesneg, sy’n cael eu cyfrif fel rhan o gyfnewid cod rhwng Cymraeg a Saesneg yn ôl rhai dehongliadau, wedi’u cynnwys fel geiriau Cymraeg. Yng Nghorpws Cysill Ar-lein, roedd sillafiad y geiriau hyn wedi’i gymreigio, e.e. ‘plîs’ (Saesneg: ‘please’), a ‘jyst’ (Saesneg: ‘just’). Fe’u derbynnir fel geiriau Cymraeg at ddefnydd y rhestrau dan sylw yma.
Roedd rhai geiriau amwys na ellid eu hadnabod fel Cymraeg neu Saesneg am nad oeddynt yn un o ddau lecsicon Hunspell. Golygwyd y rhain â llaw a’u cynnwys yn y man cywir yn ôl cyfrif geiriau os oeddynt â mynychder defnydd uchel.
Eithriwyd rhifau (e.e. ‘2’) o’r rhestrau, oni bai eu bod wedi’u ysgrifennu fel geiriau (e.e. ‘dau’ a ‘dwy’). Eithriwyd hefyd unrhyw fyrfoddau ac acronymau o’r rhestrau, gan na fyddai trawsgrifiwr yn medru delio â’r rheiny heb waith tocyneiddio pellach.
Ôl-brosesu
Ceir nifer o enwau endidau yn rhestr Gymraeg a Saesneg. Fel arfer ysgrifennir y rhain â phrif lythrennau cychwynnol yn y ddwy iaith. Trowyd y rhain yn lythrennau bach wrth brosesu’r data. Ceisiwyd adfer y priflythrennu wedyn drwy gymharu â Hunspell, sydd yn sensitif i lythrennu bach/mawr. Fodd bynnag ceir nifer o eiriau sy’n medru bod yn enwau cyffredin neu’n enwau endidau, e.e. ‘gwyn’ a ‘Gwyn’ a ‘heather’ a ‘Heather’. Mewn achosion felly blaenoriaethwyd yr enw cyffredin dros yr enw endid. Fodd bynnag, ceir nifer o achosion yn y rhestrau lle mae’n bosib mai’r enw endid sydd fwyaf cyffredin, e.e. gyda ‘may’ yn Saesneg, mae’n bosib mai enw’r cyn brif weinidog, Mrs May, sydd dan sylw mewn llawer o’r enghreifftiau, neu enw mis Mai yn Saesneg, gan fod enwau misoedd hefyd yn ymddangos yn y corpws.
Yn olaf, penderfynwyd gwirio’r rhestrau am unrhyw eiriau tramgwyddus y dylid eu symud o restr a oedd ar gael yn gyhoeddus. Rydym yn hapus i adrodd mai dim ond un gair y bu’n rhaid i ni ei eithrio am y rheswm hwn.
Cyfeiriadau
Prys, D., Prys G., a Jones, D.B. (2016) Cysill Ar-lein: A Corpus of Written Contemporary Welsh Compiled from an On-line Spelling and Grammar Checker. Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016) Portoroz, Slofenia. Papur
Wooldridge, D. (2011) Gwella Cysill at Ddefnydd Cyfieithwyr: adnabod ymyrraeth gan yr iaith Saesneg mewn testunau Cymraeg. Traethawd MRes, Prifysgol Bangor. Traethawd
Ellis, N. C., O’Dochartaigh, C., Hicks, W., Morgan, M., & Laporte, N. (2001) Cronfa Electroneg o Gymraeg (CEG) Gwefan
Knight, D. et al (2019) Corpws Cenedlaethol Cymraeg Cyfoes (CorCenCC) Gwefan
Deuchar, M. et al (2009) Corpws Siarad Bangor Gwefan
Chan, D., and Jones, D.B. Hunspell Cymraeg (2013) Gwefan
Delyth Prys
Dewi Bryn Jones
Medi 2019