Data
Enwau lleoedd Cymraeg
Dyma rhestr o enwau yng Nghymru a ddefnyddir yn y Gymraeg, a rhestr sydd hefyd yn cynnwys gwybodaeth hydred a lledred yn ogystal ag enwau Saesneg sy’n cyfateb.
Corpora
Mae nifer o gorpora cyfrwng Cymraeg (a dwyieithog) ar gael yn awr drwy Porth Corpora Cenedlaethol Cymru, gan gynnwys corpws CEG a Chofnod y Cynulliad. Yn y corpora hyn, mae modd chwilio cofnodion yn hawdd, a chanfod enghreifftiau defnydd termau o sawl maes. Isod ceir mynediad at ddata o’r Porth Corpora y gellir eu llwytho i lawr a’u gosod ar eich cyfrifiadur, yn ogystal â phecynnau data nad oes modd i ni eu darparu o’r Porth Corpora Cenedlaethol.
Dyma corpora ar ffurf ffeiliau sain â ddefnyddir i ddatblygu dechnolegau lleferydd Cymraeg:
Casgliad o frawddeg CC0 sydd wedi cael eu rhannau ymadrodd wedi’u eu tagio â llaw er mwyn galluogi hyfforddi tagwyr ystadegol ar eu sail.
Corpws brawddegau CC0 ar gyfer promptiau adnabod lleferydd
Mae hwn yn gasgliad o frawddegau a chasglwyd gan aelodau’r Uned Technolegau Iaith yn unswydd i fod yn bromptiau ar gyfer adnabod lleferydd Cymraeg. Daw’r brawddegau o wahanol ffynonellau CC0.
Mae hwn yn gasgliad o 14,857 brawddeg sy’n cael eu rhyddhau dan drwydded CC0. Fe’u casglwyd gan aelodau’r Uned Technolegau Iaith yn unswydd i fod yn bromptiau ar gyfer Adnabod Lleferydd Cymraeg. Daw’r brawddegau o wahanol ffynonellau CC0 ac maent yn cynnwys:
- Brawddegau gwreiddiol
- Brawddegau allan o nofelau, ysgrifau a deunydd arall allan o hawlfraint
- Brawddegau o Wicipedia Cymraeg lle rhoddodd yr awduron ganiatâd i ni eu rhyddhau dan drwydded CC0
- Trydariadau, e-byst a deunydd electronig eraill a roddwyd i’r project i’w defnyddio fel promptiau
Mewn nifer o achosion, ystwythwyd yr iaith a golygwyd y brawddegau yn bur drwm i’w gwneud yn addas i’w darllen yn uchel gan wirfoddolwyr.
Cyflwynwyd y corpws hefyd i broject Common Voice Mozilla, a defnyddiwyd y brawddegau hyn felly ar gyfer recordio gwirfoddolwyr.
Dymunwn ddiolch i bawb a’n cynorthwyodd i gasglu’r brawddegau hyn, gan gynnwys y rhai a roddodd eu deunyddiau i ni dan drwyddedau CC0, ac i Mozilla am eu cymorth a’u harweiniad gyda’r project Common Voice.
Mae Brawddegau Adnabod Lleferydd ar gael ar ein GitHub.
Geiriadurol
Geiriadur Ynganu Bangor
Mae’r Geiriadur Ynganu Bangor yn eiriadur sy’n addas i’w ddefnyddio gyda thechnoleg lleferydd. Fe’i cynhelir gan Ysgol Ieithyddiaeth Prifysgol Bangor ac Uned Technolegau Iaith Prifysgol Bangor.
Hunspell
Mae Hunspell, sy’n wirydd sillafu cod agored a ddefnyddir mewn nifer o becynnau meddalwedd, ar gael ar gyfer y Gymraeg.
Yn Hydref 2020 cafodd ei adolygu a’i ddiweddaru’n sylweddol gennym. Rydym yn parhau i ddiweddaru Hunspell yn aml. Mae’r diweddariad mwyaf ddiweddar yn cynnwys ffurfiau cysefin ychwanegol (gan gynnwys ‘actiwari’, ‘biodreulio’ a ‘seiberfwlio’) yn ogystal â 98 enw lle rhyngwladol ychwanegol (megis ‘Irac’). Mae’r fersiwn newydd hwn hefyd yn delio gyda gogwyddeiriau Cymraeg yn well.
Mae’r ffeiliau Hunspell ar gael o’n tudalen GitHub (cliciwch ar y botwm gwyrdd ‘Code’ ac yna dewis ‘Download Zip’ i lytho’r pecyn i lawr).
Mae fersiwn arall o’n data Hunspell, sydd ar wahân i’r fersiwn uchod, wedi ei deilwra yn arbennig at anghenion y trawsgrifwyr sydd yn cyfrannu at fanc trawsgrifiadau Uned Technolegau Iaith Prifysgol Bangor. Mae’n cynnwys nifer o ffurfiau llafar sy’n cydymffurfio gyda chonfensiynau trawsgrifio verbatim y project hwnnw (gw. Confensiynau Trawsgrifio Bangor am fwy o fanylion). Ceir ynddo ffurfiau llafar megis ch’mod, rwbath, sicir a gweud. Mae’r ffeiliau Hunspell llafar ar gael o’n tudalen GitHub.
Er mwyn gosod Hunspell o fewn LibreOffice, dilynnwch y cyfarwyddiadau yn y README.
Geiriau ygrifenedig mwyaf aml y Gymraeg a’r Saesneg
Bwriad y rhestrau hyn yw cynorthwyo i wella adnabod lleferydd Cymraeg drwy adnabod y geiriau sydd fwyaf tebygol o gael eu llefaru mewn unrhyw system drawsgrifio Cymraeg.
Mae ein rhestrau geiriau ysgrifenedig mwyaf aml y Gymraeg a Saesneg ar gael ar ein safle GitHub.
Roedd hi’n ofyniad yn ein project Adnabod Lleferydd “Macsen” a ariannwyd gan Lywodraeth Cymru ein bod yn cyhoeddi rhestrau geiriau o’r 2,500 gair mwyaf cyffredin sy’n cael eu hysgrifennu yn Gymraeg, a’r 500 gair Saesneg mwyaf cyffredin a ddefnyddir yn Gymraeg. Bwriad y rhestrau hyn yw cynorthwyo i wella adnabod lleferydd Cymraeg drwy adnabod y geiriau sydd fwyaf tebygol o gael eu llefaru mewn unrhyw system drawsgrifio Cymraeg. Bydd y rhestrau hyn yn cael eu defnyddio i brofi gallu’r trawsgrifiwr prototeip, unwaith y bydd yn barod, i adnabod y geiriau mwyaf cyffredin hyn.
Mae projectau eraill, megis yr un i ddatblygu Corpws Siarad Bangor (http://bangortalk.org.uk/speakers.php?c=siarad) wedi dilyn egwyddorion geiriadurol wrth ddosbarthu geiriau naill ai i gategori Cymraeg neu Saesneg, h.y. mae eu gwerthusiad o beth sy’n air ‘Cymraeg’ neu ‘Saesneg’ wedi’i seilio ar p’un a oedd tystiolaeth o’r geiriau hynny mewn geiriaduron Cymraeg neu Saesneg. Rydym wedi ychwanegu egwyddorion eraill ar gyfer ein rhestrau geiriau ni, yn seiliedig ar p’un a yw eu hynganiad yn dilyn rheolau llythyren-i-sain Cymraeg neu Saesneg, gan fod ein diddordeb ni yn benodol mewn gwella adnabod a thrawsgrifio Cymraeg llafar.
Meddylir yn aml am restrau geiriau fel rhestrau o’r ffurfiau craidd, neu’r prifeiriau a geir mewn cofnodion geiriadurol. Fodd bynnag, mewn iaith megis y Gymraeg, lle ceir nfer o ffurfdroadau, ac mewn cyferbyniad â’r Saesneg, sydd â llawer llai o eirffurfiau, fe benderfynon ni gyhoeddi rhestrau o’r geirffurfiau ynghyd â’u mynychder defnydd, yn hytrach na’u ffurfiau craidd neu eu lemas. Bydd hyn yn ein cynorthwyo i adnabod y ffurfiau mwyaf cyffredin e.e. mae ‘mae’ (3ydd person unigol y ferf ‘bod’) yn llawer mwy cyffredin na’i lema ‘bod’. Weithiau ceir mwy nag un ffurf ar air yn dod i’r 2,500 uchaf eu defnydd, e.e. ceir y lema ‘Mehefin’ a’r ffurf wedi’i threiglo’n feddal ‘Fehefin’ yn dod o fewn y rhestr o’r 2,500 geirffurf amlaf. Mewn achosion felly, mae’r ddwy ffurf wedi’u cynnwys os ydynt yn dod o fewn y 2,500 uchaf.
Ceir llawer o gollnodau yn y Gymraeg yn uno dau air gyda’i gilydd ac yn danodi lleoliad llafariad yn y gair gwreiddiol. Caiff geirffurfiau yn cynnwys collnod eu cyfrif a’u dangos fel geirffurfiau dilys yn y rhestr eiriau, gan mai dyna sydd fwyaf defnyddiol ar gyfer adnabod lleferydd a chreu trawsgrifiwr Cymraeg. Felly mae’r geirffurf ‘hi’n’ sy’n digwydd 1,117719 gwaith yn y corpws wedi gynnwys, a’r geirffurf ‘a’i’ yn digwydd 1,05456 gwaith, ynghyd â nifer o ffurfiau tebyg.
Er mwyn cael tystiolaeth gadarn o’r geiriau a ddefnyddir amlaf ar gyfer y rhestrau hyn, roedd angen corpws neu gorpora Cymraeg o faint digonol, a’r corpws hwnnw yn gorpws cytbwys hyd yr oedd modd. Y corpws mwyaf ei faint ar gyfer y Gymraeg oedd ar gael i ni ei ddefnyddio oedd corpws Cysill Ar-lein (Prys, Prys a Jones 2016), sydd erbyn hyn wedi cyrraedd dros 200 miliwn o eiriau ac sy’n dal i dyfu. Fe’i crëwyd o destunau a fewnbynnwyd gan ddefnyddwyr er mwyn gwirio’u sillafu a’u gramadeg, a hynny rhwng 2009 a’r presennol. Nid yw wedi’i gynllunio i fod yn gorpws cytbwys felly, ond ceir amrywiaeth o fathau o destun ynddo, fel y dangosodd dadansoddiad Wooldridge (2011) ohono:
Edrychwyd hefyd ar Gorpws CEG (Ellis et al, 2001), a oedd wedi’i gynllunio o’r dechrau i fod yn gorpws cytbwys. Fodd bynnag, dim ond miliwn o eiriau sydd yn y corpws hwn. Hefyd, casglwyd yn testunau gwreiddiol ar ddechrau’r 1990au, ac mae geirfa’r Gymraeg wedi newid ers hynny, gyda geiriau a chysyniadau newydd fel ‘rhyngrwyd’ yn dod i mewn i’r iaith. Edrychwyd hefyd ar y geiriau amlaf eu defnydd yn ôl corpws CorCenCC, a fydd yn y pen-draw yn cynnwys 10 miliwn o eiriau mewn casgliad cytbwys ar draws sawl modd, ysgrifenedig a llafar (http://www.corcencc.cymru/). Nid yw’r project hwn wedi’i gwblhau eto, ac ar hyn o bryd dim ond 3,597 o eirffurfiau unigryw a geir ynddo o 14,876 o docynnau, yn ei restr o eirffurfiau, sy’n sampl cymharol fach.
Cymharwyd y geirffurfiau a ddaeth i’r brig rhwng y tri corpws, a chael fod y rhai uchaf un yn rhyfeddol o debyg, gyda mwy o wahaniaeth rhyngddynt yn bellach i lawr y rhestrau. Roedd hyn yn rhoi sicrwydd i ni fod y fethodoleg yn ei hanfod yn gadarn. Defnyddiwyd Corpws Cysill Ar-lein felly fel ffynhonnell y geirffurfiau Cymraeg, oherwydd ei faint a’i allu i ddal amrediad ehangach o eirfa, gan dynnu’r data o fersiwn Ionawr 2019 o’r corpws.
Roedd cael ffynhonnell ar gyfer y geiriau Saesneg amlaf eu defnydd yn y Gymraeg yn dipyn mwy o her. Edrychwyd ar gorpws Siarad (Deucher et al, 2009) sef corpws o sgyrsiau llafar a luniwyd yn benodol ar gyfer astudio cyfnewid cod rhwng y Gymraeg a’r Saesneg. Mae’n cynnwys 447,507 gair, ac amcangyfrifwyd fod 84% o’r corpws yn Gymraeg, a 4% yn Saesneg, gyda 13% yn amhendant. Mae wedi’i drawsgrifio â llaw, ac mae’r geiriau Saesneg wedi’u tagio fel Saesneg ynddo. Cynhaliwyd arbrofion gyda hwn, ond roedd y sampl yn rhy fach i gasglu 500 gair Saesneg amlaf eu defnydd yn y Gymraeg ohono. Hefyd, am ei fod yn gorpws llafar yn ei hanfod, roedd y cywair yn anffurfiol iawn, ac yn wahanol i’r hyn a geir mewn testunau ysgrifenedig, hyd yn oed testunau anffurfiol iawn fel negeseuon Twitter.
Ar y llaw arall, gwelwyd fod nifer o eiriau Saesneg yng nghorpws Cysill Ar-lein. Mae llawer ohonynt yn dod o frawddegau Saesneg a godwyd ynghanol testun Cymraeg, ond ar ôl eithrio’r rheiny o’r rhestr, yr oedd nifer sylweddol o eiriau Saesneg yn aros, er mai canran fach o’r corpws cyfan oeddynt. Cymharer er enghraifft y cyfrif mynychder defnydd o 10,952,674 gwaith ar gyfer y gair Cymraeg amlaf ei ddefnydd, sef ‘yn’, gyda 7,361 gwaith ar gyfer y gair Saesneg amlaf ei ddefnydd yn y corpws, sef ‘the’ (mae’n bosib hefyd fod rhai enghreifftiau o ‘te’ fel gair Cymraeg wedi’i dreiglo’n llaes yn gymysg yma hefyd). Roedd 8 gair Saesneg yn digwydd 119 gwaith yng Nghorpws Cysill Ar-lein, sef y cyfrif geiriau isaf i ddod o fewn y 500 gair Saesneg amlaf. Oherwydd hynny, ceir ychydig mwy na’r 500 gair y gofynnwyd amdanynt yn y rhestr Saesneg.
Defnyddiwyd Corpws Cysill Ar-lein, fersiwn Ionawr 2019, fel ffynhonnell ar gyfer y rhestr o eiriau Saesneg amlaf eu defnydd yn y Gymraeg, yr un fath â’r rhestr o eiriau Cymraeg.
Lle ceir amrywiadau orgraffyddol yn y Gymraeg a mwy nag un ffurf yn ddilys, rhoddwyd yr holl ffurfiau dilys sy’n dod o fewn cwmpas y 2,500 geirffurf amlaf eu defnydd i mewn. Er enghraifft, mae ‘siŵr’ (gyda’r to bach) yn codi 54,228 gwaith yn y corpws, a ‘siwr’ (heb y to bach) yn codi 24,009 gwaith. Mae’r ddwy ffurf yn gywir yn ôl Geiriadur Prifysgol Cymru, ac felly cynhwyswyd y ddwy ffurf am eu bod ill dwy yn codi o fewn y 2,500 amlaf eu defnydd yn y Gymraeg.
Yn y rhestrau, rhoddir cyfrif o’r nifer enghreifftiau o’r geirffurfiau a geir yng nghorpws Cysill Ar-lein wrth eu hochr.
Er mwyn adnabod beth oedd yn Gymraeg a beth oedd yn Saesneg yng Nghorpws Cysill Ar-lein defnyddiwyd lecsicon Hunspell Cymraeg a Saesneg i’w didoli. Sylwer fod rhai geiriau yn medru bod yn Gymraeg ac yn Saesneg (e.e. ‘plant’), os felly rhagdybiwyd eu bod yn fwyaf tebygol o fod yn eiriau Cymraeg mewn corpws a gasglwyd o ddeunyddiau Cymraeg a’u tagio felly.
Defnyddiwyd cydrannau Langdetect CLD2 Google i adnabod brawddegau neu ymadroddion hirach Saesneg yng Nghorpws Cysill Ar-lein a’u chwynnu allan rhag iddynt lygru’r data ar eiriau unigol sy’n nodweddu cyfnewid cod. Defnyddiwyd hefyd feddalwedd modelau iaith SRILM er mwyn cyfrif ngramau fel os oedd gair amwys a allai fod yn Gymraeg neu Saesneg fod modd gweld beth oedd iaith y gair o’i flaen. Os mai Saesneg oedd y gair hwnnw, roedd mwy o debygolrwydd mai Saesneg oedd y gair amwys hefyd, ac fe’i cyfrifwyd felly, er bod y geiriau amwys fel arall yn cael eu cyfrif i fod yn Gymraeg.
Roedd nifer o’r geiriau sy’n dod i’r brig yn Saesneg yn eirynnau sydd amlaf eu defnydd yn yr iaith Saesneg yn gyffredinol (e.e. ‘the’, ‘of’, ‘and’). Credir fod llawer o’r rhain yn dod o enwau endidau, megis enwau ffilmiau, cyrff a mudiadau, e.e. The Lion King, The Royal Society, a chadwyd y rhain i fewn.
Nid ydym yn honni fod y dulliau hyn wedi llwyddo i ddidoli geiriau Cymraeg a geiriau Saesneg wrth ei gilydd bob tro. Er enghraifft, fel y nodwyd uchod, gall ‘the’ fod yn ffurf dreigledig o’r gair Cymraeg ‘te’, neu gall ‘of’ uchod fod yn ffurf dreigledig ar y gair Cymraeg ‘gof’, Barnwyd fodd bynnag o’r cyd-destunau uchod fod ‘the’ ac ‘of’ Saesneg yn fwy tebygol o fod dan sylw oherwydd ei fod yn cydweddu i’r clwstwr geirynnau Saesneg mwyaf cyffredin na ffurfiau treigledig ‘gof’ a ‘te’. Ar y llaw arall tynnwyd ‘to’ o’r rhestr Saesneg a’i roi yn y rhestr Gymraeg (ceir 7,990 enghraifft o ‘to’ yng nghorpws Cysill Ar-lein) oherwydd, o edrych ar y cydleoliadau yn y corpws, y gair Cymraeg oedd dan sylw fynychaf o ddigon.
Defnyddiwyd barn olygyddol i symud rhai enwau endidau oedd wedi’i tagio fel Cymraeg gan Hunspell , yn enwedig enwau priod (e.e. Jones, Williams) i’r rhestr Saesneg gan eu bod yn cael eu hynganu yn ôl confensiynau ynganu Saesneg. Yr egwyddor sylfaenol oedd fod yn rhaid i’r rhestr Gymraeg gyfateb i sut yr yngenir y Gymraeg yn ôl Rheolau Llythyren i Sain Gymraeg, a bod y rhestr Saesneg i gyfateb i Reolau Llythyren i Sain Saesneg.
Oherwydd hyn mae rhai geiriau benthyg o’r Saesneg, sy’n cael eu cyfrif fel rhan o gyfnewid cod rhwng Cymraeg a Saesneg yn ôl rhai dehongliadau, wedi’u cynnwys fel geiriau Cymraeg. Yng Nghorpws Cysill Ar-lein, roedd sillafiad y geiriau hyn wedi’i gymreigio, e.e. ‘plîs’ (Saesneg: ‘please’), a ‘jyst’ (Saesneg: ‘just’). Fe’u derbynnir fel geiriau Cymraeg at ddefnydd y rhestrau dan sylw yma.
Roedd rhai geiriau amwys na ellid eu hadnabod fel Cymraeg neu Saesneg am nad oeddynt yn un o ddau lecsicon Hunspell. Golygwyd y rhain â llaw a’u cynnwys yn y man cywir yn ôl cyfrif geiriau os oeddynt â mynychder defnydd uchel.
Eithriwyd rhifau (e.e. ‘2’) o’r rhestrau, oni bai eu bod wedi’u ysgrifennu fel geiriau (e.e. ‘dau’ a ‘dwy’). Eithriwyd hefyd unrhyw fyrfoddau ac acronymau o’r rhestrau, gan na fyddai trawsgrifiwr yn medru delio â’r rheiny heb waith tocyneiddio pellach.
Ceir nifer o enwau endidau yn rhestr Gymraeg a Saesneg. Fel arfer ysgrifennir y rhain â phrif lythrennau cychwynnol yn y ddwy iaith. Trowyd y rhain yn lythrennau bach wrth brosesu’r data. Ceisiwyd adfer y priflythrennu wedyn drwy gymharu â Hunspell, sydd yn sensitif i lythrennu bach/mawr. Fodd bynnag ceir nifer o eiriau sy’n medru bod yn enwau cyffredin neu’n enwau endidau, e.e. ‘gwyn’ a ‘Gwyn’ a ‘heather’ a ‘Heather’. Mewn achosion felly blaenoriaethwyd yr enw cyffredin dros yr enw endid. Fodd bynnag, ceir nifer o achosion yn y rhestrau lle mae’n bosib mai’r enw endid sydd fwyaf cyffredin, e.e. gyda ‘may’ yn Saesneg, mae’n bosib mai enw’r cyn brif weinidog, Mrs May, sydd dan sylw mewn llawer o’r enghreifftiau, neu enw mis Mai yn Saesneg, gan fod enwau misoedd hefyd yn ymddangos yn y corpws.
Yn olaf, penderfynwyd gwirio’r rhestrau am unrhyw eiriau tramgwyddus y dylid eu symud o restr a oedd ar gael yn gyhoeddus. Rydym yn hapus i adrodd mai dim ond un gair y bu’n rhaid i ni ei eithrio am y rheswm hwn.
Cyfeiriadau
Prys, D., Prys G., a Jones, D.B. (2016) Cysill Ar-lein: A Corpus of Written Contemporary Welsh Compiled from an On-line Spelling and Grammar Checker. Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016) Portoroz, Slofenia. Papur
Wooldridge, D. (2011) Gwella Cysill at Ddefnydd Cyfieithwyr: adnabod ymyrraeth gan yr iaith Saesneg mewn testunau Cymraeg. Traethawd MRes, Prifysgol Bangor. Traethawd
Ellis, N. C., O’Dochartaigh, C., Hicks, W., Morgan, M., & Laporte, N. (2001) Cronfa Electroneg o Gymraeg (CEG) Gwefan
Knight, D. et al (2019) Corpws Cenedlaethol Cymraeg Cyfoes (CorCenCC) Gwefan
Deuchar, M. et al (2009) Corpws Siarad Bangor Gwefan
Chan, D., and Jones, D.B. Hunspell Cymraeg (2013) Gwefan
Delyth Prys
Dewi Bryn Jones
Medi 2019