4. Egwyddorion Cyfieithu Peirianyddol

Mae technoleg cyfieithu yn faes ymchwil pwysig, ac mae wedi gwneud llawer i chwyldroi’r diwydiant cyfieithu a gallu pobl i gyfathrebu ar draws ffiniau ieithyddol. Mae globaleiddio a masnachu byd-eang wedi peri bod cynnydd aruthrol yn y galw am wasanaethau cyfieithu. Er enghraifft, gall car gael ei werthu mewn sawl marchnad wahanol ar draws y byd, ac mae felly angen cyfieithu llawlyfr y car i nifer o ieithoedd gwahanol er mwyn bodloni’r gwahanol farchnadoedd. Mae cyrff rhyngwladol, cenedlaethol a rhanbarthol hefyd angen cyfieithu eu dogfennau a’u trafodaethau, a gwelir hyn yn glir iawn yn yr Undeb Ewropeaidd, lle ceir 24 iaith swyddogol a nifer o ieithoedd rhanbarthol a lleiafrifol eraill. Yng Nghymru a gwledydd tebyg lle ceir polisïau dwyieithog mae galw hefyd am gyfieithu cyflym, rhesymol ei bris a dibynadwy. Nid oes modd bellach bodloni’r galw sylweddol am gyfieithu ar draws y byd drwy ddefnyddio cyfieithwyr dynol yn unig, ac felly mae datblygu cyfieithu gyda chymorth cyfrifiaduron wedi bod yn nod pwysig yn y maes.

Llwyddiant cymysg gafwyd i’r ymdrechion cynharaf i greu cyfieithu peirianyddol, a dim ond yn ddiweddar iawn drwy’r dulliau rhwydweithiau niwral newydd y gwelwyd addewid o gyfieithu peirianyddol a allai gystadlu gyda gwaith cyfieithwyr dynol o ran cywirdeb a mynegiant. Yn y cyfamser datblygwyd cymhorthion technolegol eraill i gynorthwyo’r diwydiant cyfieithu, yn cynnwys geiriaduron electronig, systemau llif gwaith, a chofion cyfieithu, sydd wedi gwneud llawer i gyflymu’r broses gyfieithu a dod â chostau i lawr. Mae cyfieithu peirianyddol pur yn wahanol fodd bynnag, gan ei fod yn golygu cyfieithu awtomatig gan beiriant heb ymyrraeth ddynol yn y broses.

Ceir tri prif fath o gyfieithu peirianyddol, sy’n defnyddio dulliau gwahanol i greu cyfieithiadau. Y rhain yw:

  • Cyfieithu peirianyddol ar sail rheolau (rule-based machine translaion, neu RMT)
  • Cyfieithu peirianyddol ar sail ystadegau(statistical machine translation neu SMT)
  • Cyfieithu peirianyddol ar sail rhwydweithiau niwral (neural machine translation neu NMT)

Defnyddir mesur o pa mor dda yw cyfieithiadau peirianyddol a wneir drwy’r tri dull hwn drwy gyfrwng algorithmau ystadegol fel sgoriau BLEU a TER. Mae BLEU yn fetrig sy’n cymharu cynnig o gyfieithiad yn erbyn cyfieithiadau delfrydol ac yn cyfrif tra-chywiredd (precision) felly. Mae TER yn cyfrif sawl golygiad sydd angen ei wneud cyn i destun a gyfieithwyd yn beirianyddol fod yr un fath â chyfieithiad delfrydol. Nid yw’r rhain na metrigau eraill tebyg yn berffaith, ond maent yn ddefnyddiol wrth drafod cyfieithu peirianyddol er mwyn i ddatblygwyr fedru meincnodi perfformiad un system o’i chymharu â systemau eraill.


Cyfieithu peirianyddol ar sail rheolau

Cyfieithu ar sail rheolau yw’r dull cyfieithu peirianyddol hynaf, ac mae’n gweithio drwy ddefnyddio setiau o reolau gramadegol i lywio’r peiriant cyfieithu. Yn wahanol i ddulliau ystadegol mwy modern, mae’r dull hwn yn galw am fuddsoddiad enfawr mewn ymdrech ac amser gan ieithyddion profiadol. Mae hyn am fod rhaid cael tîm o ieithyddion i godio’r holl reolau allai godi wrth gyfieithu brawddeg o un iaith i’r llall. Er enghraifft, wrth gyfieithu o’r Saesneg i’r Gymraeg byddai angen rheol sy’n symud ansoddeiriau i ddod ar ôl enwau, ond sydd hefyd yn adnabod fod rhai ansoddeiriau (fel “hen”) yn eithriadau i’r rheol hon. Dydy peiriannau ar sail rheolau ddim yn hyblyg iawn ychwaith – am nad ydyn nhw’n dysgu’r rheolau’n awtomatig, mae addasu peiriant o’r fath ar gyfer gwahanol beuoedd yn gallu bod yn llafurus.

Un enghraifft o beiriant ar sail rheolau sydd ar gael yn Gymraeg yw Apertium16. Datblygwyd Apertium yng Nghatalonia yn wreiddiol ar gyfer cyfieithu rhwng wahanol ieithoedd Sbaen, fel Galiseg a Chatalaneg. Agorwyd y broses er mwyn i wirfoddolwyr rhyngwladol ychwanegu rhagor o barau o ieithoedd. Datblygodd Tyers a Donnelly (2009) beiriant  Apertium17sy’n cyfieithu o’r Gymraeg i’r Saesneg. Peiriant sy’n brasgyfieithu (gisting) yw Apertium i fod – hynny yw, mae’n cyfieithu’n ddigon da i gyfleu hanfod darn syml o destun i rywun nad yw’n deall yr iaith. Dadleuodd yr ymchwilwyr fod y peiriant yn gweithio’n gymharol dda ar gyfer cyfieithu brawddegau o hyd at 5 gair, ond fe gafodd sgôr isel iawn o 15 gan algorithm gwerthuso BLEU wrth gyfieithu rhan o gorpws cofnodion  Cynulliad Cenedlaethol Cymru. Er ei bod hi’n bwysig nodi bod BLEU yn cosbi peiriannau ar sail rheolau yn ôl rhai ymchwilwyr18, mae’n debyg bod y mwyafrif o ymchwilwyr wedi symud ymlaen at ddulliau ystadegol erbyn hyn.

Dadleuir bod lle o hyd i beiriannau cyfieithu ar sail rheolau heddiw ar gyfer ieithoedd prin iawn eu hadnoddau. Un rheswm yw bod y dulliau ystadegol diweddaraf yn gofyn am lawer iawn o adnoddau corpws cyfochrog, sydd efallai ddim ar gael yn rhan fwyaf o ieithoedd y byd sydd heb bresenoldeb digidol cryf.


Cyfieithu peirianyddol ar sail ystadegau

Mae cyfieithu peirianyddol ystadegol yn ddull sydd wedi dod i’r amlwg ers y nawdegau hwyr. Yn hytrach na chodio rheolau gramadegol â llaw, mae ymchwilwyr SMT yn hyfforddi peiriannau yn awtomatig gan ddefnyddio fformiwlâu ystadegol fel damcaniaeth Bayes. Defnyddir corpws dwyieithog o ddogfennau paralel ar gyfer y broses hyfforddi. I gychwyn, caiff y corpws ei drin gyda thasgau tocyneiddio, hyfforddi gwirfeintio (truecasing) a glanhau(cleaning) er mwyn tocio brawddegau hir.

Ar ôl paratoi’r corpws, gellir cychwyn hyfforddi tair rhan y peiriant cyfieithu. Y rhan gyntaf yw’r model cyfieithu (translation model), sy’n pennu pa ymadroddion yn yr iaith darged sy’n mapio orau i ymadroddion yn yr iaith ffynhonnell19. Noder mai ystyr ymadrodd (phrase neu phraseme) yn y cyd-destun hwn yw dilyniant o un air neu fwy sy’n cyd-fynd yn ystadegol ag ymadrodd yn yr iaith gyfatebol (ac felly sy’n ddefnyddiol i’r peiriant) – dydyn nhw ddim o reidrwydd yn cyfateb i’r diffiniad traddodiadol gramadegol o ymadrodd. Ar ôl cychwyn y broses hyfforddi, mae’r peiriant yn mynd ati i gymharu’r holl segmentau cyfochrog a chwilio am ymadroddion sy’n dueddol o gyd-ddigwydd. Defnyddir y wybodaeth hon i gynhyrchu ymadroddion wedi’u halinio (phrase alignments) sy’n cael eu sgorio yn ôl eu tebygolrwydd yn ôl pa mor aml maen nhw’n codi yn y corpws. Mae’r peiriant wedyn yn echdynnu’r ymadroddion wedi’u halinio i mewn i dabl o ymadroddion enfawr y gall y peiriant ei ddefnyddio yn nes ymlaen wrth ddatgodio (gweler isod). Gelwir y broses hon yn alinio (alignment).

Yr ail ran yw’r model iaith, sy’n gweithredu fel enghraifft ddelfrydol o’r iaith darged. Mae modelau iaith yn cael eu llunio o ochr iaith darged y corpws yn unig, a’u pwrpas yw galluogi’r peiriant i gynhyrchu brawddegau sy’n edrych yn rhugl yn yr iaith honno. Mae cyfrifo pob cyfuniad posib o eiriau yn amhosib mewn system SMT, felly mae’r model iaith yn defnyddio dull cadwyni Markov (Markov chains) i leihau cymhlethdod y dasg. Yn hytrach na chyfrif pob gair mewn dilyniant, mae’r dull Markov yn dadansoddi brawddegau mewn cadwyni o dri gair neu fwy sy’n cael eu galw’n n-gramau (n-grams). Trydydd rhan y peiriant yw’r model aildrefnu (re-ordering model), sy’n rheoli pa mor bell y gellir symud ymadroddion mewn segment. Mewn parau ieithoedd tebyg fel Sbaeneg a Saesneg, mae’n debyg y bydd symud segmentau’n weddol gyfyngedig, ond gyda phâr gwahanol iawn fel Saesneg a Japanëeg mae’n debyg y bydd model aildrefnu’n chwarae mwy o rôl.

Ar ôl hyfforddi’r elfennau hyn, y cam nesaf fel arfer yw tiwnio (tuning), lle mae’r peiriant yn penderfynu faint o bwysau ddylid ei roi i holl elfennau gwahanol y peiriant – hynny yw, y model cyfieithu, y model aildrefnu, hyd y brawddegau ac yn y blaen. Mae’r peiriant yn gwneud y penderfyniad hwn ar sail dadansoddiad o gorpws ar wahân, y set diwnio (tuning set). Ar ôl tiwnio, gellir rhedeg metrigau gwerthuso fel BLEU a TER ar set ddata ar wahân arall, y set brofi (test set) er mwyn mesur safon y peiriant. Ar ôl hyfforddi peiriant gan ddilyn y camau uchod, y cam olaf yw bwydo’r testun i’w gyfieithu i mewn i’r datgodiwr (decoder) sy’n chwilio drwy’r holl gyfuniadau o ymadroddion posib i ganfod yr un sydd fwyaf tebygol o fod yn gywir.

Ceir enghraifft o beiriant ar sail ystadegau sy’n cyfieithu i’r Gymraeg mewn papur gan Jones ac Eisele20/. Defnyddiodd yr ymchwilwyr gorpws cyfochrog Cofnod y Cynulliad (510,813 brawddeg) i hyfforddi’r peiriant gan ddefnyddio system gyfieithu cod agored Moses21. Mae Moses yn system sydd wedi’i defnyddio’n eang gan sefydliadau academaidd a chan ddiwydiant, gan gynnwys Microsoft a Google, i adeiladu peiriannau cyfieithu drwy eu hyfforddi gyda setiau mawr o ddata cyfochrog megis corpws cyfochrog Cofnod y Cynulliad.

Cafodd y peiriant sgôr gweddol dda o 40 gan yr algorithm gwerthuso BLEU, a dadleuodd yr ymchwilwyr fod hyn yn sylfaen dda ar gyfer gwella darpariaeth cyfieithu peirianyddol Cymraeg yn y dyfodol. Ers hynny, mae Uned Technolegau Iaith Bangor wedi datblygu darpariaeth hawdd i’w defnyddio o system gyfieithu Moses sydd ar gael drwy’r Porth Technolegau Iaith Cenedlaethol22. Mae’r pecyn yn cynnwys gosodiad sylfaenol Moses ynghyd â thri chorpws cyfochrog sy’n perthyn i wahanol barthau: Cofnod y Cynulliad (trafodion yn y Cynulliad), y Ddeddfwriaeth (deddfwriaeth Cymru) a Meddalwedd (cyfieithiadau o feddalwedd cod agored Cymraeg).

Mae argaeledd corpora fel hyn dan drwyddedau agored yn hollbwysig i’r diwydiant cyfieithu yng Nghymru, oherwydd bod safon peiriannau cyfieithu ystadegol yn ddibynnol ar safon y corpora a ddefnyddiwyd i’w creu. Mae angen miliynau o eiriau i hyfforddi peiriant cyfieithu hyfyw ac mae perthynas clir rhwng safon peiriant a’r nifer o eiriau a ddefnyddir wrth ei hyfforddi – po fwyaf o eiriau y gorau fydd. Mater arall hollbwysig yw parth y data a ddefnyddir ar gyfer hyfforddiant. Mae iaith yn gallu amrywio’n helaeth rhwng cyweiriau a phynciau gwahanol sy’n golygu, er enghraifft, ei bod hi bob amser yn well defnyddio data gwyddonol ar gyfer hyfforddi peiriant i gyfieithu deunydd gwyddonol, data cyllidol i hyfforddi peiriant ar gyfer cyfieithu deunydd cyllidol, ac yn y blaen.

Gelwir peiriannau fel hyn yn beiriannau cyfieithu parth-benodol (domain-specific translation machines). Er eu bod yn tueddu i gynhyrchu gwell cyfieithiadau, un o’r problemau o ran eu defnydd yw bod data cyffredinol bob amser yn haws i’w ganfod na data sy’n benodol i barth. Oherwydd hyn, mae llawer o ymchwilwyr wedi ceisio datblygu dulliau addasu ar gyfer parth (domain adaptation) sy’n addasu corpora cyffredinol i fod yn fwy effeithiol ar gyfer parth penodol drwy amrywiaeth o ddulliau gwahanol23. Mae prinder testunau yn her arbennig i’r Gymraeg hefyd oherwydd problem teneurwydd data (data sparsity) modelu iaith. Mae’n deillio o’r ffaith nad yw’n debygol y gwelir pob patrwm ieithyddol posib hyd yn oed yn y corpora mwyaf sydd ar gael. Ar gyfer ieithoedd morffolegol gymhleth fel y Gymraeg, a Chymraeg safonol yn enwedig, mae’r broblem hon yn fwy dwys, gan fod llawer mwy o ffurfiau posib. Sicrhau bod digon o adnoddau corpws cyfochrog addas ar gael, felly, yw un o brif heriau cyfieithu peirianyddol.


Cyfieithu peirianyddol niwral

Cyfieithu peirianyddol niwral yw’r dull diweddaraf i gael ei ddatblygu, ac mae wedi chwyldroi’r maes. Dull ystadegol arall yw hwn, ond yn hytrach na chyfuno sawl model ar wahân (h.y. model iaith, model aildrefnu a model cyfieithu), mae’n defnyddio model cyfun24

Mae’r model cyfieithu NMT mwyaf poblogaidd ar hyn o bryd, y dull amgodiwr-datgodiwr (encoder-decoder), yn gweithio fel a ganlyn25. Yn gyntaf mae’r segment i’w gyfieithu’n cael ei ddadansoddi fesul gair gan yr amgodiwr, sy’n trosi pob gair yn fector (vector). Mae fector yn fath o ddilyniant o rifau sy’n gallu cynrychioli gwybodaeth gyfoethog iawn am bob gair mewn sawl dimensiwn26. Mae’r model wedyn yn anfon y geiriau drwy sawl haen o rwydweithiau niwral ailadroddol (recurrant neural networks, neu RNNs), sydd nid yn unig yn mapio gwybodaeth y gair dan sylw, ond sydd hefyd yn ystyried pob gair sydd wedi’i ddadansoddi eisoes (dyma arwyddocâd y gair ‘ailadroddol’). Ar ôl symud drwy bob gair o’r chwith i’r dde, mae’r model yn rhedeg yr un broses o’r dde i’r chwith, er mwyn dysgu’r cyd-destun yn llwyr (ac osgoi unrhyw duedd o ran cyfeiriad).

Ar ôl amgodio’r segment, mae’r model yn datgodio i greu allbwn gyda sawl haen ychwanegol o gyflyrau cudd (hidden states). Wrth greu’r allbwn, mae’r model eto yn gallu defnyddio’r wybodaeth a broseswyd ar y dechrau wrth amgodio. Elfen bwysig arall yw’r mecanwaith sylw (attention mechanism) sy’n rheoli faint o sylw i’w roi i wahanol elfennau’r segment wrth gyfieithu. Er enghraifft, wrth gyfieithu iaith fel Japanëeg, byddai’n ddelfrydol talu mwy o sylw i ddiwedd y frawddeg, gan fod y ferf yno. Mae’r mecanwaith sylw yn bwysig iawn oherwydd ei fod wedi datrys problemau o ran cyfieithu segmentau hir oedd yn rhwystro datblygiad peiriannau effeithiol tan yn ddiweddar.

Mae sawl nodwedd fanteisiol yn perthyn i systemau NMT o’u cymharu â modelau cynharach. Oherwydd strwythur y model cyfun a ddefnyddir, mae modelau niwral yn gallu manteisio ar holl gyd-destun y frawddeg. Mae hyn yn golygu eu bod yn llawer gwell am ddelio â pherthnasoedd gramadegol pell, megis berfau gwahanadwy (separable verbs) yn yr Almaeneg. Mantais arall yw’r defnydd o fectorau i gyfleu gwybodaeth am eiriau. Hon yw un o agweddau mwyaf nodedig NMT, gan ei fod yn cyflwyno’r gallu i’r peiriant amgyffred semanteg geiriau i ryw raddau27. Gall y peiriant adnabod er enghraifft, bod cysylltiad rhwng y geiriau “dyn” a “dynes”, gan eu bod yn cyd-ddigwydd mewn cyd-destunau tebyg yn y data. Mae hyn hefyd yn galluogi’r peiriant i gyffredinoli o’r data, drwy adnabod fod geiriau fel “cath” a “cathod” yn ffurfiau o’r un gair. Gall hyn helpu i ddelio â’r broblem diffyg data, gan fod modd cyfuno’r gwahanol ffurfiau hyn i gryfhau’r model.

Er bod peiriannau NMT yn cynnig sawl mantais amlwg, mae ambell her yn dal i fodoli. Un broblem sydd heb ei datrys eto yw’r ffaith fod trosi geiriau i fectorau yn gofyn am lawer o le storio, sy’n golygu fod rhaid torri geiriau i lawr yn is-eiriau neu hyd yn oed yn nodau i’w hyfforddi28. Mae peiriannau NMT hefyd yn adnabyddus am gynhyrchu cyfieithiadau sy’n rhugl o ran yr iaith ond sy’n llai digonol o ran yr ystyr. Yn ymarferol, mae hyn yn golygu y bydd peiriant NMT weithiau’n allbynnu cyfieithiadau sy’n ramadegol gywir ond sydd ddim yn gwneud llawer o synnwyr29. Ar yr ochr ymarferol, mae hyfforddi system NMT yn gofyn am offer cyfrifiadurol drud, ac mae’r broses hyfforddi ei hun yn gallu cymryd dyddiau yn hytrach nag oriau.

Mae hwn yn faes sy’n dal i ddatblygu’n gyflym, ac mae’r pwyslais bellach ar gasglu setiau data helaethach er mwyn hyfforddi peiriannau cyfieithu yn well, ac arbrofi gyda chreu peiriannau cyfieithu parth-benodol i wella safon y cyfieithu yn y parth hwnnw.

16Forcada, M.L., Ginestí-Rosell, M., Nordfalk, J., O’Regan, J., Ortiz-Rojas, S., Pérez-Ortiz, J.A., Sánchez-Martínez, F., Ramírez-Sánchez, G. and Tyers, F.M., (2011). Apertium: a free/open-source platform for rule-based machine translation. Machine translation, 25(2), 127-144.
17Tyers, F., a Donnelly, K. (2009). Apertium-cy-a collaboratively-developed free RBMT system for Welsh to English. The Prague Bulletin of Mathematical Linguistics, 91, 57-66
18Re-evaluating the Role of BLEU in Machine Translation Research. Callison-Burch et al (2006) http://www.aclweb.org/anthology/E06-1032
19Koehn, P. (2010). Statistical machine translation. Cambridge: Cambridge University Press.
20Jones, D. ac Andreas, E. (2006). Phrase-based statistical machine translation between English and Welsh. Strategies for developing machine translation for minority languages(5th SALTMIL workshop on Minority Languages), LREC-2006, May 2006, Genoa, 75-77.
21Moses Statistical Machine Translation System : http://www.statmt.org/moses/ 
22Cyfieithu Peirianyddol Cymraeg <-> Saesneg gyda Moses-SMT : http://techiaith.cymru/cyfieithu/cyfieithu-peirianyddol/ 
23Axelrod, A., He, X. and Gao, J., (2011). Domain adaptation via pseudo in-domain data selection. Yn Merlo, P., Barzilay, R. a Johnson, M. goln. Proceedings of the conference on empirical methods in natural language processing(EMNLP), July 2011, Edinburgh. Stroudsburg: Association for Computational Linguistics, 355-362.
24Bahdanau, D., Cho, K. and Bengio, Y., (2014). Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473.
25Cho, K., van Merrienboer, B., Gulcehre, C., Bahdanau, D., Bougares, F., Schwenk, H. a Bengio, Y., (2014). Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation. Yn Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), October 2014, Doha.Stroudsburg: Association for Computational Linguistics, 1724-1734.
26Neubig, G., (2017). Neural machine translation and sequence-to-sequence models: A tutorial. arXiv preprint arXiv:1703.01619.
27Koehn, P. (2017:35). Neural Machine Translation. [Pennod heb ei chyhoeddi] Ar gael: https://arxiv.org/abs/1709.07809
28Sennrich, R., Haddow, B. and Birch, A., 2015. Neural machine translation of rare words with subword units. arXiv preprint arXiv:1508.07909.
29Koehn, P. and Knowles, R., (2017). Six Challenges for Neural Machine Translation. Yn Luong, M., Birch, A., Neubig, G. a Finch, A., goln.  Proceedings of the First Workshop on Neural Machine Translation, Vancouver, August 2017. Stroudsburg: The Association for Computational Linguistics, 28-39.

Cynnwys Nesaf Blaenorol