5. Technoleg Lleferydd

Ceir dwy ran i dechnoleg lleferydd, sef technoleg adnabod lleferydd(speech recognition) sy’n dechrau gyda lleferydd dynol ac yn ei trosi i destun; a thechnoleg testun-i-leferydd(text to speech) sy’n dechrau gyda’r gair ysgrifenedig ac yn ei drosi i seiniau sy’n cael eu llefaru. Weithiau mae dwy ran y dechnoleg yn cael eu defnyddio gyda’i gilydd o fewn rhyngwynebau lleferydd deallus lle caiff cwestiwn ei holi ar lafar i’r cyfrifiadur, ac mae’r cyfrifiadur yn rhoi’r ateb ar lafar hefyd drwy gyfrwng llais synthetig.

Defnydd cymharol ddiweddar a phoblogaidd o dechnoleg lleferydd yw o fewn cynorthwywyr personol digidol(digital personal assistants). Dyma yw Alexa, Siri, Google Now a’u tebyg sydd ar gael yn Saesneg a nifer cyfyngedig o ieithoedd mawr eraill, a dyma ble mae arloesedd digidol yn symud yn ei flaen gyflymaf ar hyn o bryd. Mae’r systemau hyn yn cynnwys ystod eang o dechnolegau iaith eraill ar gyfer dadansoddi, deall a chynhyrchu iaith gyda cysylltiadau i systemau meddalwedd eraill er mwyn wneud mwy na dim ond ateb cwestiynau, gan geisio gwneud tasgau fel gosod larwm, bwcio bwrdd mewn tŷ bwyta, troi system wresogi ymlaen o bell, neu gynau’r golau. Beth bynnag yw’r dasg fodd bynnag, mae yna elfen sgwrsio naturiol fel arfer, nid yn unig o’r defnyddiwr yn cyfathrebu ar lafar gyda’r peiriant, ond o’r peiriant hefyd yn cyfathrebu drwy leferydd synthetig gyda’r defnyddiwr, i gadarnhau fod y dasg wedi’i deall a’i gweithredu ac i ddewis y camau nesaf. Mae prototeip o gynorthwyydd o’r fath o’r enw Macsen yn cael ei ddatblygu ar gyfer y Gymraeg30.

Adnabod Lleferydd

Mae technoleg adnabod lleferydd yn caniatáu i system gyfrifiadurol adnabod geiriau a leferir gan berson er mwyn trosi’r sain yn destun. Nid yw hyn yn golygu o reidrwydd y bydd y system adnabod lleferydd yn deall ystyr pob gair.

MAE HEN WLAD FY NHADAU

Ffigur 4. Adnabod lleferydd yn trosi tonffurf i destun

Yn ystod y blynyddoedd diweddar cafwyd shifft sylfaenol yn y ffordd y mae defnyddwyr yn defnyddio’u dyfeisiau cyfrifiadurol wrth i dechnoleg adnabod lleferydd wella, a’i gwneud hi’n haws siarad gyda’r peiriant yn hytrach na theipio yn llafurus ar fysellfwrdd.

Ceir gwahanol fathau o adnabod lleferydd ar gyfer gwahanol anghenion: llais-benodol, parth-benodol, geirfa-benodol, llais-annibynnol, geirfa eang. Enghraifft o adnabod lleferydd geirfa-benodol yw adnabod allweddair neu air deffro(wakeword) ar ddyfais syml ac yn lleol – fel bod modd diogelu preifatrwydd ac o bosib cysylltu’r feddalwedd i wasanaeth ar-lein ar gyfer adnabod lleferydd mwy soffistigedig. Y math anoddaf i’w ddatblygu yw adnabod lleferydd sy’n trosi i destun tonffurfiau gan unrhyw berson yn siarad di-dor, mewn iaith naturiol gyda’i holl eirfa bosibl, yn hytrach na siarad geiriau unigol wedi’u hynysu, neu mewn sefyllfaoedd lle ceir geirfa gyfyngedig yn perthyn i un parth yn unig. Mae nifer o ffactorau a all rwystro systemau adnabod lleferydd rhag gweithredu’n effeithiol gan gynnwys sŵn cefndir, offer recordio gwael, pellter o’r meicroffon, gwahanol acenion a gwahanol oedrannau. Yn ogystal, mae’r ffaith fod siaradwyr Cymraeg yn defnyddio geiriau Saesneg yn aml wrth gyfnewid iaith(code switching) yn creu heriau ychwanegol.

Mae rhai pobl yn defnyddio’r term ‘adnabod llais’ yn y Gymraeg i olygu ‘speech recognition’. Ond mae hyn yn ddryslyd gan ei fod yn cyfeirio hefyd at yr hyn a elwir yn Saesneg yn ‘voice recognition’. Cyfeiria ‘voice recognition’ at system sy’n gallu adnabod pwy yw’r unigolyn sy’n siarad, fel swyddogaeth fiometrig o fewn system sydd angen dilysu mynediad neu adnabod unigolion. Mae hyn yn wahanol i adnabod lleferydd sef ‘speech recognition’ sy’n ceisio adnabod y geiriau a leferir, nid y siaradwr unigol.  Defnyddir swyddogaeth fiometreg adnabod llais weithiau at ddibenion diogeledd, er enghraifft wrth gynnig gwasanaethau dros y ffôn. Mae rhai banciau yn defnyddio’r dechnoleg hon er mwyn rhoi mynediad i’w cwsmeriaid at eu cyfrifon banc. Bellach fodd bynnag, gan ei bod mor hawdd creu llais synthetig i rywun drwy dechnoleg testun-i-leferydd,  mae amheuon ynglŷn ag a yw’r dechnoleg hon yn ddiogel fel ffordd unigryw o adnabod unigolion.


Sut mae’r dechnoleg yn gweithio?

Defnyddir casgliadau enfawr o recordiadau sain gyda thrawsgrifiadau cysylltiedig er mwyn hyfforddi systemau adnabod lleferydd penodol. Mae’n bosib i’r mathau o ddata hyfforddi amrywio o sain rhaglenni radio wedi’i drawsgrifio, pobl yn siarad o fewn car neu’n bell o’r meicroffon, i frawddegau arbennig wedi’i darllen gan wirfoddolwyr drwy apiau ar ffonau symudol. Os dymunir gwireddu adnabod lleferydd llais annibynnol gyda siarad geirfa eang yn ddi-dor, yna bydd angen y casgliad mwyaf o filoedd o oriau o ddata gan filoedd o wahanol unigolion.

Seilir dulliau ystadegol o wireddu adnabod lleferydd ar ddamcaniaeth Bayes i ddeall pa ddau fath o fodelau sydd ar waith ac angen eu hyfforddi. Os cyfeirir at yr hafaliad yn rhan 1 uchod:

P(W|O)=P(O|W) P(W)

gellir trin W fel llinyn o eiriau ac O yn cynrychioli mewnbwn acwstig (h.y. cyfres o arsylwadau neu samplau fesul 10 milieiliad).  Mae’r model tebygrwydd brawddeg ar sail mewnbwn acwstig –P(W|O)– yn ddibynnol ar fodelau acwstig – P(O|W) a model iaith – P(W).

Er mwyn creu’r model acwstig ystadegol defnyddir modelau Markov cudd(hidden Markov models) sydd yn modelu’r tebygolrwydd o gyfres o arsylwadau yn cyfateb i unedau sain elfennol iaith fel ffonemau (‘p’, ‘d’, ‘dd’ neu ‘ew’). O fewn y gyfres defnyddir dosraniadau o’r enw modelau cymysgedd Gaussaidd(Gaussian mixture models) ac felly talfyrrir yn aml y ddull ystadegol yn HMM-GMM.

Dydy hyfforddi HMM-GMM gyda ffonemau unigol – monoffonau(monophones) ddim yn rhoi canlyniadau da fel arfer, gan y gall ffonem swnio’n wahanol oherwydd y ffonemau sy’n dod o’i blaen ac ar ei hôl. Mae’r tafod, gwefusau neu daflod(velum) yn symud yn barhaus ac yn ddi-dor dan fomentwm wrth fynd o ynganu un ffonem i ddechrau’r ffonem nesaf. Felly defnyddir HMM-GMMs i fodelu ffonemau o fewn cyd-destun triffonau(triphones). Er enghraifft mae’r triffon ‘n – EW + @’ yn golygu y ffonem ‘EW’ wedi’i rhagflaenu gan y ffonem ‘n’ a’i dilyn gyda’r ffonem ‘@’ (‘schwa’ neu ‘y’). Mae’r system yn defnyddio strwythur hierarchaidd i adnabod a chadarnhau ffonemau:

Ffigur 5. Hierarchedd adnabod lleferydd

Yn ddiweddar daeth ddulliau hybrid i’r amlwg ble defnyddir rhwydweithiau niwral (neural networks) ar gyfer modelau acwstig yn lle’r modelau cymysgedd Gaussaidd (GMM).

Mae llyfrgelloedd cod agored ar gael i hyfforddi modelau acwstig ystadegol a hybrid. Yn bennaf defnyddir system Kaldi-ASR31sydd yn system soffistigedig ond hyblyg a phwerus. Mae systemau o’r fath yn addas yn bennaf ar gyfer arbenigwyr adnabod lleferydd gan eu bod yn anodd i’r defnyddiwr cyffredin eu hadeiladu.

Yn ffodus mae llyfrgelloedd creu adnabod lleferydd ar sail rhwydweithiau niwral yn unig pen-i-ben(end-to-end) wedi ymddangos, fel Mozilla DeepSpeech32, yn fwy diweddar. Mae angen llai o wybodaeth ieithyddol ar y rhain, ac mae’r llyfrgelloedd hyn hefyd yn lawer haws i ddatblygwyr ac ieithyddion i’w defnyddio at eu dibenion hwy. Wrth gwrs, fel ym mhob achos hyfforddi ar sail dysgu ddwfn, mae angen casgliad mwy fyth o ddata yn ogystal â darpariaeth uwch-gyfrifiadura.

Mesurir cywirdeb system adnabod lleferydd ran amlaf gyda’r cyfradd geiriau gwallus(word error rate) sy’n sgôr o’r nifer o eiriau sy’n anghywir o ganlyniad i system adnabod lleferydd, fel y gwelir isod yn y canlyniadau a gafwyd gyda Kaldi-ASR mewn ymarferiad cynnar gyda data Cymraeg:

Parth cyfyng iawn o gwestiynau a gorchmynion syml:

%WER 2.24 [3 / 134, 0 ins, 1 del, 2 sub]

%SER 7.50 [3 / 40]

Brawddegau a siarad pen agored:

Monoffonau :

%WER 92.21 [ 13526 / 14669, 5048 ins, 127 del, 8351 sub ]

% SER 99.90 [ 1931 / 1933 ]

Triffonau:

%WER 65.88 [9664  / 14669, 3992 ins, 132 del, 5540 sub ]

%SER 96.17 [1859 / 1933 ]

Fel y gwelir, pan gyfyngir hyfforddi i geisio adnabod gasgliad bach o frawddegau o fewn parth cyfyng, mae’r canlyniadau yn llawer gwell. Bydd gwireddu adnabod lleferydd Cymraeg trwy ddulliau dysgu dwfn angen gwella’n sylweddol ar y sgôr o WER 66%. Gall hyn fod yn heriol, yn bennaf oherwydd yr angen am gasgliadau enfawr o recordiadau. Mae amcangyfrifon o faint yn union o sain sydd ei angen amrywio, ond enwir 4,000 awr o sain, neu hyd yn oed 10,000 awr o sain fel swm realistig er mwyn cael peiriant adnabod lleferydd sy’n gweithio’n dda gydag amrywiaeth o leisiau ac acenion gwahanol ac mewn sefyllfaoedd o sŵn cefndir naturiol.

Er mwyn goresgyn heriau ddiffyg data i ieithoedd a chyd-destunau llai, mae ymchwilwyr yn arbrofi gyda datblygiadau diweddar ar drosglwyddo modelau – trosglwyddo dysgu(transfer learning) – sydd wedi’i eu hyfforddi o gasgliadau lawer mwy o ddata ac sy’n adnabod lleferydd iaith wahanol. Mae’n deg tybio bod y modelau hyn yn ddefnyddiol gan eu bod yn medru adnabod ffonemau sydd yn bodoli hefyd yn yr iaith llai. Efallai bod modd eu haddasu neu ehangu ar gyfer rhagor o ffonemau gyda set llai o ddata o iaith llai. Ond er bod ymchwil diweddar yn dangos gwelliant yn y canlyniadau WER, dydy’r gwelliannau dim yn ddigonol ar gyfer darparu adnabod lleferydd gyda gallu cyfartal i ieithoedd mwy fel Saesneg.

Torfoli a chasglu setiau data mawr o recordiadau ar gyfer adnabod lleferydd

Oherwydd y galw am gymaint o oriau o sain i hyfforddi peiriannau adnabod lleferydd, gall fod yn anodd i ieithoedd llai eu hadnoddau fel y Gymraeg gystadlu gyda ieithoedd mawr fel y Saesneg sydd â llawer mwy o adnoddau ar gael. Mae hyd yn oed yr ieithoedd mwyaf yn ei chael hi’n anodd casglu digon o recordiadau at ddefnydd agored, gan fod y gwaith mor ddrud, a chwmnïau masnachol sy’n meddu ar gasgliadau o’r fath yn amharod i golli eu mantais fasnachol drwy eu rhannu ar drwyddedau agored.

Mae hyn wedi arwain at ymdrechion gwirfoddol i gasglu recordiadau o wahanol leisiau, a’u cyfrannu at gasgliadau cyhoeddus dan drwyddedau addas fel bod modd cydweithio ar ddatblygu’r dechnoleg, yn enwedig ar gyfer ieithoedd llai eu hadnoddau. Yr enw ar ymdrechion o’r fath sy’n dibynnu ar ewyllys da’r dorf i gyfrannu at gasgliadau fel hyn yw torfoli(crowdsourcing), ac mae wedi dod yn ffordd bwysig ac ymarferol i wirfoddolwyr gynorthwyo i greu adnoddau technolegau iaith newydd.

Un o’r apiau cynharaf i geisio casglu set o recordiadau llafar wedi’u torfoli oedd yr ap Cymraeg Paldaruo33. Yr oedd hwn yn ddull llawer llai llafurus na’r hen ddull o orfod mynd ag offer recordio at unigolion, gan fod modd i unigolyn lwytho’r ap ar ei ffôn neu dabled personol, recordio’i hun yn darllen promptiau oedd wedi’u paratoi i’w darllen yn uchel ymlaen llaw, gyda’r ddyfais yn gyrru’r data yn ôl dros y we i weinydd canolog oedd yn storio’r holl recordiadau. Yn ddiweddarach, ymgymerodd cwmni rhyngwladol Mozilla â phroject CommonVoice34i wneud gwaith tebyg ar gyfer nifer mawr o ieithoedd, gan gynnwys y Gymraeg. Un nodwedd ychwanegol ddefnyddiol yn y project hwn yw fod modd i wirfoddolwyr hefyd wrando ar recordiadau cyfranwyr eraill a nodi a ydynt o safon digon da ai peidio. Mae hyn yn ffordd ddefnyddiol o reoli ansawdd y recordiadau, sy’n medru bod yn broblem arall wrth gasglu setiau data llafar enfawr.

Testun i leferydd

Mae technoleg testun-i-leferydd (text-to-speech), yn trosi geiriau ysgrifenedig yn sain, gan efelychu llais dynol yn darllen y testun yn uchel. Mae angen pwysleisio fod y dechnoleg hon yn galluogi llefaru unrhyw destun sy’n cael ei fewnbynnu iddi. Nid darllen allan darnau a recordiwyd ymlaen llaw y mae, ond cynhyrchu geiriau a brawddegau ar lafar na chafodd efallai erioed eu llefaru o’r blaen. Mae’r defnyddiwr felly yn gwbl rydd i deipio neu fewnbynnu testun sydd erioed wedi cael ei ddweud o’r blaen, a disgwyl i’r peiriant fedru ei siarad yn uchel, yn glir ac yn ddealladwy. Oherwydd y defnydd diweddar o ddulliau deallusrwydd artiffisial ym maes testun-i-leferydd, mae ansawdd lleisiau synthetig yr ieithoedd mwyaf wedi gwella yn sylweddol fel nad oes modd bellach gwahaniaethu rhyngddynt a lleferydd bod dynol.


Creu testun-i-leferydd

Fel ym mhob math o dechnoleg iaith, mae’n hanfodol sicrhau digon o ddata sain addas ar gyfer creu lleisiau testun-i-leferydd newydd. Yn yr achos hwn, mae’r data ran amlaf yn gasgliad o gannoedd os nad miloedd o recordiadau ansawdd sain uchel iawn – h.y. heb unrhyw sŵn cefndir – o frawddegau arbennig wedi’u darllen yn glir ac yn gywir. Fel arfer golyga hyn gyflogi talent llais(voice talent) i dreulio amser mewn stiwdio sain, weithiau gyda pheiriannydd sain a chyfarwyddwr sy’n sicrhau ansawdd pob recordiad a llais y llefarydd.

Cyn i ddulliau deallusrwydd artiffisial weddnewid maes testun-i-leferydd defnyddid corpws sain o’r fath i greu cronfeydd data o unedau bach o sain. Caiff yr unedau yna eu defnyddio i lefaru unrhyw destun newydd drwy eu cydgysylltu (concatenate) a’u hail-chwarae. Mae modd i’r uned fod yn rhannau o eiriau, geiriau cyfan, neu hyd yn oed frawddegau, ond mae angen llawer iawn o le storio. Mae’n bosib i gasgliad o cyn lleied â 100 o recordiadau lwyddo i greu llais naturiol newydd derbyniol, er dim cystal â’r gorau, cyn belled ag y bo’r brawddegau wedi’u dewis yn ofalus i gynnwys pob un ffonem yn yr iaith dan sylw. Wrth gwrs, mae ansawdd y llais yn gwella os recordir cannoedd neu filoedd yn fwy o frawddegau.

Dull mwy cynnil yw drwy gwahanu a storio recordiadau o ffonau(phones) neu ddeuffonau(diphones) yn y gronfa ddata er mwyn eu cysylltu i greu geiriau. Bu lleisiau deuffonau yn boblogaidd iawn pan oedd lle storio cyfrifiadurol yn brin, ac maent yn dal yn boblogaidd dan rai amgylchiadau. Maent yn swnio’n fwy herciog neu robotaidd na’r lleisiau unedau, ond mae nifer o ffactorau eraill sy’n effeithio ar ansawdd y llais a’r llefaru.

Mae dulliau cydgysylltu yn llwyddo, ar eu gorau, i ail-greu union lleferydd y talent llais gwreiddiol. Mae’n bwysig cofio felly bod y talent llais yn cyfateb i anghenion a nodweddion y llais testun-i-leferydd y dymunir eu cael, fel rhyw, acen ac oedran. Ond dylid hefyd sicrhau nad oes beryg o danseilio preifatrwydd y talent llais drwy beidio â rhannu gwybodaeth am hunaniaeth yr unigolyn.


Dulliau deallusrwydd artiffisial ar gyfer technoleg testun-i-leferydd

I osgoi problemau lleisiau adnabyddadwy, mae ymchwil diweddar ar sail deallusrwydd artiffisial wedi ceisio creu lleisiau gyda recordiadau gan nifer o siaradwyr gwahanol. Mae llais testun-i-leferydd o ganlyniad yn cynrychioli llais cyfartaledd sydd yn swnio’n union fel llais dynol ond nad yw’n cyfateb yn union i unrhyw gyfrannwr i’r corpws o recordiadau.

Erbyn hyn ceir systemau hybrid a rhwydwaith niwral pur. Systemau hybrid oedd y rhai cyntaf i ymddangos a oedd yn defnyddio’n bennaf ddwy gydran benodol:

  • vocoder– darn o feddalwedd sydd yn efelychu’r system leisiol ddynol ac yn trosi rhifau i sain dynol
  • Rhwydwaith niwral penodol sydd yn medru rhagfynegi’r rhifau o wahanol destunau ar gyfer y vocoder.

Yn fwy diweddar mae systemau sydd dim ond yn cynnwys rhwydwaith niwral pur wedi eu datblygu gan amryw o ymchwilwyr a sefydliadau. Mantais dull rhwydwaith niwral yn unig, fel unrhyw dechnoleg iaith arall, yw nad oes angen cymaint o wybodaeth iaith benodol megis geiriadur ynganu, ond wrth reswm mae angen mwy o ddata enghreifftiol. Er dweud hyn, mae’r dull rhwydwaith niwral yn fwy addawol ar gyfer gwireddu lleisiau amlieithog.


Bancio lleisiau a chreu lleisiau unigol

Er mai’r nod gyda systemau testun-i-leferydd cyhoeddus fel arfer yw cael llais nad oes modd ei adnabod fel unigolyn, y mae amgylchiadau eraill lle mae galw am allu ail-greu llais unigolion penodol. Cynigir gwasanaeth bancio lleisiau(voice banking) i unigolion sydd ar fin colli eu gallu i siarad oherwydd cyflwr dirywiol megis clefyd niwronau echddygol, neu lawdriniaeth ar y gwddf. Er mwyn bancio’i lais, mae’r unigolyn yn gorfod recordio set o frawddegau arbennig sydd wedi cael eu dewis yn ofalus ymlaen llaw i gynnwys holl ffonemau a chyfuniadau ffonemau’r iaith dan sylw. Mae hyn yn debyg i’r ffordd mae talent llais yn recordio casgliad o frawddegau neu bromptiau, ond ar gyfer unigolion sydd ar fin colli ei leferydd, mae’r casgliad brawddegau fel arfer yn fyrrach ac yn fwy cryno, rhag blino gormod arno wrth iddynt recordio. Defnyddir y recordiadau hyn wedyn i ail-greu llais yr unigolion dan sylw, gyda’r llais synthetig yn swnio’n eithaf tebyg i’w llais naturiol eu hunain. Gellir gosod y llais synthetig mewn gwahanol ddyfeisiau electronig i’w gwneud yn hwylus iddynt deipio arnynt, a chyfuno’r dechnoleg yma gyda nodweddion eraill fel darogan testun(predictive text) i hwyluso’r gwaith o deipio.

Os yw unigolion yn siarad dwy neu fwy o ieithoedd, ac am gael llais synthetig sy’n medru siarad yn yr ieithoedd gwahanol, ar hyn o bryd, rhaid iddynt recordio’u lleferydd ym mhob un o’r ieithoedd ar wahân, gan ddefnyddio setiau brawddegau gwahanol a gynlluniwyd ar gyfer pob iaith yn unigol. Mae hyn yn bwysig ar gyfer siaradwyr ieithoedd lleiafrifol fel y Gymraeg, lle mae defnyddwyr fel rheol yn newid yn ôl ac ymlaen rhwng y Gymraeg a’r Saesneg sawl gwaith yn ystod y dydd. Pan ddatblygwyd Lleisiwr fel y rhaglen gyntaf ar gyfer bancio lleisiau unigolion ar gyfer y Gwasanaeth Iechyd yn y Gymraeg, darparwyd y gallu i recordio yn Saesneg hefyd wedi cwblhau’r recordio Cymraeg, fel bod gan unigolion  y gallu i newid rhwng eu lleisiau synthetig yn siarad yn y ddwy iaith os oedd angen. Defnyddiwyd system testun i leferydd amlieithog cod agored MaryTTS35ar gyfer hyn, gan gymryd y fersiwn ar gyfer Saesneg fel yr oedd, a chreu fforch newydd ar gyfer y Gymraeg, gan ddefnyddio technoleg pecynnu Docker i greu llais a’i chwarae yn ôl.

Disgwylir y bydd y dechnoleg yma yn parhau i wella yn y dyfodol, ac os felly, bydd modd ail-ymweld â lleisiau sydd eisoes wedi’u bancio, gan wella ansawdd y lleisiau synthetig dros amser. Mae arbrofion yn digwydd hefyd gyda chymryd recordiau blaenorol o lais unigolion, e.e. hen fideos teulu, i geisio ail-greu llais unigolion pan fo hi’n rhy hwyr i fancio eu lleisiau, a hefyd i gymryd lleisiau tebyg, e.e. gan aelod arall o’r teulu, i ddarparu llais unigryw lle bo angen hynny.


Geiriadur Ynganu

Adnodd hyfforddi hanfodol ychwanegol yw geiriadur ynganu. Yma ceir rhestr hir o bron pob un gair mewn lecsicon iaith, gyda disgrifiadau, ar ffurf nodau sy’n cynrychioli ffonemau, o ynganiad y gair dan sylw. Gweler Ffigur 2 uchod.

(“geiriadur” (((g ei r) 0) ((j aa) 1) ((d y r) 0)))

(“geiriaduraeth” (((g e) 0) ((r y) 0) ((j aa) 1) ((d aay th) 0)))

(“geiriadurol” (((g ei r) 0) ((j a) 0) ((d y) 1) ((r o l) 0)))

(“geiriaduron” (((g ei r) 0) ((j a) 0) ((d y) 1) ((r o n) 0)))

(“geiriadurwr” (((g ei r) 0) ((j a) 0) ((d y) 1) ((r u r) 0)))

(“geiriadurwragedd” (((g ei) 0) ((r y) 0) ((r a g) 0) ((j ee) 1) ((d e r dh) 0)))

(“geiriadurwraig” (((g ei) 0) ((r a) 0) ((d u) 0) ((r iu) 1) ((j aay g) 0)))

(“geiriadurwyr” (((g ei r) 0) ((j a) 0) ((d y) 1) ((r uy r) 0)))

Ffigur 3. Enghraifft o gynnwys Geiriadur Ynganu ar gyfer dibenion testun i leferydd

Gwelir hefyd yn Ffigur 3 fod cofnodion y geiriadur yn nodi pob un sill a pha sill a bwysleisir wrth ynganu.

Defnyddir y geiriadur i dorri recordiadau i’r unedau gorau posibl neu i hyfforddi ar sail ffonemau yn hytrach na llythrennau (neu graffemau). Mae systemau testun-i-leferydd yn defnyddio’r geiriadur yn ogystal i fodelu ynganu ar gyfer llefaru geiriau sydd ddim yn bodoli yn y lecsicon.

Tocyneiddio
Mae tocyneiddio ar gyfer testun-i-leferydd ychydig yn wahanol i docyneiddio ar gyfer prosesu iaith naturiol a chyfieithu peirianyddol gan ei fod yn cynnwys elfen o sut i ynganu’r geiriau. Nid dim ond geiriau a geir mewn testun wrth gwrs, gall fod yno fyrfoddau, rhifau a symbolau eraill sydd angen eu trosi yn eiriau llawn. Er enghraifft, gydag enw fel S4C, rhaid ei drosi i ffurf lawn fel ‘es-pedwar-ec’. Gall rhifau fod yn broblemus, gan y gallant gael eu darllen ar lafar yn wahanol yn ôl y cyd-destun. Er enghraifft, gall 1998 fod yn gyfres o rifau ‘un-naw-naw-wyth’ neu gall fod yn ddyddiad  ‘mil-naw-cant-naw-deg-ac-wyth’. Gyda rhifau sydd â ffurfiau benywaidd neu wrywaidd, pa un sy’n gywir mewn cyd-destun arbennig, e.e. gyda 2 gath, ai ‘dwy-gath’ neu ‘dau-gath’ ddylid ei lefaru? Mae gan y Gymraeg ddwy system rifo hefyd, yr un draddodiadol ar sail ugain, a’r un fwy diweddar ar sail deg. Felly gyda rhif fel 18, a ddylid ei docyneiddio fel ‘un-deg-wyth’ neu fel ‘deunaw’? Mae’n dibynnu ar y cywair a’r cyd-destun, ond dyma’r math o gwestiynau sydd angen eu hateb wrth lunio tocyneiddiwr ar gyfer testun i leferydd, ac mae gan bob iaith ei heriau ei hun.

30Jones, D.B. and Cooper, S. 2016 Building Intelligent Digitial Assistants for Speakers of a Lesser-Resourced Language. p74-79 Proceedings of the LREC 2016 Workshop “CCURL 2016 – Towards an Alliance for Digital Language Diversity”, Claudia Soria, Laurette Pretorius, Thierry Declerck, Joseph Mariani, Kevin Scannell, Eveline Wandl-Vogt.
31Kaldi Speech Recognition Toolkit : https://github.com/kaldi-asr/kaldi
32Mozilla DeepSpeech : https://github.com/mozilla/DeepSpeech
33Cooper, S.  Jones, D. B. and Prys, D. 2014. Developing further speech recognition resources for Welsh. In: Judge, J., Lynn, T., Ward, M. and Ó Raghallaigh, B. eds. Proceeedings of the First Celtic Language Technology Workshop at the 25th International Conference on Computational Linguistics (COLING 2014), 23 August 2014, Dublin, Ireland. pp. 55-59.
34Gwefan CommonVoice: https://voice.mozilla.org/cy
35MaryTTS – an open-source, multilingual text-to-speech synthesis system written in pure Java https://github.com/marytts/marytts

Cynnwys Nesaf Blaenorol